Llama Stack
欢迎来到 Llama Stack,这是一个用于构建生成式 AI 应用的开源框架。
Llama 4 来了!
查看 Llama 4 入门指南
新闻
Llama Stack 0.2.6 现已发布!查看发行说明了解更多详情。
什么是 Llama Stack?
Llama Stack 定义并标准化了将生成式 AI 应用推向市场所需的核心构建模块。它提供了一组统一的 API,并集成了领先服务提供商的实现,从而实现了开发和生产环境之间的无缝过渡。更具体地说,它提供了:
统一的 API 层,用于推理、RAG、智能体、工具、安全、评估和遥测。
插件架构,用于支持不同环境中(如本地开发、本地部署、云和移动端)各种 API 实现的丰富生态系统。
预打包的验证分发版,为开发者在任何环境中快速可靠地入门提供一站式解决方案
多种开发者接口,例如 CLI 以及 Python、Node、iOS 和 Android 的 SDK
独立应用,作为如何使用 Llama Stack 构建生产级 AI 应用的示例

我们的目标是提供可在各种部署环境中运行的预打包实现(也称为“分发版”)。LlamaStack 可以帮助您完成整个应用开发生命周期——从本地、移动或桌面环境开始迭代,并无缝过渡到本地部署或公共云部署。在每一次过渡中,都可以使用相同的 API 集和相同的开发者体验。
Llama Stack 如何工作?
Llama Stack 由一个服务器(带有多个可插拔的 API 提供者)和用于您应用的客户端 SDK(见下文)组成。服务器可以在各种环境中运行,包括本地(内联)开发、本地部署和云。客户端 SDK 可用于 Python、Swift、Node 和 Kotlin。
快速链接
客户端 SDK
我们为不同的语言提供了一些客户端 SDK。
语言 |
客户端 SDK |
包 |
---|---|---|
Python |
||
Swift |
||
Node |
||
Kotlin |
支持的 Llama Stack 实现
一些流行的推理和向量存储提供商有许多“适配器”可用。对于其他 API(特别是安全和智能体),我们提供参考实现供您入门。我们预计这个列表会随着时间的推移而增长。随着我们对 API 越来越有信心,我们正在缓慢地将更多提供商引入生态系统。
推理 API
提供者 |
环境 |
---|---|
Meta 参考 |
单节点 |
Ollama |
单节点 |
Fireworks |
托管 |
Together |
托管 |
NVIDIA NIM |
托管和单节点 |
vLLM |
托管和单节点 |
TGI |
托管和单节点 |
AWS Bedrock |
托管 |
Cerebras |
托管 |
Groq |
托管 |
SambaNova |
托管 |
PyTorch ExecuTorch |
设备端 iOS, Android |
OpenAI |
托管 |
Anthropic |
托管 |
Gemini |
托管 |
向量输入输出 API
提供者 |
环境 |
---|---|
FAISS |
单节点 |
SQLite-Vec |
单节点 |
Chroma |
托管和单节点 |
Milvus |
托管和单节点 |
Postgres (PGVector) |
托管和单节点 |
Weaviate |
托管 |
安全 API
提供者 |
环境 |
---|---|
Llama Guard |
取决于推理提供者 |
Prompt Guard |
单节点 |
代码扫描器 |
单节点 |
AWS Bedrock |
托管 |