Llama Stack
欢迎使用 Llama Stack,这是一个用于构建生成式 AI 应用的开源框架。
Llama 4 来了!
查看 Llama 4 入门指南
新闻
Llama Stack 0.2.6 现已可用!请参阅发布说明了解更多详情。
什么是 Llama Stack?
Llama Stack 定义并标准化了将生成式 AI 应用推向市场所需的核心构建模块。它提供了一组统一的 API,并包含领先服务提供商的实现,从而能够在开发和生产环境之间无缝切换。具体来说,它提供了:
统一的 API 层,用于推理、RAG、智能体、工具、安全性、评估和遥测。
插件架构,支持在不同环境(如本地开发、本地部署、云和移动设备)中丰富的不同 API 实现生态系统。
预打包的验证分发版,为开发者提供一站式解决方案,以便在任何环境中快速可靠地开始使用。
多种开发者界面,如 CLI 和 Python、Node、iOS、Android 的 SDK。
独立应用,作为如何使用 Llama Stack 构建生产级 AI 应用的示例。

我们的目标是提供预打包的实现(即“分发版”),这些实现可以在各种部署环境中运行。Llama Stack 可以协助您完成整个应用开发生命周期——从本地、移动或桌面端开始迭代,并无缝过渡到本地部署或公共云部署。在这一过渡过程中的每个阶段,都可以使用相同的 API 集和相同的开发者体验。
Llama Stack 是如何工作的?
Llama Stack 由一个服务器(包含多个可插拔的 API 提供者)和客户端 SDK(见下文)组成,用于您的应用。服务器可以在多种环境中运行,包括本地(内联)开发、本地部署和云端。客户端 SDK 可用于 Python、Swift、Node 和 Kotlin。
快速链接
客户端 SDK
我们提供了适用于不同语言的多种客户端 SDK。
语言 |
客户端 SDK |
包 |
---|---|---|
Python |
||
Swift |
||
Node |
||
Kotlin |
支持的 Llama Stack 实现
对于一些流行的推理和向量存储提供商,我们提供了一些“适配器”。对于其他 API(特别是安全性和智能体),我们提供了可用于入门的 参考实现。我们预计这个列表会随着时间推移而增长。随着我们对 API 越来越有信心,我们正在慢慢地将更多提供商引入到生态系统中。
推理 API
提供者 |
环境 |
---|---|
Meta 参考 |
单节点 |
Ollama |
单节点 |
Fireworks |
托管 |
Together |
托管 |
NVIDIA NIM |
托管和单节点 |
vLLM |
托管和单节点 |
TGI |
托管和单节点 |
AWS Bedrock |
托管 |
Cerebras |
托管 |
Groq |
托管 |
SambaNova |
托管 |
PyTorch ExecuTorch |
设备上 iOS, Android |
OpenAI |
托管 |
Anthropic |
托管 |
Gemini |
托管 |
向量输入输出 API
提供者 |
环境 |
---|---|
FAISS |
单节点 |
SQLite-Vec |
单节点 |
Chroma |
托管和单节点 |
Milvus |
托管和单节点 |
Postgres (PGVector) |
托管和单节点 |
Weaviate |
托管 |
安全性 API
提供者 |
环境 |
---|---|
Llama Guard |
取决于推理提供者 |
Prompt Guard |
单节点 |
代码扫描器 |
单节点 |
AWS Bedrock |
托管 |