Llama Stack

欢迎使用 Llama Stack,这是一个用于构建生成式 AI 应用的开源框架。

Llama 4 来了!

查看 Llama 4 入门指南

新闻

Llama Stack 0.2.6 现已可用!请参阅发布说明了解更多详情。

什么是 Llama Stack?

Llama Stack 定义并标准化了将生成式 AI 应用推向市场所需的核心构建模块。它提供了一组统一的 API,并包含领先服务提供商的实现,从而能够在开发和生产环境之间无缝切换。具体来说,它提供了:

  • 统一的 API 层,用于推理、RAG、智能体、工具、安全性、评估和遥测。

  • 插件架构,支持在不同环境(如本地开发、本地部署、云和移动设备)中丰富的不同 API 实现生态系统。

  • 预打包的验证分发版,为开发者提供一站式解决方案,以便在任何环境中快速可靠地开始使用。

  • 多种开发者界面,如 CLI 和 Python、Node、iOS、Android 的 SDK。

  • 独立应用,作为如何使用 Llama Stack 构建生产级 AI 应用的示例。

Llama Stack

我们的目标是提供预打包的实现(即“分发版”),这些实现可以在各种部署环境中运行。Llama Stack 可以协助您完成整个应用开发生命周期——从本地、移动或桌面端开始迭代,并无缝过渡到本地部署或公共云部署。在这一过渡过程中的每个阶段,都可以使用相同的 API 集和相同的开发者体验。

Llama Stack 是如何工作的?

Llama Stack 由一个服务器(包含多个可插拔的 API 提供者)和客户端 SDK(见下文)组成,用于您的应用。服务器可以在多种环境中运行,包括本地(内联)开发、本地部署和云端。客户端 SDK 可用于 Python、Swift、Node 和 Kotlin。

客户端 SDK

我们提供了适用于不同语言的多种客户端 SDK。

语言

客户端 SDK

Python

llama-stack-client-python

PyPI version

Swift

llama-stack-client-swift

Swift Package Index

Node

llama-stack-client-node

NPM version

Kotlin

llama-stack-client-kotlin

Maven version

支持的 Llama Stack 实现

对于一些流行的推理和向量存储提供商,我们提供了一些“适配器”。对于其他 API(特别是安全性和智能体),我们提供了可用于入门的 参考实现。我们预计这个列表会随着时间推移而增长。随着我们对 API 越来越有信心,我们正在慢慢地将更多提供商引入到生态系统中。

推理 API

提供者

环境

Meta 参考

单节点

Ollama

单节点

Fireworks

托管

Together

托管

NVIDIA NIM

托管和单节点

vLLM

托管和单节点

TGI

托管和单节点

AWS Bedrock

托管

Cerebras

托管

Groq

托管

SambaNova

托管

PyTorch ExecuTorch

设备上 iOS, Android

OpenAI

托管

Anthropic

托管

Gemini

托管

向量输入输出 API

提供者

环境

FAISS

单节点

SQLite-Vec

单节点

Chroma

托管和单节点

Milvus

托管和单节点

Postgres (PGVector)

托管和单节点

Weaviate

托管

安全性 API

提供者

环境

Llama Guard

取决于推理提供者

Prompt Guard

单节点

代码扫描器

单节点

AWS Bedrock

托管