为什么选择 Llama Stack?
构建生产级 AI 应用需要解决多个挑战
基础设施复杂性
高效运行大型语言模型需要专门的基础设施。
不同的部署场景(本地开发、云、边缘)需要不同的解决方案。
从开发到生产通常需要大量的返工。
核心能力
在企业环境中,安全护栏和内容过滤是必需的。
仅模型推理是不够的 - 需要知识检索和 RAG 能力。
几乎所有应用都需要可组合的多步骤工作流程。
最后,如果没有监控、可观测性和评估,您将无法了解运行情况。
缺乏灵活性和选择
直接集成多个提供商会造成紧密耦合。
不同的提供商有不同的 API 和抽象。
更换提供商需要大量的代码修改。
我们的解决方案:一个通用堆栈

Llama Stack 通过面向服务、API 优先的方法解决了这些挑战
随处开发,遍地部署
从仅 CPU 的本地设置开始
需要时转向 GPU 加速
无需更改代码即可部署到云或边缘
到处都有相同的 API 和开发者体验
生产就绪的构建模块
预置安全护栏和内容过滤
内置 RAG 和代理能力
全面的评估工具包
全面的可观测性和监控
真正的提供商独立性
无需更改应用即可切换提供商
混合搭配同类最佳的实现
联邦和回退支持
无供应商锁定
强大的生态系统
Llama Stack 已与分发伙伴(云提供商、硬件供应商和专注于 AI 的公司)集成。
生态系统为部署各种模型提供了量身定制的基础设施、软件和服务。
我们的理念
面向服务:REST API 强制执行清晰的接口,并实现跨不同环境的无缝转换。
可组合性:每个组件都是独立的,但可以无缝协作
生产就绪:专为实际应用构建,而非仅用于演示
交钥匙解决方案:易于部署流行部署场景的内置解决方案
有了 Llama Stack,您可以专注于构建您的应用,而我们将负责基础设施复杂性、核心能力和提供商集成。