Meta 参考分发

llamastack/distribution-meta-reference-gpu 分发包含以下提供者配置

API

提供者

代理

inline::meta-reference

数据集 I/O

remote::huggingface, inline::localfs

评估

inline::meta-reference

推理

inline::meta-reference

安全

inline::llama-guard

评分

inline::basic, inline::llm-as-judge, inline::braintrust

遥测

inline::meta-reference

工具运行时

remote::brave-search, remote::tavily-search, inline::rag-runtime, remote::model-context-protocol

向量 I/O

inline::faiss, remote::chromadb, remote::pgvector

请注意,运行此分发需要访问 NVIDIA GPU。此分发与仅支持 CPU 的机器或配备 AMD GPU 的机器不兼容。

环境变量

可以配置以下环境变量

  • LLAMA_STACK_PORT:Llama Stack 分发服务器端口(默认值:8321

  • INFERENCE_MODEL:加载到 Meta 参考服务器的推理模型(默认值:meta-llama/Llama-3.2-3B-Instruct

  • INFERENCE_CHECKPOINT_DIR:包含 Meta 参考模型检查点(checkpoint)的目录(默认值:null

  • SAFETY_MODEL:要使用的安全(Llama-Guard)模型名称(默认值:meta-llama/Llama-Guard-3-1B

  • SAFETY_CHECKPOINT_DIR:包含 Llama-Guard 模型检查点(checkpoint)的目录(默认值:null

先决条件:下载模型

请在使用 llama model list --downloaded 命令之前检查您是否已将 llama 模型检查点下载到 ~/.llama 中。请参阅此处的安装指南以下载模型。运行 llama model list 以查看可供下载的模型,运行 llama model download 以下载检查点。

$ llama model list --downloaded
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━┓
┃ Model                                   ┃ Size     ┃ Modified Time       ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━┩
│ Llama3.2-1B-Instruct:int4-qlora-eo8     │ 1.53 GB  │ 2025-02-26 11:22:28 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-1B                             │ 2.31 GB  │ 2025-02-18 21:48:52 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Prompt-Guard-86M                        │ 0.02 GB  │ 2025-02-26 11:29:28 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-3B-Instruct:int4-spinquant-eo8 │ 3.69 GB  │ 2025-02-26 11:37:41 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-3B                             │ 5.99 GB  │ 2025-02-18 21:51:26 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.1-8B                             │ 14.97 GB │ 2025-02-16 10:36:37 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-1B-Instruct:int4-spinquant-eo8 │ 1.51 GB  │ 2025-02-26 11:35:02 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama-Guard-3-1B                        │ 2.80 GB  │ 2025-02-26 11:20:46 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama-Guard-3-1B:int4                   │ 0.43 GB  │ 2025-02-26 11:33:33 │
└─────────────────────────────────────────┴──────────┴─────────────────────┘

运行分发

您可以通过 Conda(构建代码)或 Docker(已有预构建镜像)来完成此操作。

通过 Docker

此方法允许您无需构建分发代码即可快速开始。

LLAMA_STACK_PORT=8321
docker run \
  -it \
  --pull always \
  --gpu all \
  -p $LLAMA_STACK_PORT:$LLAMA_STACK_PORT \
  -v ~/.llama:/root/.llama \
  llamastack/distribution-meta-reference-gpu \
  --port $LLAMA_STACK_PORT \
  --env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct

如果您正在使用 Llama Stack Safety / Shield API,请使用

docker run \
  -it \
  --pull always \
  --gpu all \
  -p $LLAMA_STACK_PORT:$LLAMA_STACK_PORT \
  -v ~/.llama:/root/.llama \
  llamastack/distribution-meta-reference-gpu \
  --port $LLAMA_STACK_PORT \
  --env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct \
  --env SAFETY_MODEL=meta-llama/Llama-Guard-3-1B

通过 Conda

请确保您已执行 uv pip install llama-stack 并安装了 Llama Stack CLI。

llama stack build --template meta-reference-gpu --image-type conda
llama stack run distributions/meta-reference-gpu/run.yaml \
  --port 8321 \
  --env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct

如果您正在使用 Llama Stack Safety / Shield API,请使用

llama stack run distributions/meta-reference-gpu/run-with-safety.yaml \
  --port 8321 \
  --env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct \
  --env SAFETY_MODEL=meta-llama/Llama-Guard-3-1B