Meta 参考分发

llamastack/distribution-meta-reference-gpu 分发包含以下提供者配置

API	提供者
代理	`inline::meta-reference`
数据集 I/O	`remote::huggingface`, `inline::localfs`
评估	`inline::meta-reference`
推理	`inline::meta-reference`
安全	`inline::llama-guard`
评分	`inline::basic`, `inline::llm-as-judge`, `inline::braintrust`
遥测	`inline::meta-reference`
工具运行时	`remote::brave-search`, `remote::tavily-search`, `inline::rag-runtime`, `remote::model-context-protocol`
向量 I/O	`inline::faiss`, `remote::chromadb`, `remote::pgvector`

请注意，运行此分发需要访问 NVIDIA GPU。此分发与仅支持 CPU 的机器或配备 AMD GPU 的机器不兼容。

环境变量

可以配置以下环境变量

LLAMA_STACK_PORT：Llama Stack 分发服务器端口（默认值：8321）
INFERENCE_MODEL：加载到 Meta 参考服务器的推理模型（默认值：meta-llama/Llama-3.2-3B-Instruct）
INFERENCE_CHECKPOINT_DIR：包含 Meta 参考模型检查点（checkpoint）的目录（默认值：null）
SAFETY_MODEL：要使用的安全（Llama-Guard）模型名称（默认值：meta-llama/Llama-Guard-3-1B）
SAFETY_CHECKPOINT_DIR：包含 Llama-Guard 模型检查点（checkpoint）的目录（默认值：null）

先决条件：下载模型

请在使用 llama model list --downloaded 命令之前检查您是否已将 llama 模型检查点下载到 ~/.llama 中。请参阅此处的安装指南以下载模型。运行 llama model list 以查看可供下载的模型，运行 llama model download 以下载检查点。

$ llama model list --downloaded
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━┓
┃ Model                                   ┃ Size     ┃ Modified Time       ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━┩
│ Llama3.2-1B-Instruct:int4-qlora-eo8     │ 1.53 GB  │ 2025-02-26 11:22:28 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-1B                             │ 2.31 GB  │ 2025-02-18 21:48:52 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Prompt-Guard-86M                        │ 0.02 GB  │ 2025-02-26 11:29:28 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-3B-Instruct:int4-spinquant-eo8 │ 3.69 GB  │ 2025-02-26 11:37:41 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-3B                             │ 5.99 GB  │ 2025-02-18 21:51:26 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.1-8B                             │ 14.97 GB │ 2025-02-16 10:36:37 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-1B-Instruct:int4-spinquant-eo8 │ 1.51 GB  │ 2025-02-26 11:35:02 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama-Guard-3-1B                        │ 2.80 GB  │ 2025-02-26 11:20:46 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama-Guard-3-1B:int4                   │ 0.43 GB  │ 2025-02-26 11:33:33 │
└─────────────────────────────────────────┴──────────┴─────────────────────┘

运行分发

您可以通过 Conda（构建代码）或 Docker（已有预构建镜像）来完成此操作。

通过 Docker

此方法允许您无需构建分发代码即可快速开始。

LLAMA_STACK_PORT=8321
docker run \
  -it \
  --pull always \
  --gpu all \
  -p $LLAMA_STACK_PORT:$LLAMA_STACK_PORT \
  -v ~/.llama:/root/.llama \
  llamastack/distribution-meta-reference-gpu \
  --port $LLAMA_STACK_PORT \
  --env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct

如果您正在使用 Llama Stack Safety / Shield API，请使用

docker run \
  -it \
  --pull always \
  --gpu all \
  -p $LLAMA_STACK_PORT:$LLAMA_STACK_PORT \
  -v ~/.llama:/root/.llama \
  llamastack/distribution-meta-reference-gpu \
  --port $LLAMA_STACK_PORT \
  --env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct \
  --env SAFETY_MODEL=meta-llama/Llama-Guard-3-1B

通过 Conda

请确保您已执行 uv pip install llama-stack 并安装了 Llama Stack CLI。

llama stack build --template meta-reference-gpu --image-type conda
llama stack run distributions/meta-reference-gpu/run.yaml \
  --port 8321 \
  --env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct

如果您正在使用 Llama Stack Safety / Shield API，请使用

llama stack run distributions/meta-reference-gpu/run-with-safety.yaml \
  --port 8321 \
  --env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct \
  --env SAFETY_MODEL=meta-llama/Llama-Guard-3-1B