Meta 参考分发
llamastack/distribution-meta-reference-gpu
分发包含以下提供者配置
API |
提供者 |
---|---|
代理 |
|
数据集 I/O |
|
评估 |
|
推理 |
|
安全 |
|
评分 |
|
遥测 |
|
工具运行时 |
|
向量 I/O |
|
请注意,运行此分发需要访问 NVIDIA GPU。此分发与仅支持 CPU 的机器或配备 AMD GPU 的机器不兼容。
环境变量
可以配置以下环境变量
LLAMA_STACK_PORT
:Llama Stack 分发服务器端口(默认值:8321
)INFERENCE_MODEL
:加载到 Meta 参考服务器的推理模型(默认值:meta-llama/Llama-3.2-3B-Instruct
)INFERENCE_CHECKPOINT_DIR
:包含 Meta 参考模型检查点(checkpoint)的目录(默认值:null
)SAFETY_MODEL
:要使用的安全(Llama-Guard)模型名称(默认值:meta-llama/Llama-Guard-3-1B
)SAFETY_CHECKPOINT_DIR
:包含 Llama-Guard 模型检查点(checkpoint)的目录(默认值:null
)
先决条件:下载模型
请在使用 llama model list --downloaded
命令之前检查您是否已将 llama 模型检查点下载到 ~/.llama
中。请参阅此处的安装指南以下载模型。运行 llama model list
以查看可供下载的模型,运行 llama model download
以下载检查点。
$ llama model list --downloaded
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━┓
┃ Model ┃ Size ┃ Modified Time ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━┩
│ Llama3.2-1B-Instruct:int4-qlora-eo8 │ 1.53 GB │ 2025-02-26 11:22:28 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-1B │ 2.31 GB │ 2025-02-18 21:48:52 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Prompt-Guard-86M │ 0.02 GB │ 2025-02-26 11:29:28 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-3B-Instruct:int4-spinquant-eo8 │ 3.69 GB │ 2025-02-26 11:37:41 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-3B │ 5.99 GB │ 2025-02-18 21:51:26 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.1-8B │ 14.97 GB │ 2025-02-16 10:36:37 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama3.2-1B-Instruct:int4-spinquant-eo8 │ 1.51 GB │ 2025-02-26 11:35:02 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama-Guard-3-1B │ 2.80 GB │ 2025-02-26 11:20:46 │
├─────────────────────────────────────────┼──────────┼─────────────────────┤
│ Llama-Guard-3-1B:int4 │ 0.43 GB │ 2025-02-26 11:33:33 │
└─────────────────────────────────────────┴──────────┴─────────────────────┘
运行分发
您可以通过 Conda(构建代码)或 Docker(已有预构建镜像)来完成此操作。
通过 Docker
此方法允许您无需构建分发代码即可快速开始。
LLAMA_STACK_PORT=8321
docker run \
-it \
--pull always \
--gpu all \
-p $LLAMA_STACK_PORT:$LLAMA_STACK_PORT \
-v ~/.llama:/root/.llama \
llamastack/distribution-meta-reference-gpu \
--port $LLAMA_STACK_PORT \
--env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct
如果您正在使用 Llama Stack Safety / Shield API,请使用
docker run \
-it \
--pull always \
--gpu all \
-p $LLAMA_STACK_PORT:$LLAMA_STACK_PORT \
-v ~/.llama:/root/.llama \
llamastack/distribution-meta-reference-gpu \
--port $LLAMA_STACK_PORT \
--env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct \
--env SAFETY_MODEL=meta-llama/Llama-Guard-3-1B
通过 Conda
请确保您已执行 uv pip install llama-stack
并安装了 Llama Stack CLI。
llama stack build --template meta-reference-gpu --image-type conda
llama stack run distributions/meta-reference-gpu/run.yaml \
--port 8321 \
--env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct
如果您正在使用 Llama Stack Safety / Shield API,请使用
llama stack run distributions/meta-reference-gpu/run-with-safety.yaml \
--port 8321 \
--env INFERENCE_MODEL=meta-llama/Llama-3.2-3B-Instruct \
--env SAFETY_MODEL=meta-llama/Llama-Guard-3-1B