将 Llama Stack 用作库
无服务器设置 Llama Stack
如果你计划使用外部服务进行推理(即使是 Ollama 或 TGI 也算外部服务),通常更容易将 Llama Stack 用作库。这避免了设置服务器的开销。
# setup
uv pip install llama-stack
llama stack build --template ollama --image-type venv
from llama_stack.distribution.library_client import LlamaStackAsLibraryClient
client = LlamaStackAsLibraryClient(
"ollama",
# provider_data is optional, but if you need to pass in any provider specific data, you can do so here.
provider_data={"tavily_search_api_key": os.environ["TAVILY_SEARCH_API_KEY"]},
)
client.initialize()
这将解析你的配置,并设置你的实现所需的任何内联实现和远程客户端。
然后,你可以在客户端访问 models
和 inference
等 API,并直接调用它们的方法。
response = client.models.list()
如果你创建了一个自定义分发版,你也可以直接使用 run.yaml 配置文件。
client = LlamaStackAsLibraryClient(config_path)
client.initialize()