将 Llama Stack 用作库

无服务器设置 Llama Stack

如果你计划使用外部服务进行推理（即使是 Ollama 或 TGI 也算外部服务），通常更容易将 Llama Stack 用作库。这避免了设置服务器的开销。

# setup
uv pip install llama-stack
llama stack build --template ollama --image-type venv

from llama_stack.distribution.library_client import LlamaStackAsLibraryClient

client = LlamaStackAsLibraryClient(
    "ollama",
    # provider_data is optional, but if you need to pass in any provider specific data, you can do so here.
    provider_data={"tavily_search_api_key": os.environ["TAVILY_SEARCH_API_KEY"]},
)
client.initialize()

这将解析你的配置，并设置你的实现所需的任何内联实现和远程客户端。

然后，你可以在客户端访问 models 和 inference 等 API，并直接调用它们的方法。

response = client.models.list()

如果你创建了一个自定义分发版，你也可以直接使用 run.yaml 配置文件。

client = LlamaStackAsLibraryClient(config_path)
client.initialize()