Ollama 支持的模型列表与性能对比 – wiki词典

Ollama 支持的模型列表与性能对比

引言
随着大型语言模型（LLMs）的飞速发展，本地运行这些模型以进行开发、实验和隐私保护的需求日益增长。Ollama 是一个开源工具，它极大地简化了在本地机器上运行 LLMs 的过程。它提供了一个易于使用的命令行界面和 API，支持多种模型，并针对不同的硬件进行了优化。本文将详细介绍 Ollama 支持的模型列表，并对这些模型在不同场景下的性能进行对比。

Ollama 支持的模型列表

Ollama 致力于支持广泛的 LLM，以满足不同的 AI 任务需求，包括文本生成、代码辅助、内容创作等。其支持的模型主要包括：

Llama 系列:
- Llama 2, Llama 3 (包括 8B, 70B, 405B 参数版本), Llama 3.1, Llama 3.2, Llama 3.3。
Mistral 家族:
- Mistral, Mistral-Nemo, Mistral-Small, Mixtral。
Gemma 系列:
- Gemma 2B, Gemma 3 (包括 1B, 4B, 12B, 27B 参数版本), FunctionGemma (专用于函数调用)。
DeepSeek:
- DeepSeek-R1。
Phi 系列:
- Phi, Phi-3, Phi-4, Phi-4 Mini。
Qwen 系列:
- Qwen, Qwen2, Qwen2.5, Qwen3, Qwen3-VL, Qwen3-Coder。
Code Llama:
- 一个专门用于代码生成的模型。
其他值得关注的模型:
- Nemotron-3-Nano, Olmo, Gemini 3 Flash, Devstral (包括 Devstral-2 和 Devstral-Small-2), Ministral-3, Orca Mini, Vicuna, LLaVA, DBRX, Command-R, Command-R-Plus, Moondream 2, Neural Chat, Starling, Granite-3.3, GPT-OSS。

此外，Ollama 还允许用户创建和打包自己的 GGUF 格式模型，极大地扩展了其灵活性和可定制性。

性能对比

LLM 在 Ollama 中的性能评估通常关注以下几个关键指标：

每秒令牌数 (T/s 或 TPS): 表示模型生成文本的速度。
延迟 (Latency): 包括首令牌生成时间 (Time to First Token, TTFT) 和令牌间延迟 (Inter-token Latency)，衡量模型的响应速度。
吞吐量 (Throughput): 在高并发场景下，单位时间内处理的请求量。

1. 硬件性能的影响

GPU vs. CPU: 基准测试一致表明，对于 LLM 推理，GPU 相比传统 CPU 具有显著的性能优势。现代 GPU，如 NVIDIA RTX 4090，在运行 8B-40B 参数量级的中小型模型时表现出色，通常能利用 92%-96% 的 GPU 容量。
VRAM 需求: 参数量超过 40B 的大型模型通常需要 48GB 或更多 VRAM 的 GPU，例如 NVIDIA A6000、H100 或 A100。
Apple Silicon (M 系列芯片): 搭载 Apple Silicon 的设备在本地运行 LLM 方面也表现出强大的性能。

2. Ollama 与其他 LLM 服务工具的对比

Ollama vs. vLLM: Ollama 以其易用性和适用于本地开发与原型设计的特性而受到赞誉。然而，在需要高并发和生产级吞吐量的环境中，vLLM 通常表现优于 Ollama。例如，在一个基准测试中，vLLM 的吞吐量 (793 TPS) 显著高于 Ollama (41 TPS)，即使 Ollama 经过并行优化。
Ollama vs. LM Studio vs. llama.cpp:
- llama.cpp 在针对特定硬件进行优化和编译时，由于其底层硬件访问能力，通常能提供最佳的原始性能。
- Ollama 在速度和简易性之间取得了平衡，提供了良好的用户体验和不错的性能。
- LM Studio 虽然更注重用户体验，但在某些配置下（例如在 Mac Studio M3 Ultra 上运行特定模型）有时会超越 Ollama。

3. 模型特定性能

Ollama 内部不同 LLM 模型之间也存在性能差异：

Llama 3.3 70B: 因其与更大模型相当的性能，同时具有更高的效率而备受关注。
DeepSeek-R1: 在推理能力方面表现突出。
Mistral-nemo:12b vs. Llama3.1:8b: 在一些对比中，Mistral-nemo:12b 比 Llama3.1:8b 慢约 30%。
Command-R:35b vs. Llama3.1:70b: Command-R:35b 的速度大约是 Llama3.1:70b 的两倍。
量化 (Quantization): 量化是常用的优化策略，通过降低模型的精度来减少 VRAM 需求，从而使更大的模型能够在资源受限的硬件上运行。

结论

Ollama 为本地运行 LLM 提供了一个便捷而强大的平台。它支持种类繁多的模型，从紧凑的 Phi-3 到庞大的 Llama 3 70B，满足了不同应用场景的需求。在选择模型和评估性能时，需要综合考虑硬件配置（特别是 GPU 和 VRAM）、所需的并发级别以及模型本身的特点（如参数量和量化程度）。对于本地开发和个人使用，Ollama 的易用性和良好的性能使其成为一个优秀的选择。在需要更高吞吐量的生产环境中，可能需要考虑与 vLLM 等工具结合使用或进一步优化。