Ollama 支持的模型列表与性能对比 – wiki词典

Ollama 支持的模型列表与性能对比

引言
随着大型语言模型(LLMs)的飞速发展,本地运行这些模型以进行开发、实验和隐私保护的需求日益增长。Ollama 是一个开源工具,它极大地简化了在本地机器上运行 LLMs 的过程。它提供了一个易于使用的命令行界面和 API,支持多种模型,并针对不同的硬件进行了优化。本文将详细介绍 Ollama 支持的模型列表,并对这些模型在不同场景下的性能进行对比。

Ollama 支持的模型列表

Ollama 致力于支持广泛的 LLM,以满足不同的 AI 任务需求,包括文本生成、代码辅助、内容创作等。其支持的模型主要包括:

  • Llama 系列:
    • Llama 2, Llama 3 (包括 8B, 70B, 405B 参数版本), Llama 3.1, Llama 3.2, Llama 3.3。
  • Mistral 家族:
    • Mistral, Mistral-Nemo, Mistral-Small, Mixtral。
  • Gemma 系列:
    • Gemma 2B, Gemma 3 (包括 1B, 4B, 12B, 27B 参数版本), FunctionGemma (专用于函数调用)。
  • DeepSeek:
    • DeepSeek-R1。
  • Phi 系列:
    • Phi, Phi-3, Phi-4, Phi-4 Mini。
  • Qwen 系列:
    • Qwen, Qwen2, Qwen2.5, Qwen3, Qwen3-VL, Qwen3-Coder。
  • Code Llama:
    • 一个专门用于代码生成的模型。
  • 其他值得关注的模型:
    • Nemotron-3-Nano, Olmo, Gemini 3 Flash, Devstral (包括 Devstral-2 和 Devstral-Small-2), Ministral-3, Orca Mini, Vicuna, LLaVA, DBRX, Command-R, Command-R-Plus, Moondream 2, Neural Chat, Starling, Granite-3.3, GPT-OSS。

此外,Ollama 还允许用户创建和打包自己的 GGUF 格式模型,极大地扩展了其灵活性和可定制性。

性能对比

LLM 在 Ollama 中的性能评估通常关注以下几个关键指标:

  • 每秒令牌数 (T/s 或 TPS): 表示模型生成文本的速度。
  • 延迟 (Latency): 包括首令牌生成时间 (Time to First Token, TTFT) 和令牌间延迟 (Inter-token Latency),衡量模型的响应速度。
  • 吞吐量 (Throughput): 在高并发场景下,单位时间内处理的请求量。

1. 硬件性能的影响

  • GPU vs. CPU: 基准测试一致表明,对于 LLM 推理,GPU 相比传统 CPU 具有显著的性能优势。现代 GPU,如 NVIDIA RTX 4090,在运行 8B-40B 参数量级的中小型模型时表现出色,通常能利用 92%-96% 的 GPU 容量。
  • VRAM 需求: 参数量超过 40B 的大型模型通常需要 48GB 或更多 VRAM 的 GPU,例如 NVIDIA A6000、H100 或 A100。
  • Apple Silicon (M 系列芯片): 搭载 Apple Silicon 的设备在本地运行 LLM 方面也表现出强大的性能。

2. Ollama 与其他 LLM 服务工具的对比

  • Ollama vs. vLLM: Ollama 以其易用性和适用于本地开发与原型设计的特性而受到赞誉。然而,在需要高并发和生产级吞吐量的环境中,vLLM 通常表现优于 Ollama。例如,在一个基准测试中,vLLM 的吞吐量 (793 TPS) 显著高于 Ollama (41 TPS),即使 Ollama 经过并行优化。
  • Ollama vs. LM Studio vs. llama.cpp:
    • llama.cpp 在针对特定硬件进行优化和编译时,由于其底层硬件访问能力,通常能提供最佳的原始性能。
    • Ollama 在速度和简易性之间取得了平衡,提供了良好的用户体验和不错的性能。
    • LM Studio 虽然更注重用户体验,但在某些配置下(例如在 Mac Studio M3 Ultra 上运行特定模型)有时会超越 Ollama。

3. 模型特定性能

Ollama 内部不同 LLM 模型之间也存在性能差异:

  • Llama 3.3 70B: 因其与更大模型相当的性能,同时具有更高的效率而备受关注。
  • DeepSeek-R1: 在推理能力方面表现突出。
  • Mistral-nemo:12b vs. Llama3.1:8b: 在一些对比中,Mistral-nemo:12b 比 Llama3.1:8b 慢约 30%。
  • Command-R:35b vs. Llama3.1:70b: Command-R:35b 的速度大约是 Llama3.1:70b 的两倍。
  • 量化 (Quantization): 量化是常用的优化策略,通过降低模型的精度来减少 VRAM 需求,从而使更大的模型能够在资源受限的硬件上运行。

结论

Ollama 为本地运行 LLM 提供了一个便捷而强大的平台。它支持种类繁多的模型,从紧凑的 Phi-3 到庞大的 Llama 3 70B,满足了不同应用场景的需求。在选择模型和评估性能时,需要综合考虑硬件配置(特别是 GPU 和 VRAM)、所需的并发级别以及模型本身的特点(如参数量和量化程度)。对于本地开发和个人使用,Ollama 的易用性和良好的性能使其成为一个优秀的选择。在需要更高吞吐量的生产环境中,可能需要考虑与 vLLM 等工具结合使用或进一步优化。

滚动至顶部