Vergleichen Sie die besten Open-Source Sprachmodelle nach Benchmarks, VRAM-Bedarf, Geschwindigkeit und Lizenz. Unabhängig und aktuell.
| # | Modell ▼ | Parameter ▼ | MMLU ▼ | HumanEval ▼ | MT-Bench ▼ | VRAM (Q4) ▼ | tok/s* ▼ | Lizenz |
|---|---|---|---|---|---|---|---|---|
| 1 | Llama 3.3 70B Meta AI | 70B | 82.0 | 81.7 | 8.9 | ~40 GB | ~25 | Llama 3.3 |
| 2 | Qwen 2.5 72B Alibaba | 72B | 80.5 | 86.4 | 8.8 | ~42 GB | ~22 | Apache 2.0 |
| 3 | DeepSeek-V3 DeepSeek | 671B MoE | 84.1 | 90.2 | 9.0 | ~160 GB | ~15 | MIT |
| 4 | Mixtral 8x22B Mistral AI | 141B MoE | 77.8 | 64.2 | 8.4 | ~80 GB | ~30 | Apache 2.0 |
| 5 | Qwen 2.5 32B Alibaba | 32B | 76.2 | 74.8 | 8.5 | ~20 GB | ~45 | Apache 2.0 |
| 6 | Mistral Large 2 Mistral AI | 123B | 81.2 | 73.1 | 8.7 | ~70 GB | ~20 | Research |
| 7 | CodeLlama 34B Meta AI | 34B | 56.3 | 78.9 | 7.8 | ~20 GB | ~40 | Llama 2 |
| 8 | Gemma 2 27B | 27B | 75.1 | 60.4 | 8.2 | ~16 GB | ~50 | Gemma ToS |
| 9 | Llama 3.2 8B Meta AI | 8B | 65.3 | 60.1 | 8.0 | ~5 GB | ~80 | Llama 3.2 |
| 10 | Mistral 7B v0.3 Mistral AI | 7B | 62.5 | 43.2 | 7.6 | ~4.5 GB | ~90 | Apache 2.0 |
| 11 | Qwen 2.5 7B Alibaba | 7B | 68.4 | 67.2 | 7.9 | ~4.5 GB | ~85 | Apache 2.0 |
| 12 | Gemma 2 9B | 9B | 67.8 | 50.0 | 7.8 | ~5.5 GB | ~75 | Gemma ToS |
| 13 | DeepSeek-Coder-V2-Lite DeepSeek | 16B MoE | 54.2 | 83.5 | 7.5 | ~6 GB | ~70 | MIT |
| 14 | Qwen 2.5 Coder 7B Alibaba | 7B | 52.1 | 85.9 | 7.4 | ~4.5 GB | ~85 | Apache 2.0 |
| 15 | Phi-3.5 Mini Microsoft | 3.8B | 64.2 | 54.7 | 7.6 | ~2.5 GB | ~120 | MIT |
| 16 | SauerkrautLM-7B VAGO Solutions | 7B | 60.8 | 38.5 | 7.2 | ~4.5 GB | ~90 | Apache 2.0 |
| 17 | LeoLM 13B LAION / HessianAI | 13B | 52.4 | 32.1 | 6.8 | ~8 GB | ~60 | Llama 2 |
| 18 | Llama 3.2 3B Meta AI | 3B | 49.7 | 35.4 | 7.0 | ~2 GB | ~150 | Llama 3.2 |
| 19 | Phi-3.5 MoE Microsoft | 42B MoE | 74.9 | 62.3 | 8.1 | ~14 GB | ~55 | MIT |
| 20 | StableLM 2 1.6B Stability AI | 1.6B | 36.2 | 18.7 | 5.8 | ~1 GB | ~200 | Apache 2.0 |
| 21 | Command R+ Cohere | 104B | 78.3 | 52.4 | 8.3 | ~60 GB | ~18 | CC-BY-NC |
| 22 | Falcon 2 11B TII (UAE) | 11B | 56.1 | 29.3 | 6.9 | ~6.5 GB | ~70 | Apache 2.0 |
| 23 | Occiglot 7B DFKI / Occiglot | 7B | 55.0 | 26.8 | 6.7 | ~4.5 GB | ~90 | Apache 2.0 |
| 24 | RedPajama-Chat 3B Together AI / Luna | 2.8B | 30.2 | 15.4 | 5.5 | ~2 GB | ~160 | Apache 2.0 |
* tok/s gemessen auf RTX 4090 mit Q4_K_M Quantisierung. Eigene Hardware variiert. VRAM = Q4 Quantisierung. MMLU = Massive Multitask Language Understanding. HumanEval = Code-Generierung. MT-Bench = Multi-Turn Chat Quality.
Modelle bis ~7B Q4: Llama 3.2 3B, Mistral 7B, Qwen 2.5 7B, Phi-3.5 Mini, StableLM 1.6B. Ideal für lokale Experimente und einfache Aufgaben.
Modelle bis ~13B Q4: Llama 3.2 8B, Gemma 2 9B, LeoLM 13B, CodeLlama 13B. Gute Balance aus Qualität und Geschwindigkeit.
Modelle bis ~32B Q4: Gemma 2 27B, Qwen 2.5 32B, Phi-3.5 MoE. Nahezu GPT-3.5-Niveau für lokale Nutzung.
Modelle 70B+: Llama 3.3 70B, Qwen 2.5 72B, Mixtral 8x22B, DeepSeek-V3. Professionelle/Unternehmensnutzung.