Open-Source LLM Leaderboard 2026

Vergleichen Sie die besten Open-Source Sprachmodelle nach Benchmarks, VRAM-Bedarf, Geschwindigkeit und Lizenz. Unabhängig und aktuell.

24
Modelle
6
Benchmarks
12
Anbieter
Q2 2026
Letzte Aktualisierung
# Modell Parameter MMLU HumanEval MT-Bench VRAM (Q4) tok/s* Lizenz
1Llama 3.3 70B
Meta AI
70B82.081.78.9~40 GB~25Llama 3.3
2Qwen 2.5 72B
Alibaba
72B80.586.48.8~42 GB~22Apache 2.0
3DeepSeek-V3
DeepSeek
671B MoE84.190.29.0~160 GB~15MIT
4Mixtral 8x22B
Mistral AI
141B MoE77.864.28.4~80 GB~30Apache 2.0
5Qwen 2.5 32B
Alibaba
32B76.274.88.5~20 GB~45Apache 2.0
6Mistral Large 2
Mistral AI
123B81.273.18.7~70 GB~20Research
7CodeLlama 34B
Meta AI
34B56.378.97.8~20 GB~40Llama 2
8Gemma 2 27B
Google
27B75.160.48.2~16 GB~50Gemma ToS
9Llama 3.2 8B
Meta AI
8B65.360.18.0~5 GB~80Llama 3.2
10Mistral 7B v0.3
Mistral AI
7B62.543.27.6~4.5 GB~90Apache 2.0
11Qwen 2.5 7B
Alibaba
7B68.467.27.9~4.5 GB~85Apache 2.0
12Gemma 2 9B
Google
9B67.850.07.8~5.5 GB~75Gemma ToS
13DeepSeek-Coder-V2-Lite
DeepSeek
16B MoE54.283.57.5~6 GB~70MIT
14Qwen 2.5 Coder 7B
Alibaba
7B52.185.97.4~4.5 GB~85Apache 2.0
15Phi-3.5 Mini
Microsoft
3.8B64.254.77.6~2.5 GB~120MIT
16SauerkrautLM-7B
VAGO Solutions
7B60.838.57.2~4.5 GB~90Apache 2.0
17LeoLM 13B
LAION / HessianAI
13B52.432.16.8~8 GB~60Llama 2
18Llama 3.2 3B
Meta AI
3B49.735.47.0~2 GB~150Llama 3.2
19Phi-3.5 MoE
Microsoft
42B MoE74.962.38.1~14 GB~55MIT
20StableLM 2 1.6B
Stability AI
1.6B36.218.75.8~1 GB~200Apache 2.0
21Command R+
Cohere
104B78.352.48.3~60 GB~18CC-BY-NC
22Falcon 2 11B
TII (UAE)
11B56.129.36.9~6.5 GB~70Apache 2.0
23Occiglot 7B
DFKI / Occiglot
7B55.026.86.7~4.5 GB~90Apache 2.0
24RedPajama-Chat 3B
Together AI / Luna
2.8B30.215.45.5~2 GB~160Apache 2.0

* tok/s gemessen auf RTX 4090 mit Q4_K_M Quantisierung. Eigene Hardware variiert. VRAM = Q4 Quantisierung. MMLU = Massive Multitask Language Understanding. HumanEval = Code-Generierung. MT-Bench = Multi-Turn Chat Quality.

Hardware-Guide: Welches Modell passt auf meine GPU?

4-6 GB VRAM (GTX 1060, RTX 3050)

Modelle bis ~7B Q4: Llama 3.2 3B, Mistral 7B, Qwen 2.5 7B, Phi-3.5 Mini, StableLM 1.6B. Ideal für lokale Experimente und einfache Aufgaben.

8 GB VRAM (RTX 3070, RTX 4070)

Modelle bis ~13B Q4: Llama 3.2 8B, Gemma 2 9B, LeoLM 13B, CodeLlama 13B. Gute Balance aus Qualität und Geschwindigkeit.

16-24 GB VRAM (RTX 4080/4090, A5000)

Modelle bis ~32B Q4: Gemma 2 27B, Qwen 2.5 32B, Phi-3.5 MoE. Nahezu GPT-3.5-Niveau für lokale Nutzung.

48+ GB VRAM (A100, Multi-GPU)

Modelle 70B+: Llama 3.3 70B, Qwen 2.5 72B, Mixtral 8x22B, DeepSeek-V3. Professionelle/Unternehmensnutzung.

Häufige Fragen

Was ist ein Open-Source LLM?
Ein Open-Source Large Language Model ist ein KI-Sprachmodell, dessen Gewichte (Weights) öffentlich verfügbar sind. Sie können es auf eigener Hardware betreiben — ohne Daten an externe Server zu senden. Das bedeutet volle DSGVO-Konformität und keine laufenden API-Kosten. Beispiele: Llama (Meta), Mistral (Mistral AI), Qwen (Alibaba).
Welches Open-Source LLM ist das beste 2026?
Für die meisten Anwender bietet Llama 3.3 70B das beste Gesamtpaket. Für Code-Aufgaben führt DeepSeek-V3. Für deutsche Texte eignet sich SauerkrautLM oder LeoLM. Für kleine Hardware (4-6 GB VRAM) empfehlen wir Qwen 2.5 7B oder Phi-3.5 Mini.
Kann ich Open-Source LLMs auf meinem PC laufen lassen?
Ja! Mit Tools wie Ollama, LM Studio oder GPT4All können Sie Modelle bis 7B auf jeder modernen GPU (ab 4 GB VRAM) betreiben. Quantisierung (Q4/Q8) reduziert den VRAM-Bedarf erheblich. Für 70B-Modelle brauchen Sie allerdings ~40 GB VRAM oder CPU-Offloading.
Was bedeutet Quantisierung (Q4, Q8, GGUF)?
Quantisierung reduziert die Präzision der Modell-Gewichte (z.B. von 16-Bit auf 4-Bit), um VRAM zu sparen. Q4 = 4-Bit (~4x weniger VRAM bei ~5% Qualitätsverlust). Q8 = 8-Bit (~2x weniger VRAM bei ~1% Qualitätsverlust). GGUF ist das Standard-Format für quantisierte Modelle, unterstützt von Ollama und llama.cpp.

FatCat Digital Netzwerk

FatCat Digital KI-Tools Verzeichnis DataFlow Trading Friedensbewegung LLM Hub