Open-Source LLM Leaderboard 2026

Q: Welches Open-Source LLM ist das beste 2026?

Für die meisten Anwender bietet Llama 3.3 70B das beste Gesamtpaket. Für Code-Aufgaben führt DeepSeek-V3. Für deutsche Texte eignet sich SauerkrautLM oder LeoLM. Für kleine Hardware (4-6 GB) empfehlen wir Qwen 2.5 7B oder Phi-3.5 Mini.

Q: Kann ich Open-Source LLMs auf meinem PC laufen lassen?

Ja! Mit Tools wie Ollama, LM Studio oder GPT4All können Sie Modelle bis 7B auf jeder modernen GPU (ab 4 GB VRAM) betreiben. Quantisierung (Q4/Q8) reduziert den VRAM-Bedarf erheblich.

#	Modell ▼	Parameter ▼	MMLU ▼	HumanEval ▼	MT-Bench ▼	VRAM (Q4) ▼	tok/s* ▼	Lizenz
1	Llama 3.3 70B Meta AI	70B	82.0	81.7	8.9	~40 GB	~25	Llama 3.3
2	Qwen 2.5 72B Alibaba	72B	80.5	86.4	8.8	~42 GB	~22	Apache 2.0
3	DeepSeek-V3 DeepSeek	671B MoE	84.1	90.2	9.0	~160 GB	~15	MIT
4	Mixtral 8x22B Mistral AI	141B MoE	77.8	64.2	8.4	~80 GB	~30	Apache 2.0
5	Qwen 2.5 32B Alibaba	32B	76.2	74.8	8.5	~20 GB	~45	Apache 2.0
6	Mistral Large 2 Mistral AI	123B	81.2	73.1	8.7	~70 GB	~20	Research
7	CodeLlama 34B Meta AI	34B	56.3	78.9	7.8	~20 GB	~40	Llama 2
8	Gemma 2 27B Google	27B	75.1	60.4	8.2	~16 GB	~50	Gemma ToS
9	Llama 3.2 8B Meta AI	8B	65.3	60.1	8.0	~5 GB	~80	Llama 3.2
10	Mistral 7B v0.3 Mistral AI	7B	62.5	43.2	7.6	~4.5 GB	~90	Apache 2.0
11	Qwen 2.5 7B Alibaba	7B	68.4	67.2	7.9	~4.5 GB	~85	Apache 2.0
12	Gemma 2 9B Google	9B	67.8	50.0	7.8	~5.5 GB	~75	Gemma ToS
13	DeepSeek-Coder-V2-Lite DeepSeek	16B MoE	54.2	83.5	7.5	~6 GB	~70	MIT
14	Qwen 2.5 Coder 7B Alibaba	7B	52.1	85.9	7.4	~4.5 GB	~85	Apache 2.0
15	Phi-3.5 Mini Microsoft	3.8B	64.2	54.7	7.6	~2.5 GB	~120	MIT
16	SauerkrautLM-7B VAGO Solutions	7B	60.8	38.5	7.2	~4.5 GB	~90	Apache 2.0
17	LeoLM 13B LAION / HessianAI	13B	52.4	32.1	6.8	~8 GB	~60	Llama 2
18	Llama 3.2 3B Meta AI	3B	49.7	35.4	7.0	~2 GB	~150	Llama 3.2
19	Phi-3.5 MoE Microsoft	42B MoE	74.9	62.3	8.1	~14 GB	~55	MIT
20	StableLM 2 1.6B Stability AI	1.6B	36.2	18.7	5.8	~1 GB	~200	Apache 2.0
21	Command R+ Cohere	104B	78.3	52.4	8.3	~60 GB	~18	CC-BY-NC
22	Falcon 2 11B TII (UAE)	11B	56.1	29.3	6.9	~6.5 GB	~70	Apache 2.0
23	Occiglot 7B DFKI / Occiglot	7B	55.0	26.8	6.7	~4.5 GB	~90	Apache 2.0
24	RedPajama-Chat 3B Together AI / Luna	2.8B	30.2	15.4	5.5	~2 GB	~160	Apache 2.0

* tok/s gemessen auf RTX 4090 mit Q4_K_M Quantisierung. Eigene Hardware variiert. VRAM = Q4 Quantisierung. MMLU = Massive Multitask Language Understanding. HumanEval = Code-Generierung. MT-Bench = Multi-Turn Chat Quality.

Hardware-Guide: Welches Modell passt auf meine GPU?

4-6 GB VRAM (GTX 1060, RTX 3050)

Modelle bis ~7B Q4: Llama 3.2 3B, Mistral 7B, Qwen 2.5 7B, Phi-3.5 Mini, StableLM 1.6B. Ideal für lokale Experimente und einfache Aufgaben.

8 GB VRAM (RTX 3070, RTX 4070)

Modelle bis ~13B Q4: Llama 3.2 8B, Gemma 2 9B, LeoLM 13B, CodeLlama 13B. Gute Balance aus Qualität und Geschwindigkeit.

16-24 GB VRAM (RTX 4080/4090, A5000)

Modelle bis ~32B Q4: Gemma 2 27B, Qwen 2.5 32B, Phi-3.5 MoE. Nahezu GPT-3.5-Niveau für lokale Nutzung.

48+ GB VRAM (A100, Multi-GPU)

Modelle 70B+: Llama 3.3 70B, Qwen 2.5 72B, Mixtral 8x22B, DeepSeek-V3. Professionelle/Unternehmensnutzung.

Häufige Fragen

Was ist ein Open-Source LLM? ▼

Ein Open-Source Large Language Model ist ein KI-Sprachmodell, dessen Gewichte (Weights) öffentlich verfügbar sind. Sie können es auf eigener Hardware betreiben — ohne Daten an externe Server zu senden. Das bedeutet volle DSGVO-Konformität und keine laufenden API-Kosten. Beispiele: Llama (Meta), Mistral (Mistral AI), Qwen (Alibaba).

Welches Open-Source LLM ist das beste 2026? ▼

Für die meisten Anwender bietet Llama 3.3 70B das beste Gesamtpaket. Für Code-Aufgaben führt DeepSeek-V3. Für deutsche Texte eignet sich SauerkrautLM oder LeoLM. Für kleine Hardware (4-6 GB VRAM) empfehlen wir Qwen 2.5 7B oder Phi-3.5 Mini.

Kann ich Open-Source LLMs auf meinem PC laufen lassen? ▼

Ja! Mit Tools wie Ollama, LM Studio oder GPT4All können Sie Modelle bis 7B auf jeder modernen GPU (ab 4 GB VRAM) betreiben. Quantisierung (Q4/Q8) reduziert den VRAM-Bedarf erheblich. Für 70B-Modelle brauchen Sie allerdings ~40 GB VRAM oder CPU-Offloading.

Was bedeutet Quantisierung (Q4, Q8, GGUF)? ▼

Quantisierung reduziert die Präzision der Modell-Gewichte (z.B. von 16-Bit auf 4-Bit), um VRAM zu sparen. Q4 = 4-Bit (~4x weniger VRAM bei ~5% Qualitätsverlust). Q8 = 8-Bit (~2x weniger VRAM bei ~1% Qualitätsverlust). GGUF ist das Standard-Format für quantisierte Modelle, unterstützt von Ollama und llama.cpp.