KI-Modelle
Frontier LLM Modelle für On Premise Deployments
Eine kuratierte Auswahl der leistungsfähigsten Open-Source-KI-Modelle, optimiert für den Einsatz auf unserer NVIDIA Blackwell-Infrastruktur. Diese produktionsreifen Modelle liefern State-of-the-Art-Performance und laufen vollständig auf Ihrer eigenen Infrastruktur — für vollständige Datensouveränität ohne Cloud-Abhängigkeiten.
Modell Qwen 3.6 VL
Releasedate 2026-04-24
Anbieter
Alibaba Cloud
Modalität 
Parameter Total 35B
Parameter Aktiv 3B
Grösse 24gb
Status Testing
Modell Nemotron OCR v2
Releasedate 2026-04-02
Anbieter
Nvidia
Modalität
Parameter Total 0.1B
Parameter Aktiv 0.1B
Grösse 0.4gb
Status Testing
Modell Gemma 4
Releasedate 2026-04-02
Anbieter
Google
Google Modalität 



Parameter Total 31B
Parameter Aktiv 31B
Grösse 32gb
Status Testing
Modell Cohere Transcribe
Releasedate 2026-03-25
Anbieter
Cohere Labs
Modalität
Parameter Total 2B
Parameter Aktiv 2B
Grösse 2gb
Status Testing
Modell Nemotron 3 Super
Releasedate 2026-03-10
Anbieter
Nvidia
Modalität 


Parameter Total 124B
Parameter Aktiv 12B
Grösse 74gb
Status Stabil
Modell LTX-2.3
Releasedate 2026-03-03
Anbieter
Lightricks
Modalität
Parameter Total 22B
Parameter Aktiv 22B
Grösse 20gb
Status Stabil
Modell Qwen 3.5
Releasedate 2026-02-16
Anbieter
Alibaba Cloud
Modalität 

Parameter Total 397B
Parameter Aktiv 17B
Grösse 233gb
Status Stabil
Modell MiniMax M2.5
Releasedate 2026-02-12
Anbieter
MiniMax AI
Modalität 


Parameter Total 229B
Parameter Aktiv 10B
Grösse 130gb
Status Stabil
Modell Step 3.5 Flash
Releasedate 2026-02-11
Anbieter
Stepfun AI
Modalität

Parameter Total 199B
Parameter Aktiv 11B
Grösse 194gb
Status Stabil
Modell GLM 5
Releasedate 2026-02-10
Anbieter
Z AI
Modalität 


Parameter Total 435B
Parameter Aktiv 40B
Grösse 429gb
Status Stabil
Modell Qwen 3 Coder Next
Releasedate 2026-02-03
Anbieter
Alibaba Cloud
Modalität

Parameter Total 80B
Parameter Aktiv 3B
Grösse 45gb
Status Stabil
Modell Paddle OCR VL 1.5
Releasedate 2026-01-28
Anbieter
Baidu
Modalität
Parameter Total 1B
Parameter Aktiv 1B
Grösse 1gb
Status Stabil
Modell DeepSeek OCR v2
Releasedate 2026-01-27
Anbieter
DeepSeek AI
Modalität
Parameter Total 3B
Parameter Aktiv 0.6B
Grösse 7gb
Status Stabil
Modell Trinity Large
Releasedate 2026-01-27
Anbieter
Arcee AI
Modalität 


Parameter Total 398B
Parameter Aktiv 13B
Grösse 376gb
Status Experimentell
Modell Kimi K2.5
Releasedate 2026-01-26
Anbieter
Moonshot AI
Modalität 



Parameter Total 1058B
Parameter Aktiv 32B
Grösse 550gb
Status Stabil
Modell GLM 4.7
Releasedate 2025-12-22
Anbieter
Z AI
Modalität 


Parameter Total 358B
Parameter Aktiv 32B
Grösse 203gb
Status Stabil
Modell Devstral 2
Releasedate 2025-12-08
Anbieter
Mistral
Modalität

Parameter Total 123B
Parameter Aktiv 123B
Grösse 119gb
Status Experimentell
Modell Mistral Large 3
Releasedate 2025-12-01
Anbieter
Mistral
Modalität 



Parameter Total 673B
Parameter Aktiv 41B
Grösse 375gb
Status Stabil
Modell DeepSeek V3.2
Releasedate 2025-11-30
Anbieter
DeepSeek AI
Modalität

Parameter Total 685B
Parameter Aktiv 37B
Grösse 642gb
Status Stabil
Modell FLUX.2 Dev
Releasedate 2025-11-25
Anbieter
Black Forest Labs
Modalität
Parameter Total 32B
Parameter Aktiv 32B
Grösse 60gb
Status Stabil
Modell Kimi K2 Thinking
Releasedate 2025-11-06
Anbieter
Moonshot AI
Modalität 

Parameter Total 1058B
Parameter Aktiv 32B
Grösse 553gb
Status Stabil
Modell GLM 4.6
Releasedate 2025-09-30
Anbieter
Z AI
Modalität


Parameter Total 200B
Parameter Aktiv 32B
Grösse 187gb
Status Stabil
Modell Qwen 3 VL
Releasedate 2025-09-23
Anbieter
Alibaba Cloud
Modalität 
Parameter Total 235B
Parameter Aktiv 22B
Grösse 125gb
Status Stabil
Modell Qwen 3 Next Thinking
Releasedate 2025-09-10
Anbieter
Alibaba Cloud
Modalität
Parameter Total 80B
Parameter Aktiv 3B
Grösse 44gb
Status Stabil
Modell Qwen 3 Next Instruct
Releasedate 2025-09-10
Anbieter
Alibaba Cloud
Modalität

Parameter Total 80B
Parameter Aktiv 3B
Grösse 44gb
Status Stabil
Modell Apertus
Releasedate 2025-09-01
Anbieter
Swiss AI
Modalität
Parameter Total 70B
Parameter Aktiv 70B
Grösse 67gb
Status Stabil
Modell GPT OSS
Releasedate 2025-08-05
Anbieter
OpenAI
Modalität


Parameter Total 120B
Parameter Aktiv 5B
Grösse 60gb
Status Stabil
Modell Qwen 3 Coder
Releasedate 2025-07-22
Anbieter
Alibaba Cloud
Modalität
Parameter Total 241B
Parameter Aktiv 35B
Grösse 254gb
Status Stabil
Modell Qwen 3
Releasedate 2025-04-28
Anbieter
Alibaba Cloud
Modalität
Parameter Total 235B
Parameter Aktiv 22B
Grösse 133gb
Status Stabil
Modell Llama 4 Maverick
Releasedate 2025-04-05
Anbieter
Meta
Modalität 

Parameter Total 401B
Parameter Aktiv 17B
Grösse 379gb
Status Stabil
Modell DeepSeek R1
Releasedate 2025-01-20
Anbieter
DeepSeek AI
Modalität
Parameter Total 396B
Parameter Aktiv 37B
Grösse 394gb
Status Stabil
Modell Mistral Large Instruct
Releasedate 2024-07-24
Anbieter
Mistral
Modalität

Parameter Total 122B
Parameter Aktiv 122B
Grösse 114gb
Status Stabil
Modell Llama 3.1
Releasedate 2024-07-23
Anbieter
Meta
Modalität
Parameter Total 405B
Parameter Aktiv 405B
Grösse 381gb
Status Stabil
Modell Mixtral 8x22B
Releasedate 2024-04-10
Anbieter
Mistral
Modalität
Parameter Total 176B
Parameter Aktiv 40B
Grösse 68gb
Status Stabil
Häufig gestellte Fragen
- Parameter bezeichnen die Anzahl der lernbaren Gewichte im Modell (gemessen in Milliarden, z.B. 70B). Grösse bezieht sich auf den Speicherplatz, der für die Modelldateien benötigt wird (gemessen in GB). Quantisierte Modelle haben weniger Bits pro Parameter, was zu kleineren Dateigrössen führt, während die meisten Fähigkeiten des Modells erhalten bleiben.
- Im Produktionsbetrieb benötigen Sie mehr VRAM als nur die Modellgrösse, da KV-Cache-Speicher für die Kontextverarbeitung erforderlich ist. Mit FP8-quantisiertem KV-Cache (Standard in der Produktion) planen Sie etwa 1,4–1,5× der Modellgrösse. Beispiel: Ein 550 GB Modell läuft komfortabel auf 768 GB VRAM mit FP8 KV-Cache. Dies ist praktisch verlustfrei — NVIDIA H100/H200 GPUs haben native FP8-Tensor-Core-Unterstützung, was es leistungsmässig kostenlos macht. Mit Standard-BF16-KV-Cache würden Sie stattdessen 1,7–2× der Modellgrösse benötigen.
- Experimentelle Modelle sind neuere Quantisierungen oder Konfigurationen, die noch validiert werden. Sie können bessere Leistung oder Effizienz bieten, wurden aber noch nicht gründlich in Produktionsumgebungen getestet. Stabile Modelle wurden für zuverlässigen Betrieb verifiziert.
- Wählen Sie basierend auf den benötigten Modellen. Grössere Modelle erfordern mehr VRAM. Die S-Stufe (96GB) bewältigt die meisten 70B-Modelle, die M-Stufe (384GB) unterstützt mehrere grosse Modelle gleichzeitig, L (768GB) und XL (1440GB) ermöglichen die grössten Frontier-Modelle wie Llama 4 Maverick und DeepSeek V3.
- Ja, wenn Sie über ausreichend VRAM verfügen. Die Gesamtgrösse der geladenen Modelle muss in den verfügbaren Speicher Ihres Servers passen. Grössere Stufen ermöglichen den gleichzeitigen Betrieb mehrerer Modelle für verschiedene Anwendungsfälle.
- Modalitäten geben an, welche Datentypen ein Modell verarbeiten (Eingabe) und erzeugen (Ausgabe) kann. Textmodelle verarbeiten geschriebene Inhalte, Bildmodelle können Bilder analysieren oder generieren, Code-Modelle sind für Programmieraufgaben optimiert, und multimodale Modelle kombinieren mehrere Fähigkeiten.