Member of Inception Program

KI-Modelle

Frontier LLM Modelle für On Premise Deployments

Eine kuratierte Auswahl der leistungsfähigsten Open-Source-KI-Modelle, optimiert für den Einsatz auf unserer NVIDIA Blackwell-Infrastruktur. Diese produktionsreifen Modelle liefern State-of-the-Art-Performance und laufen vollständig auf Ihrer eigenen Infrastruktur — für vollständige Datensouveränität ohne Cloud-Abhängigkeiten.

Sortieren:
Modalität:
Modell Qwen 3.6 VL
Releasedate 2026-04-24
Anbieter Alibaba Cloud
Modalität imagetext text
Parameter Total 35B
Parameter Aktiv 3B
Grösse 24gb
Status Testing
Releasedate 2026-04-02
Anbieter Nvidia
Modalität ocr text
Parameter Total 0.1B
Parameter Aktiv 0.1B
Grösse 0.4gb
Status Testing
Modell Gemma 4
Releasedate 2026-04-02
Anbieter Google
Modalität textimagevideo texttoolcode
Parameter Total 31B
Parameter Aktiv 31B
Grösse 32gb
Status Testing
Releasedate 2026-03-25
Anbieter Cohere Labs
Modalität audio text
Parameter Total 2B
Parameter Aktiv 2B
Grösse 2gb
Status Testing
Releasedate 2026-03-10
Anbieter Nvidia
Modalität textcode texttoolcode
Parameter Total 124B
Parameter Aktiv 12B
Grösse 74gb
Status Stabil
Modell LTX-2.3
Releasedate 2026-03-03
Anbieter Lightricks
Modalität text video
Parameter Total 22B
Parameter Aktiv 22B
Grösse 20gb
Status Stabil
Modell Qwen 3.5
Releasedate 2026-02-16
Anbieter Alibaba Cloud
Modalität textimage texttool
Parameter Total 397B
Parameter Aktiv 17B
Grösse 233gb
Status Stabil
Modell MiniMax M2.5
Releasedate 2026-02-12
Anbieter MiniMax AI
Modalität textcode texttoolcode
Parameter Total 229B
Parameter Aktiv 10B
Grösse 130gb
Status Stabil
Releasedate 2026-02-11
Anbieter Stepfun AI
Modalität code codetool
Parameter Total 199B
Parameter Aktiv 11B
Grösse 194gb
Status Stabil
Modell GLM 5
Releasedate 2026-02-10
Anbieter Z AI
Modalität textcode texttoolcode
Parameter Total 435B
Parameter Aktiv 40B
Grösse 429gb
Status Stabil
Releasedate 2026-02-03
Anbieter Alibaba Cloud
Modalität code codetool
Parameter Total 80B
Parameter Aktiv 3B
Grösse 45gb
Status Stabil
Releasedate 2026-01-28
Anbieter Baidu
Modalität ocr text
Parameter Total 1B
Parameter Aktiv 1B
Grösse 1gb
Status Stabil
Releasedate 2026-01-27
Anbieter DeepSeek AI
Modalität ocr text
Parameter Total 3B
Parameter Aktiv 0.6B
Grösse 7gb
Status Stabil
Modell Trinity Large
Releasedate 2026-01-27
Anbieter Arcee AI
Modalität textcode texttoolcode
Parameter Total 398B
Parameter Aktiv 13B
Grösse 376gb
Status Experimentell
Modell Kimi K2.5
Releasedate 2026-01-26
Anbieter Moonshot AI
Modalität textcodeimage textcodetool
Parameter Total 1058B
Parameter Aktiv 32B
Grösse 550gb
Status Stabil
Modell GLM 4.7
Releasedate 2025-12-22
Anbieter Z AI
Modalität textcode texttoolcode
Parameter Total 358B
Parameter Aktiv 32B
Grösse 203gb
Status Stabil
Modell Devstral 2
Releasedate 2025-12-08
Anbieter Mistral
Modalität code codetool
Parameter Total 123B
Parameter Aktiv 123B
Grösse 119gb
Status Experimentell
Releasedate 2025-12-01
Anbieter Mistral
Modalität textimagecode textcodetool
Parameter Total 673B
Parameter Aktiv 41B
Grösse 375gb
Status Stabil
Modell DeepSeek V3.2
Releasedate 2025-11-30
Anbieter DeepSeek AI
Modalität text texttool
Parameter Total 685B
Parameter Aktiv 37B
Grösse 642gb
Status Stabil
Modell FLUX.2 Dev
Releasedate 2025-11-25
Anbieter Black Forest Labs
Modalität text image
Parameter Total 32B
Parameter Aktiv 32B
Grösse 60gb
Status Stabil
Releasedate 2025-11-06
Anbieter Moonshot AI
Modalität textcode textcode
Parameter Total 1058B
Parameter Aktiv 32B
Grösse 553gb
Status Stabil
Modell GLM 4.6
Releasedate 2025-09-30
Anbieter Z AI
Modalität text texttoolcode
Parameter Total 200B
Parameter Aktiv 32B
Grösse 187gb
Status Stabil
Modell Qwen 3 VL
Releasedate 2025-09-23
Anbieter Alibaba Cloud
Modalität imagetext text
Parameter Total 235B
Parameter Aktiv 22B
Grösse 125gb
Status Stabil
Releasedate 2025-09-10
Anbieter Alibaba Cloud
Modalität text text
Parameter Total 80B
Parameter Aktiv 3B
Grösse 44gb
Status Stabil
Releasedate 2025-09-10
Anbieter Alibaba Cloud
Modalität text texttool
Parameter Total 80B
Parameter Aktiv 3B
Grösse 44gb
Status Stabil
Modell Apertus
Releasedate 2025-09-01
Anbieter Swiss AI
Modalität text text
Parameter Total 70B
Parameter Aktiv 70B
Grösse 67gb
Status Stabil
Modell GPT OSS
Releasedate 2025-08-05
Anbieter OpenAI
Modalität text textcodetool
Parameter Total 120B
Parameter Aktiv 5B
Grösse 60gb
Status Stabil
Modell Qwen 3 Coder
Releasedate 2025-07-22
Anbieter Alibaba Cloud
Modalität code code
Parameter Total 241B
Parameter Aktiv 35B
Grösse 254gb
Status Stabil
Modell Qwen 3
Releasedate 2025-04-28
Anbieter Alibaba Cloud
Modalität text text
Parameter Total 235B
Parameter Aktiv 22B
Grösse 133gb
Status Stabil
Releasedate 2025-04-05
Anbieter Meta
Modalität imagetext texttool
Parameter Total 401B
Parameter Aktiv 17B
Grösse 379gb
Status Stabil
Modell DeepSeek R1
Releasedate 2025-01-20
Anbieter DeepSeek AI
Modalität text text
Parameter Total 396B
Parameter Aktiv 37B
Grösse 394gb
Status Stabil
Releasedate 2024-07-24
Anbieter Mistral
Modalität text texttool
Parameter Total 122B
Parameter Aktiv 122B
Grösse 114gb
Status Stabil
Modell Llama 3.1
Releasedate 2024-07-23
Anbieter Meta
Modalität text text
Parameter Total 405B
Parameter Aktiv 405B
Grösse 381gb
Status Stabil
Modell Mixtral 8x22B
Releasedate 2024-04-10
Anbieter Mistral
Modalität text text
Parameter Total 176B
Parameter Aktiv 40B
Grösse 68gb
Status Stabil

Häufig gestellte Fragen

  • Parameter bezeichnen die Anzahl der lernbaren Gewichte im Modell (gemessen in Milliarden, z.B. 70B). Grösse bezieht sich auf den Speicherplatz, der für die Modelldateien benötigt wird (gemessen in GB). Quantisierte Modelle haben weniger Bits pro Parameter, was zu kleineren Dateigrössen führt, während die meisten Fähigkeiten des Modells erhalten bleiben.
  • Im Produktionsbetrieb benötigen Sie mehr VRAM als nur die Modellgrösse, da KV-Cache-Speicher für die Kontextverarbeitung erforderlich ist. Mit FP8-quantisiertem KV-Cache (Standard in der Produktion) planen Sie etwa 1,4–1,5× der Modellgrösse. Beispiel: Ein 550 GB Modell läuft komfortabel auf 768 GB VRAM mit FP8 KV-Cache. Dies ist praktisch verlustfrei — NVIDIA H100/H200 GPUs haben native FP8-Tensor-Core-Unterstützung, was es leistungsmässig kostenlos macht. Mit Standard-BF16-KV-Cache würden Sie stattdessen 1,7–2× der Modellgrösse benötigen.
  • Experimentelle Modelle sind neuere Quantisierungen oder Konfigurationen, die noch validiert werden. Sie können bessere Leistung oder Effizienz bieten, wurden aber noch nicht gründlich in Produktionsumgebungen getestet. Stabile Modelle wurden für zuverlässigen Betrieb verifiziert.
  • Wählen Sie basierend auf den benötigten Modellen. Grössere Modelle erfordern mehr VRAM. Die S-Stufe (96GB) bewältigt die meisten 70B-Modelle, die M-Stufe (384GB) unterstützt mehrere grosse Modelle gleichzeitig, L (768GB) und XL (1440GB) ermöglichen die grössten Frontier-Modelle wie Llama 4 Maverick und DeepSeek V3.
  • Ja, wenn Sie über ausreichend VRAM verfügen. Die Gesamtgrösse der geladenen Modelle muss in den verfügbaren Speicher Ihres Servers passen. Grössere Stufen ermöglichen den gleichzeitigen Betrieb mehrerer Modelle für verschiedene Anwendungsfälle.
  • Modalitäten geben an, welche Datentypen ein Modell verarbeiten (Eingabe) und erzeugen (Ausgabe) kann. Textmodelle verarbeiten geschriebene Inhalte, Bildmodelle können Bilder analysieren oder generieren, Code-Modelle sind für Programmieraufgaben optimiert, und multimodale Modelle kombinieren mehrere Fähigkeiten.