KI-Modelle

Frontier LLM Modelle für On Premise Deployments

Eine kuratierte Auswahl der leistungsfähigsten Open-Source-KI-Modelle, optimiert für den Einsatz auf unserer NVIDIA Blackwell-Infrastruktur. Diese produktionsreifen Modelle liefern State-of-the-Art-Performance und laufen vollständig auf Ihrer eigenen Infrastruktur — für vollständige Datensouveränität ohne Cloud-Abhängigkeiten.

Wählen Sie oben einen Server, um die unterstützten KI-Modelle hervorzuheben.

Release Date Anbieter Modell Modalität Parameter Grösse Status
2025-04-05 Meta Llama 4 Maverick
Stabil
Stabil
2024-07-23 Meta Llama 3.1
Stabil
Stabil
2026-03-10 Nvidia Nemotron 3 Super
Stabil
2025-08-05 OpenAI GPT oss 120b
Stabil
2024-07-24 Mistral Mistral Large Instruct
Stabil
Experimentell
2024-04-10 Mistral Mixtral 8x22B
Stabil
2025-12-08 Mistral Devstral 2
Experimentell
2025-09-01 Swiss AI Apertus
Stabil
2026-02-16 Alibaba Cloud Qwen 3.5
Stabil
Experimentell
2025-04-28 Alibaba Cloud Qwen 3
Stabil
2025-09-23 Alibaba Cloud Qwen 3 VL
Stabil
2025-09-10 Alibaba Cloud Qwen 3 Next Thinking
Stabil
2025-09-10 Alibaba Cloud Qwen 3 Next Instruct
Stabil
2025-07-22 Alibaba Cloud Qwen 3 Coder
Stabil
2026-02-03 Alibaba Cloud Qwen 3 Coder Next
Stabil
2026-02-10 Z AI GLM 5
Stabil
2025-12-22 Z AI GLM 4.7
Stabil
2025-09-30 Z AI GLM 4.6
Stabil
2025-11-06 Moonshot AI Kimi K2 Thinking
Stabil
2026-01-27 Moonshot AI Kimi K2.5
Stabil
2026-02-12 MiniMax AI MiniMax M2.5
Stabil
Experimentell
2025-01-20 DeepSeek AI DeepSeek R1
Stabil
2025-11-30 DeepSeek AI DeepSeek V3.2
Stabil
Experimentell
Stabil
2026-02-11 Stepfun AI Step 3.5 Flash
Stabil
Experimentell

Häufig gestellte Fragen

  • Parameter bezeichnen die Anzahl der lernbaren Gewichte im Modell (gemessen in Milliarden, z.B. 70B). Grösse bezieht sich auf den Speicherplatz, der für die Modelldateien benötigt wird (gemessen in GB). Quantisierte Modelle haben weniger Bits pro Parameter, was zu kleineren Dateigrössen führt, während die meisten Fähigkeiten des Modells erhalten bleiben.
  • Im Produktionsbetrieb benötigen Sie mehr VRAM als nur die Modellgrösse, da KV-Cache-Speicher für die Kontextverarbeitung erforderlich ist. Mit FP8-quantisiertem KV-Cache (Standard in der Produktion) planen Sie etwa 1,4–1,5× der Modellgrösse. Beispiel: Ein 550 GB Modell läuft komfortabel auf 768 GB VRAM mit FP8 KV-Cache. Dies ist praktisch verlustfrei — NVIDIA H100/H200 GPUs haben native FP8-Tensor-Core-Unterstützung, was es leistungsmässig kostenlos macht. Mit Standard-BF16-KV-Cache würden Sie stattdessen 1,7–2× der Modellgrösse benötigen.
  • Experimentelle Modelle sind neuere Quantisierungen oder Konfigurationen, die noch validiert werden. Sie können bessere Leistung oder Effizienz bieten, wurden aber noch nicht gründlich in Produktionsumgebungen getestet. Stabile Modelle wurden für zuverlässigen Betrieb verifiziert.
  • Wählen Sie basierend auf den benötigten Modellen. Grössere Modelle erfordern mehr VRAM. Die S-Stufe (96GB) bewältigt die meisten 70B-Modelle, die M-Stufe (384GB) unterstützt mehrere grosse Modelle gleichzeitig, L (768GB) und XL (1440GB) ermöglichen die grössten Frontier-Modelle wie Llama 4 Maverick und DeepSeek V3.
  • Ja, wenn Sie über ausreichend VRAM verfügen. Die Gesamtgrösse der geladenen Modelle muss in den verfügbaren Speicher Ihres Servers passen. Grössere Stufen ermöglichen den gleichzeitigen Betrieb mehrerer Modelle für verschiedene Anwendungsfälle.
  • Modalitäten geben an, welche Datentypen ein Modell verarbeiten (Eingabe) und erzeugen (Ausgabe) kann. Textmodelle verarbeiten geschriebene Inhalte, Bildmodelle können Bilder analysieren oder generieren, Code-Modelle sind für Programmieraufgaben optimiert, und multimodale Modelle kombinieren mehrere Fähigkeiten.