KI-Modelle
Frontier LLM Modelle für On Premise Deployments
Eine kuratierte Auswahl der leistungsfähigsten Open-Source-KI-Modelle, optimiert für den Einsatz auf unserer NVIDIA Blackwell-Infrastruktur. Diese produktionsreifen Modelle liefern State-of-the-Art-Performance und laufen vollständig auf Ihrer eigenen Infrastruktur — für vollständige Datensouveränität ohne Cloud-Abhängigkeiten.
Wählen Sie oben einen Server, um die unterstützten KI-Modelle hervorzuheben.
| Release Date | Anbieter | Modell | Modalität | Parameter | Grösse | Status |
|---|---|---|---|---|---|---|
| 2025-04-05 | | Llama 4 Maverick | Stabil Stabil | |||
| 2024-07-23 | | Llama 3.1 | Stabil Stabil | |||
| 2026-03-10 | | Nemotron 3 Super | Stabil | |||
| 2025-08-05 | | GPT oss 120b | Stabil | |||
| 2024-07-24 | | Mistral Large Instruct | Stabil Experimentell | |||
| 2024-04-10 | | Mixtral 8x22B | Stabil | |||
| 2025-12-08 | | Devstral 2 | Experimentell | |||
| 2025-09-01 | | Apertus | Stabil | |||
| 2026-02-16 | | Qwen 3.5 | Stabil Experimentell | |||
| 2025-04-28 | | Qwen 3 | Stabil | |||
| 2025-09-23 | | Qwen 3 VL | Stabil | |||
| 2025-09-10 | | Qwen 3 Next Thinking | Stabil | |||
| 2025-09-10 | | Qwen 3 Next Instruct | Stabil | |||
| 2025-07-22 | | Qwen 3 Coder | Stabil | |||
| 2026-02-03 | | Qwen 3 Coder Next | Stabil | |||
| 2026-02-10 | | GLM 5 | Stabil | |||
| 2025-12-22 | | GLM 4.7 | Stabil | |||
| 2025-09-30 | | GLM 4.6 | Stabil | |||
| 2025-11-06 | | Kimi K2 Thinking | Stabil | |||
| 2026-01-27 | | Kimi K2.5 | Stabil | |||
| 2026-02-12 | | MiniMax M2.5 | Stabil Experimentell | |||
| 2025-01-20 | | DeepSeek R1 | Stabil | |||
| 2025-11-30 | | DeepSeek V3.2 | Stabil Experimentell Stabil | |||
| 2026-02-11 | | Step 3.5 Flash | Stabil Experimentell |
Häufig gestellte Fragen
- Parameter bezeichnen die Anzahl der lernbaren Gewichte im Modell (gemessen in Milliarden, z.B. 70B). Grösse bezieht sich auf den Speicherplatz, der für die Modelldateien benötigt wird (gemessen in GB). Quantisierte Modelle haben weniger Bits pro Parameter, was zu kleineren Dateigrössen führt, während die meisten Fähigkeiten des Modells erhalten bleiben.
- Im Produktionsbetrieb benötigen Sie mehr VRAM als nur die Modellgrösse, da KV-Cache-Speicher für die Kontextverarbeitung erforderlich ist. Mit FP8-quantisiertem KV-Cache (Standard in der Produktion) planen Sie etwa 1,4–1,5× der Modellgrösse. Beispiel: Ein 550 GB Modell läuft komfortabel auf 768 GB VRAM mit FP8 KV-Cache. Dies ist praktisch verlustfrei — NVIDIA H100/H200 GPUs haben native FP8-Tensor-Core-Unterstützung, was es leistungsmässig kostenlos macht. Mit Standard-BF16-KV-Cache würden Sie stattdessen 1,7–2× der Modellgrösse benötigen.
- Experimentelle Modelle sind neuere Quantisierungen oder Konfigurationen, die noch validiert werden. Sie können bessere Leistung oder Effizienz bieten, wurden aber noch nicht gründlich in Produktionsumgebungen getestet. Stabile Modelle wurden für zuverlässigen Betrieb verifiziert.
- Wählen Sie basierend auf den benötigten Modellen. Grössere Modelle erfordern mehr VRAM. Die S-Stufe (96GB) bewältigt die meisten 70B-Modelle, die M-Stufe (384GB) unterstützt mehrere grosse Modelle gleichzeitig, L (768GB) und XL (1440GB) ermöglichen die grössten Frontier-Modelle wie Llama 4 Maverick und DeepSeek V3.
- Ja, wenn Sie über ausreichend VRAM verfügen. Die Gesamtgrösse der geladenen Modelle muss in den verfügbaren Speicher Ihres Servers passen. Grössere Stufen ermöglichen den gleichzeitigen Betrieb mehrerer Modelle für verschiedene Anwendungsfälle.
- Modalitäten geben an, welche Datentypen ein Modell verarbeiten (Eingabe) und erzeugen (Ausgabe) kann. Textmodelle verarbeiten geschriebene Inhalte, Bildmodelle können Bilder analysieren oder generieren, Code-Modelle sind für Programmieraufgaben optimiert, und multimodale Modelle kombinieren mehrere Fähigkeiten.