OnPremAi

Wählen Sie oben einen Server, um die unterstützten KI-Modelle hervorzuheben.

Release Date	Anbieter	Modell	Parameter	Grösse	Status
2025-04-05	Meta	Llama 4 Maverick	401 B 228 B	379 GB 218 GB	Stabil Stabil
2024-07-23	Meta	Llama 3.1	405 B 70 B	381 GB 67 GB	Stabil Stabil
2026-03-10	Nvidia	Nemotron 3 Super	124 B	74 GB	Stabil
2025-08-05	OpenAI	GPT oss 120b	120 B	90 GB	Stabil
2024-07-24	Mistral	Mistral Large Instruct	122 B 122 B	114 GB 60 GB	Stabil Experimentell
2024-04-10	Mistral	Mixtral 8x22B	176 B	68 GB	Stabil
2025-12-08	Mistral	Devstral 2	123 B	65 GB	Experimentell
2025-09-01	Swiss AI	Apertus	70 B	67 GB	Stabil
2026-02-16	Alibaba Cloud	Qwen 3.5	397 B 122 B	233 GB 74 GB	Stabil Experimentell
2025-04-28	Alibaba Cloud	Qwen 3	235 B	133 GB	Stabil
2025-09-23	Alibaba Cloud	Qwen 3 VL	235 B	125 GB	Stabil
2025-09-10	Alibaba Cloud	Qwen 3 Next Thinking	80 B	44 GB	Stabil
2025-09-10	Alibaba Cloud	Qwen 3 Next Instruct	80 B	44 GB	Stabil
2025-07-22	Alibaba Cloud	Qwen 3 Coder	241 B	254 GB	Stabil
2026-02-03	Alibaba Cloud	Qwen 3 Coder Next	80 B	45 GB	Stabil
2026-02-10	Z AI	GLM 5	435 B	429 GB	Stabil
2025-12-22	Z AI	GLM 4.7	218 B	205 GB	Stabil
2025-09-30	Z AI	GLM 4.6	200 B	187 GB	Stabil
2025-11-06	Moonshot AI	Kimi K2 Thinking	1058 B	553 GB	Stabil
2026-01-27	Moonshot AI	Kimi K2.5	1058 B	550 GB	Stabil
2026-02-12	MiniMax AI	MiniMax M2.5	229 B 139 B	214 GB 74 GB	Stabil Experimentell
2025-01-20	DeepSeek AI	DeepSeek R1	396 B	394 GB	Stabil
2025-11-30	DeepSeek AI	DeepSeek V3.2	685 B 685 B 394 B	642 GB 337 GB 386 GB	Stabil Experimentell Stabil
2026-02-11	Stepfun AI	Step 3.5 Flash	199 B 121 B	194 GB 63 GB	Stabil Experimentell

Häufig gestellte Fragen

Parameter bezeichnen die Anzahl der lernbaren Gewichte im Modell (gemessen in Milliarden, z.B. 70B). Grösse bezieht sich auf den Speicherplatz, der für die Modelldateien benötigt wird (gemessen in GB). Quantisierte Modelle haben weniger Bits pro Parameter, was zu kleineren Dateigrössen führt, während die meisten Fähigkeiten des Modells erhalten bleiben.
Im Produktionsbetrieb benötigen Sie mehr VRAM als nur die Modellgrösse, da KV-Cache-Speicher für die Kontextverarbeitung erforderlich ist. Mit FP8-quantisiertem KV-Cache (Standard in der Produktion) planen Sie etwa 1,4–1,5× der Modellgrösse. Beispiel: Ein 550 GB Modell läuft komfortabel auf 768 GB VRAM mit FP8 KV-Cache. Dies ist praktisch verlustfrei — NVIDIA H100/H200 GPUs haben native FP8-Tensor-Core-Unterstützung, was es leistungsmässig kostenlos macht. Mit Standard-BF16-KV-Cache würden Sie stattdessen 1,7–2× der Modellgrösse benötigen.
Experimentelle Modelle sind neuere Quantisierungen oder Konfigurationen, die noch validiert werden. Sie können bessere Leistung oder Effizienz bieten, wurden aber noch nicht gründlich in Produktionsumgebungen getestet. Stabile Modelle wurden für zuverlässigen Betrieb verifiziert.
Wählen Sie basierend auf den benötigten Modellen. Grössere Modelle erfordern mehr VRAM. Die S-Stufe (96GB) bewältigt die meisten 70B-Modelle, die M-Stufe (384GB) unterstützt mehrere grosse Modelle gleichzeitig, L (768GB) und XL (1440GB) ermöglichen die grössten Frontier-Modelle wie Llama 4 Maverick und DeepSeek V3.
Ja, wenn Sie über ausreichend VRAM verfügen. Die Gesamtgrösse der geladenen Modelle muss in den verfügbaren Speicher Ihres Servers passen. Grössere Stufen ermöglichen den gleichzeitigen Betrieb mehrerer Modelle für verschiedene Anwendungsfälle.
Modalitäten geben an, welche Datentypen ein Modell verarbeiten (Eingabe) und erzeugen (Ausgabe) kann. Textmodelle verarbeiten geschriebene Inhalte, Bildmodelle können Bilder analysieren oder generieren, Code-Modelle sind für Programmieraufgaben optimiert, und multimodale Modelle kombinieren mehrere Fähigkeiten.

KI-Modelle

Frontier LLM Modelle für On Premise Deployments

Häufig gestellte Fragen