KI & LLM Modelle – onprem.ai

Sortieren:

Modalität:

Modell Qwen 3.6 VL

Releasedate 2026-04-24

Anbieter

Alibaba Cloud

Modalität

Parameter Total 35B

Parameter Aktiv 3B

Grösse 24gb

Status Testing

Modell Nemotron OCR v2

Releasedate 2026-04-02

Anbieter

Nvidia

Modalität

Parameter Total 0.1B

Parameter Aktiv 0.1B

Grösse 0.4gb

Status Testing

Modell Gemma 4

Releasedate 2026-04-02

Anbieter

Google

Modalität

Parameter Total 31B

Parameter Aktiv 31B

Grösse 32gb

Status Testing

Modell Cohere Transcribe

Releasedate 2026-03-25

Anbieter

Cohere Labs

Modalität

Parameter Total 2B

Parameter Aktiv 2B

Grösse 2gb

Status Testing

Modell Nemotron 3 Super

Releasedate 2026-03-10

Anbieter

Nvidia

Modalität

Parameter Total 124B

Parameter Aktiv 12B

Grösse 74gb

Status Stabil

Modell LTX-2.3

Releasedate 2026-03-03

Anbieter

Lightricks

Modalität

Parameter Total 22B

Parameter Aktiv 22B

Grösse 20gb

Status Stabil

Modell Qwen 3.5

Releasedate 2026-02-16

Anbieter

Alibaba Cloud

Modalität

Parameter Total 397B

Parameter Aktiv 17B

Grösse 233gb

Status Stabil

Modell MiniMax M2.5

Releasedate 2026-02-12

Anbieter

MiniMax AI

Modalität

Parameter Total 229B

Parameter Aktiv 10B

Grösse 130gb

Status Stabil

Modell Step 3.5 Flash

Releasedate 2026-02-11

Anbieter

Stepfun AI

Modalität

Parameter Total 199B

Parameter Aktiv 11B

Grösse 194gb

Status Stabil

Modell GLM 5

Releasedate 2026-02-10

Anbieter

Z AI

Modalität

Parameter Total 435B

Parameter Aktiv 40B

Grösse 429gb

Status Stabil

Modell Qwen 3 Coder Next

Releasedate 2026-02-03

Anbieter

Alibaba Cloud

Modalität

Parameter Total 80B

Parameter Aktiv 3B

Grösse 45gb

Status Stabil

Modell Paddle OCR VL 1.5

Releasedate 2026-01-28

Anbieter

Baidu

Modalität

Parameter Total 1B

Parameter Aktiv 1B

Grösse 1gb

Status Stabil

Modell DeepSeek OCR v2

Releasedate 2026-01-27

Anbieter

DeepSeek AI

Modalität

Parameter Total 3B

Parameter Aktiv 0.6B

Grösse 7gb

Status Stabil

Modell Trinity Large

Releasedate 2026-01-27

Anbieter

Arcee AI

Modalität

Parameter Total 398B

Parameter Aktiv 13B

Grösse 376gb

Status Experimentell

Modell Kimi K2.5

Releasedate 2026-01-26

Anbieter

Moonshot AI

Modalität

Parameter Total 1058B

Parameter Aktiv 32B

Grösse 550gb

Status Stabil

Modell GLM 4.7

Releasedate 2025-12-22

Anbieter

Z AI

Modalität

Parameter Total 358B

Parameter Aktiv 32B

Grösse 203gb

Status Stabil

Modell Devstral 2

Releasedate 2025-12-08

Anbieter

Mistral

Modalität

Parameter Total 123B

Parameter Aktiv 123B

Grösse 119gb

Status Experimentell

Modell Mistral Large 3

Releasedate 2025-12-01

Anbieter

Mistral

Modalität

Parameter Total 673B

Parameter Aktiv 41B

Grösse 375gb

Status Stabil

Modell DeepSeek V3.2

Releasedate 2025-11-30

Anbieter

DeepSeek AI

Modalität

Parameter Total 685B

Parameter Aktiv 37B

Grösse 642gb

Status Stabil

Modell FLUX.2 Dev

Releasedate 2025-11-25

Anbieter

Black Forest Labs

Modalität

Parameter Total 32B

Parameter Aktiv 32B

Grösse 60gb

Status Stabil

Modell Kimi K2 Thinking

Releasedate 2025-11-06

Anbieter

Moonshot AI

Modalität

Parameter Total 1058B

Parameter Aktiv 32B

Grösse 553gb

Status Stabil

Modell GLM 4.6

Releasedate 2025-09-30

Anbieter

Z AI

Modalität

Parameter Total 200B

Parameter Aktiv 32B

Grösse 187gb

Status Stabil

Modell Qwen 3 VL

Releasedate 2025-09-23

Anbieter

Alibaba Cloud

Modalität

Parameter Total 235B

Parameter Aktiv 22B

Grösse 125gb

Status Stabil

Modell Qwen 3 Next Thinking

Releasedate 2025-09-10

Anbieter

Alibaba Cloud

Modalität

Parameter Total 80B

Parameter Aktiv 3B

Grösse 44gb

Status Stabil

Modell Qwen 3 Next Instruct

Releasedate 2025-09-10

Anbieter

Alibaba Cloud

Modalität

Parameter Total 80B

Parameter Aktiv 3B

Grösse 44gb

Status Stabil

Modell Apertus

Releasedate 2025-09-01

Anbieter

Swiss AI

Modalität

Parameter Total 70B

Parameter Aktiv 70B

Grösse 67gb

Status Stabil

Modell GPT OSS

Releasedate 2025-08-05

Anbieter

OpenAI

Modalität

Parameter Total 120B

Parameter Aktiv 5B

Grösse 60gb

Status Stabil

Modell Qwen 3 Coder

Releasedate 2025-07-22

Anbieter

Alibaba Cloud

Modalität

Parameter Total 241B

Parameter Aktiv 35B

Grösse 254gb

Status Stabil

Modell Qwen 3

Releasedate 2025-04-28

Anbieter

Alibaba Cloud

Modalität

Parameter Total 235B

Parameter Aktiv 22B

Grösse 133gb

Status Stabil

Modell Llama 4 Maverick

Releasedate 2025-04-05

Anbieter

Meta

Modalität

Parameter Total 405B

Parameter Aktiv 405B

Grösse 381gb

Status Stabil

Modell Mixtral 8x22B

Releasedate 2024-04-10

Anbieter

Mistral

Modalität

Parameter Total 176B

Parameter Aktiv 40B

Grösse 68gb

Status Stabil

Modell	Anbieter	Releasedate	Parameter Total	Parameter Aktiv	Grösse	Status
Qwen 3.6 VL	Alibaba Cloud	2026-04-24	35B	3B	24gb	Testing
Nemotron OCR v2	Nvidia	2026-04-02	0.1B	0.1B	0.4gb	Testing
Gemma 4	Google	2026-04-02	31B	31B	32gb	Testing
Cohere Transcribe	Cohere Labs	2026-03-25	2B	2B	2gb	Testing
Nemotron 3 Super	Nvidia	2026-03-10	124B	12B	74gb	Stabil
LTX-2.3	Lightricks	2026-03-03	22B	22B	20gb	Stabil
Qwen 3.5	Alibaba Cloud	2026-02-16	397B	17B	233gb	Stabil
MiniMax M2.5	MiniMax AI	2026-02-12	229B	10B	130gb	Stabil
Step 3.5 Flash	Stepfun AI	2026-02-11	199B	11B	194gb	Stabil
GLM 5	Z AI	2026-02-10	435B	40B	429gb	Stabil
Qwen 3 Coder Next	Alibaba Cloud	2026-02-03	80B	3B	45gb	Stabil
Paddle OCR VL 1.5	Baidu	2026-01-28	1B	1B	1gb	Stabil
DeepSeek OCR v2	DeepSeek AI	2026-01-27	3B	0.6B	7gb	Stabil
Trinity Large	Arcee AI	2026-01-27	398B	13B	376gb	Experimentell
Kimi K2.5	Moonshot AI	2026-01-26	1058B	32B	550gb	Stabil
GLM 4.7	Z AI	2025-12-22	358B	32B	203gb	Stabil
Devstral 2	Mistral	2025-12-08	123B	123B	119gb	Experimentell
Mistral Large 3	Mistral	2025-12-01	673B	41B	375gb	Stabil
DeepSeek V3.2	DeepSeek AI	2025-11-30	685B	37B	642gb	Stabil
FLUX.2 Dev	Black Forest Labs	2025-11-25	32B	32B	60gb	Stabil
Kimi K2 Thinking	Moonshot AI	2025-11-06	1058B	32B	553gb	Stabil
GLM 4.6	Z AI	2025-09-30	200B	32B	187gb	Stabil
Qwen 3 VL	Alibaba Cloud	2025-09-23	235B	22B	125gb	Stabil
Qwen 3 Next Thinking	Alibaba Cloud	2025-09-10	80B	3B	44gb	Stabil
Qwen 3 Next Instruct	Alibaba Cloud	2025-09-10	80B	3B	44gb	Stabil
Apertus	Swiss AI	2025-09-01	70B	70B	67gb	Stabil
GPT OSS	OpenAI	2025-08-05	120B	5B	60gb	Stabil
Qwen 3 Coder	Alibaba Cloud	2025-07-22	241B	35B	254gb	Stabil
Qwen 3	Alibaba Cloud	2025-04-28	235B	22B	133gb	Stabil
Llama 4 Maverick	Meta	2025-04-05	401B	17B	379gb	Stabil
DeepSeek R1	DeepSeek AI	2025-01-20	396B	37B	394gb	Stabil
Mistral Large Instruct	Mistral	2024-07-24	122B	122B	114gb	Stabil
Llama 3.1	Meta	2024-07-23	405B	405B	381gb	Stabil
Mixtral 8x22B	Mistral	2024-04-10	176B	40B	68gb	Stabil

Häufig gestellte Fragen

Parameter bezeichnen die Anzahl der lernbaren Gewichte im Modell (gemessen in Milliarden, z.B. 70B). Grösse bezieht sich auf den Speicherplatz, der für die Modelldateien benötigt wird (gemessen in GB). Quantisierte Modelle haben weniger Bits pro Parameter, was zu kleineren Dateigrössen führt, während die meisten Fähigkeiten des Modells erhalten bleiben.
Im Produktionsbetrieb benötigen Sie mehr VRAM als nur die Modellgrösse, da KV-Cache-Speicher für die Kontextverarbeitung erforderlich ist. Mit FP8-quantisiertem KV-Cache (Standard in der Produktion) planen Sie etwa 1,4–1,5× der Modellgrösse. Beispiel: Ein 550 GB Modell läuft komfortabel auf 768 GB VRAM mit FP8 KV-Cache. Dies ist praktisch verlustfrei — NVIDIA H100/H200 GPUs haben native FP8-Tensor-Core-Unterstützung, was es leistungsmässig kostenlos macht. Mit Standard-BF16-KV-Cache würden Sie stattdessen 1,7–2× der Modellgrösse benötigen.
Experimentelle Modelle sind neuere Quantisierungen oder Konfigurationen, die noch validiert werden. Sie können bessere Leistung oder Effizienz bieten, wurden aber noch nicht gründlich in Produktionsumgebungen getestet. Stabile Modelle wurden für zuverlässigen Betrieb verifiziert.
Wählen Sie basierend auf den benötigten Modellen. Grössere Modelle erfordern mehr VRAM. Die S-Stufe (96GB) bewältigt die meisten 70B-Modelle, die M-Stufe (384GB) unterstützt mehrere grosse Modelle gleichzeitig, L (768GB) und XL (1440GB) ermöglichen die grössten Frontier-Modelle wie Llama 4 Maverick und DeepSeek V3.
Ja, wenn Sie über ausreichend VRAM verfügen. Die Gesamtgrösse der geladenen Modelle muss in den verfügbaren Speicher Ihres Servers passen. Grössere Stufen ermöglichen den gleichzeitigen Betrieb mehrerer Modelle für verschiedene Anwendungsfälle.
Modalitäten geben an, welche Datentypen ein Modell verarbeiten (Eingabe) und erzeugen (Ausgabe) kann. Textmodelle verarbeiten geschriebene Inhalte, Bildmodelle können Bilder analysieren oder generieren, Code-Modelle sind für Programmieraufgaben optimiert, und multimodale Modelle kombinieren mehrere Fähigkeiten.

KI-Modelle

Frontier LLM Modelle für On Premise Deployments

Häufig gestellte Fragen