On-Premise KI für jede KMU
Mit der richtigen Wahl kann jedes KMU einen eigenen professionellen KI-Server vor Ort führen. Wir sagen worauf es ankommt und geben konkrete Empfehlungen basierend auf unserer praktischer Erfahrung.

Einleitung
Viele Kunden fragen uns: Gibt ob es top-moderne KIs nur in der Cloud? Existieren keine zahlbare on premise Lösungen? Während Cloud-Konzerne uns täglich mit verlockenden KI-Angeboten aus der Cloud benebeln, lassen On-Prem Lösungen für KMUs noch auf sich warten.
Für Schweizer Unternehmen in Bereichen wie Private Banking, Treuhand, Rechtswesen oder Medizinaltechnik, führt aber oft kein Weg an einer professionellen On-Premise-Infrastruktur vorbei: Die Risiken der Cloud können bei Schadensfällen wie Data Leaks oder Betriebsspionage eine zerstörende Wirkung auf die hart erarbeitete Reputation haben. Verständlicherweise wollen viele KMUs dieses Risiko nicht eingehen.
Die Unsicherheit ist gross: Welche konkreten On-Prem Lösungen für KMUs sind aktuell erfolgreich? Wie schneiden diese in der Leistung im Vergleich zur Cloud ab und was kosten sie? Auf dem Markt sehen wir leider zu viele Angebote welche auf unpassender Hardware laufen. Diese führen zu Enttäuschen und befeuern den Trugschluss, dass professionelle KIs nicht vor Ort betrieben werden können.
Wir möchten darum in diesem Artikel Klarheit schaffen und basierend auf unserer langjähriger praktischer Erfahrung konret benennen, worauf es bei einer erfolgreichen On-Prem-KI-Lösung ankommt.
Inhalt
- Die richtige KI für professionelle on premises Anwendungen auswählen
- KI-Server vs. KI direkt auf dem eigenen Rechner?
- Passende Hardware mit idealem Preis-Leistungs-Verhätnis
- Modulare Server-Software für einen reibungslosen Betrieb
Die Richtige KI für Professionelle On Premises Anwendungen Auswählen
Gibt es die besten KIs nur in der Cloud? Zumindest scheint es oft so, wenn man den Cloud-Anbietern zuhört. Tatsache ist aber: Viele der aktuell weltbesten KIs aus der Cloud sind Open Source, mit Lizenzen welche gar eine kommerzielle Nutzung kostenlos zulassen. Die Auswahl ist fast zu gross und es werden fortlaufend neue open source KIs veröffentlicht. Welche KI ist nun aber die richtige für mich? Wonach wählt man aus?
Ein einziger Faktor hat sich in der Praxis als geeigneter Startpunkt bewahrheitet: Die Modellgrösse in GB (checkpoint). Wichtig: Modellgrösse in GB ist nicht das gleiche wie die Anzahl parameter! Die Anzahl Parameter kann irreführend sein, wenn Modelle zum Beispiel stark quantifiziert sind. Die Modellgrösse in GB spielt eine entscheidende Rolle für die Intelligenz einer KI und für die Auswahl der Hardware.
Die KI-Modellgrössen im Vergleich
Kategorie | Klein | Mittel | Gross |
---|---|---|---|
Modellgrösse | 2 - 5GB | 14 - 20GB | 60GB+ |
Intelligenz | unzuverlässig 😟 | brauchbar 🙂 | spitzen-klasse 😁 |
MMLU Benchmark auf Open-Source-KI | 63 Mistral:7b | 85 gpt-oss:20b | 90 gpt-oss:120b |
Vergleichbare Closed-Source-KIs | schlechter als GPT 3.5 besser als GPT 3 | GPT o4-mini Claude 3.5 Sonet Gemini 1.5 Pro | GPT 4.1 GPT 5 |
Typische Hardware | CPU, Kleine Grafikkarte | Nvidia RTX 5090 | Nvidia RTX Pro 6000 |
Geschwindigkeit | ca. 2 Wörter / s | ca. 30 Wörter / s | ca. 60 Wörter / s |
(Zu) Kleine KI
Kleine KIs sorgen in den Medien immer wieder für Begeisterung: Eine KI die auf einem Minicomputer läuft, das klingt schon faszinierend. Leider geht es bei solchen Beiträgen vor allem darum Klicks zu sammeln. Wenn man ernsthaft mit kleinen KIs zu arbeiten versucht, merkt man schnell: Sie begreifen oft die Aufgabe nicht richtig, reden viel ohne etwas konkretes zu sagen (“Politiker-Syndrom”), schweifen vom Thema ab oder erfinden im schlimmsten Fall Fakten die es nicht gibt (oft als “halluzinieren” bezeichnet).
Die Konsequenz: Man verbringt zu viel Zeit damit die Aufgabe wiederholt zu erklären oder die Resultate zu korrigieren und ist als Nutzer letztendlich nur enttäuscht. Darum raten wir von KIs, die zu klein dimensioniert sind, schlichtwegs ab. Bei on premise KI-Produkten sollte man darum auch stets auf die Modellgröße achten: Alles unter 14GB oder unter 20B Parameter ist in der Regel nicht auf Dauer arbeitstauglich.
Mittelgrosse KI
Mittlerweile durchaus praxistauglich im professionellen Umfeld. Das Preis-Leistungs-Verhältnis überzeugt. Zwar besteht weiterhin ein gewisser Nachbearbeitungsbedarf, doch insgesamt bieten diese KIs einen echten Mehrwert und steigern die Produktivität spürbar.
Besonders im kreativen Bereich, Marketing oder Vertrieb glänzen diese Modelle. Sie erledigen zuverlässig Aufgaben mit überschaubarer Komplexität, wie zum Beispiel die Erstellung intelligenter Vorlagen oder das Verfassen von Antwort-Entwürfen.
Grosse KI
Für anspruchsvolle Einsatzgebiete wie Private Banking, Treuhand, Medizintechnik oder Verteidigung sind grosse KI-Modelle unverzichtbar. In diesen hochsensiblen Branchen, wo Faktengenauigkeit und Zuverlässigkeit oberste Priorität haben, bieten nur die grossen KI-Modelle ausreichend Sicherheit.
Der entscheidende Vorteil dieser Spitzenklasse-KIs liegt in ihrer überlegenen kognitiven Fähigkeit. Sie verarbeiten komplexe Zusammenhänge, denken vorausschauend mit und berücksichtigen selbständig kritische Details. Bei Unklarheiten stellen sie gezielt Rückfragen, um Missverständnisse zu vermeiden – ein essenzieller Sicherheitsmechanismus für geschäftskritische Anwendungen.
KI-Server vs. KI direkt auf dem eigenen Rechner?
Die professionelle Nutzung von KI im Unternehmen erfordert eine stabile und leistungsstarke Infrastruktur. Wir empfehlen darum Ihre KI-Anwendungen auf einem dedizierten Server zu betreiben, der speziell für diese rechenintensiven Aufgaben konfiguriert ist und unabhängig von Ihren alltäglichen Arbeitsgeräten funktioniert.
Separation of Concerns
Stabilität spielt eine entscheidende Rolle im professionellen Umfeld: Darum raten wir unseren Kunden ihre KI auf einem eigenen Server mit passender Hardware zu betreiben. Dies reduziert potenzielle Risiken wie Systemüberlastungen und gewährleistet, dass andere geschäftskritische Anwendungen ungestört weiterlaufen können.
Büro-Rechner oder Laptops sind konzipiert für die Benutzeroberfläche und Software die wenig Rechenleistung erfordert, wie zum Beispiel Office Anwendungen. Grosse KI-Modelle hingegen stellen enorme Rechenaufgaben dar und erfordern dementsprechend eine andere Umgebung der Software und Hardware.
Eine saubere Trennung ist nicht stabiler und flexibler. Wenn die KI auf einem eigenen Server läuft, lassen sich Updates, Wartung und Datensicherungen zentral und unabhängig vom Arbeitsplatz durchführen. So behalten Sie die Kontrolle über ihre Büro-Rechner, während die künstliche Intelligenz zuverlässig weiterarbeitet.
Lautstärke und Abwärme
Rechenleistung bedeutet Wärme, bedeutet Kühlung, bedeutet meistens Lärm. Ähnlich wie bei Gaming-Computern produzieren mittlere und grosse KI-Modelle viel Abwärme und dementsprechend Lärm bei der Kühlung. Für Gamer mit Kopfhörern mag dies kein Problem darstellen, aber im Büro muss man sich konzentrieren können. Die erforderliche Kühlung eines professionellen KI-Systems mit 600W ähnelt in vielerlei einem kleinen Staubsauger und stört die Konzentration.
Idealerweise hat man einen Server-Raum oder einen abschliessbaren Raum wie z.Bsp. einen Keller oder gar eine Besenkammer, wo man den KI-Server unterbringen kann. Kleinere Server-Cluster kommen dann meist ohne Klima-Anlage für den Raum aus. Wenn diese Möglichkeit nicht besteht und man einen KI-Server im Arbeitsraum aufstellen muss, dann wäre eine Wasserkühlung ratsam. Diese brauchen zwar auch Ventilatoren und sind etwas teuerer aber auch deutlich leiser bei gleicher Leistung, weil die Abwärme auf eine grössere Fläche verteilt werden kann.
Background-Tasks
Ein dedizierter KI-Server kann im Hintergrund kontinuierlich Vorarbeit leisten. Es gibt verschiedene Arten solcher “Background Tasks”. Zum einen können Dokumente indexiert werden, was zu einer deutlich effizienteren und erfolgreichen Suche mittels KI führen kann. Dabei werden Dokumente mittels Embeddings in einen vektoriellen Raum übertragen, wodurch semantische Ähnlichkeiten erkannt und Suchanfragen präziser beantwortet werden können.
Eine andere Form der Hintergrundarbeiten, die zur Effizienzsteigerung in einem KMU beitragen, ist die automatisierte Dokumentenverarbeitung. Dabei können beispielsweise eingehende E-Mails analysiert und daraus automatisch strukturierte Reports erstellt werden. Auch fortlaufende Qualitäts- und Compliance-Kontrollen lassen sich im Hintergrund durchführen, was Ressourcen spart und die Einhaltung von Standards sicherstellt.
Passende Hardware mit idealem Preis-Leistungs-Verhätnis
Professionelle KI-Modelle erfordern eine durchdachte Kombination aus besonders viel Rechenspeicher und einer hoher Bandbreite, für das grosse Datenvolumen zwischen diesem Speicher und den verwendeten Prozessoren.
Für On-Premise KI-Lösungen stehen heute grundsätzlich zwei Optionen zur Verfügung: UMA oder GPU-basierte Systeme. Im der folgenden Tabelle haben wir für Sie konkrete Beispiele beider Architekturen zusammen gestellt, für den praktischen Einsatz professioneller KI im KMU-Umfeld:
Beelink GTR9 Pro | Apple Studio 96GB | Gaming PC | Gaming PC | Workstation | |
---|---|---|---|---|---|
Architektur | UMA | UMA | GPU | GPU | GPU |
Grafikkarten-Modell | Radeon 8060S iGPU | Integriert | RX 7900 XTX | Nvidia RTX 5090 | Nvidia RTX Pro 6000 |
Framework | ROCm | ROCm / Vulcan | ROCm | NVIDIA | NVIDIA |
Bandwidth | 256 GB/s | 409 GB/s | 960 GB/s | 1’792 GB/s | 1’792 GB/s |
Preis Gesamtsystem ca. | € 2000 | € 3800 | € 2’500 (GPU only: € 1’000) | € 3’600 (GPU only: € 2’100) | € 10’500 (GPU only: € 9’000) |
VRAM | 128 GB | 96 GB | 24 GB | 32 GB | 96 GB |
Passend für | Grosse KI 😁 | Grosse KI 😁 | Mittlere KI 😑 | Mittlere KI 😑 | Grosse KI 😁 |
LLM Benchmark Max MMLU | 90 gpt-oss:120b | 90 gpt-oss:120b | 85 gpt-oss:20b | 85 gpt-oss:20b | 90 gpt-oss:120b |
KI Geschwindigkeit | Brauchbar 😑 | Knapp 😟 | Brauchbar 😑 | Schnell 😁 | Schnell 😁 |
Wörter / s (as token/2) | 12 | 9 | 16 | 95 | 95 |
Time to first token bei ca 10 Seiten Kontext | 1s | 30s | 3s | 1s | 1s |
Vergleichbar zu: | GPT 4.1 | GPT 4.1 | GPT o4-mini | GPT o4-mini | GPT 4.1 |
$ Kosten pro MMLU (Weniger ist besser) | 16 | 31 | 12 | 25 | 100 |
$ Kosten pro Bandbreite | 5.5 | 6.8 | 1.0 | 1.2 | 5.0 |
Lüftung Lautstärke | Leise | Leise | Laut | Laut | Laut |
Power Draw | 230 W | 270 W | 350 W | 575 W | 600 W |
Conclusion | Best for interactive use. (Best price/perf for large LLM) | Best price for medium size LLMs | Best for batch processing. (best price/perf for medium size LLM) | Best overall, but also huge price tag |
Grafikkarten
Grafikkarten sind die ungeschlagenen Sieger im Preis um die passende Hardware für mittlere und grosse KI-Modelle. Es mag verwirrend sein: Warum ausgerechnet Grafikkarten, wenn Chatbots doch so Text-basiert sind?
KI-Modelle und 3D-Visualisierungen haben etwas gemeinsam: Die mathematischen Grundlagen der Matrizen-Berechnungen. Keine Angst: wir werden Sie hier nicht damit langweilen, nur kurz gesagt: Die selben mathematischen Berechnungen, die bei perspektivischen Darstellungen verwendet werden, ermöglichen auch das effiziente Berechnen von neuralen Netzwerken. Grafikkarten wurden ursprünglich für perspektivische Darstellungen entwickelt, eignen sich nun heute darum aber ebenso für KI-Modelle.
Die grossen Hersteller arbeiten mit Hochdruck an Hardware die Spezifisch für neurale Netzwerke etnwickelt wurde, aber Hardware Lifecycles für Grundlegende Architektur-Änderungen dauern Jahrzehnte und bis es soweit ist, werden wohl weiterhin moderne Grafikkarten die Nase vorn haben. Ein Vorreiter in diesem Bereich könnte die Unified Memory Architecture sein, welche wir im kommenden Abschnitt genauer erklären.
Unified Memory Architecture (UMA)
Die meisten computer haben zwei separate Arbeitsspeicher: Einen RAM-Speicher den Prozessor (CPU) und einen VRAM-Speicher für die Grafikeinheit (GPU). Diese Trennung hat sich durchgesetzt weil eine sie Flexibilität bietet die sehr wirtschaftlich ist: Die einzelnen Komponenten können in der Masse hergestellt und je nach Nutzer und Bedarf beliebig in einem Rechner zusammengesetzt werden.
Die klassische Trennung von RAM- und VRAM-Speicher hat aber auch Nachteile: Die Komponenten sind mittels Steckplätzen verbunden und liegen deshalb “relativ weit” auseinander. Es handelt sich zwar nur um Zentimeter, aber wir reden hier von astronomischen Geschwindigkeiten, bei welchen die Distanz zwischen Speicher und Recheneinheit eine entscheidende Rolle spielt.
In einer Unified Memory Architecture (UMA) sind die beiden Speicher, RAM und VRAM, in einem einzigen Speicher vereint. Dies ermöglicht die Reduzierung der Distanz zwischen dem Arbeitsspeicher und den Prozessoren, zugunsten einer höheren Bandbreite. Um noch bessere Bandbreiten zu erreichen werden Arbeitsspeicher und Prozessoren fix auf das Mainboard gelötet, wie es bei den Apple Prozessoren oder KI-Optimierten UMA Architekturen der Fall ist.
In der Praxis erreichen fix-gelötete UMA-Architekturen etwa 4x so viel Bandbreite wie konventionelle, auf Steckplätzen basierte Komponenten, sind aber dennoch ca. 4x langsamer als Grafikkarten. Diese Bandbreite hat einen Direkten Einfluss auf die Geschwindigkeit der KI in Wörtern pro Sekunde.
Cluster
Bei der Konfiguration eines KI-Clusters mit Endverbraucher-Hardware spielt der kleinste gemeinsame Nenner eine entscheidende Rolle. Die Leistungsfähigkeit des Gesamtsystems wird maßgeblich durch die schwächste Komponente bestimmt. Obwohl die Rechenleistung durch das Hinzufügen weiterer Server-Knoten multipliziert werden kann, muss jede einzelne Komponente bestimmte Mindestanforderungen erfüllen.
Ein anschauliches Beispiel: Es wäre nicht sinnvoll, 20 Raspberry Pis zu einem Cluster zusammenzuschließen, um darauf ein großes KI-Modell zu betreiben. Selbst bei der theoretisch addierten Rechenleistung wäre das System in der Praxis unbrauchbar langsam, da jeder einzelne Knoten die Mindestanforderungen für effiziente KI-Berechnungen nicht erfüllt.
Als Faustregel gilt: Bei Endverbraucher Hardware bestimmt die leistungsschwächste Komponente im KI-Cluster, welche Modellgröße mit welcher Geschwindigkeit betrieben werden kann. Für die Bedienung mehrerer Nutzer parallel lassen sich diese Basiskomponenten dann effektiv clustern und im Verbund einsetzen, wodurch der Durchsatz, nicht aber die Einzelgeschwindigkeit, linear skaliert werden kann.
Modulare Server-Software für einen reibungslosen Betrieb
Jeder kennt das Problem: Windows braucht wieder mal ein Update und danach funktioniert etwas auf einmal nicht mehr. Diesem Phänomen liegt die Tatsache zugrunde, dass Programme von verschiedenen Entwicklern auf einem Rechner zusammenarbeiten müssen, ohne sich gegenseitig zu stören. Es bestehen Abhängigkeiten die bei Updates durcheinander geraten können.
Betriebssysteme wie Windows, Linux oder OSX wurden über Jahrzehnte kontinuierlich weiterentwickelt und verbessert. Im professionellen Bereich gibt es aber meistens eine Null-Toleranz für Inkompatibilitäten. Es kommen darum zusätzliche Mittel zum Einsatz um Stabilität und Prozesssicherheit zu maximieren und dementsprechend Wartungsaufwand und Ausfälle zu reduzieren.
Docker Compose

Die wohl bekannteste und am weitesten verbreitete Platform für einen modularen Betrieb komplexer Software heisst “Docker Compose”. Docker basiert auf dem Konzept von sogenanten “Containern”, ähnlich zu Schiffscontainern im globalen Handel. Durch rigorose Standards der Form-Faktoren und statischen Anforderungen passen Container weltweit auf verschiedenste Schiffe, Züge und Lastwagen und lassen sich beliebig stapeln, komplett unabhängig von ihrem Inhalt. Sie sind weltweit einsetzbar.
Software-Container sind ebenso inhaltlich unabhängig von ihrer Umgebung. Für Unternehmen bedeutet dies, dass verschiedene Anwendungen isoliert und sicher laufen können, ohne dass Konflikte entstehen. Docker Compose eignet sich besonders für kleinere KMU-Setups und den schnellen Einstieg in die professionelle KI-Welt.
Über eine kompakte docker-compose.yml
-Datei lassen sich mehrere Services – etwa eine KI-API, eine Datenbank und ein Web-Frontend – mit einem einzigen Befehl starten. Dies reduziert die Komplexität erheblich und ermöglicht es auch IT-Teams ohne tiefe DevOps-Erfahrung, eine stabile On-Prem-Infrastruktur einzurichten. Besonders überzeugend: Updates und Rollbacks lassen sich mit Compose sehr einfach durchführen, was die Betriebssicherheit in KMUs deutlich steigert.
Typische Anwendungsfälle in KMUs sind:
- Bereitstellung einzelner KI-Instanzen für die interne Nutzung
- Dokumentensuche mit Elasticsearch oder MeiliSearch kombiniert mit einer KI-Schnittstelle
- Kleine Pilotprojekte, die sich später auf Kubernetes skalieren lassen
Kubernetes
Sobald dutzende Nutzer gleichzeitig auf eine KI-Infrastruktur zugreifen oder verschiedene Modelle parallel betrieben werden sollen, ist Kubernetes die professionelle Lösung. Kubernetes bietet automatisches Skalieren, Lastverteilung und Selbstheilungsmechanismen, wenn ein Service ausfällt. Dadurch lassen sich auch größere Setups mit mehreren GPU-Servers in einem Cluster stabil betreiben.
Für KMUs ist der Einstieg in Kubernetes zwar komplexer, bringt jedoch klare Vorteile:
- Zentrale Verwaltung von Clustern mit mehreren KI-Servern
- Automatisches Ausrollen von Updates ohne Ausfallzeit
- Integration von Load-Balancern, Secrets und Monitoring-Tools
- Flexible Erweiterung um weitere Services wie Vector-Datenbanken oder API-Gateways
Besonders in sensiblen Branchen wie Banking und Medizin, in denen hohe Verfügbarkeit Pflicht ist, lohnt sich Kubernetes als stabile Grundlage. In kleineren Umgebungen ist oft ein hybrider Ansatz sinnvoll: Pilotphase mit Docker Compose, Skalierung später auf Kubernetes.
Fernwartung
Bei On-Premise-Systemen ist eine professionelle Wartung sehr empfehlenswert. Ausfälle können den Geschäftsbetrieb massiv stören. Tools zur Fernwartung sorgen dafür, dass Systemadministratoren jederzeit einen Überblick über die Performance behalten und im Falle von Störungen frühzeitig eingreifen können.
Wichtige Bausteine für die Fernwartung sind:
- Prometheus + Grafana für detaillierte Metriken (GPU-Auslastung, Speicherverbrauch, Netzwerklast)
- Alertmanager mit E-Mail, SMS oder Teams/Slack-Benachrichtigungen bei kritischen Zuständen
- Remote-Logging-Lösungen wie Loki oder ELK-Stack, um Fehlerursachen im Nachhinein nachvollziehen zu können
- VPN-Tunnel für sicheren Zugriff auf Dashboards und Wartungssysteme, auch außerhalb des Büros
Ein modular aufgebautes Überwachungs-Setup sorgt nicht nur für Sicherheit, sondern auch für Transparenz: Entscheidungsträger können die Effizienz ihrer On-Premise-KI jederzeit nachvollziehen und argumentieren so besser gegenüber der Geschäftsleitung, dass sich die Investition lohnt.