On-Premise-KI skaliert flexibel und schrittweise: Sie können horizontal skalieren (mehr Server hinzufügen) oder vertikal skalieren (leistungsstärkere Hardware). Kubernetes-Cluster ermöglichen automatische Skalierung.

Skalierungsstrategien

Horizontal skalieren (mehr Server)

Vorteil:

  • Server können schrittweise hinzugefügt werden
  • Keine Ersetzung bestehender Hardware erforderlich
  • Flexible Erweiterung

Beispiel-Skalierung:

  • Start: 1x AMD Ryzen AI Max+ 395 (€2,500)
  • Wachstum: +1x AMD Ryzen AI Max+ 395 (€2,500)
  • Weiteres Wachstum: +1x NVIDIA RTX Pro 6000 (€10,500)

Wichtig:

  • Bei Consumer-Hardware bestimmt die schwächste Komponente die Gesamtperformance
  • Alle Server müssen Mindestanforderungen erfüllen

Vertikal skalieren (leistungsstärkere Hardware)

Vorteil:

  • Höhere Performance pro Server
  • Weniger Verwaltungsaufwand
  • Einfacheres Management

Upgrade-Pfad:

  • Start: AMD Ryzen AI Max+ 395 (12 Wörter/s)
  • Upgrade: NVIDIA RTX 5090 (95 Wörter/s)
  • Weiteres Upgrade: NVIDIA RTX Pro 6000 (95 Wörter/s, mehr VRAM)

Hybrid-Ansatz

Kombination:

  • Basis-Server für Standard-Workloads
  • Leistungsstarke Server für kritische Anwendungen
  • Cluster-Management mit Kubernetes

Kubernetes-Cluster

Automatische Skalierung

Für größere Setups:

  • Automatische Skalierung mit Kubernetes
  • Load Balancing für optimale Ressourcennutzung
  • Self-Healing bei Ausfällen
  • Zentrale Verwaltung mehrerer Server

Vorteile:

  • Automatische Skalierung bei Bedarf
  • Optimale Ressourcennutzung
  • Hohe Verfügbarkeit

Cluster-Management

Funktionen:

  • Zentrale Verwaltung mehrerer Server
  • Automatisches Load Balancing
  • Rolling Updates ohne Ausfallzeiten
  • Self-Healing bei Ausfällen

Skalierung ohne Datenverlust

Modulare Architektur

Vorteile:

  • Server können hinzugefügt werden ohne bestehende Konfigurationen zu ändern
  • Modelle bleiben auf allen Servern verfügbar
  • Daten können zentral verwaltet werden
  • Keine Datenmigration erforderlich

Docker Compose zu Kubernetes

Migrationspfad:

  • Start mit Docker Compose (einfach)
  • Schrittweise zu Kubernetes (bei Bedarf)
  • Nahtlose Migration möglich

Kosten bei Skalierung

Vorhersehbare Kosten

On-Premise:

  • Zusätzliche Hardware nur bei Bedarf
  • Keine Nutzungsabhängigkeit
  • Vorhersehbare Kosten

Cloud:

  • Jeder zusätzliche Nutzer = mehr Token-Kosten
  • Unvorhersehbare Kosten

Break-Even bei Skalierung

Je mehr Nutzer, desto schneller amortisiert sich die Hardware:

  • 10 Nutzer: Break-Even in 12-18 Monaten
  • 30 Nutzer: Break-Even in 6-9 Monaten
  • 50+ Nutzer: Break-Even in 3-6 Monaten

Typische Skalierungsszenarien

Szenario 1: Wachsendes Team

Start: 5 Entwickler, 1 Server Nach 6 Monaten: 15 Entwickler, +1 Server Nach 12 Monaten: 30 Entwickler, +1 leistungsstarker Server

Szenario 2: Neue Use Cases

Start: Dokumentenverarbeitung, 1 Server Nach 3 Monaten: + Code-Analyse, +1 Server Nach 6 Monaten: + Echtzeit-Chat, Upgrade auf leistungsstärkere Hardware

Szenario 3: Multi-Tenant

Start: Ein Business Unit, 1 Server Nach 6 Monaten: +2 Business Units, +2 Server (isoliert) Nach 12 Monaten: Kubernetes-Cluster mit Load Balancing

Nächste Schritte

Möchten Sie mehr über Skalierung erfahren?


Quellen und weiterführende Informationen: