Dieser Datensatz liefert realistische Token-Verbrauchsschätzungen für 64 gängige KI-Aufgaben in verschiedenen Kategorien, die in Unternehmens-Büroumgebungen häufig vorkommen: Kommunikation, Coding, Analyse, Planung, Dokumentenverarbeitung und multimodale Aufgaben (Vision, Audio, Mixed).
Über diesen Datensatz
Der Datensatz vergleicht den Token-Verbrauch zwischen Standard-Modellen (wie GPT-4o) und Reasoning-Modellen (wie OpenAI o1). Reasoning-Modelle nutzen zusätzliche versteckte Tokens, um Probleme Schritt für Schritt zu „durchdenken”, bevor sie Antworten generieren – was zu präziseren und zuverlässigeren Ergebnissen führt.
Dieser Datensatz wurde aus realen Anwendungsfällen in unseren Enterprise-KI-Implementierungsprojekten zusammengestellt und anschließend mit Daten aus den unten aufgeführten autoritativen Quellen validiert und erweitert. Die Token-Schätzungen spiegeln tatsächliche Produktions-Workloads wider und kann zur modellierung von theoretische Szenarien verwendet werden.
Zentrale Erkenntnisse:
- Einfache Aufgaben (z.B. „Hello World”) nutzen ~300-500 zusätzliche Tokens für Reasoning
- Komplexe Aufgaben (Mathe, Debugging, Logik) profitieren am meisten: Reasoning-Modelle nutzen 10-20x mehr Tokens, liefern aber deutlich bessere Genauigkeit
- Multimodale Aufgaben (Bilder, Audio) haben hohe Basis-Kosten vor jeglichem Reasoning
- Audio ist extrem token-dicht: ~1.000-1.200 Tokens pro Minute
Token-Verbrauch Datensatz
Der vollständige Datensatz ist verfügbar zum Download als CSV-Datei.
| Kategorie | Aufgabe | Beschreibung | Input-Tokens | Output-Tokens (Normal) | Output-Tokens (Reasoning) | Bilder | Audio (Min) |
|---|---|---|---|---|---|---|---|
| Kommunikation | Kurze E-Mail verfassen | Krankmeldung an Chef schreiben | 50 | 100 | 450 | 0 | 0 |
| Kommunikation | Höfliche Absage | Hochzeitseinladung höflich ablehnen | 60 | 120 | 500 | 0 | 0 |
| Kommunikation | Ton anpassen | Absatz professioneller klingen lassen | 150 | 150 | 800 | 0 | 0 |
| Kommunikation | Bewerbungsanschreiben | Anschreiben für Vertriebsposition schreiben | 200 | 400 | 1800 | 0 | 0 |
| Kommunikation | Auf SMS antworten | 3 witzige Antworten auf SMS geben | 40 | 60 | 500 | 0 | 0 |
| Kommunikation | Grammatikprüfung | Grammatik in 200-Wort-Memo korrigieren | 200 | 150 | 900 | 0 | 0 |
| Coding | Hello World Script | Python Hello World Script schreiben | 30 | 20 | 350 | 0 | 0 |
| Coding | Excel-Formel-Hilfe | Formel für VLOOKUP Spalte A in Blatt 2 | 50 | 50 | 1200 | 0 | 0 |
| Coding | Regex-Generierung | Regex zur E-Mail-Validierung | 80 | 70 | 1500 | 0 | 0 |
| Coding | SQL-Query-Generierung | Top 5 User nach Ausgaben aus Tabellen selektieren | 100 | 100 | 1800 | 0 | 0 |
| Coding | Code debuggen | Fehler in 50-Zeilen Python-Funktion finden | 600 | 200 | 4500 | 0 | 0 |
| Coding | Code refactoren | Code effizienter umschreiben | 700 | 300 | 5000 | 0 | 0 |
| Coding | Error-Log erklären | Was bedeutet dieser Stack Trace? | 350 | 150 | 2500 | 0 | 0 |
| Analyse | Artikel zusammenfassen | 1000-Wort-Artikel zusammenfassen | 1400 | 200 | 3500 | 0 | 0 |
| Analyse | Daten extrahieren | Alle Daten und Namen aus Text auflisten | 1000 | 200 | 2800 | 0 | 0 |
| Analyse | Mathe-Textaufgabe | Wenn Zug Chicago mit 60 mph verlässt… | 100 | 50 | 2500 | 0 | 0 |
| Analyse | Logik-Rätsel lösen | Zwei-Türen-zwei-Wächter-Rätsel lösen | 120 | 80 | 2000 | 0 | 0 |
| Analyse | Finanzanalyse | CSV-Zeilen auf Trends analysieren | 600 | 200 | 3500 | 0 | 0 |
| Analyse | Sentiment-Analyse | Ist Kunden-Review positiv? | 80 | 70 | 600 | 0 | 0 |
| Planung | Essensplan | Gesunden 3-Tage-Essensplan erstellen | 150 | 350 | 1500 | 0 | 0 |
| Planung | Reise-Itinerary | 3-Tages-Wochenende in Tokyo planen | 200 | 600 | 2500 | 0 | 0 |
| Planung | Titel brainstormen | 10 catchy Titel für KI-Blog | 100 | 100 | 800 | 0 | 0 |
| Planung | Haiku schreiben | Haiku über Ozean schreiben | 30 | 30 | 400 | 0 | 0 |
| Planung | Geschenk-Ideen | Geschenkideen für Papa, der Golf mag | 100 | 200 | 1000 | 0 | 0 |
| Planung | Rollenspiel-Szenario | Tu so, als wärst du Karriere-Coach | 150 | 450 | 1500 | 0 | 0 |
| Dokumentenverarbeitung | Rechnungsdaten extrahieren | Lieferant, Summe, Datum aus 2-seitiger Rechnung extrahieren | 900 | 300 | 2800 | 0 | 0 |
| Dokumentenverarbeitung | Vertrag zusammenfassen | Kernpunkte aus 10-seitigem Rechtsvertrag zusammenfassen | 4000 | 500 | 9000 | 0 | 0 |
| Dokumentenverarbeitung | Lebenslauf-Screening | Relevante Skills aus 2-seitigem Lebenslauf extrahieren | 1100 | 400 | 3200 | 0 | 0 |
| Dokumentenverarbeitung | Dokument übersetzen | 5-seitiges spanisches Dokument ins Englische übersetzen | 2300 | 700 | 6500 | 0 | 0 |
| Dokumentenverarbeitung | Markdown formatieren | 500-Wort Word-Doc in strukturiertes Markdown konvertieren | 1200 | 600 | 4000 | 0 | 0 |
| Dokumentenverarbeitung | JSON-Schema parsen | Fehlerhaftes JSON-Dokument validieren und reparieren | 500 | 300 | 2200 | 0 | 0 |
| Dokumentenverarbeitung | CSV zu SQL | 100-Zeilen-CSV zu INSERT-Statements konvertieren | 1200 | 800 | 4500 | 0 | 0 |
| Dokumentenverarbeitung | Tabellendaten extrahieren | Tabelle aus PDF extrahieren und umstrukturieren (500 Zeilen) | 2800 | 700 | 7000 | 0 | 0 |
| Dokumentenverarbeitung | Versionen vergleichen | Änderungen zwischen 2 Versionen eines 5-Seiten-Docs identifizieren | 1700 | 500 | 5500 | 0 | 0 |
| Dokumentenverarbeitung | Code-PR reviewen | 200-Zeilen Code-Pull-Request auf Bugs reviewen | 1300 | 500 | 4500 | 0 | 0 |
| Dokumentenverarbeitung | API-Docs generieren | Dokumentation aus 50-Funktionen-Sourcefile erstellen | 1800 | 700 | 5500 | 0 | 0 |
| Multimodal (Vision) | Bild beschreiben | Inhalt eines einzelnen Fotos beschreiben | 800 | 150 | 2200 | 1 | 0 |
| Multimodal (Vision) | OCR-Dokument | Text aus Bild handgeschriebener Notiz extrahieren | 850 | 200 | 2400 | 1 | 0 |
| Multimodal (Vision) | Diagramm analysieren | Datentrends aus Balkendiagramm-Bild interpretieren | 950 | 350 | 3000 | 1 | 0 |
| Multimodal (Vision) | Screenshot-Analyse | UI aus Application-Screenshot debuggen | 900 | 350 | 3800 | 1 | 0 |
| Multimodal (Vision) | Objekte identifizieren | Alle Objekte in Bild eines Lagers auflisten | 800 | 300 | 2800 | 1 | 0 |
| Multimodal (Vision) | Bilder vergleichen | Unterschiede zwischen 2 Produktfotos finden | 1600 | 600 | 4500 | 2 | 0 |
| Multimodal (Vision) | Whiteboard lesen | Gleichung auf Whiteboard-Foto transkribieren | 800 | 250 | 2600 | 1 | 0 |
| Multimodal (Audio) | Audio transkribieren | 5-Minuten Audio-Interview transkribieren | 5000 | 800 | 11000 | 0 | 5 |
| Multimodal (Audio) | Meeting-Notizen extrahieren | Zusammenfassung und Action Items aus 30-Min-Meeting generieren | 30000 | 1000 | 58000 | 0 | 30 |
| Multimodal (Audio) | Speaker identifizieren | Sprecher und Emotion in 2-Min-Audio-Clip identifizieren | 2000 | 300 | 4800 | 0 | 2 |
| Multimodal (Audio) | Audio übersetzen | 10-Min deutsches Audio transkribieren und ins Englische übersetzen | 10000 | 1000 | 21000 | 0 | 10 |
| Multimodal (Mixed) | Dokument + Bild | Textdokument mit zugehörigen Fotos abgleichen | 1500 | 1000 | 5500 | 2 | 0 |
| Multimodal (Mixed) | Video-Beschreibung | Inhalt aus 2-Min-Video beschreiben (Frames + Audio) | 2300 | 2200 | 9500 | 3 | 2 |
| Multimodal (Mixed) | Multi-Bild-Vergleich | Änderungen über 5 Produkt-Design-Mockups vergleichen | 4200 | 600 | 9500 | 5 | 0 |
| Dokumentenverarbeitung | 50-Seiten Technical Report zusammenfassen | Kernerkenntnisse aus 50-seitigem technischem PDF ohne Bilder zusammenfassen | 20000 | 1200 | 26000 | 0 | 0 |
| Dokumentenverarbeitung | KPIs aus 50-Seiten Jahresbericht extrahieren | Umsatz, Gewinn und Wachstums-KPIs aus 50-Seiten-Jahresbericht extrahieren | 22000 | 1500 | 28000 | 0 | 0 |
| Dokumentenverarbeitung | 100-Seiten Regulatory Filing zusammenfassen | Executive Summary von 100-Seiten Regulatory Filing (10-K/10-Q) erstellen | 40000 | 2000 | 52000 | 0 | 0 |
| Dokumentenverarbeitung | Zwei 50-Seiten-Verträge vergleichen | Unterschiede und Risiken zwischen zwei 50-Seiten-Rechtsverträgen identifizieren | 38000 | 2500 | 60000 | 0 | 0 |
| Dokumentenverarbeitung | 5k-Zeilen-Codebase-Datei auditieren | 5000-Zeilen-Code-Einzeldatei auf Bugs und Architektur-Probleme reviewen | 35000 | 3000 | 70000 | 0 | 0 |
| Multimodal (Vision) | 20-Seiten gescanntes PDF verarbeiten | OCR und Strukturierung von 20-seitigem gescanntem PDF (nur Bild) | 16000 | 2000 | 30000 | 20 | 0 |
| Multimodal (Mixed) | 50-Seiten-Report mit Charts analysieren | 50-Seiten-PDF mit Text plus 10 Diagramm-Bildern zusammenfassen | 23000 | 2000 | 32000 | 10 | 0 |
| Multimodal (Audio) | 60-Min-Podcast transkribieren | Vollständige Transkription einer 60-Minuten-Podcast-Episode | 60000 | 3000 | 75000 | 0 | 60 |
| Multimodal (Audio) | 90-Min-Uni-Vorlesung zusammenfassen | Strukturierte Notizen und Abschnitte aus 90-Minuten-Vorlesungsaufzeichnung generieren | 90000 | 4000 | 90000 | 0 | 90 |
| Multimodal (Audio) | 2-Std-Support-Call-Log analysieren | Issues, Sentiments und Eskalationspunkte aus 2-Std-Support-Call extrahieren | 120000 | 5000 | 110000 | 0 | 120 |
| Multimodal (Mixed) | 10-Min-Produkt-Demo-Video beschreiben | Features und UX aus 10-Minuten-Demo-Video zusammenfassen (Screen + Narration) | 18000 | 3000 | 22000 | 10 | 10 |
| Multimodal (Mixed) | 45-Min-Webinar mit Slides zusammenfassen | Strukturierte Zusammenfassung aus 45-Min-Webinar-Audio plus 30 Slide-Bildern generieren | 75000 | 4000 | 80000 | 30 | 45 |
| Multimodal (Mixed) | 60-Min-Überwachungskamera-Material reviewen | Schlüsselereignisse in 60-Min-stiller Überwachungsaufzeichnung identifizieren | 48000 | 2500 | 52000 | 40 | 0 |
Datenquellen & Methodik
Dieser Datensatz wurde aus den folgenden autoritativen Quellen zusammengestellt:
Allgemeiner Tokenizer
- Tiktokenizer (OpenAI): Standard-Text-Tokenisierungsregel: 1 Wort ≈ 1,3 Tokens (1000 Tokens ≈ 750 Wörter).
Reasoning-Modelle
- OpenAI o1 System Card: Reasoning-Tokens sind versteckte Output-Tokens, die das Modell zum „Denken“ nutzt, bevor es antwortet. Können von Hunderten bis Zehntausenden reichen je nach Komplexität.
- PromptLayer-Analyse (o1 vs GPT-4o): Reasoning-Modelle nutzen oft 3-10x mehr Tokens für komplexe Aufgaben wie Coding oder Mathe aufgrund interner Chain-of-Thought-Generierung.
- Reddit Community-Analyse (Hidden Tokens): User-Benchmarks zeigen: Einfache Aufgaben nutzen ~300 versteckte Tokens, während komplexe Coding-Aufgaben 5.000+ versteckte Tokens übersteigen können.
- Arxiv: Vergleichsstudie zu Reasoning-Patterns: Vergleichende Benchmarks zeigen: Reasoning-Modelle verbrauchen 10x-20x mehr Tokens bei komplexen Logik-Aufgaben.
- Clarifai Reasoning-Modell-Vergleich: Benchmarks für harte Mathe-/Logik-Probleme zeigen: Reasoning-Token-Verbrauch überschreitet oft 30.000+ für schwierige Queries.
- Databricks: Long Context RAG & o1: Hebt hervor, dass Reasoning-Modelle scheitern oder Output-Limits erreichen können bei sehr großen Kontexten (z.B. 100+ Seiten).
Vision-Aufgaben
- OpenAI Vision-Dokumentation: Bilder werden in 512x512-Tiles verarbeitet. High-Detail-Modus kostet ~85 Tokens Basis + 170 Tokens pro Tile. Standard-1080p-Bild ist oft ~765-1105 Tokens.
- Cursor IDE Blog (GPT-4o Bildkosten): Praktische Aufschlüsselung der Bildkosten: Low Detail ist fix bei 85 Tokens. High Detail skaliert mit Auflösung.
Audio-Aufgaben
- OpenAI-Preise (Audio): Audio-Inputs werden separat von Text abgerechnet. GPT-4o Audio-Input ist ~€0,06/Min (Realtime).
- Microsoft Azure AI Blog (Audio-Tokens): Audio-Tokenisierung ist dicht. Ca. 1 Minute Audio ≈ 1.000 - 1.200 Audio-Tokens für Abrechnungszwecke.
- OpenAI GPT-4o Audio-Guide: Technische Details, wie Audio tokenisiert und verarbeitet wird, bestätigt die Unterscheidung zwischen Input-Audio-Tokens und Output-Text-Tokens.
Dokumentenverarbeitung
- Arxiv: Chain of Draft: Diskutiert Token-Effizienz bei Reasoning-Modellen für Entwurfs- und Dokumentaufgaben, hebt Overhead von „Denk“-Schritten hervor.
Allgemeine Aufgaben
- Awesome LLM Tasks (GitHub): Kuratierte Liste praktischer LLM-Aufgaben zur Ableitung der gängigen Aufgabenkategorien.
Anwendungsfälle
- Kostenschätzung: Berechnen Sie erwartete API-Kosten für Ihre KI-Anwendungen
- Modellauswahl: Wählen Sie zwischen Standard- und Reasoning-Modellen basierend auf Aufgabenkomplexität
- Budgetierung: Planen Sie KI-Infrastrukturkosten für Produktions-Workloads
- Forschung: Benchmarken und vergleichen Sie Token-Effizienz über verschiedene Aufgabentypen hinweg
Verwandte Ressourcen
Möchten Sie sehen, wie sich diese Aufgaben in reale Workloads übersetzen? Lesen Sie unsere detaillierte Analyse:
KI-Kosten nach Büro-Rolle - Wir nutzen diesen Datensatz, um typischen täglichen Token-Verbrauch für verschiedene Business-Rollen (Executive Assistant, Recruiter, Financial Analyst, Corporate Counsel, Software Engineer) zu berechnen und zeigen, was KI-Kosten in Ihrer Organisation treibt.
Zitation
Wenn Sie diesen Datensatz in Ihrer Forschung oder Anwendungen nutzen, zitieren Sie bitte:
onprem.ai Research (2025). Realer LLM-Token-Verbrauch: Datensatz.
Abgerufen von https://onprem.ai/de/knowhow/llm-token-usage-dataset/