So spart man Tokens
Wie man das Maximum aus LLM-Interaktionen herausholt, ohne Qualität zu opfern
Einleitung
Bei der Arbeit mit Large Language Models (LLMs) wie Claude, ChatGPT oder anderen stößt man früher oder später auf Token-Limits. Die Frage ist: Sollte man viele kurze Chats führen oder einen langen Chat mit viel Kontext? Die Antwort ist nuancierter als man denkt.
Das Token-Problem verstehen
Was sind Tokens?
Tokens sind die Grundeinheiten, in denen LLMs Text verarbeiten. Grob gilt:
- 1 Token ≈ 0,75 Wörter (Englisch)
- 1 Token ≈ 0,5-0,6 Wörter (Deutsch)
Wie werden Tokens verbraucht?
Einzelne Nachricht in einem langen Chat:
────────────────────────────────────────
Deine Frage: ~100 Tokens
Conversation History: ~40.000 Tokens
LLM-Antwort: ~1.000 Tokens
───────────────────────────────────────
Gesamt pro Nachricht: ~41.100 Tokens
Der Overhead wächst mit jedem Austausch! Die gesamte Chat-History wird bei jeder Nachricht erneut verarbeitet.
Die zwei Strategien
Strategie A: Viele kurze Chats
Vorteile:
- ✅ Extrem token-effizient (~1.000 statt 41.000 Tokens pro Nachricht)
- ✅ Schnellere Antworten (weniger zu verarbeiten)
- ✅ “Frischer Start” ohne alte Annahmen
Nachteile:
- ❌ Kontext geht komplett verloren
- ❌ Ständiges Wiederholen von Grundlagen
- ❌ Keine Follow-up-Fragen möglich
- ❌ LLM kennt deinen Hintergrund nicht
Beispiel:
Neuer Chat ohne Kontext:
─────────────────────────
Du: "Sollte ich Python nutzen?"
LLM: "Kommt drauf an! Wofür?
Web? Data Science?
Welche Erfahrung hast du?"
→ Du musst alles neu erklären
Strategie B: Ein langer Chat
Vorteile:
- ✅ Voller Kontext verfügbar
- ✅ LLM “erinnert” sich an Diskussionen
- ✅ Natürlicher Gesprächsfluss
- ✅ Aufeinander aufbauende Antworten
- ✅ Höhere Antwortqualität
Nachteile:
- ❌ Token-intensiv (40× mehr pro Nachricht)
- ❌ Irgendwann ist das Limit erreicht
- ❌ Langsamere Verarbeitung
Beispiel:
Mit Kontext:
────────────
Du: "Sollte ich Python nutzen?"
LLM: "Für deine WordPress-Integration
mit ML-Features? Ja! Wie wir
besprochen haben, Microservices
mit FastAPI..."
→ Direkt hilfreiche Antwort!
Die Token-Strategie-Hierarchie
Level 1: Ignorieren (0-50% verbraucht)
Status: Genug Tokens vorhanden
Aktion: Weitermachen wie bisher
Fokus: Qualität > Effizienz
- Kontext ist wertvoller als Token-Einsparungen
- Natürlicher Gesprächsfluss wichtiger
- Noch kein Handlungsbedarf
Level 2: Bewusst sein (50-70%)
Status: Token-Budget wird knapp
Aktion: Aufmerksam werden
Fokus: Balance finden
- Token-Verbrauch im Auge behalten
- Eventuell kürzere Antworten erwägen
- Aber noch nicht resetten
Level 3: Zusammenfassen (70-85%)
Status: Kritische Token-Menge
Aktion: Zusammenfassung + Neustart
Fokus: Kontext retten, Tokens gewinnen
Die Hybrid-Strategie:
- LLM um Zusammenfassung bitten
- Kompakte Zusammenfassung erstellen (~2-3k Tokens)
- Neuen Chat starten
- Zusammenfassung als Kontext einfügen
- Weitermachen mit 16× mehr Kapazität
Beispiel einer Zusammenfassung:
## Chat-Zusammenfassung
**User-Kontext:**
- PHP/WordPress-Hintergrund
- Interesse an Python & ML/AI
- Sucht nach Performance-Optimierungen
**Besprochene Themen:**
1. Programmiersprachen-Vergleiche (Python vs PHP vs Java)
2. ML/AI Integration in Web-Apps
3. WordPress + Python Microservices
4. Token-Optimierung bei LLM-Chats
**Kernerkenntnisse:**
- Python dominant für ML/AI (LangChain, mpmath)
- PHP optimal für WordPress, nicht für Numerik
- Microservices-Ansatz für Hybrid-Stacks
Level 4: Abrunden (85-95%)
Status: Fast am Limit
Aktion: Letzte wichtige Fragen
Fokus: Abschluss vorbereiten
- Wichtigste offene Fragen klären
- Zusammenfassung für spätere Nutzung
- Chat würdevoll beenden
Level 5: Ende (95-100%)
Status: Token-Limit erreicht
Aktion: Neuer Chat erforderlich
Fokus: Neustart
Praktische Empfehlungen
Wann sollte man bei einem Chat bleiben?
✅ Bleib im gleichen Chat wenn:
- Zusammenhängendes Thema
- Viele Follow-up-Fragen
- Aufbauende Diskussion (A → B → C)
- Lernkonversation mit rotem Faden
- Noch unter 70% Token-Verbrauch
- Detailreichtum wichtig
Wann sollte man einen neuen Chat starten?
✅ Neuer Chat wenn:
- Komplett neues Thema
- Keine Verbindung zum vorherigen Kontext
- “Frische Perspektive” gewünscht
- Alter Chat wurde unübersichtlich
- Token-Budget über 70%
- Nur einfache Fragen
Die optimale Vorgehensweise
Phase 1 (0-70% Tokens):
→ Im Chat bleiben
→ Kontext voll nutzen
→ Qualität maximieren
Phase 2 (70% Tokens):
→ Zusammenfassung erstellen
→ Neuen Chat vorbereiten
→ Kontext komprimieren
Phase 3 (Neuer Chat):
→ Mit Zusammenfassung starten
→ Weitere 50+ Interaktionen möglich
→ Balance aus Kontext & Effizienz
Token-Effizienz vs. Antwortqualität
Der Tradeoff
| Metrik | Viele kurze Chats | Ein langer Chat |
|---|---|---|
| Token/Nachricht | ⭐⭐⭐⭐⭐ (1k) | ⭐⭐ (40k) |
| Antwortqualität | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Deine Zeit | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Natürlichkeit | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Lerneffekt | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
Die Wahrheit
Anfänger-Denken:
"Ich spare Tokens mit vielen kleinen Chats!"
→ Verschwendet Zeit mit Kontext-Wiederholung
→ Niedrigere Antwortqualität
Profi-Denken:
"Ein guter Chat mit Kontext ist wertvoller
als 10 oberflächliche ohne Kontext"
→ Nutzt Tokens für maximale Qualität
→ Strategisch zusammenfassen bei Bedarf
Konkrete Zahlen
Beispiel-Rechnung (200k Token Context Window)
Ohne Zusammenfassung:
Chat-History: 40.000 Tokens
Pro Nachricht: +40k Overhead
Verbleibend: 160.000 Tokens
─────────────────────────────
Mögliche Antworten: ~4 ausführliche
Mit Zusammenfassung:
Zusammenfassung: 3.000 Tokens
Pro Nachricht: +3k Overhead
Verbleibend: 197.000 Tokens
─────────────────────────────
Mögliche Antworten: ~65 ausführliche
→ 16× mehr Kapazität!
Best Practices
1. Kontext ist König
Behandle Chat-Kontext wie eine wertvolle Ressource:
- Nutze ihn vollständig aus (0-70%)
- Komprimiere ihn strategisch (70%+)
- Verwirf ihn nicht leichtfertig
2. Frühzeitige Planung
Wenn du weißt, dass du viele Fragen hast:
- Starte mit gezielten, aufbauenden Fragen
- Nutze den Kontext für Vertiefungen
- Plane die Zusammenfassung ein
3. Die Hybrid-Strategie
Erstelle Zusammenfassungen proaktiv:
1. Bei 50-60%: "Nebenbei" Zusammenfassung erstellen
2. Lokal speichern
3. Bei 70-80%: Neuen Chat mit Zusammenfassung
4. Backup-Plan vorhanden
4. Themen-Segmentierung
Chat A: Python-Basics & Syntax
↓
Zusammenfassung
↓
Chat B: Python für Web (mit Kontext)
↓
Zusammenfassung
↓
Chat C: Python ML/AI (mit Kontext)
5. Qualität dokumentieren
Nach einem guten, langen Chat:
- Wichtigste Erkenntnisse notieren
- Code-Beispiele speichern
- Zusammenfassung für später erstellen
Tools & Techniken
Token-Zählung
Viele LLM-Interfaces zeigen Token-Verbrauch:
- Claude: Im Interface sichtbar
- ChatGPT: Via API oder Extensions
- Lokale Models: Token-Counter-Tools
Zusammenfassungs-Prompt
"Fasse unseren bisherigen Chat zusammen.
Fokus auf:
- User-Kontext & Hintergrund
- Hauptthemen & Diskussionen
- Kernerkenntnisse & Entscheidungen
- Offene Fragen
Kompakt aber vollständig für Fortsetzung
in neuem Chat."
Fazit
Die goldene Regel:
Kontext schlägt Token-Effizienz bis zu einem Punkt – dieser Punkt liegt bei ~70% Verbrauch.
Die optimale Strategie:
- Nutze einen Chat für zusammenhängende Themen (0-70%)
- Erstelle eine Zusammenfassung bei 70% Verbrauch
- Starte neu mit Kontext für weitere Interaktionen
- Qualität vor Quantität – ein guter Chat > zehn oberflächliche
Remember:
Token-Limits sind wie Benzin im Tank. Du könntest ständig nachtanken (neue Chats), aber manchmal ist es besser, eine längere Strecke am Stück zu fahren (ein guter Chat) und dann an der richtigen Stelle strategisch nachzutanken (zusammenfassen & neustarten).
Über diesen Post
Dieser Artikel entstand aus einer Meta-Diskussion über Token-Optimierung während eines ausführlichen technischen Gesprächs mit Claude. Die Ironie: Die Diskussion über Token-Sparen war selbst token-intensiv – aber jeden Token wert! 😄
Kernbotschaft: Versteht das System, nutzt es strategisch, aber lasst euch nicht von Token-Paranoia die Qualität eurer Interaktionen ruinieren.