KI Begriffe Teil 1: Tokenisierung – Tokenization

Tokenisierung (engl. Tokenization) beschreibt den Prozess, bei dem Texte in kleinere Einheiten – sogenannte Tokens – zerlegt werden. Diese Tokens sind gewissermaßen die „Worteinheiten“ oder „Bausteine“ der künstlichen Intelligenz – vergleichbar mit Atomen in der Chemie.

Ähnlich wie man eine Pizza in Stücke schneidet, um sie besser essen zu können, muss auch ein Text in kleinere Teile zerlegt werden, damit die KI ihn sinnvoll verarbeiten kann. Eine KI kann keinen kompletten Text in einem einzigen Verarbeitungsschritt „verschlingen“ – sie braucht handliche Einheiten.

Wie funktioniert Tokenisierung?

Bei der Tokenisierung zerlegt das KI-System Texte in Tokens. Diese Tokens können ganze Wörter sein, aber auch Wortteile, einzelne Buchstaben oder Satzzeichen. Welche Einheiten genau entstehen, hängt vom verwendeten Modell und dessen Tokenizer ab.

Beispielsweise wird das Wort „Credit Card Number“ vom GPT-4o & GPT-4o mini -Tokenizer in folgende 3 Tokens zerlegt:

Credit Card Number

[31546, 9958, 9184] Die folgende Grafik zeigt die Zerlegung mit den echten Token-IDs:

Credit → Token-ID: 31546
**Card **→ Token-ID: 9958
**Number **→ Token-ID: 9184

Ausprobieren kannst Du das mit dem Tokenizer von openai, wo man Texte in Tokens umrechnen kann.

Ein überraschender Effekt der Tokenisierung

Wenn du ChatGPT beispielsweise fragst, wie viele Buchstaben „R“ im englischen Wort strawberry vorkommen, kann es passieren, dass die Antwort „zwei“ lautet – obwohl es tatsächlich drei sind. Der Grund: Das Wort wird intern in zwei Tokens aufgeteilt – „straw“ und „berry“. Die enthaltenen Buchstaben liegen innerhalb dieser Tokens und werden dabei nicht einzeln erkannt oder gezählt.

Warum ist das wichtig?

Das Verständnis der Tokenisierung hat direkte praktische Auswirkungen:

Du zahlst bei den meisten KI-Anbietern (z. B. OpenAI) pro verarbeitetem Token – nicht pro Wort oder Zeichen.
Es erklärt, warum KI bei Wortspielen, Buchstabenrätseln oder Reimen manchmal scheitert.
Wenn du weißt, wie Tokenisierung funktioniert, kannst du Prompts gezielter schreiben – effizienter und präziser.

Tokenisierung ist also nicht nur ein technisches Detail, sondern die Grundlage für ein tieferes Verständnis von KI-Interaktion.

Typische Anwendungsbereiche der Tokenisierung

Verarbeitung natürlicher Sprache (Natural Language Processing, NLP)
Textklassifikation und -analyse
Maschinelle Übersetzung
Sentimentanalyse (Gefühlsanalyse)
Automatische Textzusammenfassung und -generierung

Fazit

Kurz gesagt: Ohne Tokenisierung könnte KI Sprache nicht verstehen – sie ist die Grundlage für jedes Sprachmodell. Wer sie versteht, hat einen klaren Vorteil bei der effektiven Nutzung von Systemen wie ChatGPT.

Im 2. Teil dieser Serie geht es um Embeddings, wo wir die Brücke zwischen Sprache und Bedeutung schlagen.

KI Begriffe Teil 1: Tokenisierung – Tokenization

Wie funktioniert Tokenisierung?

Ein überraschender Effekt der Tokenisierung

Warum ist das wichtig?

Typische Anwendungsbereiche der Tokenisierung

Fazit

Artikel hilfreich?

Verwandte Artikel

Autonome Service-Workforce: Was KI-Agenten im Kundenservice jetzt leisten müssen

KI-Reasoning wird zur geprüften Problemlösung: Was OpenAI, Gartner und Codex für KMUs bedeuten

KI-Adoption wird zum Arbeitsfluss: Was KMUs jetzt lernen

KI-Agenten brauchen einen Prüfstand: Was Google I/O 2026, Codex und KPMG für KMUs bedeuten