
KI Begriffe Teil 1: Tokenisierung – Tokenization
Tokenisierung (engl. Tokenization) beschreibt den Prozess, bei dem Texte in kleinere Einheiten – sogenannte Tokens – zerlegt werden. Diese Tokens sind gewissermaßen die „Worteinheiten“ oder „Bausteine“ der künstlichen Intelligenz – vergleichbar mit Atomen in der Chemie. Ähnlich wie man eine Pizza in Stücke schneidet, um sie besser essen zu können, muss auch ein Text in
Inhaltsverzeichnis
Tokenisierung (engl. Tokenization) beschreibt den Prozess, bei dem Texte in kleinere Einheiten – sogenannte Tokens – zerlegt werden. Diese Tokens sind gewissermaßen die „Worteinheiten“ oder „Bausteine“ der künstlichen Intelligenz – vergleichbar mit Atomen in der Chemie.
Ähnlich wie man eine Pizza in Stücke schneidet, um sie besser essen zu können, muss auch ein Text in kleinere Teile zerlegt werden, damit die KI ihn sinnvoll verarbeiten kann. Eine KI kann keinen kompletten Text in einem einzigen Verarbeitungsschritt „verschlingen“ – sie braucht handliche Einheiten.
Wie funktioniert Tokenisierung?
Bei der Tokenisierung zerlegt das KI-System Texte in Tokens. Diese Tokens können ganze Wörter sein, aber auch Wortteile, einzelne Buchstaben oder Satzzeichen. Welche Einheiten genau entstehen, hängt vom verwendeten Modell und dessen Tokenizer ab.
Beispielsweise wird das Wort „Credit Card Number“ vom GPT-4o & GPT-4o mini -Tokenizer in folgende 3 Tokens zerlegt:
Credit Card Number
[31546, 9958, 9184] Die folgende Grafik zeigt die Zerlegung mit den echten Token-IDs:
-
Credit → Token-ID: 31546
-
**Card **→ Token-ID: 9958
-
**Number **→ Token-ID: 9184
Ausprobieren kannst Du das mit dem Tokenizer von openai, wo man Texte in Tokens umrechnen kann.
Ein überraschender Effekt der Tokenisierung
Wenn du ChatGPT beispielsweise fragst, wie viele Buchstaben „R“ im englischen Wort strawberry vorkommen, kann es passieren, dass die Antwort „zwei“ lautet – obwohl es tatsächlich drei sind. Der Grund: Das Wort wird intern in zwei Tokens aufgeteilt – „straw“ und „berry“. Die enthaltenen Buchstaben liegen innerhalb dieser Tokens und werden dabei nicht einzeln erkannt oder gezählt.
Warum ist das wichtig?
Das Verständnis der Tokenisierung hat direkte praktische Auswirkungen:
-
Du zahlst bei den meisten KI-Anbietern (z. B. OpenAI) pro verarbeitetem Token – nicht pro Wort oder Zeichen.
-
Es erklärt, warum KI bei Wortspielen, Buchstabenrätseln oder Reimen manchmal scheitert.
-
Wenn du weißt, wie Tokenisierung funktioniert, kannst du Prompts gezielter schreiben – effizienter und präziser.
Tokenisierung ist also nicht nur ein technisches Detail, sondern die Grundlage für ein tieferes Verständnis von KI-Interaktion.
Typische Anwendungsbereiche der Tokenisierung
-
Verarbeitung natürlicher Sprache (Natural Language Processing, NLP)
-
Textklassifikation und -analyse
-
Maschinelle Übersetzung
-
Sentimentanalyse (Gefühlsanalyse)
-
Automatische Textzusammenfassung und -generierung
Fazit
Kurz gesagt: Ohne Tokenisierung könnte KI Sprache nicht verstehen – sie ist die Grundlage für jedes Sprachmodell. Wer sie versteht, hat einen klaren Vorteil bei der effektiven Nutzung von Systemen wie ChatGPT.
Im 2. Teil dieser Serie geht es um Embeddings, wo wir die Brücke zwischen Sprache und Bedeutung schlagen.
Vorheriger Artikel
Die Revolution der Künstlichen Intelligenz: Eine ausführliche Einführung in Large Language Models (LLMs)
Nächster Artikel
KI Begriffe Teil 2: Embeddings – Wie KI Bedeutung mathematisch versteht



