KI Begriffe Teil 1: Tokenisierung – Tokenization
14. Juli 20252 Min. LesezeitKI

KI Begriffe Teil 1: Tokenisierung – Tokenization

Tokenisierung (engl. Tokenization) beschreibt den Prozess, bei dem Texte in kleinere Einheiten – sogenannte Tokens – zerlegt werden. Diese Tokens sind gewissermaßen die „Worteinheiten“ oder „Bausteine“ der künstlichen Intelligenz – vergleichbar mit Atomen in der Chemie. Ähnlich wie man eine Pizza in Stücke schneidet, um sie besser essen zu können, muss auch ein Text in

Inhaltsverzeichnis

Tokenisierung (engl. Tokenization) beschreibt den Prozess, bei dem Texte in kleinere Einheiten – sogenannte Tokens – zerlegt werden. Diese Tokens sind gewissermaßen die „Worteinheiten“ oder „Bausteine“ der künstlichen Intelligenz – vergleichbar mit Atomen in der Chemie.

Ähnlich wie man eine Pizza in Stücke schneidet, um sie besser essen zu können, muss auch ein Text in kleinere Teile zerlegt werden, damit die KI ihn sinnvoll verarbeiten kann. Eine KI kann keinen kompletten Text in einem einzigen Verarbeitungsschritt „verschlingen“ – sie braucht handliche Einheiten.

Wie funktioniert Tokenisierung?

Bei der Tokenisierung zerlegt das KI-System Texte in Tokens. Diese Tokens können ganze Wörter sein, aber auch Wortteile, einzelne Buchstaben oder Satzzeichen. Welche Einheiten genau entstehen, hängt vom verwendeten Modell und dessen Tokenizer ab.

Beispielsweise wird das Wort „Credit Card Number“ vom GPT-4o & GPT-4o mini -Tokenizer in folgende 3 Tokens zerlegt:

Credit Card Number

[31546, 9958, 9184] Die folgende Grafik zeigt die Zerlegung mit den echten Token-IDs:

  • Credit → Token-ID: 31546

  • **Card **→ Token-ID: 9958

  • **Number **→ Token-ID: 9184

Ausprobieren kannst Du das mit dem Tokenizer von openai, wo man Texte in Tokens umrechnen kann.

Ein überraschender Effekt der Tokenisierung

Wenn du ChatGPT beispielsweise fragst, wie viele Buchstaben „R“ im englischen Wort strawberry vorkommen, kann es passieren, dass die Antwort „zwei“ lautet – obwohl es tatsächlich drei sind. Der Grund: Das Wort wird intern in zwei Tokens aufgeteilt – „straw“ und „berry“. Die enthaltenen Buchstaben liegen innerhalb dieser Tokens und werden dabei nicht einzeln erkannt oder gezählt.

Warum ist das wichtig?

Das Verständnis der Tokenisierung hat direkte praktische Auswirkungen:

  • Du zahlst bei den meisten KI-Anbietern (z. B. OpenAI) pro verarbeitetem Token – nicht pro Wort oder Zeichen.

  • Es erklärt, warum KI bei Wortspielen, Buchstabenrätseln oder Reimen manchmal scheitert.

  • Wenn du weißt, wie Tokenisierung funktioniert, kannst du Prompts gezielter schreiben – effizienter und präziser.

Tokenisierung ist also nicht nur ein technisches Detail, sondern die Grundlage für ein tieferes Verständnis von KI-Interaktion.

Typische Anwendungsbereiche der Tokenisierung

  • Verarbeitung natürlicher Sprache (Natural Language Processing, NLP)

  • Textklassifikation und -analyse

  • Maschinelle Übersetzung

  • Sentimentanalyse (Gefühlsanalyse)

  • Automatische Textzusammenfassung und -generierung

Fazit

Kurz gesagt: Ohne Tokenisierung könnte KI Sprache nicht verstehen – sie ist die Grundlage für jedes Sprachmodell. Wer sie versteht, hat einen klaren Vorteil bei der effektiven Nutzung von Systemen wie ChatGPT.

Im 2. Teil dieser Serie geht es um Embeddings, wo wir die Brücke zwischen Sprache und Bedeutung schlagen.

Teilen:

Artikel hilfreich?

Wenn du ähnliche Themen für dein Business strukturieren willst, unterstütze ich dich gerne bei Content-Strategie, SEO und KI-Workflow.

Vorheriger Artikel

Die Revolution der Künstlichen Intelligenz: Eine ausführliche Einführung in Large Language Models (LLMs)

Nächster Artikel

KI Begriffe Teil 2: Embeddings – Wie KI Bedeutung mathematisch versteht

Verwandte Artikel

KI Begriffe Teil 2: Embeddings – Wie KI Bedeutung mathematisch versteht

KI

KI Begriffe Teil 2: Embeddings – Wie KI Bedeutung mathematisch versteht

Nachdem wir im ersten Teil dieser Serie erklärt haben, wie KI Texte in einzelne Tokens zerlegt, gehen wir nun einen Schritt weiter: Was passiert mit diesen Tokens danach? Wie versteht eine KI nicht nur Wörter, sondern auch deren Bedeutung und Zusammenhänge? Die Antwort liegt in sogenannten Embeddings. Was sind Embeddings? Embeddings sind mathematische Repräsentationen von

Weiterlesen
KI-Kontaktformular-Revolution: Nie wieder Spam – So analysiert & reagiert dein Formular automatisch!

KI

KI-Kontaktformular-Revolution: Nie wieder Spam – So analysiert & reagiert dein Formular automatisch!

Schluss mit dem Spam-Wahnsinn! Stell dir vor, dein Kontaktformular arbeitet intelligenter als je zuvor. Es liest jede Nachricht, erkennt Spam zuverlässig, leitet wichtige Anfragen weiter und fragt sogar nach, wenn Infos fehlen – alles automatisch! Klingt nach Zukunftsmusik? Ist es aber nicht! Dieser Artikel enthüllt, welche WordPress-Plugins diese bahnbrechende Technologie schon heute nutzen, um deine

Weiterlesen
MCP: Der Schlüssel zur nächsten KI-Generation? Was hinter dem Hype um das Model Context Protocol steckt

KI

MCP: Der Schlüssel zur nächsten KI-Generation? Was hinter dem Hype um das Model Context Protocol steckt

Künstliche Intelligenz (KI) ist in aller Munde. Von Chatbots wie ChatGPT, die Gedichte schreiben, bis hin zu Systemen, die komplexe Probleme lösen – KI verändert unsere Welt rasant.1 Doch während wir die beeindruckenden Fähigkeiten dieser Technologien bestaunen, bleibt oft im Verborgenen, wie sie eigentlich funktionieren und welche unsichtbaren Helfer im Hintergrund agieren. Eine dieser neuen,

Weiterlesen
Wie KI alles verändern wird

KI

Wie KI alles verändern wird

In den letzten Wochen habe ich mit mehreren Menschen über KI gesprochen, und oft hatte ich den Eindruck, dass ihr Weltbild nicht so stark erschüttert wurde wie meines. Ich möchte erklären, warum ich das so empfinde. Die nächste große Veränderung ChatGPT hat sich inzwischen ähnlich nahtlos in unser tägliches Leben eingefügt wie einst die Google-Suche,

Weiterlesen