KI Begriffe Teil 2: Embeddings – Wie KI Bedeutung mathematisch versteht

Nachdem wir im ersten Teil dieser Serie erklärt haben, wie KI Texte in einzelne Tokens zerlegt, gehen wir nun einen Schritt weiter: Was passiert mit diesen Tokens danach? Wie versteht eine KI nicht nur Wörter, sondern auch deren Bedeutung und Zusammenhänge?

Die Antwort liegt in sogenannten Embeddings.

Was sind Embeddings?

Embeddings sind mathematische Repräsentationen von Texten oder Code. Jedes Wort – oder genauer gesagt: jedes Token – wird in einem hochdimensionalen Vektorraum verortet. Ähnlich wie man eine Stadt anhand von Längen- und Breitengrad auf einer Karte findet, lassen sich auch Begriffe wie „Katze“ oder „Demokratie“ in einem semantischen Raum platzieren.

Diese semantischen Vektoren bestehen oft aus Hunderten oder Tausenden von Zahlen. Gemeinsam bilden sie einen sogenannten „Embedding Space“ – ein Raum, in dem ähnliche Konzepte nah beieinanderliegen.

So funktionieren Embeddings

Bei modernen KI-Modellen – wie etwa GPT-4 oder OpenAI’s text-embedding-3-large – erhält jeder Textabschnitt (einzelne Wörter, Sätze oder Absätze) einen Vektor mit bis zu 1536 Dimensionen. Dieser Vektor kodiert die semantische Bedeutung des Inhalts.

Tokens mit ähnlicher Bedeutung liegen in diesem Raum näher beieinander: „Hund“ befindet sich nahe bei „Katze“, während „Giraffe“ etwas weiter entfernt liegt. Begriffe wie „Auto“ oder „Vertrag“ hingegen befinden sich in ganz anderen Regionen des Raums.

Beispiel: Bedeutung durch Rechnen

„König“ – „Mann“ + „Frau“ = „Königin“

Die KI rechnet hier tatsächlich mit Bedeutung: Sie nimmt den semantischen Vektor für „König“, entfernt die maskuline Komponente („Mann“), fügt die feminine Komponente („Frau“) hinzu – und landet mathematisch bei „Königin“.

OpenAI Embedding-Modelle: Schnell, kompakt und leistungsstark

OpenAI hat mit text-embedding-3-small und text-embedding-3-large neue Generationen von Embedding-Modellen veröffentlicht. Diese bieten:

Bessere semantische Genauigkeit: noch präzisere Nähe zwischen inhaltlich verwandten Begriffen.
Geringere Kosten: bis zu 5-fach günstiger pro Token als frühere Modelle.
Kleinere Vektorlängen auf Wunsch: z. B. nur 256 statt 1536 Dimensionen, was bei großen Datenmengen Speicher und Rechenleistung spart.

Diese Embeddings werden für viele Aufgaben verwendet: von der semantischen Suche und Empfehlungssystemen bis zur Klassifikation und Clustering großer Textmengen.

Wofür braucht man Embeddings?

Text-Embeddings messen die inhaltliche Ähnlichkeit von Texten. Embeddings werden typischerweise verwendet für:

Suche (Ergebnisse werden nach Relevanz zur Suchanfrage sortiert)
Clustering (Texte werden nach Ähnlichkeit gruppiert)
Empfehlungen (es werden Inhalte mit verwandten Texten vorgeschlagen)
Anomalieerkennung (Texte mit ungewöhnlich geringer Ähnlichkeit werden identifiziert)
Diversitätsmessung (Verteilungen von Ähnlichkeiten werden analysiert)
Klassifikation (Texte werden dem ähnlichsten Label zugeordnet)

Ein Embedding ist ein Vektor – also eine Liste aus Gleitkommazahlen. Der Abstand zwischen zwei Vektoren gibt an, wie ähnlich sich die Texte sind.

Kleine Abstände deuten auf hohe Ähnlichkeit hin, große Abstände auf geringe Ähnlichkeit.

Praxisbeispiel: Tiere wie Katzen

Wenn du ChatGPT nach „Tieren wie Katzen“ fragst, durchstöbert es nicht eine Liste, sondern sucht im Embedding-Raum nach Nachbarn von „Katze“. Die Antwort lautet dann z. B.: „Hund, Löwe, Tiger“ – weil diese mathematisch nah an der Position von „Katze“ liegen.

Fazit

Embeddings sind die Brücke zwischen Sprache und Bedeutung. Während Tokenisierung Texte in verarbeitbare Bausteine zerlegt, geben Embeddings diesen Bausteinen Tiefe und Kontext. Sie sind die Grundlage für alles, was moderne KI-Modelle wirklich „verstehen“.