Warum KIs beim Buchstabieren raten

Stell dir einen Baumeister vor, der Hochhäuser in Sekunden hochzieht. Er legt keine einzelnen Ziegel, sondern nutzt riesige Fertigbauteile. Er greift sich eine Platte mit der Aufschrift „Küche“ und klickt sie fest. So ähnlich verarbeiten moderne KIs Text: Sie lesen nicht Buchstabe für Buchstabe, sondern schnappen sich ganze Wortblöcke – sogenannte Token.

Doch dann ruft der Architekt: „Nimm den dritten Ziegel von links raus!“ Der Baumeister erstarrt. Seine Platten sind fest versiegelt; er kann die einzelnen Steine darin weder sehen noch fühlen. Für ihn ist das Bauteil ein einziger, solider Block. Das ist das Problem: Die KI versteht zwar die Bedeutung des ganzen Wortes, ist aber für die einzelnen Buchstaben darin praktisch blind.

Der Bauleiter testet ihn: „Wie viele Steine sind in dieser Wand?“ Der Meister schätzt nur anhand der Größe und liegt oft daneben. Soll er aber ganze Zimmer tauschen, klappt das perfekt, weil er die Baupläne auswendig kennt. Genau so geht es der KI: Sie scheitert oft beim Zählen von Buchstaben, glänzt aber, wenn sie gelernte Muster neu anordnet.

Auf internationalen Baustellen ändert sich das Material. Bei chinesischer Architektur entspricht eine Platte oft einer klaren Einheit – da passieren weniger Fehler. Doch auf der koreanischen Baustelle verbergen die Platten ein komplexes Innenleben aus vielen Einzelteilen. Hier versagt der „Block-Blick“, weil die KI die feinen Strukturen im Inneren nicht greifen kann.

Die extreme Geschwindigkeit ging auf Kosten der Genauigkeit. Die Teams merken nun: Größere Kräne reichen nicht. Sie brauchen neue Werkzeuge, die die Platten durchleuchten oder wieder einzelne Steine greifen können. Es reicht nicht, nur schwere Bedeutungen zu schieben – man muss auch die kleinen Teile sehen, die alles zusammenhalten.