L'architecte qui ne voyait pas les briques

Imaginez un chantier futuriste où les immeubles montent en quelques secondes. Le constructeur ne pose jamais une seule brique : il attrape des murs entiers préfabriqués, étiquetés « Cuisine » ou « Salon », et les clipse ensemble. C'est exactement comme ça qu'une IA lit votre texte. Elle n'assemble pas des lettres, mais manipule des blocs de mots entiers, appelés « tokens ».

Tout se gâte quand l'architecte demande une modification minuscule : « Enlevez la troisième brique en partant de la gauche ». Le constructeur se fige. Comme il ne manipule que des panneaux scellés, il ne peut ni voir ni toucher les briques à l'intérieur. Pour l'IA, c'est pareil : elle comprend le sens global du bloc, mais elle est aveugle aux lettres individuelles qui le composent.

Pour tester cette cécité, on lance un défi. Si on demande au constructeur de compter les briques d'un panneau, il devine au pif selon la taille et se trompe souvent. Par contre, s'il faut réorganiser des pièces entières, il excelle car il a mémorisé des milliers de plans. Voilà pourquoi l'IA peut écrire un poème mais échouer à compter simplement les lettres du mot « fraise ».

Ce système varie selon le pays. Sur un chantier utilisant l'écriture chinoise, chaque panneau correspond souvent à une idée unique, donc le constructeur fait peu d'erreurs. Mais avec l'alphabet coréen, les panneaux sont des coques complexes abritant plusieurs petits composants invisibles. Là, notre constructeur de gros blocs est perdu, incapable de manipuler les pièces internes sans tout casser.

On réalise alors que cette vitesse incroyable a un prix : le manque de précision fine. Pour corriger ce défaut, construire des grues plus grosses ne suffit pas. Il faut inventer de nouveaux outils capables de passer les panneaux aux rayons X pour enfin voir et manipuler les briques. L'objectif est de ne plus seulement déplacer du sens, mais de comprendre la structure qui le tient debout.