Строитель, который не видит кирпичей

Представьте строителя, который собирает небоскреб за секунды. Он не кладет кирпичи по одному, а берет готовые блоки с надписями «Кухня» или «Зал» и просто ставит их на место. Так и нейросети пишут тексты. Они не видят букв, а оперируют целыми кусками слов, которые называют токенами.

Проблемы начинаются, когда архитектор просит убрать третий кирпич слева. Строитель в ступоре. Он работает только с литыми блоками и не может залезть внутрь, чтобы достать один кирпичик. Для ИИ слово является единым объектом, поэтому он часто «слеп» к отдельным буквам внутри него.

Если попросить его пересчитать кирпичи в стене, он просто угадывает число по размеру плиты и часто ошибается. Зато если нужно поменять комнаты местами, он справляется мгновенно, ведь помнит тысячи типовых планировок. Так и модель. Она отлично пишет эссе, но путается в простых подсчетах букв.

На стройке с иероглифами этот метод работает идеально, ведь там один блок равен одному смыслу. А вот в корейском языке, где буквы складываются в сложные слоги внутри блока, начинаются сбои. Строитель ставит целую плиту и ломает внутреннюю структуру. «Блочный» метод подходит не для всех языков.

Мы поняли, что скорость сборки стоила нам точности. Чтобы исправить это, нужны не краны побольше, а инструменты вроде рентгена, чтобы видеть структуру внутри плит. Это шаг от простого перетаскивания смыслов к пониманию деталей, из которых они состоят.