AIの弱点は「レンガ」が見えないこと？

想像してみてください。超高速でビルを建てる職人がいるとします。彼はレンガを一つずつ積むなんてちまちましたことはしません。「キッチン」「書斎」といった完成済みの巨大な壁パネルを、ガシャン、ガシャンと瞬時にはめ込んでいくんです。実は今のAIも、これと同じやり方で言葉を読んでいます。一文字ずつ追うのではなく、「トークン」と呼ばれる言葉の塊ごとのパネルを扱っているんです。

ところが、設計士が「その壁の左から3番目のレンガだけ抜いて」と頼むと、職人は固まってしまいます。彼が扱うパネルはガッチリ固められていて、中身のレンガには触れないし、そもそも見えもしないからです。これがAIの意外な弱点です。AIは「単語の意味」というパネル全体は理解していても、それを構成する「文字」というレンガの一つひとつは見えていないのです。

現場監督がテストをしてみました。「この壁にレンガは何個ある？」と聞くと、職人はパネルの大きさで適当に推測して答えるので、よく間違えます。でも「キッチンと書斎を入れ替えて」という指示なら、丸ごと動かすだけなので完璧にこなせます。AIが文章を作るのは得意なのに、「『ストロベリー』にRは何個ある？」といった文字数え問題で失敗するのは、中身が見えていないからなんです。

現場が変わると事情も変わります。漢字を使う現場なら、一つのパネルが一つの意味を持つのでミスは少なめです。でも、ハングルのように内部で部品が複雑に組み合わさっている現場だと、パネル単位の大雑把な扱いでは中の構造が崩れてしまうこともあります。「塊で掴む」というこの方法は、言葉の仕組みによって向き不向きがあるんですね。

結局、この驚異的なスピードは、細かさを犠牲にして成り立っていたわけです。この問題を解決するには、もっと大きなクレーンを持ってくるのではなく、パネルの中を透視するメガネや、レンガを直接扱える繊細な道具が必要です。重たい意味を運ぶだけでなく、それを支える細部までしっかり見ようとする動きが、今まさに始まっています。