畫室裡的沈默遊戲:電腦如何學會「看」
想像一間安靜的素描畫室,裡面沒有老師指著東西說「這是花瓶」或「那是貓」。這裡只有一個學徒,他得靠自己摸索怎麼「看」東西。他唯一的學習對象,是坐在旁邊的一位資深師兄。這位師兄從不說話,只會展示自己的畫作,學徒必須盯著師兄的畫,試著跟上那樣的筆觸和觀察方式。
這場練習有個特殊的規則:學徒只能透過一個小孔看細節,而師兄看到的是全景。學徒的任務非常困難,他得從那個小小的局部畫面,推測出師兄眼中的完整構圖,努力讓自己的畫跟師兄的一樣。這其實是在訓練他「腦補」全貌的能力,透過局部去理解整體。
但這種默契練習有個大漏洞。如果兩個人都想偷懶,他們只要約好把整張畫布塗成全黑,兩張畫看起來就一模一樣了。雖然這完全符合「畫作一致」的規則,但學徒什麼都沒學到。這種狀況在電腦運算裡被稱為「崩塌」,意思就是系統找到了一個最簡單但毫無意義的標準答案。
為了防止這種作弊,畫室規定師兄的畫必須有變化,不能只是模糊的一團灰,線條要俐落清楚。這樣一來,學徒就不能隨便塗抹,必須真的去觀察物體的邊緣和形狀,才能跟上師兄那種清晰的風格。這迫使學徒必須更大膽地去捕捉特徵。
這場遊戲最令人驚訝的反轉是:那位「師兄」其實根本不是另一個人。學徒一直在模仿的對象,其實是他自己過去幾次練習的平均值。也就是說,他是在跟一個「比較穩定、比較冷靜的自己」學習。透過追趕那個更穩定的版本,他的畫技反而進步得更快。
神奇的事情發生了。在沒有人告訴他「這是什麼」的情況下,為了跟上那個穩定的影像,學徒自然學會了把物體從背景中分離出來。他開始能精準地描出輪廓,分辨出哪裡是主體、哪裡是雜亂的背景,這就是無師自通的視覺辨識。
這就是讓電腦像人類一樣「看懂」圖片的方法。不需要人工一張張標註框線,電腦透過這種自我修正的對照練習,就能從雜亂的畫面中認出物體。它學會的不只是複製像素,而是真正理解了影像裡的結構與邊界。