調音器一片黑,電腦也會卡在「學不動」的角落
社區活動中心很安靜,管弦樂團在暖身。小提琴手夾上電子調音器,拉了一個明顯跑掉的音,螢幕卻全黑。沒有紅也沒有綠,只能靠猜去轉弦鈕,大家越等越尷尬。
有些電腦辨識東西的做法,不只給答案,還會放一個「不確定度」。它像調音器替每個可能的音各亮一盞小燈,哪盞亮得多就偏向哪邊;整體越亮,就越有把握。
怪的是,遇到比較難的圖片時,這種「看燈有多亮」的做法常常還輸給只吐出機率的老派做法。聽起來很會說「我不知道」,結果反而比較不會答對。
問題藏在一個死角。某些把內部訊號變成「亮度」的規則,會讓一些明明有正確答案的例子掉進全黑區:每一類的亮度都接近零。對照回來:每個類別像一個音名,亮度像那盞燈,調整方向像你知道該把弦鈕往哪邊轉。全黑時,連這個方向感都快沒了。帶走一句話:全黑時,就算有人告訴你正解,也很難自己爬出來。
而且不同規則,黑暗大小差很多。有的像硬開關,訊號一負就直接歸零,調音器像被切到靜音。有的比較柔,還是可能暗到只剩一點點閃,尤其選項很多時更糟。也有一種做法,黑區最小,燈很暗時也會給你更明顯的推力;燈亮起來後,又會變得比較穩,像大家熟悉的那種機率輸出。
他們加了一個補強的訓練推力,專門在「空空的」時候把正確那一盞燈拉亮一點。推力大小就看系統自己覺得多空:越空,就推越用力;開始亮了,推力自己退場。回到排練現場,像指揮只在調音器全黑時出手,直接指著正確的音,等燈會亮了就放手。
用那個黑區最小的做法再加上這個補強後,卡在接近全黑的例子變少了,辨識也變準,還比較不怕一些小設定把整件事搞得忽上忽下。更重要的是,「我不知道」還留著用:只挑那些不那麼空的答案,正確率會更高;拿「空不空」去擋陌生東西也站得住腳。排練繼續走下去,調音器不再沉默,它會先給一點光,讓下一次能調得更準。