夜班保全的空白筆記本,怎麼變成一張好用的巡邏路線
走廊只亮著幾盞小燈,新來的夜班保全拿著空白筆記本。沒有黑名單,也沒有舊案紀錄,只有牆上的大樓規定。保全每走到一個岔路,就得選下一段要巡。這就像 AlphaZero 只拿到棋的規則,自己下著下著學會怎麼走。
以前厲害的下棋程式,比較像背著厚厚資料夾的保全隊。裡面塞滿人寫的提醒,哪種狀況常出事,哪些收尾最常見。巡邏時也像拼命衝,想把每條走廊每個門口都掃過一遍,靠速度硬撐出安全感。
AlphaZero 換了做法,不靠那種資料夾。它在腦中養出一個「內建嚮導」:一邊提醒哪幾步比較值得試,一邊估一估眼前這局看起來順不順。放回走廊就是保全同時指幾扇門先看,還能感覺這一晚偏平靜還是偏不安。重點是把注意力用在要緊處。
光靠直覺不夠,保全還得規劃。AlphaZero 也會往前想幾步,但不是亂翻所有可能,而是讓那個內建嚮導帶路。像保全先試幾條最可疑的路,走到看不清的地方就先給個大概評分,再回到原點重排路線,最後選到比第一眼更穩的巡法。
每個夜班結束,保全都會對照一下:剛開始覺得哪裡會出事,結果到底有沒有;先選的路線,跟後來反覆想過後的路線,差在哪。下一晚就把筆記改一點點,少犯一點錯。AlphaZero 也是自己跟自己下完一局,就用結果去修正先前的猜測。
最讓人意外的是力氣用法不一樣。老派程式像拚命看遍所有門縫,AlphaZero 像只挑幾個關鍵角落多看一眼,反而更有用。它不用先吞人類留下的棋譜,也能慢慢摸出常見的開局味道,就像保全不靠前人筆記,也能自己找回合理的巡邏順序。
天快亮時,保全的筆記本不再空白,但也沒變成一座資料夾山。保全變強不是靠多背幾條規定,也不是靠把每條走廊跑到喘,而是先學會哪裡值得看,再用一點點往前想把選擇磨得更準。這種「把心力放對地方」的做法,有時真的比瞎忙更管用。