填性格量表很漂亮，遇到狀況卻不一定照做

青年營隊徵人現場吵得像菜市場，摺疊椅一直喀啦響。我在表格上把「壓力下很冷靜」圈得很滿，主管下一秒就丟角色扮演：小孩在哭、天色變黑、兩個隊輔吵起來，要我二選一。表格像自我介紹，選擇才像真本事。

現在很多人也會叫聊天用的文字生成器去填同樣的性格量表。答案常常聽起來很像真人，還很一致。問題是，這些「我很冷靜」的自述，遇到又急又亂的情境時，會不會真的反映在它的選擇上？

有人就把「表格」和「角色扮演」釘在一起檢查：先整理出一批性格敘述，再替每一句寫一個日常小劇場，裡面放兩個做法，一個符合那句話，一個故意唱反調。整套同時做成中文和英文，讓意思對得起來，也請多人反覆看過配得準不準。

接著同一套題目，拿去問人，也拿去問那些文字生成器。表格那邊要它用分數表達同不同意，還換不同問法，免得一句話就帶風向；怪怪的回答會被丟掉，再把剩下的整理成穩定的分數。情境那邊也要它用分數偏向做法A或做法B。

結果連「扮演得像在考試」這件事，也不是每個文字生成器都做得到。有些沒辦法穩穩給出可用的分數，就先放一邊。留下來的也要過兩道自我打臉檢查，比如同一個意思正著問、反著問，會不會前後矛盾；還要看整體回答會不會忽左忽右。

把每一句自述的分數，對上每一個情境的選擇，人類多半像那種「表格圈冷靜，角色扮演也真的先安撫小孩再分工」的應徵者。文字生成器平均就比較像「嘴上圈冷靜，情境裡卻常常選到急躁那邊」。有一個叫GPT-4的比較接近人類，但還是沒到一般人的穩定程度。

回到徵人現場，主管的表情很平常，像是在說：我不是要刁難，我只是想看你遇到事怎麼選。這也提醒人們，用性格量表來猜文字生成器會不會可靠，光看它怎麼「形容自己」不太夠，最好也拿幾個具體情境讓它做選擇，對照一下。