填性格量表很漂亮,遇到狀況卻不一定照做
青年營隊徵人現場吵得像菜市場,摺疊椅一直喀啦響。我在表格上把「壓力下很冷靜」圈得很滿,主管下一秒就丟角色扮演:小孩在哭、天色變黑、兩個隊輔吵起來,要我二選一。表格像自我介紹,選擇才像真本事。
現在很多人也會叫聊天用的文字生成器去填同樣的性格量表。答案常常聽起來很像真人,還很一致。問題是,這些「我很冷靜」的自述,遇到又急又亂的情境時,會不會真的反映在它的選擇上?
有人就把「表格」和「角色扮演」釘在一起檢查:先整理出一批性格敘述,再替每一句寫一個日常小劇場,裡面放兩個做法,一個符合那句話,一個故意唱反調。整套同時做成中文和英文,讓意思對得起來,也請多人反覆看過配得準不準。
接著同一套題目,拿去問人,也拿去問那些文字生成器。表格那邊要它用分數表達同不同意,還換不同問法,免得一句話就帶風向;怪怪的回答會被丟掉,再把剩下的整理成穩定的分數。情境那邊也要它用分數偏向做法A或做法B。
結果連「扮演得像在考試」這件事,也不是每個文字生成器都做得到。有些沒辦法穩穩給出可用的分數,就先放一邊。留下來的也要過兩道自我打臉檢查,比如同一個意思正著問、反著問,會不會前後矛盾;還要看整體回答會不會忽左忽右。
把每一句自述的分數,對上每一個情境的選擇,人類多半像那種「表格圈冷靜,角色扮演也真的先安撫小孩再分工」的應徵者。文字生成器平均就比較像「嘴上圈冷靜,情境裡卻常常選到急躁那邊」。有一個叫GPT-4的比較接近人類,但還是沒到一般人的穩定程度。
回到徵人現場,主管的表情很平常,像是在說:我不是要刁難,我只是想看你遇到事怎麼選。這也提醒人們,用性格量表來猜文字生成器會不會可靠,光看它怎麼「形容自己」不太夠,最好也拿幾個具體情境讓它做選擇,對照一下。