表格上很冷静，真遇事会怎么选？

夏令营面试大厅吵得像菜市场，折叠椅咯吱响，夹板纸一张张翻。你在“压力下我很冷静”那栏圈了个高分。主管立刻递来情景题：孩子在哭，天要下雨，两位辅导员吵起来。两种做法摆在眼前。圈的分像“自我介绍”，选哪条路才像真本事。

现在很多人也会让聊天式的文字生成工具去填这种性格问卷。它写出来的回答很像人，前后一致，还挺有说服力。可问题是，这些“自我介绍”到底靠不靠谱，遇到具体又乱的场面，会不会还是另一套选择？

有人就把“表格”和“情景题”一张张钉在一起：一条性格说法，配一段日常小麻烦，再给两种相反的行动。总共做了很多对，中文英文都写了一套，尽量让意思对齐。不同写作者分别起草，再由别人反复对照，确认每一对真在说同一件事。

然后让人和这些文字生成工具都来做双份题。先在表格里给每句话打分，还换着几种问法多问几遍，把明显跑偏的回答丢掉，再取一个稳定的分。再做情景题，让它在两种做法之间用同一套分数表偏向其中一边。就像面试里，先听你怎么说自己，再看你当场怎么选。

有些工具连“按分数作答”都做不稳，干脆先放一边。留下来的也要过两道自检：同一意思换个反着问，会不会自相矛盾；把题目分成两半，整体风格像不像同一个人。能稳住这两关的，才进下一步对比。

把“表格分数”和“情景选择”一一对上，人更像那个表格和情景题讲同一个故事的应聘者。很多文字生成工具却像这样：嘴上圈了“耐心冷静”，情景里却老往急躁那边靠。里面有一个叫GPT-4的更接近人的样子，但也没到常见的人类一致程度。

回到面试桌前，主管并不是刁难，只是知道了漂亮的表格可能遮住摇摆的选择。看这类工具，光听它怎么描述自己不够，还得拿具体场景去对照它会怎么做。就像夏令营用人，真正安心的是那张表格和那次当场选择能对得上。