성격 체크는 예쁘게 했는데, 선택이 딴판이면요

청소년 캠프 면접장에 접이식 의자가 덜컹거리고, 종이 클립보드가 여기저기 쌓여 있었어요. 지원자는 “압박에도 침착해요” 칸에 동그라미를 예쁘게 쳤죠. 근데 바로 이어진 상황극에서, 우는 아이와 다가오는 비, 다투는 지도자 사이에서 선택을 해야 했어요. 종이에 쓴 성격은 말, 상황극의 선택은 행동이었어요.

요즘은 긴 대화를 하는 글쓰기 인공지능에게도 사람용 성격 질문지를 풀게 하곤 해요. 답은 그럴듯하고 한결같아 보이죠. 근데 재밌는 건, 말로는 “나는 이런 사람이야”라고 해도, 복잡한 상황에서 고른 행동이 정말 그 말과 맞는지는 따로 봐야 한다는 거예요.

그래서 한 팀이 종이 설문과 상황극 대본을 한 쌍으로 묶듯이, 문장과 장면을 짝지어 만들었어요. 성격을 묻는 문장들을 모으고, 각 문장마다 일상 장면을 하나씩 붙였죠. 장면마다 선택지는 두 개였어요. 한쪽은 그 문장과 어울리고, 다른 쪽은 정반대였어요.

그다음은 같은 이중 확인을 사람과 인공지능 둘 다에게 했어요. 설문에서는 점수로 “나랑 얼마나 맞는지”를 표시하게 하고, 말투가 바뀌어도 답이 흔들리지 않게 질문 방식도 여러 가지로 바꿔 물었죠. 상황극에서는 두 행동 중 어디로 더 기우는지 점수로 고르게 했어요. 종이의 동그라미와 장면의 선택을 나란히 놓은 셈이에요.

근데 어떤 인공지능은 애초에 점수 답을 안정적으로 못 내놨어요. 남은 인공지능들에겐 “반대로 물어봐도 말이 안 바뀌는지” 같은 기본 점검을 했고요. 사람 답변에서 흔히 보이는 정도를 기준으로, 그나마 흔들림이 덜한 몇 가지를 골라 비교를 이어 갔어요.

사람은 대체로 종이에 쓴 말과 상황극의 선택이 같은 방향으로 갔어요. “침착해요”라고 쓰면, 장면에서도 침착한 쪽을 고르는 식이었죠. 인공지능은 평균적으로 그 연결이 훨씬 약했어요. 한 인공지능은 사람 쪽에 더 가까웠지만, 보통 사람만큼 딱 맞진 않았고요.

면접관이 표정을 바꾸지 않은 건 까다로워서가 아니었어요. 종이의 동그라미가 깔끔해도, 장면에서의 선택이 흔들릴 수 있다는 걸 알게 된 거죠. 그래서 성격 설문으로 인공지능을 믿고 맡기려면, 설문만 보지 말고 같은 성격을 묻는 상황 선택까지 같이 확인해야 해요. 종이에 쓴 말은 시작이고, 선택이 진짜였거든요.