El formulario decía una cosa, pero la escena decía otra
En el salón de contrataciones del campamento juvenil crujen sillas plegables y pasan portapapeles. Marco un 6 en “me mantengo calmado bajo presión”. La supervisora cambia de hoja: un niño llora, viene tormenta y dos monitores discuten. Hay que elegir una de dos acciones. El formulario es lo que dices; la escena es lo que haces.
La gente hace algo parecido con los generadores de texto que conversan largo rato. Les piden que contesten cuestionarios de personalidad, como si fueran personas. Suenan coherentes, casi convincentes. Pero la duda es simple: cuando el lío se vuelve concreto, ¿eligen como dijeron que eran?
Para comprobarlo, armaron pares pegados con grapa: una frase de personalidad y, al lado, una escena cotidiana que apunta a lo mismo. Juntaron 180 frases de tres cuestionarios conocidos y escribieron 180 escenas con dos opciones: una que encaja con la frase y otra que la contradice. Prepararon todo en chino y en inglés para mantener el sentido.
Luego les hicieron el doble pase a personas y a estos sistemas. En el “formulario”, cada frase se califica en una escala del 1 al 7, preguntada de varias maneras para que el tono no empuje la respuesta. En la “escena”, la misma escala sirve para inclinarse por la opción A o por la B. Misma idea del campamento: decir versus elegir.
No todos los sistemas pudieron sostener el papel: algunos ni daban respuestas útiles en esa escala y quedaron fuera. A los que seguían, les hicieron dos revisiones de sentido común: ver si se contradicen cuando la frase está al revés, y ver si el patrón se parece cuando partes el cuestionario en dos. Con eso, quedaron cinco lo bastante estables para comparar.
Al mirar las 180 frases frente a las 180 escenas, las personas se parecían al aspirante cuyo formulario y actuación cuentan la misma historia. Los sistemas, en promedio, se parecían a alguien que marca “paciente” y luego elige una y otra vez la opción impaciente en la escena. Uno, GPT-4, se acercó más al patrón humano, pero no llegó a lo típico en personas.
De vuelta en el salón, la supervisora no busca humillar a nadie. Solo aprendió que un formulario prolijo puede tapar decisiones flojas. La lección práctica queda clara: si alguien quiere usar esos cuestionarios para confiar en cómo actuará un sistema en tutorías, atención al cliente o apoyo, conviene mirar también las escenas, no solo lo que “dice ser”.