Le formulaire dit calme, le jeu de rôle dit autre chose
Dans la salle de recrutement du camp, ça claque des chaises pliantes et ça gribouille sur des planches à pince. Je coche “je reste calme sous pression”. Puis on me tend un jeu de rôle: un enfant pleure, l’orage arrive, deux animateurs se disputent. Là, il faut choisir une action.
Le truc, c’est que des gens font pareil avec des IA qui discutent par texte. Ils leur demandent de remplir des questionnaires de personnalité. Les réponses sonnent propres et cohérentes. Mais est-ce que ça tient quand on passe à une scène concrète, comme au camp?
Des auteurs ont eu une idée simple: agrafer le “je dis qui je suis” au “je choisis quoi je fais”. Ils ont pris des phrases de personnalité et ont écrit, pour chacune, une petite situation du quotidien avec deux actions opposées: une qui colle à la phrase, une qui la contredit.
Ils ont fait la même chose dans deux langues, pour garder le sens aligné. Plusieurs personnes ont inventé les scènes, puis d’autres ont relu et resserré, jusqu’à ce que chaque duo “phrase + scène” parle bien de la même idée. Comme au camp: le formulaire d’un côté, le choix en situation de l’autre.
Ensuite, humains et IA passent les deux épreuves. Sur le formulaire, on note chaque phrase sur une échelle et on repose les questions de plusieurs façons pour éviter qu’un seul style de consigne pousse les réponses. On jette les réponses bizarres, on garde le reste. Sur les scènes, on indique vers quelle action on penche.
Toutes les IA n’ont même pas réussi à répondre proprement sur l’échelle, donc certaines ont été mises de côté. Pour les autres, on a vérifié un truc basique: est-ce que l’IA se contredit quand on retourne une question, ou quand on coupe le questionnaire en deux et qu’on compare les tendances?
Chez les humains, le formulaire et les choix en scène racontaient en général la même histoire. Chez les IA gardées, le lien était bien plus faible: elles pouvaient se décrire comme patientes, puis pencher souvent vers l’action impatiente. Une IA, GPT-4, se rapprochait davantage des humains, sans être au même niveau.
Dans la salle du camp, la responsable ne cherche pas à piéger. Elle veut juste voir si les mots tiennent dans les mains. Du coup, si quelqu’un veut se fier à un questionnaire pour savoir comment une IA va se comporter, il vaut mieux regarder aussi ses choix dans des scènes, pas seulement ce qu’elle dit d’elle-même.