Der Fragebogen sagt ruhig, die Entscheidung sagt was anderes

Im Einstellungsraum fürs Ferienlager klappern Klappstühle, Klemmbretter wandern von Hand zu Hand. Ich kreise bei „bleibe ruhig unter Druck“ eine hohe Zahl ein. Dann kommt ein Rollenspiel: ein Kind weint, ein Sturm zieht auf, zwei Betreuer streiten. Zwei Handlungen liegen klar da. Der Zettel ist Gerede, die Wahl ist echt. Merksatz: Das Etikett zählt nur, wenn es in Entscheidungen auftaucht.

Viele Leute lassen heute auch Chatbots solche Persönlichkeits-Fragebögen ausfüllen. Die Antworten klingen oft glatt und menschlich. Die Frage ist nur: Passt dieses „Ich bin so“ zu dem, was der Bot in einer konkreten, unordentlichen Situation wählen würde, wie beim Lager-Rollenspiel?

Dafür haben die Autoren Zettel und Rollenspiel fest zusammengetackert. Sie nahmen hundertachtzig Aussagen aus drei bekannten Fragebögen und schrieben dazu hundertachtzig Alltagsszenen. Jedes Szenario hatte zwei Optionen: eine, die zur Aussage passt, und eine, die dagegenläuft. Alles gab es auf Chinesisch und Englisch, damit die Bedeutung gleich bleibt.

Dann kam der Doppelt-Check für Menschen und für Bots. Beim „Zettel“ bewerteten die Bots jede Aussage auf einer Skala von eins bis sieben, in mehreren Formulierungen, damit nicht ein einzelner Tonfall schiebt. Beim „Rollenspiel“ gaben sie wieder eins bis sieben an, ob sie eher Option A oder B wählen. Also: Selbstbild gegen konkrete Wahl, wie im Lagerraum.

Nicht jeder Bot konnte überhaupt sauber auf der Skala antworten, einige fielen raus. Bei den übrigen prüften die Autoren, ob die Selbstauskünfte in sich stabil sind: widerspricht der Bot sich bei umgedrehten Aussagen, und sieht die Gesamtlinie ähnlich aus, wenn man den Fragebogen teilt? Am Ende blieben fünf Bots übrig, die dafür ruhig genug wirkten.

Dann der Vergleich: Menschen wirkten wie Bewerber, bei denen Zettel und Rollenspiel dieselbe Geschichte erzählen. Bei Bots passte das viel seltener zusammen: Sie klangen ruhig auf dem Papier, griffen in den Szenen aber oft zur unruhigen Option. Ein Bot, GPT-4, lag näher an Menschen als die anderen, blieb aber im Schnitt trotzdem weniger stimmig.

Zurück im Lagerraum schaut der Betreuer nicht böse, nur wacher. Ein sauber ausgefüllter Fragebogen kann ein wackliges Muster bei echten Entscheidungen verdecken. Wer Bots nach „Persönlichkeit“ einschätzen will, sollte also nicht nur den Zettel lesen, sondern auch die passenden Szenen danebenlegen und schauen, ob die Wahl dazu passt.