Der Test-Schalter, bevor der ganze Flughafen aufmacht
Im halbdunklen Flughafen rollt die Schichtleitung zum Infoschalter. Heute startet ein neuer digitaler Helfer. Geübt wurde in einem winzigen Übungsraum mit falschen Gates und Freiwilligen. Im Notizbuch stehen Vorhersagen, als wäre Probe schon Hauptbetrieb.
Die Angst ist nicht die eine Frage. Die Angst ist der Moment, wenn plötzlich alles gleichzeitig kommt: Menschenmassen, Sonderfälle, Stress. Früher liefen neue Systeme in einer Ecke gut, und kippten dann im ganzen Haus. Wenn der große Start teuer ist, kann man nicht dauernd nachbessern.
Also machen sie etwas Unauffälliges: Sie lassen den Helfer erst klein laufen, dann Schritt für Schritt größer. Sie zählen einfache Patzer, wie oft eine Antwort danebenliegt oder eine kleine Aufgabe nicht fertig wird. Wenn die Probe sauber einem Trend folgt, lässt sich der große Start besser planen. Das ist die Idee hinter GPT-4.
Als die Halle voll wird, kann der Helfer mehr als Text. Jemand kopiert einen Absatz, jemand hängt ein Foto von einem Schild oder Formular an, und der Helfer sagt, was er darin erkennt und was als Nächstes zu tun ist. Bei vielen Alltagstests schlägt er ältere Helfer, nur nicht überall gleich.
Die Schichtleitung schaut auf die heikle Stelle: Der Helfer klingt manchmal sicher, obwohl es falsch ist. Er kann sich Details ausdenken oder einen Denk-Schritt überspringen. Und er kennt nicht alles bis heute, wie ein Reiseführer von gestern. Darum versuchen Fachleute ihn absichtlich aufs Glatteis zu führen, und extra Wächter prüfen seine Antworten nach Regeln. Ganz dicht wird es trotzdem nicht.
Abends klappt die Schichtleitung das Notizbuch zu. Früher war es ein Sprung ins kalte Wasser. Heute sieht man vorher eher, wie sich der Helfer im großen Betrieb benehmen wird, weil die Proben als Maßstab taugen. Für Leute draußen heißt das: Diese Helfer werden nützlicher, aber bei wichtigen Dingen bleibt Gegencheck Pflicht.