Wer kniffligere Labyrinthe übt, findet jeden Ausgang schneller
Stell dir jemanden vor, der Labyrinthe entwirft. Einfache, bei denen fast jeder den Ausgang sofort findet. Eines Tages zeichnet er keine neuen, sondern nimmt die alten und macht sie gemeiner: eine Abzweigung, die wie eine Abkürzung aussieht, aber im Kreis führt. Eine Sackgasse, die dem echten Ausgang täuschend ähnlich sieht. Genau so hat ein kleines Team einer KI das Programmieren beigebracht.
KI-Systeme, die Code schreiben, gab es schon. Sie konnten einfache Aufgaben lösen, aber irgendwann ging es nicht mehr weiter. Wie jemand, der nur leichte Labyrinthe übt und nie besser wird. Was fehlte, war nicht mehr Übungsstoff, sondern schwierigerer Übungsstoff. Und genau den hatte vorher niemand gezielt hergestellt.
Die Tricks passen genau zum Labyrinth-Bild. Neue Einschränkungen einbauen, wie wenn man nur noch dreimal links abbiegen darf. Vertraute Anforderungen durch ungewohnte ersetzen, wie ein enger Kriechgang statt eines breiten Flurs. Mehr Entscheidungspunkte einfügen. Und der cleverste Trick: ein Lösungsbeispiel mit einem versteckten Fehler, eine Sackgasse, die wie der Ausgang aussieht.
Das Team startete mit rund zwanzigtausend einfachen Aufgaben und ließ sie Runde für Runde schwieriger werden. Nach drei Runden war der beste Punkt erreicht. Eine vierte Runde schadete eher, wie ein Labyrinth, das so überladen ist, dass es nichts mehr lehrt, sondern nur noch frustriert.
Und jetzt kommt's: Zwei KI-Systeme bekamen gleich viel Übungsmaterial. Eins bekam die einfachen Aufgaben, das andere die kniffligeren. Gleiche Menge, aber unterschiedliche Schwierigkeit. Das System mit den schwierigeren Aufgaben schnitt bei einem bekannten Programmiertest deutlich besser ab. Nicht die Menge machte den Unterschied, sondern die Schwierigkeit.
Eine berechtigte Sorge war, ob die veränderten Aufgaben zufällig den Testaufgaben ähnlicher geworden waren. Also eine Art Schummeleffekt. Aber das Gegenteil stimmte: Mit jeder Runde wurden die Aufgaben den Tests sogar etwas unähnlicher. Die KI hat nicht Antworten auswendig gelernt, sondern wirklich besser denken gelernt.
Das Ergebnis hieß WizardCoder und war besser als jedes andere frei verfügbare System seiner Art. Die kleinere Version überholte bekannte kommerzielle Systeme großer Technikfirmen. Nicht der Schüler hatte sich geändert, nicht das Klassenzimmer. Nur die Qualität der Hausaufgaben.