Deux équipes pour lire une image sans se tromper
Avant le lever du jour, dans un centre de colis, une employée plisse les yeux sur un numéro d'appartement bavé. En haut, un répartiteur voit que deux sacs posés loin l'un de l'autre partent sur la même longue tournée. Si une seule personne faisait les deux, la chaîne ralentirait.
Pendant un moment, beaucoup de lecteurs d'images ressemblaient surtout au répartiteur du balcon. Ils reliaient bien des morceaux éloignés, mais ils n'avaient pas le réflexe pour les petits détails tout proches, ni pour reconnaître la même chose en petit ou en grand. Un seul outil portait deux métiers.
Le changement de ViTAE part des postes de tri eux-mêmes. Au moment de faire des paquets plus gros, le système ramasse des indices proches, moyens et plus larges. En même temps, une voie reste collée aux détails du coin, et une autre garde la vue d'ensemble. Le tri à plusieurs tailles, c'est l'échelle. Les deux voies, c'est proche et lointain.
Après ce premier tri, le rythme continue. Une voie suit les textures et les bords, l'autre vérifie quels morceaux éloignés vont ensemble, puis les deux se rejoignent avant d'avancer. La version suivante empile plusieurs niveaux de tri, ce qui aide non seulement à nommer un objet, mais aussi à le trouver, à en tracer le contour ou à suivre des points du corps.
Aux niveaux les plus chargés, la voie qui regarde loin n'a même plus besoin de surveiller tout le hall d'un coup. Elle peut se contenter d'une petite zone, parce que la voie de près apporte déjà assez d'indices sur l'endroit exact. Du coup, le système se passe de repères en plus que d'autres ajoutent souvent. Même quand une image est en partie cachée, il garde ce jeu de relais.
Cette division du travail a tenu aussi bien dans les petites versions que dans les très grandes. Avec moins d'images et moins d'entraînement, ces lecteurs s'en sortaient mieux, surtout quand il fallait repérer un objet, dessiner des zones plus propres ou suivre une posture. Le vrai tournant était simple: arrêter de demander à une seule paire d'yeux d'apprendre tous les gestes depuis zéro.