L'aiguillage intelligent
Je suis dans la tour de contrôle d'une immense gare de triage ferroviaire, et c'est la panique. Chaque wagon qui arrive est stoppé net pour être inspecté par tout un comité de chefs de gare avant d'être dirigé vers une voie. C'est incroyablement lent. Vouloir obtenir un consensus sur chaque cargaison crée un embouteillage monstre qui empêche la gare de fonctionner correctement.
Les propriétaires veulent agrandir le site pour gérer des millions de wagons, mais la méthode du "comité" ne tient pas la route. Ajouter des chefs ne ferait qu'ajouter des disputes et des délais. Le problème de fond, c'est que pour devenir plus intelligent, le système s'alourdit. Il nous faut un moyen d'accéder à plein de destinations sans avoir à toutes les vérifier à chaque fois.
Un ingénieur propose alors une simplification radicale : le système "Switch". Au lieu d'une réunion pour chaque wagon, un levier automatique l'envoie à toute vitesse vers une seule voie spécialisée. En informatique, c'est le routage vers un expert unique : on remplace le travail de groupe lourd par une décision rapide qui envoie la donnée vers le seul spécialiste compétent.
La transition est brutale. Au début, ces aiguillages rapides se grippent et font parfois dérailler les trains. L'équipe réalise que le mécanisme de choix doit être d'une précision extrême. Ils recalibrent les commandes avec une logique "haute définition" (float32) pour que l'aiguillage soit fluide dès le départ, évitant ainsi les accidents d'apprentissage.
Une fois stabilisée, la gare se transforme. Comme la voie principale est libérée des comités, on peut construire des milliers de nouvelles voies spécialisées sans rien ralentir. C'est ainsi qu'un modèle peut devenir gigantesque, avec des milliers de milliards de paramètres, tout en restant aussi rapide qu'un petit, car il n'active qu'une infime partie de ses ressources à la fois.
Cette efficacité a un dernier atout : la gare géante sert de modèle. Elle utilise son expérience pour écrire des guides simplifiés destinés aux petites gares régionales. C'est la distillation : le grand système complexe enseigne aux plus petits modèles comment être performants, prouvant qu'en faisant moins d'efforts par tâche, on peut gérer beaucoup plus de volume.