La vela que enseñó a repartir un trabajo enorme
Una ráfaga hace chasquear una vela a medio coser en la arena. Una sola persona no logra estirarla: se dobla y vuelve a enrollarse. El grupo clava paneles separados, cose por partes y, en cada unión, comparan bordes y tiran del hilo hasta que la tensión queda pareja.
Entrenar un modelo de lenguaje gigante se atasca por algo parecido. Una sola tarjeta gráfica se queda sin espacio, no solo para los números del modelo, sino para los números extra que se guardan mientras aprende. Antes tocaba achicarlo o partirlo de formas que metían esperas y enredos entre máquinas.
La idea nueva fue cortar el trabajo dentro de cada bloque repetido del modelo, no solo repartir bloques enteros. En la vela, cada panel es un trozo del cálculo; cada costura es un pedazo de multiplicaciones grandes; y la revisión de la unión es cuando las máquinas juntan resultados parciales. Si eliges bien dónde cortar, muchos ayudan con pocas reuniones.
Dentro de cada bloque hay dos zonas pesadas: una parte ancha que transforma números y otra que decide a qué palabras prestar atención. Reparten el trabajo para que cada máquina haga un tramo completo en su lado, como coser su panel de punta a punta, y recién después juntar en la costura. En la atención, distintos “cabezales” van en máquinas distintas y luego se reúnen.
Para no reunirse por cualquier detalle, algunas tareas pequeñas se repiten en todas las máquinas, como si cada costurero tuviera su propia cinta métrica y marcara lo mismo. Y al final, en vez de mandar una tabla enorme de puntajes de palabras, combinan solo lo necesario para sacar el número de error, como comprobar el tirón general sin cargar toda la vela en un regazo.
Cuando suman más manos, la playa no se vuelve un lío. Con este reparto, pudieron mantener muchísimas tarjetas gráficas ocupadas a la vez y hacer crecer el modelo sin perder tanto tiempo esperando en las uniones. Y con un pequeño cambio en el orden de unos pasos internos, los modelos grandes dejaron de tambalear, como medir y alinear antes del apretón final para que la vela no haga bolsas.