A esteira que ensinou um truque às fotos

A esteira do centro de reciclagem tremia, carregada de garrafas, latas, papel e pedacinhos de plástico. Quando tudo passava por uma única máquina enorme, a fila travava e coisa boa escapava. O encarregado apontou: melhor abrir várias “faixas” ao mesmo tempo e juntar no fim.

Esse engarrafamento lembra um erro comum ao ensinar um computador a reconhecer o que tem numa foto. Por muito tempo, a aposta foi só fazer um reconhecedor cada vez maior, com mais partes e mais peso. Aí tudo, do simples ao difícil, era forçado a passar pelo mesmo caminho caro.

A virada foi copiar o ritmo da esteira. No mesmo ponto da imagem, o sistema faz checagens em paralelo: uma pega pistas bem pequenas, outra pega pistas médias, outra pega formas maiores, e outra só dá uma “alisada” rápida. Depois ele empilha essas pistas e segue. Moral simples: olhar em vários tamanhos de uma vez pega mais sinais.

Mas olha, várias faixas também podem ficar caras. Então entrou um truque prático: antes das máquinas pesadas, passa por um pré-separador rápido que reduz a bagunça em menos “baldes”. Na imagem, é uma varredura minúscula que mistura e corta caminhos, para as checagens maiores trabalharem bem menos e ainda criarem pistas mais ricas.

Dá pra empilhar muitos desses trechos de várias faixas e ficar bem fundo sem estourar o custo. Pra não perder o rumo durante o treino, colocaram avaliadores pequenos no meio do caminho, como inspetores temporários que dão nota cedo. Quando chega a hora de usar de verdade, esses inspetores saem e sobra o caminho principal.

Em uma grande competição de 2014, esse desenho, chamado GoogLeNet, foi muito bem com bem menos “peso guardado” do que redes pesadas de antes, e também ajudou a achar objetos dentro das fotos quando combinado com um processo que sugere regiões. Na esteira, a diferença ficou clara: não foi uma máquina maior, foi gastar esforço no lugar certo.