Dois olhares no mesmo salão
Antes do sol nascer, o salão das encomendas já zumbia. Na mesa, uma trabalhadora decifra um número de porta meio borrado; lá de cima, no balcão, outra pessoa vê que dois sacos distantes vão para a mesma rota longa. Se uma só fizesse os dois trabalhos, a fila travava.
Muitos leitores de imagem mais novos eram quase isso: ótimos no balcão, fracos na mesa. Ligavam partes distantes muito bem, mas não vinham com jeito para notar sinais miúdos ali ao lado, nem para reconhecer a mesma coisa pequena numa foto e grande noutra. Um só jeito tentava dar conta de tudo.
A novidade do ViTAE foi mexer nas próprias estações. Antes de juntar pacotes maiores, ele recolhe pistas de perto, do meio e de mais longe. Ao mesmo tempo, um caminho fica na leitura de detalhe e outro segue a ligação entre partes afastadas. É como mesa e balcão a trabalhar juntos, não em fila.
Depois da primeira triagem, o passo repete-se. Um lado continua atento a texturas e contornos próximos; o outro confere o que combina mesmo estando longe. A versão seguinte espalhou isso por vários níveis do salão, para guardar vista fina e vista larga ao mesmo tempo. Aí não serve só para dizer o que há na imagem, mas também onde está e qual é o desenho.
Nas partes mais cheias do começo, a vista larga já não precisa vigiar o salão inteiro. Olha só para um pedaço, porque a vista de perto já leva pistas de lugar pelas zonas vizinhas. E quando treina com imagens tapadas em parte, a leitura de perto aperta o olhar por um momento e depois volta a abrir.
Essa divisão de trabalho funcionou em versões pequenas e grandes. Com menos esforço para aprender, o sistema acertou bem e também se saiu melhor quando precisava encontrar coisas, marcar regiões com mais limpeza e seguir pontos do corpo. No fim, a mudança foi simples: parou de pedir a um só olhar que aprendesse tudo sozinho.