Почему картинкам дали две пары глаз
Ещё темно, в зале посылок гудит лента. Сотрудник у стола щурится на размазанный номер квартиры, а диспетчер сверху уже видит, что два мешка с разных концов зала поедут одним длинным рейсом. Если посадить одного человека на оба места, всё встанет.
Долгое время многие системы смотрели на картинку почти как тот диспетчер сверху. Далёкие куски они связывали ловко, а вот мелкие следы рядом приходилось будто заново учиться замечать. И когда один и тот же предмет был то маленьким, то крупным, путаницы тоже хватало.
Тут и появился ViTAE с другим ходом. На станциях, где всё сжимают в более крупные пачки, он сначала собирает признаки рядом, чуть дальше и ещё шире. Одновременно одна дорожка продолжает читать мелочь у стола, а другая держит общий маршрут сверху. Штука в том, что они работают параллельно.
Дальше ритм не ломается. Одна дорожка следит за краями и фактурой рядом, другая проверяет, что связано на расстоянии, а потом их ответы смешивают и несут дальше. В версии ViTAEv2 зал ещё и разбили на несколько уровней сортировки, чтобы не терять ни крупный план, ни общий вид.
На самых загруженных ранних участках верхней дорожке уже не нужно смотреть сразу на весь зал. Она берёт маленький сектор, потому что нижняя дорожка и так тянет подсказки о месте через соседние зоны. Из-за этого можно обходиться без лишних меток, которые другим схемам часто нужны.
Когда картинку местами закрывали, нижняя дорожка на время смотрела только в один видимый квадрат, а потом снова расширяла взгляд. И эта тихая разделённая работа сработала не только в маленьких версиях, но и в больших: системе было проще не просто назвать предмет, а найти его, аккуратнее обвести и уловить положение тела.
Выигрыш оказался простым и упрямым. Лучше стало тогда, когда от одной пары глаз перестали требовать всего сразу. Как в том зале: стол читает смазанные ярлыки, балкон держит длинный маршрут, и лента больше не захлёбывается.