Охранник и экран, который надо видеть целиком

У входа на станцию охранник смотрит на стену экранов. Люди и сумки текут, как поток. Раньше охранник останавливал запись и разглядывал угол за углом, а сейчас бросает один взгляд на весь экран и сразу помечает, где кто и что.

С картинками раньше часто было так же. Программа шарила по множеству маленьких кусочков, или сперва накидывала кучу подозрительных мест, а потом отдельно проверяла каждое. Время уходило на повторы, а толпа на экране уже успевала сместиться.

А потом появилась идея делать всё одним взглядом. Берут всю картинку целиком и за один проход выдают сразу две вещи: где объект и что это. Как охранник, который не крутит туда-сюда, а быстро обводит прямоугольником человека и рядом помечает: человек, сумка.

Чтобы не запутаться, картинку мысленно делят на сетку. Каждый кусочек сетки отвечает за то, что оказалось ближе к его середине, и предлагает несколько рамок с пометкой, насколько он уверен. У охранника это похоже на крупные зоны на экране: в своей зоне он сразу пишет и рамку, и подпись. Вывод простой: смотри на всё сразу, и отметка рождается быстрее.

Штука в том, что почти везде на кадре пустой пол и стены. Поэтому систему приучают больше стараться там, где правда есть объект, а не спорить с пустотой. И ещё учат не давать большим силуэтам задавить маленькие, а лучшей рамке в зоне разрешают брать ответственность, чтобы рамки не мешали друг другу.

Такой быстрый взгляд хорошо успевает за видео и реже путает тень с человеком, потому что видит весь смысл сцены сразу. Но рамки иногда выходят кривоваты, особенно когда люди стоят тесно. У охранника тоже так: он меньше цепляется за фон, но в давке может обвести не того.

А потом в смене работают вдвоём. Один охранник быстро размечает весь экран, другой медленно приближает и проверяет. Когда рамки совпадают, спокойнее. Когда не совпадают, понятнее, где ошибка: быстрый мог промазать рамкой, а медленный мог застрять на мелочи. И всё держится на том самом одном взгляде, который успевает за жизнью.