Гардероб, где куртки учат не толкаться
После концерта в гардеробе тесно: рукава, шарфы, и почти все в чёрных куртках. Гардеробщик держит номерки и смотрит на крючки. Два человека тянутся к одной куртке, и очередь замирает. Похожая путаница бывает, когда компьютеру нужно найти все предметы на фото и не посчитать один дважды.
Долгое время многие системы работали как слишком осторожный гардероб. Сначала они ставили кучу «возможных мест» по всей стене, будто развесили пустые номерки заранее. А потом начинали разруливать: где совпало, там выкинуть лишнее. Работает, но правил много, и в странных случаях всё ломается.
DETR меняет привычку. Вместо толпы догадок он как будто нанимает фиксированную команду гардеробщиков, и у каждого свой один номерок. Каждый обязан вернуться с одним итогом: вот конкретная куртка и где она висит, или честное «куртки нет». Никакой длинной уборки после.
Самое хитрое: не важно, кто из них вернулся первым. Для каждого фото система подбирает пары «куртка и гардеробщик» один к одному, чтобы в целом вышло разумно. Проверка простая: угадал ли тип вещи и попал ли рукой в её контур. Остальные учатся уверенно говорить «нет куртки». Куртки это реальные предметы, гардеробщики это ответы, и один номерок на одну куртку убирает дубли сразу.
И они не работают вслепую. Гардеробщики оглядывают весь зал и как бы подают друг другу знаки, чтобы не все кинулись к самой заметной куртке. На фото это похоже на два взгляда: один держит в голове всю картинку и где что находится, другой вытаскивает разные предметы по очереди. Большие вещи так ловятся легче, а мелочь у пола, вроде брелока на ключах, можно и проморгать.
Выигрыш в том, что список получается чище без груды особых правил и поздних заплаток. И можно не только показать «примерно тут», а обвести вещь точнее, как пальцем пройтись по краю куртки на вешалке. Если обводки наезжают друг на друга, система решает по точкам, кому что принадлежит. После такого гардероб уже не спорит сам с собой, он сразу выдаёт аккуратный набор ответов.