Туман, маяк и память, которая не раздувается
На балконе маяка холодно, туман липнет к перилам. Корабль вынырнул из серого и тут же пропал. Смотритель не может держать в голове весь рейд сразу, поэтому ведёт маленький журнал: пару строк на каждый проход.
С ДНК похожее чувство, только длиннее: цепочка из букв A, C, G, T тянется очень далеко. Часто её пытаются читать так, будто надо всё время сверять каждый кусок с каждым. На обычной длине терпимо, а на очень длинной память и время быстро уходят в потолок.
А тут придумали другой ход: Caduceus и Hawk работают как смотритель с журналом. Буква за буквой они обновляют короткую сводку, не раздувая её размер. Поток букв это корабли, сводка это журнал, а перенос сводки дальше помогает не теряться. Вывод простой: постоянная память держит курс на длинной дистанции.
И штука в том, что такой «журнальный» подход не оказался слабее на привычных отрезках. На задачах про сигналы активности генов и некоторые регуляторные метки Caduceus часто был не хуже, а иногда лучше обычного варианта. Hawk на части задач про влияние вариантов ДНК отставал.
Потом «ночь» растянули. Без особой подгонки Caduceus переносил вход от примерно двенадцати тысяч букв к примерно ста двадцати тысячам, и качество менялось мало. А Hawk держал оценки по влиянию вариантов ровно даже когда длина росла намного дальше привычного. А подход со сверкой «всё со всем» на таких длинах заметно проседал.
А потом сделали передачу журнала по сменам. Длинную ДНК режут на куски, читают кусок, и последнюю сводку отдают следующему куску как старт. Так Hawk доходил до примерно миллиона букв на одном мощном чипе и почти не терялся на задачах про варианты. Только вот дальний горизонт сам по себе ещё не делает ответы намного умнее.