雾夜里的一本小本子,怎么帮人看懂超长DNA
港口的灯塔外廊冷得发硬,雾把海平线吞了。船影一闪就没了,守塔人盯不住每一艘,只能掏出小本子:每过一艘就记两笔,好让下一次再看到时不至于乱。
DNA也像这片雾海,只是更长。它用四个字母A、C、G、T排成一串,能长到几百万个。很多常用做法像一个人想把每艘船都和别的船逐个对照,短一点还行,一拉长就又慢又占地方。
后来有人换了守塔人的路子,做了叫Caduceus和Hawk的设计。字母一个个“经过”时,它们不回头翻整片海,只更新一份固定大小的“摘要”,就像小本子永远那么厚。对应关系很直白:字母流像船流,小本子像摘要,带着它往前走就不迷路。带得住的小记忆,能让判断在超长距离里更稳。
把它们放到同一批基因相关的预测题里比一比,这种“小本子”思路在常见长度下并不吃亏。输入大约一万二千个字母时,Caduceus在一些任务上常能追上甚至超过常见基线;Hawk在某些“变异影响”的题上会落后一点。重点不是谁处处赢,而是这种设计不靠牺牲准头也能站得住。
夜更长时差别就出来了。不额外特训,Caduceus能从一万二千一路推到十二万左右,很多任务的变化不大;Hawk在“变异影响”上也能在更长输入下保持得挺稳。那种“全都互相对照”的基线一旦被拉到不熟的长度,表现就容易明显下滑。
真要看整段海岸线,就把超长DNA切成一段段来读:先读一段,最后那页“小本子”交给下一段当开头,就像换班时把同一本记录递给下一位,故事不断档。用这种交接,Hawk在一块高端芯片上能处理到约一百万个字母,“变异影响”的分数大体还稳。守塔人能看得更远了,但多看远一点,并不会自动让答案变得更聪明。