안개 속 바다를 기억하는 법, 긴 DNA도 그렇게 봤습니다
차가운 항구 발코니에서 등대지기가 바다를 봅니다. 안개 때문에 배가 잠깐 보였다가 사라져요. 등대지기는 작은 수첩에 지나간 배 특징을 짧게 적어 둡니다. 밤새 바다를 통째로 붙잡는 대신, 이 수첩으로 길을 잃지 않죠.
DNA도 비슷합니다. A, C, G, T 네 글자가 끝도 없이 이어져요. 예전 방식은 등대지기가 모든 배를 서로 비교하려고 계속 고개를 돌리는 느낌이었습니다. 길이가 보통일 땐 괜찮아도, 갑자기 훨씬 길어지면 시간도 메모리도 버거워질 수 있어요.
재밌는 건 Caduceus와 Hawk라는 새 설계가 등대지기 수첩 방식에 가깝다는 점입니다. 글자가 한 칸 지나갈 때마다, 머릿속에 같은 크기의 요약 메모를 조금씩 갱신해요. 배의 흐름은 DNA 글자 흐름, 수첩은 고정 크기 요약, 넘겨받는 건 그 요약을 다음으로 이어가는 겁니다. 한 줄 takeaway는 이거예요. 작은 메모를 계속 들고 가면, 길어져도 흔들림이 덜합니다.
그렇다고 보통 길이에서 약해진 건 아니었습니다. 비슷한 유전체 예측 일에서 Caduceus는 흔히 쓰이던 기준 방식과 비슷하거나 더 나은 경우가 있었고, Hawk는 어떤 변이 영향 예측에선 뒤처진 것도 있었습니다. 요지는 “새로운 게 항상 다 이기진 않지만, 다른 구조도 충분히 경쟁력 있다”는 쪽이었어요.
밤이 더 길어지면 차이가 커집니다. 추가로 손보지 않아도 Caduceus는 입력을 훨씬 길게 늘려도 성능 변화가 작게 보인 일이 있었고, Hawk는 변이 영향 점수가 길어져도 비교적 안정적이었습니다. 반면 모든 걸 서로 대조하려는 기준 방식은 익숙한 길이를 넘기면 급격히 흐트러지기 쉬웠습니다.
해안 근무가 길어지면 수첩 한 장으론 부족하죠. 큰 DNA를 덩어리로 나눠서 보고, 앞 덩어리에서 만든 마지막 요약 메모를 다음 덩어리의 시작으로 넘기는 요령이 나왔습니다. 마치 교대 시간이 되면 같은 수첩을 다음 등대지기에게 건네는 것처럼요. 멀리까지 봐도 무너지진 않는데, 거리가 늘었다고 답이 저절로 더 좋아지진 않았습니다. 이제 과제는 그 넓어진 시야를 정말로 쓰게 만드는 일입니다.