인공지능, 과학자들은 AI로 70,000개 이상의 기이한 새로운 바이러스를 발견
바이러스는 어디에나 있다. 공기 중에도 있고, 하수, 호수, 바다에도 있고, 초원과 썩어가는 나무에도 있다. 일부는 열수 분출구, 남극의 얼음, 심지어 우주와 같은 극한 환경에서 번성한다.
또한 오래되었다. 일부는 최초의 세포만큼 오래되었거나, 심지어 그보다 오래되었을 가능성이 있다.
우리 종의 새벽부터 바이러스와 공존해 왔음에도 불구하고 바이러스 세계는 여전히 대부분 신비로 남아 있다. 수십 년 동안 과학자들은 전 세계에서 샘플을 꼼꼼히 수집하여 유전 물질을 시퀀싱했다. 하지만 바이러스는 빠르게 돌연변이를 일으키고 이러한 노력은 바이러스권의 표면만 긁어낸 것에 불과하다.
대부분의 바이러스 유전 물질은 생물학적 "암흑 물질"이라고 쑨원대학(Sun Yat-sen University)의 망쉬(Mang Shi)와 동료들은 최근 Cell에 게재된 새로운 논문에서 기술했다.
AI의 도움으로 이 팀은 바이러스 세계에 새로운 빛을 비추고 있다. LucaProt이라는 이름의 AI는 대규모 언어 모델을 사용하여 바이러스 유전 물질의 덩어리를 이해한다. 또 다른 알고리즘은 효능을 높이기 위해 유전적 데이터를 더 "소화하기 쉬운" 비트로 분석한다.
이전 데이터베이스에서 가져온 샘플과 연구 중에 수집한 샘플을 포함하여 약 10,500개의 샘플을 분석한 후 AI는 전 세계 샘플에서 70,458개의 새로운 RNA 바이러스를 감지했다.
연구에 참여하지 않은 토론토 대학교의 아르템 바바이안은 네이쳐에 "갑자기 전에는 보지 못했던 것을 볼 수 있게 되었다."라고 말했다.
바이러스는 나쁜 평판을 가지고 있다. 코로나19 팬데믹과 매년 독감 시즌은 바이러스의 파괴적인 측면을 강조한다. 그러나 항생제 내성 박테리아와 싸우거나, 유전자 요법을 세포로 이동시키거나, 백신으로 개발하는 데 사용될 수도 있다.
바이러스 우주를 차트로 표시하면 바이러스의 진화와 돌연변이에 대한 조감도를 제공하며, 이는 생명공학뿐만 아니라 잠재적으로 다음 팬데믹과 싸우는 데에도 영향을 미친다.
바이러스화
인간의 경우 DNA는 유전적 청사진을 가지고 있다. DNA는 RNA로 변환된다. RNA 역시 4개의 유전 문자로 구성되어 있으며, 유전 정보를 세포 공장으로 운반하여 단백질을 만든다.
바이러스는 다르다. 일부는 DNA를 전혀 사용하지 않고 대신 RNA에 유전적 청사진을 직접 인코딩한다. 이상하게 들리겠지만, 여러분은 이미 이러한 바이러스 중 일부를 알고 있을 것이다. 코로나19를 유발하는 SARS-CoV-2는 RNA 바이러스이다. 이러한 바이러스는 과학적으로 거의 알려지지 않은 단백질을 가지고 있으며, 생물학에 대한 새로운 통찰력을 제공할 수도 있다.
수십 년 동안 과학자들은 샘플을 수집하여 바이러스권을 해독하려고 노력했다. 출처는 일상적인 지역 개울의 물에서 남극의 얼음이나 심해수와 같은 극단적인 것까지 다양하다. 이러한 샘플에서 추출한 RNA는 신중하게 시퀀싱되어 데이터베이스에 저장된다. 메타게놈학이라고 하는 이 방법은 환경에서 모든 바이러스 RNA의 조각을 포착한다.
유전적 금광을 이해하려면 더 많은 작업이 필요하다. 고전적인 계산 방법은 이러한 대규모 데이터베이스에서 의미 있는 통찰력을 찾는 데 어려움을 겪는다.
ESMFold가 등장했다. Meta에서 개발한 이 프로그램은 OpenAI의 ChatGPT와 Google의 Gemini에 사용된 것과 동일한 기술인 대규모 언어 모델을 사용하여 아미노산 "문자"를 기반으로 단백질 구조를 예측한다. DeepMind의 AlphaFold와 데이비드 베이커(David Baker)의 RoseTTAFold를 포함한 유사한 방법은 최근 개발자에게 2024년 노벨 화학상을 안겨주었다.
ESMFold는 분자 시퀀스를 수집하여 원자 수준에서 단백질의 3D 구조를 예측한다. 과학자들은 첫 번째 실제 과제로 AI를 사용하여 우리가 가장 잘 모르는 미생물의 단백질 "암흑 물질"을 해독했다. 작년에 AI는 미생물에서 7억 개가 넘는 단백질의 구조를 예측했다. 10%는 이전에 발견된 어떤 것과도 완전히 달랐다.
이를 알아차린 Shi의 팀은 RNA 바이러스의 세계에서도 비슷한 전략이 통할지 물었다.
바이러스 탐색
과학자들은 이전에 AI를 사용하여 페타바이트 규모의 유전자 시퀀싱 데이터에서 잠재적인 새로운 RNA 바이러스를 찾아냈다. 이는 약 5억 장의 고해상도 사진에 해당하는 양이다.
이러한 연구는 RNA 의존 RNA 중합효소 또는 RdRP에 초점을 맞추었다. 여기서 RNA 시퀀스는 대부분의 RNA 바이러스 게놈을 태그하는 단백질 계열인 RdRP를 인코딩한다. 초기 분석에서 유전 데이터를 기반으로 약 132,000개의 새로운 RNA 바이러스를 식별했다.
문제는? 바이러스는 빠르게 돌연변이한다. RdRP를 인코딩하는 유전자 문자가 변경되면 해당 시퀀스에 대해 학습한 AI가 돌연변이된 바이러스를 인식하지 못할 수 있다. 새로운 연구는 이전 접근 방식과 2채널 AI의 ESMFold를 결합하여 문제를 해결했다.
첫 번째 채널은 ChatGPT와 유사한 변환기 기반 모델을 사용하여 대규모 데이터베이스에서 바이러스 RdRP를 인코딩하는 아미노산 시퀀스 "키워드"를 추출한다. 원하는 시퀀스와 무작위로 생성된 시퀀스로 학습한 후, AI는 RdRP를 인코딩하는 약 20,000개의 자주 발생하는 단백질 시퀀스로 구성된 어휘를 생성했다.
이전 방법과 비교했을 때, 이 단계는 유전 라이브러리를 더 소화하기 쉬운 섹션으로 나누어 AI가 더 긴 유전 시퀀스를 처리하고 바이러스 RdRP 단백질을 감지하기 쉽게 만든다.
두 번째 채널은 ESMFold 버전을 활용한다. 이것은 느리지만 신중한 판독기이다. 단백질 단어를 훑어보는 대신 모든 문자를 "읽고" 각 문자가 어떻게 구조적으로 다른 문자와 연결되어 3D 단백질 모양을 형성하는지 예측한다. 이 단계에서는 AI가 RdRP가 살아있는 바이러스에서 어떻게 보여야 하는지에 대한 아이디어를 얻을 수 있다.
LucaProt은 RdRP 단백질을 인코딩하는 약 6,000개의 시퀀스와 다양한 단백질을 인코딩하는 것으로 알려진 229,500개 이상의 시퀀스에서 학습했다. 연구자들이 답을 알고 있는 테스트 데이터 세트로 도전했을 때, AI는 매우 정확했으며, 0.014%의 경우에만 거짓 양성을 반환했다.
AI는 70,458개의 잠재적인 새롭고 독특한 바이러스를 발견했다. 흙에서 분리된 바이러스 중 하나는 놀랍게도 긴 게놈을 가지고 있었다. "지금까지 발견된 가장 긴 RNA 바이러스 중 하나"라고 팀은 썼다. 다른 바이러스는 온천과 극도로 염분이 많은 호수에서 번성할 수 있다.
확장된 바이러스권은 알려진 바이러스 그룹에 새로운 바이러스를 추가한다. 예를 들어, 간염이나 황열병을 일으키는 플라비바이러스과가 있다. 루카프로트는 또한 60개의 다른 바이러스 그룹을 식별했는데, 각각은 오늘날 알려진 모든 바이러스와 매우 다르다.
질병을 일으킨다는 것은 아니지만, 팀은 "이전 RNA 바이러스 발견 프로젝트에서 대체로 간과되었다"라고 썼다.
바바이안에게 이 연구는 "진화 공간의 외딴 지역에서 정말 멀리 떨어진 RNA 바이러스 생물다양성의 작은 주머니"를 발견했다.
바이러스의 공격?
바이러스는 생존하기 위해 살아있는 숙주가 필요하다. 이 팀은 이러한 숙주를 예측하기 위해 AI를 업그레이드하고 있다. 대부분의 RNA 바이러스는 식물, 동물, 인간을 포함한 진핵생물을 감염시킨다. 일부 바이러스는 박테리아도 감염시킬 수 있다. 고양이와 쥐 놀이에서 유전자 편집기 CRISPR-Cas9가 영감을 얻었다.
"RNA 바이러스의 진화 역사는 세포 유기체의 역사보다 적어도 길거나 더 길다."라고 저자는 이렇게 썼다.
종종 무시되는 것은 세 번째 생명 계통인 고균이다. 지구 생명의 초기 단계에서 진화한 이 생명체는 박테리아와 진핵생물과 유사점을 공유한다. 예를 들어 유전 물질이 복제되는 방식이다.
하지만 고균은 열수 분출구나 극도로 염분이 높은 물과 같은 극한 환경에서 번성하는 독특한 생명 계통이다. RNA 바이러스도 고균을 감염시킬 수 있다는 힌트가 있다. 그렇다면, 그것은 우리의 생명 나무에 대한 새로운 통찰력을 자극할 수 있고, CRISPR와 마찬가지로 잠재적으로 새로운 생명공학으로 이어질 수 있다.
이미지 출처: National Institute of Allergy and Infectious Diseases / Unsplash