뇌를 모방하여 비디오를 "보는" AI를 개발
움직이는 이미지를 인간의 뇌처럼 미묘하게 보고 이해할 수 있는 인공지능(AI) 모델을 상상해 보라. Scripps Research의 과학자들은 MovieNet을 만들어 이를 현실로 만들었다. MovieNet은 시간이 지남에 따라 전개되는 실제 장면을 우리 뇌가 해석하는 방식과 매우 유사한 방식으로 비디오를 처리하는 혁신적인 AI이다.
2024년 11월 19일 미국 국립과학원 회보에 발표된 연구에 자세히 나와 있는 이 뇌에서 영감을 받은 AI 모델은 뉴런 또는 뇌 세포가 실시간으로 세상을 이해하는 방식을 시뮬레이션하여 움직이는 장면을 인식할 수 있다.
기존 AI는 정지 이미지를 인식하는 데 뛰어나지만 MovieNet은 머신러닝 모델이 복잡하고 변화하는 장면을 인식하는 방법을 도입한다. 이는 의료 진단에서 자율 주행에 이르기까지 시간 경과에 따른 미묘한 변화를 식별하는 것이 중요한 분야를 혁신할 수 있는 획기적인 방법이다. MovieNet은 기존 AI보다 정확하고 환경적으로 지속 가능하다.
"뇌는 정지된 프레임만 보는 것이 아니다. Scripps Research의 도리스 신경과학 센터 소장이자 한 신경과학 교수인 수석 저자 홀리스 클라인 박사는 "지속적인 시각적 서사를 만들어낸다."라고 말한다. "정적 이미지 인식은 크게 발전했지만, 영화를 보는 것과 같은 흐르는 장면을 처리하는 뇌의 능력에는 훨씬 더 정교한 형태의 패턴 인식이 필요하다. 뉴런이 이러한 시퀀스를 어떻게 포착하는지 연구함으로써 우리는 유사한 원리를 AI에 적용할 수 있었다."
MovieNet을 만들기 위해 클라인과 Scripps Research의 직원 과학자인 첫 번째 저자 마사키 히라모토 박사는 뇌가 영화 클립과 유사한 짧은 시퀀스로 실제 장면을 처리하는 방식을 조사했다. 구체적으로 연구자들은 올챙이 뉴런이 시각적 자극에 어떻게 반응하는지 연구했다.
히라모토는 "올챙이는 매우 뛰어난 시각 시스템을 가지고 있으며, 움직이는 자극을 효율적으로 감지하고 반응할 수 있다는 것을 알고 있다."라고 설명한다.
그와 클라인은 밝기 변화와 이미지 회전과 같은 영화와 같은 특징에 반응하고 물체가 움직이고 변할 때 인식할 수 있는 뉴런을 식별했다. 시신경 덮개라고 알려진 뇌의 시각 처리 영역에 위치한 이 뉴런은 움직이는 이미지의 일부를 일관된 시퀀스로 조립한다.
이 과정을 렌즈형 퍼즐과 비슷하다고 생각해보자. 각 조각만으로는 의미가 없을 수 있지만 함께 모이면 움직이는 완전한 이미지를 형성한다. 다른 뉴런은 실제 움직이는 이미지의 다양한 "퍼즐 조각"을 처리하고 뇌는 이를 연속적인 장면으로 통합한다.
연구자들은 또한 올챙이의 시신경 덮개 뉴런이 시간이 지남에 따라 시각적 자극의 미묘한 변화를 구별하여 정지 프레임이 아닌 약 100~600밀리초의 동적 클립으로 정보를 포착한다는 것을 발견했다. 이 뉴런은 빛과 그림자의 패턴에 매우 민감하며, 시야의 특정 부분에 대한 각 뉴런의 반응은 장면의 자세한 지도를 구성하여 "영화 클립"을 형성하는 데 도움이 된다.
클라인과 히라모토는 MovieNet을 훈련시켜 이러한 뇌와 유사한 처리를 에뮬레이트하고 비디오 클립을 일련의 작고 인식 가능한 시각적 단서로 인코딩했다. 이를 통해 AI 모델은 동적 장면 간의 미묘한 차이를 구별할 수 있었다.
연구원들은 MovieNet을 테스트하기 위해 다양한 조건에서 수영하는 올챙이의 비디오 클립을 보여주었다. MovieNet은 정상적인 수영 행동과 비정상적인 수영 행동을 구별하는 데 82.3%의 정확도를 달성했을 뿐만 아니라 훈련된 인간 관찰자의 능력보다 약 18% 더 뛰어났다. 광범위한 훈련 및 처리 리소스에도 불구하고 정확도가 72%에 불과한 Google의 GoogLeNet과 같은 기존 AI 모델보다 성능이 뛰어났다.
"여기서 우리는 진정한 잠재력을 보았다."라고 클라인은 지적한다.
팀은 MovieNet이 변화하는 장면을 이해하는 데 있어 현재 AI 모델보다 뛰어날 뿐만 아니라 데이터와 처리 시간이 덜 사용된다는 것을 확인했다. MovieNet은 정확도를 희생하지 않고 데이터를 단순화하는 기능도 기존 AI와 차별화한다. MovieNet은 시각적 정보를 필수 시퀀스로 분해하여 중요한 세부 정보를 유지하는 압축 파일처럼 데이터를 효과적으로 압축한다.
MovieNet은 높은 정확도 외에도 친환경 AI 모델이다. 기존 AI 처리에는 엄청난 에너지가 필요하여 환경에 큰 영향을 미친다. MovieNet의 감소된 데이터 요구 사항은 높은 표준에서 성능을 발휘하는 동시에 에너지를 보존하는 보다 친환경적인 대안을 제공한다.
"뇌를 모방함으로써 우리는 AI를 훨씬 덜 요구하게 만들어 강력할 뿐만 아니라 지속 가능한 모델을 위한 길을 열었다."라고 클라인은 말한다. "이러한 효율성은 또한 기존 방법이 비용이 많이 드는 분야에서 AI를 확장할 수 있는 문을 열어준다."
또한 MovieNet은 의학을 재편할 잠재력이 있다. 기술이 발전함에 따라 불규칙한 심장 박동을 감지하거나 파킨슨병과 같은 신경 퇴행성 질환의 첫 징후를 발견하는 것과 같이 초기 단계의 미묘한 변화를 식별하는 데 귀중한 도구가 될 수 있다. 예를 들어, 인간의 눈으로는 종종 식별하기 어려운 파킨슨병과 관련된 사소한 운동 변화는 AI가 일찍 플래그를 지정하여 임상의가 개입할 수 있는 귀중한 시간을 제공할 수 있다.
또한 MovieNet은 올챙이가 화학 물질에 노출되었을 때 올챙이의 수영 패턴의 변화를 감지할 수 있는 능력을 통해 과학자들이 정적 스냅샷에 의존하기보다는 역동적인 세포 반응을 연구할 수 있으므로 더욱 정확한 약물 스크리닝 기술을 개발할 수 있다.
"현재의 방법은 일정 간격으로 촬영한 이미지만 분석할 수 있기 때문에 중요한 변화를 놓친다."라고 히라모토는 말한다. "시간 경과에 따른 세포 관찰은 MovieNet이 약물 테스트 중에 가장 미묘한 변화도 추적할 수 있다는 것을 의미한다."
앞으로 클라인과 히라모토는 MovieNet이 다양한 환경에 적응하는 능력을 계속 개선하여 다양성과 잠재적 응용 분야를 강화할 계획이다.
"생물학에서 영감을 얻는 것은 AI를 발전시키는 데 있어 계속해서 비옥한 영역이 될 것이다."라고 클라인은 말한다. "살아있는 유기체처럼 생각하는 모델을 설계함으로써 기존 방식으로는 단순히 불가능한 수준의 효율성을 달성할 수 있다."