체화된 AI 발전: Meta가 AI에 인간과 같은 촉각과 손재주를 제공하는 방법
AI는 시각적 인식과 언어 처리 분야에서 큰 진전을 이루었다. 그러나 이러한 능력만으로는 물리적 세계와 상호 작용할 수 있는 시스템을 구축하기에 충분하지 않다. 인간은 촉각을 사용하여 물체를 다루거나 통제된 움직임을 한다. 우리는 질감을 느끼고, 온도를 감지하고, 무게를 측정하여 각 동작을 정확하게 안내한다. 이러한 촉각적 피드백을 통해 깨지기 쉬운 물건을 조작하고, 도구를 제어하여 사용하고, 복잡한 작업을 원활하게 수행할 수 있다.
체화된 AI란 무엇인가?
체화된 AI는 물리적 상호작용과 인공지능을 결합하여 기계가 주변 환경을 감지하고, 반응하고, 자연스럽게 관여할 수 있도록 한다. 입력을 "보는" 또는 "듣는" 것뿐만 아니라 AI 시스템이 세상을 느끼고 행동할 수 있도록 한다. 물체에 가하는 압력을 감지하고, 그립을 조정하고, 민첩하게 움직일 수 있는 로봇을 생각해 보라. 체화된 AI는 AI를 화면과 스피커에서 물리적 세계로 옮겨 물체를 조작하고, 작업을 수행하고, 사람과 더 의미 있게 상호 작용할 수 있도록 한다.
예를 들어, 체화된 AI를 기반으로 구축된 로봇은 노인이 깨지기 쉬운 물건을 손상시키지 않고 집어 올리는 데 도움이 될 수 있다. 의료 분야에서는 수술 중에 도구를 정확하게 잡아 의사를 도울 수 있다. 이러한 잠재력은 실험실의 로봇 팔이나 공장의 자동화된 팔을 훨씬 넘어선다. 실시간으로 물리적 환경을 이해하고 대응하는 기계를 만드는 것이다.
Meta의 체현된 AI에 대한 접근 방식
Meta는 체현된 AI를 인간과 같은 촉각에 더 가깝게 만들기 위해 세 가지 핵심 영역에 집중하고 있다. 첫째, 이 회사는 기계가 압력, 질감, 온도와 같은 것을 감지할 수 있도록 하는 고급 촉각 감지 기술을 개발하고 있다. 둘째, Meta는 AI가 이러한 신호를 이해하고 반응할 수 있도록 하는 촉각 인식 모델을 만들고 있다. 마지막으로 Meta는 이러한 인식 모델과 여러 센서를 통합하는 촉각 개발 플랫폼을 구축하여 터치 지원 AI를 구축하기 위한 완전한 시스템을 제공하고 있다. Meta가 이러한 각 영역에서 체현된 AI의 진전을 이끄는 방법은 다음과 같다:
Meta Digit 360: 인간 수준의 촉각 감지
Meta는 구현된 AI에 인간과 같은 촉각을 제공하도록 설계된 촉각 감지 기술인 Digit 360 핑거팁을 출시했다. 18개 이상의 감지 기능을 통해 표면의 진동, 열, 심지어 화학 물질까지 감지할 수 있다. AI 칩이 장착된 핑거팁은 터치 데이터를 즉시 처리하여 스토브의 열이나 바늘의 날카로운 찌르기와 같은 입력에 빠르게 대응할 수 있다. 이 기술은 구현된 AI 내에서 "말초 신경계" 역할을 하여 인간 반응과 유사한 반사적 반응을 시뮬레이션한다. Meta는 모든 각도에서 터치를 포착할 수 있는 800만 개 이상의 택셀을 포함하는 고유한 광학 시스템으로 이 핑거팁을 개발했다. 1밀리뉴턴만큼 작은 힘까지 감지하여 구현된 AI가 환경에 대한 미세 조정된 민감도를 제공한다.
Meta Sparsh: 촉각 지각의 기초
Meta는 AI가 물리적 감각을 이해하고 대응할 수 있도록 터치 지각 기능을 향상시키고 있다. "터치"를 의미하는 산스크리트어에서 따온 Sparsh는 구현된 AI의 "터치 브레인" 역할을 한다. 이 모델을 통해 기계는 압력과 그립과 같은 복잡한 촉각 신호를 해석할 수 있다.
Sparsh의 두드러진 특징 중 하나는 다재다능함이다. 기존 촉각 시스템은 각 작업에 대해 별도의 모델을 사용하여 레이블이 지정된 데이터와 특정 센서에 크게 의존한다. Sparsh는 이러한 접근 방식을 완전히 바꾼다. 범용 모델로서 다양한 센서와 작업에 적응한다. 레이블이 지정된 데이터가 필요 없이 460,000개가 넘는 촉각 이미지의 방대한 데이터베이스에서 자체 감독 학습(SSL)을 사용하여 터치 패턴을 학습한다.
Meta는 또한 Sparsh의 능력을 평가하기 위한 6개의 터치 기반 작업이 있는 새로운 벤치마크인 TacBench를 도입했다. Meta는 Sparsh가 특히 저데이터 시나리오에서 기존 모델보다 95.1% 더 우수한 성과를 냈다고 주장한다. Meta의 I-JEPA 및 DINO 아키텍처를 기반으로 구축된 Sparsh 버전은 힘 추정, 미끄러짐 감지, 복잡한 조작과 같은 작업에서 놀라운 능력을 보여주었다.
Meta Digit Plexus: 촉각 시스템 개발을 위한 플랫폼
Meta는 감지 기술과 촉각 지각 모델을 통합하여 구체화된 AI 시스템을 만드는 Digit Plexus를 출시했다. 이 플랫폼은 단일 로봇 손 내에 손가락 끝과 손바닥 센서를 결합하여 보다 조정된 터치 반응을 가능하게 한다. 이 설정을 통해 구체화된 AI는 감각 피드백을 처리하고 인간의 손이 움직이고 반응하는 방식과 같이 실시간으로 동작을 조정할 수 있다.
Digit Plexus는 손 전체에서 터치 피드백을 표준화하여 체화된 AI의 정밀도와 제어를 향상시킨다. 이 개발은 제조 및 의료와 같이 신중한 취급이 필수적인 분야에서 특히 중요하다. 이 플랫폼은 손가락 끝과 ReSkin과 같은 센서를 제어 시스템에 연결하여 단일 케이블을 통해 데이터 수집, 제어 및 분석을 간소화한다.
Meta는 Digit Plexus의 소프트웨어 및 하드웨어 설계를 오픈 소스 커뮤니티에 공개한다. 목표는 구현된 AI에서 협업을 촉진하고 연구를 가속화하여 이 분야에서 혁신과 발전을 주도하는 것이다.
체화된 AI 연구 및 개발 촉진
Meta는 체화된 AI 연구 및 개발을 촉진하기 위해 기술뿐만 아니라 리소스도 발전시키고 있다. 주요 이니셔티브는 AI 모델을 평가하기 위한 벤치마크 개발이다. 그러한 벤치마크 중 하나인 PARTNR(인간-로봇 협업에서의 계획 및 추론 작업 Planning And Reasoning Tasks in humaN-Robot collaboration)은 AI 모델이 집안일 중에 인간과 어떻게 상호 작용하는지 평가한다. PARTNR은 Habitat 3.0 시뮬레이터를 사용하여 로봇이 청소 및 요리와 같은 작업을 지원하는 현실적인 환경을 제공한다. 100,000개가 넘는 언어 기반 작업을 통해 구현된 AI의 발전을 가속화하는 것을 목표로 한다.
Meta는 내부 이니셔티브 외에도 GelSight Inc. 및 Wonik Robotics와 같은 조직과 협력하여 촉각 감지 기술의 채택을 가속화하고 있다. GelSight는 Digit 360 센서를 배포하고 Wonik Robotics는 Digit Plexus 기술을 통합한 Allegro Hand를 제조한다. Meta는 오픈 소스 플랫폼과 파트너십을 통해 이러한 기술을 제공함으로써 의료, 제조 및 가사 지원 분야의 혁신으로 이어질 수 있는 생태계를 만드는 데 도움을 주고 있다.
결론
Meta는 구현된 AI를 발전시켜 시각과 청각을 넘어 촉각을 포함시킨다. Digit 360 및 Sparsh와 같은 혁신을 통해 AI 시스템은 주변 환경을 정확하게 느끼고 반응할 수 있는 능력을 얻고 있다. Meta는 이러한 기술을 오픈 소스 커뮤니티와 공유하고 주요 조직과 파트너십을 맺음으로써 촉각 감지 개발을 가속화하는 데 도움을 주고 있다. 이러한 진전은 의료, 제조 및 가정 지원과 같은 분야에서 획기적인 진전을 이룰 수 있으며, AI가 실제 작업에서 더욱 유능하고 대응력이 뛰어나게 만들 수 있다.