친구들을 모아서 술 몇 잔을 마시고, 농담이 우리 모두에게 다가올 때, 눈이 마주치고 건방진 미소를 나누는 마법 같은 순간이 있다.
미소는 낯선 사람을 가장 소중한 친구로 만들 수 있다. 그것은 헐리우드의 귀여운 플롯을 자극하고, 깨진 관계를 복구하며, 모호하고 따뜻한 기쁨의 감정과 불가분의 관계가 있다. 적어도 사람들에게는 말이다.
로봇의 경우, 진정한 미소를 찾으려는 시도는 인간과 비슷할 정도로 가깝지만 약간의 불안감을 주는 불쾌한 계곡에 빠지는 경우가 많다. 논리적으로 당신은 그들이 무엇을 하려는지 알고 있다. 그러나 직감은 뭔가가 옳지 않다는 것을 알려준다.
타이밍 때문일 수도 있다. 로봇은 웃는 얼굴 표정을 모방하도록 훈련되었다. 하지만 그들은 언제 미소를 지어야 할지 모른다. 인간이 연결될 때, 우리는 의식적인 계획 없이 진심으로 함께 웃는다. 로봇은 사람의 얼굴 표정을 분석하여 미소를 재현하는 데 시간을 투자한다. 인간에게는 1000분의 1초의 지연이라도 목 뒤쪽의 털이 자라난다. 마치 공포 영화처럼 뭔가 조작되고 잘못된 것처럼 느껴진다.
지난 주 컬럼비아 대학의 한 팀은 로봇이 인간 조작자와 미소를 공유하도록 가르치는 알고리즘을 선보였다. AI는 약간의 얼굴 변화를 분석하여 작업자의 표정을 발생하기 약 800밀리초 전에 예측한다. 이는 로봇이 다시 웃을 수 있는 충분한 시간이다.
팀은 이모(Emo)라는 부드러운 로봇 인간형 얼굴을 훈련시켜 인간 동반자의 표정을 예측하고 일치시킨다. 파란색으로 착색된 실리콘 얼굴을 가진 이모(Emo)는 60년대 SF 외계인처럼 보인다. 그러나 그것은 동일한 "감정적" 파장에서 인간 파트너와 함께 쉽게 웃었다.
이번 연구에 참여하지 않은 글래스고 대학의 레이첼 잭(Rachael Jack) 박사는 휴머노이드 로봇이 인간과 의사소통할 때 종종 투박하고 부자연스럽다고 썼다. ChatGPT 및 기타 대규모 언어 알고리즘은 이미 AI의 음성을 사람처럼 들리게 만들 수 있지만 비언어적 의사소통은 복제하기 어렵다.
적어도 얼굴 표정에 대한 사회적 기술을 물리적 로봇에 프로그래밍하는 것은 "소셜 로봇이 인간의 사회적 세계에 합류"하도록 돕는 첫 번째 단계라고 그녀는 썼다.
신뢰 로봇
로봇택시부터 음식과 음료를 가져다주는 로보서버까지, 자율 로봇이 점점 우리 삶에 들어오고 있다.
런던, 뉴욕, 뮌헨, 서울에서는 자율 로봇이 혼란스러운 공항을 빠르게 통과하여 체크인, 게이트 찾기, 분실된 수하물 복구 등 고객 지원을 제공한다. 싱가포르에서는 360도 시야를 갖춘 7피트 높이의 로봇 몇 대가 잠재적인 보안 문제를 알리기 위해 공항을 돌아다닌다. 팬데믹 기간 동안 로봇 개들은 사회적 거리두기를 시행했다.
하지만 로봇은 더 많은 일을 할 수 있다. 파괴된 집이나 다리의 잔해를 청소하는 등 위험한 작업의 경우 구조 활동을 선도하고 최초 대응자의 안전을 높일 수 있다. 점점 더 고령화되는 세계 인구로 인해 간호사가 노인을 지원하는 데 도움이 될 수 있다.
현재의 휴머노이드 로봇은 만화처럼 사랑스럽다. 하지만 로봇이 우리 세상에 들어오기 위한 주요 요소는 신뢰이다. 과학자들이 점점 더 인간과 유사한 얼굴을 가진 로봇을 만들면서 우리는 그들의 표정이 우리의 기대와 일치하기를 원한다. 단순히 표정을 흉내 내는 것이 아니다. 움츠러들 만한 농담에 대해 진심으로 “네, 알아요”라고 웃는 미소는 유대감을 형성한다.
표현, 손짓, 신체 자세 등 비언어적 의사소통은 우리가 자신을 표현하는 데 사용하는 도구이다. ChatGPT 및 기타 생성 AI를 통해 기계는 이미 "비디오 및 구두로 통신"할 수 있다고 연구 저자인 호드 립슨(Hod Lipson) 박사가 사이언스에 말했다.
그러나 눈빛, 윙크, 미소가 모든 변화를 가져올 수 있는 현실 세계에서는 "지금은 빠져 있는 채널"이라고 립슨은 말했다. “잘못된 순간에 웃는 것은 역효과를 낳을 수 있다. [몇 밀리 초 만이라도 늦었다면] 영합하는 것 같은 느낌이 들 수도 있겠다.”
치즈~
로봇이 비언어적 행동을 하도록 하기 위해 팀은 공유된 미소라는 한 가지 측면에 집중했다. 이전 연구에서는 미소를 모방하도록 사전 프로그래밍된 로봇이 있었다. 하지만 자발적이지 않기 때문에 약간이지만 눈에 띄는 지연이 발생하고 미소가 가짜처럼 보이게 된다.
립슨은 "비언어적 의사소통에는 정량화하기 어려운 많은 것들이 있다"고 말했다. "사진을 찍을 때 '치즈'라고 말해야 하는 이유는 요구에 따라 웃는 것이 실제로 꽤 어렵기 때문이다."
새로운 연구는 타이밍에 초점을 맞췄다.
팀은 사람의 미소를 예측하고 인간과 유사한 애니마트로닉스 얼굴을 동시에 웃게 만드는 알고리즘을 설계했다. 이모(Emo)라고 불리는 이 로봇 얼굴에는 신축성 있는 실리콘 "피부"로 둘러싸인 26개의 기어(인공 근육을 생각해 보라)가 있다. 각 기어는 자석으로 메인 로봇 '골격'에 부착되어 눈썹, 눈, 입, 목을 움직인다. 이모(Emo)의 눈에는 주변 환경을 기록하고 안구 움직임과 깜박임 동작을 제어하는 카메라가 내장되어 있다.
이모(Emo)는 그 자체로 자신의 표정을 추적할 수 있다. 새로운 연구의 목표는 다른 사람의 감정을 해석하는 데 도움을 주는 것이었다. 팀은 내성적인 십대라면 누구나 알 수 있는 트릭을 사용했다. 그들은 이모(Emo)에게 거울을 보고 기어를 제어하는 방법과 미소와 같은 완벽한 표정을 짓는 방법을 배우도록 요청했다. 로봇은 점차적으로 "뺨을 들어 올리세요"와 같은 운동 명령에 자신의 표정을 맞추는 방법을 배웠다. 그런 다음 팀은 얼굴을 너무 많이 늘려 로봇의 실리콘 피부를 손상시킬 수 있는 모든 프로그래밍을 제거했다.
“알고 보니…미소를 지을 수 있는 로봇 얼굴을 만드는 것은 기계적인 관점에서 볼 때 엄청나게 어려운 일이었다. 로봇 손을 만드는 것보다 어렵다.”라고 립슨은 말했다. “우리는 거짓된 미소를 찾아내는 데 아주 능숙하다. 그래서 우리는 그것에 매우 민감하다.”
불쾌한 계곡에 대응하기 위해 팀은 인간이 웃고, 놀라고, 찡그리고, 울고, 기타 표정을 짓는 영상을 사용하여 얼굴 움직임을 예측하도록 이모(Emo)를 훈련시켰다. 감정은 보편적이다. 웃을 때 입가가 초승달 모양으로 말려진다. 울 때 눈썹이 함께 찌그러진다.
AI는 각 장면의 얼굴 움직임을 프레임별로 분석했다. 눈, 입 및 기타 "얼굴 랜드마크" 사이의 거리를 측정하여 특정 감정에 해당하는 징후를 발견했다. 찡그린 얼굴로 내려간다.
훈련을 마친 AI는 이러한 얼굴 랜드마크를 인식하는 데 1초도 채 걸리지 않았다. 이모(Emo)에 전원을 공급할 때 로봇 얼굴은 1초 이내에 인간 상호 작용을 기반으로 한 미소를 예상하여 참가자와 함께 웃을 수 있다.
분명히 말하면 AI는 "느끼지" 않는다. 오히려, 그것은 진짜 같은 미소를 지으며 우스꽝스러운 일어서기에 낄낄 웃을 때 인간이 하듯이 행동한다.
얼굴 표정은 우리가 사람들과 상호 작용할 때 알아차리는 유일한 단서가 아니다. 미묘한 머리 흔들기, 고개 끄덕임, 눈썹 치켜올리기, 손짓 등 모두 특징을 나타낸다. 문화에 관계없이 "음", "아", "좋아요" 또는 이에 상응하는 단어가 일상적인 상호 작용에 통합된다. 지금 이모는 웃는 법을 배운 아기와 같다. 아직 다른 맥락을 이해하지 못한다.
립슨은 “갈 길이 멀다”고 말했다. 우리는 AI를 위한 비언어적 의사소통의 표면을 긁는 중이다. 그러나 "ChatGPT에 참여하는 것이 흥미롭다고 생각한다면 이러한 것이 물리적으로 구현되어 모든 것이 중단될 때까지 기다리라."
이미지 출처: Yuhang Hu, Columbia Engineering(YouTube를 통해)