인간형 로봇 분야에 대한 대규모 투자 물결 속에서 2018년 튜링상 수상자이자 현재 메타 최고의 AI 과학자인 얀 르쿤 브라 교수는 이 산업이 생성형 AI 열풍과 유사하게 브라 기대 거품에 빠지고 있다고 경고했습니다.
MIT가 주최한 생성형 AI(MGAIC) 영향에 관한 심포지엄에서 르쿤은 대부분의 스타트업 기업이 로봇의 진정한 지능 문제의 핵심을 해결하는 대신 하드웨어 설계에 집중하고 있다고 말했습니다.
LeCun은 오늘날 일상 생활에서 유용할 만큼 똑똑한 로봇을 만드는 방법을 아는 회사는 없다고 강조했습니다.
LeCun은 '로봇은 눈 생산이나 보급과 같은 특정 임무를 위해 훈련될 수 있지만 스마트 가정용 로봇이 되려면 눈은 AI 지향적인 아키텍처에서 근본적인 돌파구가 필요합니다.'라고 말했습니다.
그는 또한 '브레이크'의 발전은 기계 학습이 인간과 유사한 물리적 세계를 이해하고 예측하고 상호 작용할 수 있도록 하는 시스템인 세계 모델(world model):의 발전에 달려 있다고 주장했습니다.
세계 모델 개념은 AI가 센서 데이터와 고대역폭 비디오에서 학습하여 행동 결과를 예측하는 능력을 의미합니다.
그는 비디오에서 불가능한 일이 발생했을 때 AI가 감지하는 데 도움이 되는 자기 모니터링 학습 형태인 V-JEPA(Video Joint Embedding Predictive Architecture): 건축물의 예시를 들었습니다.
르쿤 브리지에 따르면 이것은 로봇 인식의 시작이며 로봇이 수동 훈련 없이 학습할 수 있는 길을 열어줍니다.
LeCun의 의견은 많은 전문가들의 지지를 받고 있습니다. OpenAI 찬드의 공동 창립자인 안드레이 카르파시 찬드도 현재 로봇은 지속적으로 학습할 수 없으며 삶에 충분한 일반 인공 지능(AGI)을 달성하는 데 최소 10년이 걸릴 것이라고 말했습니다.
LeCun은 현재의 대규모 언어 모델(LLM)은 텍스트에서만 학습하고 실제 감각 데이터가 부족하기 때문에 인간형 로봇을 작동할 수 없다고 주장합니다.
네 살짜리 아이가 LLM의 전체 훈련 데이터 저장소에 해당하는 시각 데이터 양을 보았습니다.'라고 LeCun은 비유했습니다.
40년 이상의 연구를 통해 르쿤은 제프리 힌튼 요슈아 벤지오와 함께 딥러닝의 세 아버지 중 한 명으로 여겨집니다.
그는 AI가 텍스트를 읽고 이해하는 대신 물리적 세계에서 배울 때만 진정한 지능형 로봇에 대한 꿈이 현실이 될 것이라고 믿습니다.