By WILL KNIGHT, WIRED US
캘리포니아주 마운틴뷰의 개방된 사무실에 길고 날씬한 모습에 바퀴가 달린 로봇이 사무실 내부 투어 가이드 겸 정보 안내 도우미 역할을 했다. 2024년 7월 11일(현지 시각), 구글 딥마인드가 발표한 대규모 언어 모델 업그레이드 사항 덕분이다. 로봇은 구글 제미나이(Gemini) 대규모 언어 모델 최신 버전을 사용하여 명령을 분석하고는 자체적으로 답을 찾는다.
인간이 “글 작성 작업을 할 공간을 찾아달라”라고 명령하면, 로봇은 책임감을 갖고 바퀴를 이용하여 사무실 곳곳을 이동하면서 명령을 지시한 이를 건물 내부 어딘가에 배치된 깔끔한 화이트보드 앞으로 안내한다.
제미나이의 영상, 텍스트 처리 능력은 과거 기록된 사무실 투어 영상 형태의 대규모 정보를 소화할 능력을 더하여 ‘구글 도우미 로봇’이 주어진 환경을 이해하고는 어느 정도 상식적인 합리적 이해가 필요한 명령을 받고 공간을 제대로 이동할 능력을 부여한다. 로봇은 제미나이와 회전 등 로봇이 명령과 눈앞에 본 정보를 바탕으로 응답하면서 처리할 특수한 행동을 생성하는 알고리즘을 결합하여 완성되었다.
2023년 12월, 제미나이를 출시했을 당시 구글 딥마인드 CEO 데미스 하사비스(Demis Hassabis)는 와이어드의 문의에 제미나이의 멀티모달 역량이 새로운 로봇 기능에 접근하도록 한다고 설명했다. 당시 하사비스는 구글 딥마인드가 멀티모달 모델의 잠재적 로봇 역할 수행 능력을 열심히 시험 중이라고 전했다.
딥마인드 연구팀은 제미나이의 멀티모달 모델 역량 실험을 기술한 채로 새로이 발표된 연구 논문을 통해 로봇이 “내 컵 받침대가 어디 있지?”처럼 처리하기 까다로운 명령이 주어졌을 때도 명령에 따라 사무실 공간을 이동하면서 처리한 작업 처리 결과의 정확도가 최대 90%임을 입증했다. 연구팀은 “딥마인드의 시스템은 인간과 로봇의 자연스러운 상호작용을 개선하고, 로봇의 활용성을 대거 높였다”라고 작성했다.
연구팀의 데모는 대규모 언어 모델이 현실 세계에 도달할 때의 잠재력과 유용한 작업을 처리할 능력을 보여준다. 제미나이를 비롯한 여러 인공지능(AI) 챗봇은 주로 웹 브라우저나 앱의 제한된 범위에서 기능을 실행한다. 그러나 구글, 오픈AI 모두 입증한 바와 같이 갈수록 시각, 청각 정보 입력 사항 처리 능력이 나아지는 추세이다. 2024년 5월, 하사비스는 사무실 설계도를 스마트폰 카메라로 본 것처럼 이해할 수 있는 제미나이 업그레이드 버전을 선보였다.
학계와 업계 연구 기관은 대규모 언어 모델을 로봇의 능력을 높이는 데 활용할 수 있는 가능성을 찾기 위한 경쟁을 펼친다. 2024년 5월 개최된 로봇 연구 업계의 유력 행사인 국제 로봇자동화 학술 대회(International Conference on Robotics and Automation)에서 대규모 언어 모델의 전망을 포함한 연구 논문 20편 이상 발표되었다.
투자자는 AI의 발전 사항을 로봇에 적용한다는 목표를 지닌 스타트업 여러 곳에 거액을 투자한다. 구글 프로젝트에 참여한 연구원 여러 명은 구글을 떠나 AI 스타트업 피지컬 인텔리전스(Physical Intelligence)를 창립하여 초기 투자금 조달 단계에서 7,000만 달러를 조달했다. 피지컬 인텔리전스는 대규모 언어 모델에 현실 세계 훈련 과정을 결합하여 로봇에 일반적인 문제 해결 능력을 부여한다. 카네기멜론대학교 로봇 연구팀이 설립한 스타트업인 스킬드AI(Skild AI)도 피지컬 인텔리전스와 비슷한 목표를 지녔다. 2024년 7월, 스킬드 AI는 투자금 3억 달러 조달 소식을 발표했다.
불과 몇 년 전, 로봇이 성공적으로 역할을 수행하려면, 주어진 환경의 지도와 조심스레 선정한 명령어가 필요했다. 현실 세계와 관련한 유용한 정보를 포함한 대규모 언어 모델과 텍스트 외에도 이미지, 영상 데이터로 훈련한 최신 버전 언어 모델인 비전 언어 모델(vision language model)은 인식이 필요한 질문에도 답변할 수 있다. 제미나이는 구글 로봇이 음성 지시 사항은 물론이고, 시각적 지시 사하도 분석하여 화이트보드 스케치를 따라 목적지까지 이동 경로를 보여주도록 한다.
구글 딥마인드 연구팀은 연구 논문을 통해 다른 로봇에 적용한 시스템 역량도 테스트할 계획이라고 밝혔다. 연구팀은 제미나이가 질문자의 책상에 쌓인 빈 콜라 캔을 보고는 “내가 가장 좋아하는 음료가 오늘 들어왔는가?”처럼 더 복잡한 질문도 이해할 수 있다고 전했다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Google DeepMind's Chatbot-Powered Robot Is Part of a Bigger Revolution
캘리포니아주 마운틴뷰의 개방된 사무실에 길고 날씬한 모습에 바퀴가 달린 로봇이 사무실 내부 투어 가이드 겸 정보 안내 도우미 역할을 했다. 2024년 7월 11일(현지 시각), 구글 딥마인드가 발표한 대규모 언어 모델 업그레이드 사항 덕분이다. 로봇은 구글 제미나이(Gemini) 대규모 언어 모델 최신 버전을 사용하여 명령을 분석하고는 자체적으로 답을 찾는다.
인간이 “글 작성 작업을 할 공간을 찾아달라”라고 명령하면, 로봇은 책임감을 갖고 바퀴를 이용하여 사무실 곳곳을 이동하면서 명령을 지시한 이를 건물 내부 어딘가에 배치된 깔끔한 화이트보드 앞으로 안내한다.
제미나이의 영상, 텍스트 처리 능력은 과거 기록된 사무실 투어 영상 형태의 대규모 정보를 소화할 능력을 더하여 ‘구글 도우미 로봇’이 주어진 환경을 이해하고는 어느 정도 상식적인 합리적 이해가 필요한 명령을 받고 공간을 제대로 이동할 능력을 부여한다. 로봇은 제미나이와 회전 등 로봇이 명령과 눈앞에 본 정보를 바탕으로 응답하면서 처리할 특수한 행동을 생성하는 알고리즘을 결합하여 완성되었다.
2023년 12월, 제미나이를 출시했을 당시 구글 딥마인드 CEO 데미스 하사비스(Demis Hassabis)는 와이어드의 문의에 제미나이의 멀티모달 역량이 새로운 로봇 기능에 접근하도록 한다고 설명했다. 당시 하사비스는 구글 딥마인드가 멀티모달 모델의 잠재적 로봇 역할 수행 능력을 열심히 시험 중이라고 전했다.
딥마인드 연구팀은 제미나이의 멀티모달 모델 역량 실험을 기술한 채로 새로이 발표된 연구 논문을 통해 로봇이 “내 컵 받침대가 어디 있지?”처럼 처리하기 까다로운 명령이 주어졌을 때도 명령에 따라 사무실 공간을 이동하면서 처리한 작업 처리 결과의 정확도가 최대 90%임을 입증했다. 연구팀은 “딥마인드의 시스템은 인간과 로봇의 자연스러운 상호작용을 개선하고, 로봇의 활용성을 대거 높였다”라고 작성했다.
연구팀의 데모는 대규모 언어 모델이 현실 세계에 도달할 때의 잠재력과 유용한 작업을 처리할 능력을 보여준다. 제미나이를 비롯한 여러 인공지능(AI) 챗봇은 주로 웹 브라우저나 앱의 제한된 범위에서 기능을 실행한다. 그러나 구글, 오픈AI 모두 입증한 바와 같이 갈수록 시각, 청각 정보 입력 사항 처리 능력이 나아지는 추세이다. 2024년 5월, 하사비스는 사무실 설계도를 스마트폰 카메라로 본 것처럼 이해할 수 있는 제미나이 업그레이드 버전을 선보였다.
학계와 업계 연구 기관은 대규모 언어 모델을 로봇의 능력을 높이는 데 활용할 수 있는 가능성을 찾기 위한 경쟁을 펼친다. 2024년 5월 개최된 로봇 연구 업계의 유력 행사인 국제 로봇자동화 학술 대회(International Conference on Robotics and Automation)에서 대규모 언어 모델의 전망을 포함한 연구 논문 20편 이상 발표되었다.
투자자는 AI의 발전 사항을 로봇에 적용한다는 목표를 지닌 스타트업 여러 곳에 거액을 투자한다. 구글 프로젝트에 참여한 연구원 여러 명은 구글을 떠나 AI 스타트업 피지컬 인텔리전스(Physical Intelligence)를 창립하여 초기 투자금 조달 단계에서 7,000만 달러를 조달했다. 피지컬 인텔리전스는 대규모 언어 모델에 현실 세계 훈련 과정을 결합하여 로봇에 일반적인 문제 해결 능력을 부여한다. 카네기멜론대학교 로봇 연구팀이 설립한 스타트업인 스킬드AI(Skild AI)도 피지컬 인텔리전스와 비슷한 목표를 지녔다. 2024년 7월, 스킬드 AI는 투자금 3억 달러 조달 소식을 발표했다.
불과 몇 년 전, 로봇이 성공적으로 역할을 수행하려면, 주어진 환경의 지도와 조심스레 선정한 명령어가 필요했다. 현실 세계와 관련한 유용한 정보를 포함한 대규모 언어 모델과 텍스트 외에도 이미지, 영상 데이터로 훈련한 최신 버전 언어 모델인 비전 언어 모델(vision language model)은 인식이 필요한 질문에도 답변할 수 있다. 제미나이는 구글 로봇이 음성 지시 사항은 물론이고, 시각적 지시 사하도 분석하여 화이트보드 스케치를 따라 목적지까지 이동 경로를 보여주도록 한다.
구글 딥마인드 연구팀은 연구 논문을 통해 다른 로봇에 적용한 시스템 역량도 테스트할 계획이라고 밝혔다. 연구팀은 제미나이가 질문자의 책상에 쌓인 빈 콜라 캔을 보고는 “내가 가장 좋아하는 음료가 오늘 들어왔는가?”처럼 더 복잡한 질문도 이해할 수 있다고 전했다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Google DeepMind's Chatbot-Powered Robot Is Part of a Bigger Revolution
저작권자 © WIRED Korea 무단전재 및 재배포 금지
저작권자 © WIRED Korea 무단전재 및 재배포 금지
이 기사를 공유합니다