본문 바로가기 주메뉴 바로가기 검색 바로가기
래빗 소형 기기, 시리·알렉사도 어려운 작업 학습 능력과 함께 등장
상태바
래빗 소형 기기, 시리·알렉사도 어려운 작업 학습 능력과 함께 등장
래빗이라는 스타트업이 사용자가 가르친 디지털 심부름 무엇이든 학습할 수 있는 AI 음성비서를 개발했다. 인터페이스 자체는 매우 귀엽다. 소형 휴대용 기기에 음성 명령을 내려 음성비서가 작업을 처리하도록 하면 된다.
By JULIAN CHOKKATTU, WIRED US

앱을 싫어하는가? 제스 류(Jesse Lyu)는 앱을 싫어한다. 적어도 필자가 신생 인공지능(AI) 스타트업 래빗(Rabbit Inc.) 창립자 제스 류와 처음 대화한 뒤 받은 핵심 메시지를 기준으로 평가했을 때 느낀 바이다. 래빗은 CES 2024에서 주머니에 넣을 수 있을 정도로 작은 휴대용 기기 R1을 선보인 기업이기도 하다. 몇 가지 작업을 완료하고자 스마트폰을 꺼내서 적합한 앱을 찾느라 씨름하고는 앱 안 기능을 찾아 헤매는 대신 류는 사용자가 ‘눌러서 말하기’ 버튼을 통해 R1에 음성 명령을 내린 뒤 작업을 처리하기를 원한다. 사용자가 음성 명령을 내리면, ‘래빗’이라는 자동화 스크립트가 작업을 처리하여 사용자가 일상을 보내도록 한다.

R1은 포스트잇 메모지 뭉치와 비슷한 크기의 다홍색 정사각형 기기이다. 스웨덴 기업 틴에이지 엔지니어링(Teenage Engineering)과의 협업으로 탄생했다. (류는 틴에이지 엔지니어링의 이사이기도 하다.) R1은 왼쪽에 2.88인치 터치스크린을, 오른쪽에는 아날로그 스크롤 바퀴를 탑재했다. 스트롤 바퀴 위에는 360도 회전할 수 있는 카메라가 장착됐다. ‘래빗 아이(Rabbit Eye)’라고 칭하는 카메라는 사용하지 않을 때 위나 아래로 향하여 사실상 프라이버시 셔터 기능을 지원한다. 또, 사용자가 원할 때 셀프 카메라 모드나 후면 카메라 모드로 설정하여 사용할 수 있다. 영상 통화 도중 래빗 아이를 실행할 때는 일반 스마트폰처럼 사용할 수 있다. 카메라 기능은 뒷부분에서 더 자세히 설명하겠다.

오른쪽 가장자리에는 ‘눌러서 말하기’ 버튼이 있다. 버튼을 누르면, R1에 음성 명령을 내릴 수 있다. 인터넷에 계속 연결할 수 있도록 4G LTE SIM 카드 슬롯도 있어, 다른 기기와 호환하지 않아도 사용할 수 있다. (R1은 와이파이 네트워크로도 연결할 수 있다.) USB-C 충전 포트도 있으며, 래빗은 1회 충전 시 R1을 하루 동안 사용할 수 있다고 주장한다.
 
[사진=Rabbit Inc.]
[사진=Rabbit Inc.]

R1의 출고가는 199달러이다. 하지만 매달 부담하는 모바일 요금도 별도로 계산해야 한다. 사전 주문은 2024년 1월 9일(현지 시각) 시작됐으며, 제품은 2024년 3월 말 출하된다.

주머니에 넣고 휴대하기 적합한 R1은 스마트폰을 대체할 의도로 설계된 제품이 아니다. R1으로 영상을 시청하거나 게임을 실행할 수도 없다. 대신, 손을 움직이지 않고 사소한 작업을 처리할 용도로 설계됐다. 류는 R1을 사용하는 것이 스마트폰에서 음성비서 명령을 비활성화한 상태에서 사소한 작업을 처리하는 것에 비유했다. 예를 들어, R1은 우버 호출 기능을 실행할 수 있다. 버튼을 누르고 “엠파이어 스테이트 빌딩으로 향하는 우버 택시를 호출해달라”라고 말하면 된다. R1은 몇 초 만에 사용자의 요청 사항을 분석하고는 화면으로 요금과 기타 상세 정보를 보여준 뒤 호출 요청을 보낸다. 식당 예약, 항공권 예약, 스포티파이 재생 목록 추가 등 여러 항목에 해당하는 작업도 똑같은 과정을 따라 처리한다.

R1에는 사전 설치된 앱이 없다는 점이 혼란스러울 수도 있다. 클라우드 서비스가 데이터 요청을 위해 사용하는 소프트웨어 게이트웨이인 다른 앱의 API에도 연결되지 않았다. 플러그인, 프록시 계정도 없다. 재차 언급하자면, 스마트폰과 호환하여 사용하는 기기가 아니다.

R1의 운영체제인 래빗OS(Rabbit OS)가 사용자가 웹 포털을 통해 특정 앱에 접근하도록 전환하는 레이어 역할을 한다. 류는 필자에게 오픈테이블(OpenTable), 우버, 스포티파이, 도어대시(Doordash), 아마존 등과 같은 서비스의 계정 로그인 페이지 링크 여러 개가 등장한 래빗 홀(Rabbit Hole)이라는 웹페이지를 보여주었다. 링크 하나를 탭하면, 로그인 요청 메시지가 등장하여 기본적으로 래빗OS가 사용자 대신 연동된 계정의 능력을 수행하도록 한다.

프라이버시 부문에서는 최악이라고 생각할 수 있다. 하지만 래빗은 외부 서비스의 사용자 신원 정보를 일절 저장하지 않는다고 설명했다. 외부 서비스 로그인 시스템의 모든 인증 과정과 마찬가지로 언제든지 래빗OS의 계정 접근 권한을 해제하고는 저장된 데이터를 삭제할 수 있다. 같은 측면에서 보자면, R1은 소형 무전기와 같이 ‘눌러서 말하기’ 버튼을 이용하여 음성 명령을 내릴 수 있으므로 별도의 호출 언어는 없다. 따라서 R1은 다른 인기 음성 비서와 달리 사용자의 일상 대화를 모두 끊임없이 엿듣지 않는다. R1에 장착된 마이크는 버튼을 눌렀을 때만 활성화되고, 오디오 녹화 기능을 실행한다.

백엔드는 여러 대규모 언어 모델 조합을 활용하여 오픈AI의 챗GPT와 래빗이 개발한 대규모 행동 모델(large action model) 등을 바탕으로 사용자의 의도를 이해한다. 대규모 행동 모델은 인간이 모바일이나 데스크톱, 클라우드 인터페이스를 통해 작업을 수행하는 방식을 관찰하면서 설명을 통해 학습한다. 이후 직접 학습한 바를 복제하여 작업을 처리한다. 래빗은 최고 인기 앱의 몇 가지 행동을 훈련하였으며, 시간이 지날수록 래빗의 작업 수행 능력은 향상할 것이다.

지금까지 기기에 말을 걸 때는 시리, 구글 어시스턴트와 같은 음성비서가 텍스트를 전송하거나 사용자의 명령을 제대로 이해하지 못하고 엉뚱한 답변을 하는 과정을 경험했다. 하지만 래빗은 다른 방식으로 음성 명령을 처리한다. 래빗의 언론 보도 자료에는 래빗OS가 단순한 작업은 물론이고, 본질적으로 더 복잡하면서 실시간 상호작용이 필요한 심부름도 처리하도록 설계됐다는 설명이 언급되었다. 래빗은 여행 일정표 조사, 일정 및 예산에 따라 가장 합리적인 예약하기, 가상 식료품점 카트에 구매할 물품 추가 후 장보기부터 계산 후 나가기 등과 같은 기능을 제공한다는 점을 예시로 언급했다.

이견을 제시할 수 있으나 R1의 대규모 행동 모델의 가장 흥미로운 기능은 추후 업데이트를 통해 추가될 기능인 실험용 ‘교육 모드’이다. R1 카메라가 데스크톱 화면이나 스마트폰을 향하도록 두고, R1이 학습하기를 원하는 작업을 보여주면 된다. 류는 그 예시로 어도비 포토샵의 워터마크 제거 작업 학습 과정을 보여주었다. (자칫하면 저작권 침해 문제를 일으킬 수 있다.) 기본적으로 작업을 자동화하지 않고, 개인 래빗에 틈새 작업 처리 방식을 가르칠 수 있다. 래빗이 작업을 학습한 뒤 버튼을 누르고 가르친 작업을 처리하도록 명령할 수 있다.

류는 래빗팀이 ‘디아블로 4’에서 생존하는 방법을 가르치면서 적을 죽이는 방법과 캐릭터의 헬스 바를 유지하는 방법도 보여주었다고 전했다. 이론상 래빗이 디아블로 4 게임 속에서 캐릭터를 생성하고는 레벨 업을 완료하여 게임을 실행하면서 직접 힘겹게 헤맬 필요가 없다.

갈수록 개인 AI 동반 앱이 되고자 하는 R1의 경쟁 기기가 증가하는 추세이다. AI 기반 상호작용 기능을 지원하는 웨어러블 기기인 휴메인 AI 핀(Humane AI Pin)과 달리 R1은 전 세계 정보에 손쉽게 접근할 툴이 될 의도로 제작된 기기가 아니다. 래빗은 R1이 디지털 세계와의 인터페이스 방식이 되기를 원한다.

류는 “사용자의 문제를 해결하고자 한다. 누구나 사용법을 익히지 않더라도 사용법을 파악할 정도로 손쉽게 사용할 수 있는 기기를 제공하고자 한다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Rabbit’s Little Walkie-Talkie Learns Tasks That Stump Siri and Alexa
이 기사를 공유합니다
RECOMMENDED