본문 바로가기 주메뉴 바로가기 검색 바로가기
구글 어시스턴트, 드디어 ‘생성형 AI’의 긍정적 혁신 얻다
상태바
구글 어시스턴트, 드디어 ‘생성형 AI’의 긍정적 혁신 얻다
구글이 자사 챗봇 바드부터 비교적 성능이 낮은 구글 어시스턴트까지 여러 서비스에 AI 역량을 추가하여 가상 도우미가 이미지를 이해하고, 문서와 이메일의 데이터를 활용하도록 한다.
By WILL KNIGHT, LAUREN GOODE, WIRED US

2023년 5월, 구글이 오픈AI의 챗GPT에 맞설 생성형 인공지능(AI) 챗봇을 출시하면서 과감한 태도를 보였다. 구글은 자사의 상징과 같은 검색 엔진 서비스에 AI 텍스트 생성 기능을 추가하면서 안드로이드 운영체제의 AI 맞춤 버전 서비스를 선보이고, AI 챗봇 바드(Bard)도 출시했다. 그러나 구글이 한동안 생성형 AI를 통합하지 않은 서비스가 하나 있었다. 바로 구글이 시리, 알렉사 대항마로 내놓은 음성 비서인 구글 어시스턴트이다.

2023년 10월 4일(현지 시각), 뉴욕에서 개최된 구글 픽셀 스마트폰 신제품 공개 현장에서 구글 어시스턴트도 챗GPT 시대에 부합하는 업그레이드 사항을 선보였다. 씨씨 샤오(Sissie Hsiao) 구글 어시스턴트 총괄 책임자 겸 부사장은 구글 어시스턴트와 바드로 구성된 구글의 최신 AI 어시스턴트를 공개했다.

샤오 부사장은 구글이 새로운 멀티모달 어시스턴트가 이미지 이해 능력을 포함하여 음성 질문을 넘어서 다양한 질문을 처리할 수 있는 툴이 되는 미래를 구상한다고 밝혔다. 샤오 부사장은 픽셀 공개 행사에 앞서 와이어드와 진행한 인터뷰에서 “구글의 AI 어시스턴트는 사용자가 작성한 할 일 목록에서 새로운 여행 계획 세우기부터 수신함 내용 요약, SNS에 게재할 사진의 흥미로운 자막 작성까지 중요한 작업과 사소한 작업 모두 처리할 수 있다”라고 말했다.

새로운 생성형 AI 경험은 샤오 부사장이 아직 앱으로 출시할 수준으로 질적으로 완성되지 않았다고 말할 정도로 초기 단계에 있는 기술이다. 구글 경영진은 사용자 스마트폰에 더 많은 정보를 제공하기를 바란다는 요청에 보통 최종 형태를 두고 불확실한 반응만 보였다. (구글이 픽셀 8 시리즈 신제품 공개일에 맞춰 AI 어시스턴트를 성급하게 공개한 것일까? 충분히 가능한 일이라고 본다.)

바드가 추가된 구글 어시스턴트는 무엇을 포함하든 생성형 AI를 활용해 텍스트나 음성, 이미지 기반 질문에 답변하고, 텍스트나 음성으로 답변을 전달한다. 공인된 사용자만 한시적으로 사용할 수 있으며, 모바일 버전으로만 서비스를 제공한다. 스마트 스피커로는 AI 어시스턴트를 사용할 수 없다. AI 어시스턴트를 사용하려면, 사용자가 직접 기능 사용을 활성화해야 한다.

구글 어시스턴트의 생성형 AI 혁신 추가에 앞서 아마존은 대화형 AI 기능을 추가했고, 챗GPT의 멀티모달 기능 업그레이드로 합성 음성을 이용한 답변과 앱에 공유된 콘텐츠 이미지 답변 기능을 선보였다. 구글의 AI 어시스턴트로만 접할 수 있는 고유한 기능으로는 사용자가 스마트폰으로 접속한 웹페이지와 관련하여 대화하는 기능이다.

구글의 음성 비서 내 생성형 AI 기능 도입은 유독 구글 서비스 내 대규모 언어 모델 사용 범위 확장 속도라는 의문으로 이어졌다. 근본적으로 구글 서비스 실행 방식과 수익화 방식을 바꿀 수 있기 때문이다.
 
[사진=Google]
[사진=Google]

기능 추가
구글은 2016년, 스마트폰에 처음 도입된 구글 어시스턴트 기능을 지난 몇 년간 홍보했다. 그리고 최근 몇 달 동안은 대화형 AI 기반 협력 프로그램이라고 칭한 바드의 기능을 홍보했다. 구글 어시스턴트와 바드를 통합한 기존 어시스턴트 앱은 어떤 기능을 지원할까?

샤오 부사장은 어시스턴트의 개인 맞춤형 도움 기능과 바드의 논리적인 대화 생성 능력을 결합했다고 설명했다. 한 가지 예시로 구글 생산성 앱에도 바드가 통합되어 이메일 내용 요약과 문서 작업 관련 질문 처리를 도울 수 있다는 점을 언급할 수 있다. 구글 어시스턴트로도 같은 기능을 사용할 수 있다. 음성으로 문서나 이메일 관련 정보를 질문하고, 요약 내용을 크게 읽도록 명령할 수 있다.

구글 어시스턴트는 바드와 결합하면서 이미지를 이해할 능력을 새로이 얻게 되었다. 구글은 이미 구글 어시스턴트나 모든 기능을 아우르는 구글 앱으로 접근할 수 있는 이미지 인식 툴인 구글 렌즈(Google Lens)를 배포했다. 그러나 그림이나 운동화 한 켤레 사진을 촬영한 뒤 구글 렌즈에 입력하면, 그림을 식별하거나 운동화 판매 링크를 보여주는 방식으로 사용자가 운동화를 구매하도록 유도한다.

샤오 부사장은 바드 기능을 적용한 어시스턴트가 사용자가 공유한 사진 속 콘텐츠를 이해하려 한다고 주장했다. 추후 어시스턴트는 구글의 다른 서비스를 더 깊이 통합할 것이다. 샤오 부사장은 “인스타그램 화면을 내려보면서 멋진 호텔 사진을 본 상황을 상상해 보아라. 이때 사용자는 버튼 하나를 누르고, 어시스턴트를 실행한 뒤 ‘사진 속 호텔 정보를 공유하고, 내 생일에 숙박 예약이 가능한가 알려달라’와 같은 질문을 할 수 있다. 게다가 호텔 이름은 물론이고, 구글 호텔에서 숙박 예약이 가능한지도 확인할 수 있다”라고 말했다.

이와 비슷한 기능은 상품 사진을 온라인 스토어와 연결하면서 어시스턴트를 뛰어난 쇼핑 툴에서 활용하도록 지원한다. 샤오 부사장은 구글이 바드 검색 결과에 상업용 상품 목록을 통합하지 않았다고 밝혔다. 그러나 상업용 상품 통합 가능성을 부인하지는 않았다.

샤오 부사장은 “사용자가 실제로 어시스턴트로 상품 정보를 찾고 바드를 통해 상품을 구매하고자 한다면, 구글은 그와 관련된 기능을 탐색할 것이다. 구글은 사용자가 바드를 쇼핑에 활용하고자 하는 방식을 살펴보고, 관련 기능을 구글 서비스에 구축할 방법을 탐색할 것이다”라고 전했다. (다만, 샤오 부사장은 바드를 활용한 쇼핑 기능이 사용자가 원할 수도 있는 기능이라고 표현했으나 해당 기능은 구글 광고 사업의 새로운 기회를 제공하는 역할을 할 수도 있다.)

신중하게 나아간 과정
2016년, 구글 어시스턴트가 최초로 공개되었을 당시 AI의 언어 능력은 매우 부족했다. 언어의 복잡함과 모호함 때문에 컴퓨터가 단순한 명령어 이상으로는 유용한 답변을 제공하지 못했다. 심지어 기본적인 명령 처리 수준도 완성도가 낮았다.

지난 몇 년간 도서, 웹 등 여러 출처에서 수집한 다량의 텍스트로 훈련받은 강력한 머신러닝 모델인 대규모 언어 모델이 급부상하면서 AI의 구어, 문어 처리 능력 혁신을 선보이게 되었다. 마찬가지로 AI의 언어 처리 능력이 발전하면서 챗GPT의 뛰어난 복잡한 질문 처리 능력은 다양한 음성 비서의 자연스러운 대화 참여 능력을 더했다.

과거, IBM 왓슨(Watson) 프로젝트를 이끌었던 AI 기업 엘리멘털 코그니션(Elemental Cognition) CEO 데이비드 페루치(David Ferrucci)는 언어 모델이 유용한 어시스턴트 개발의 복잡함이라는 중요한 문제를 제거했다고 본다. 이전에는 복잡한 명령을 분석하려면, 개발자가 직접 코드를 대거 작성하여 언어 차이를 다루어야 했다. 또한, 최종 시스템은 오류가 잦고, 실패 확률이 높다는 점에서 사용자의 짜증을 유발했다. 페루치는 “대규모 언어 모델이 복잡한 명령 분석의 어려움을 대거 덜었다”라고 말했다.

그러나 페루치는 언어 모델이 정확하면서 신뢰할 만한 정보를 제대로 갖추지 않았다는 점에서 음성 비서가 실제로 유용한 서비스가 되려면 여전히 수많은 신중한 엔지니어링 작업이 필요하다고 지적했다.

음성 비서가 더 많은 기능을 갖추면서 생동감이 넘치는 기능을 선사한다면, 사용자에게 미묘한 효과를 제공할 수 있을 것이다. 챗GPT의 인기는 그 근간이 된 AI 기술의 한계는 물론이고, AI 기술 특성의 복잡함과 함께 달성한 성과이다.

AI 어시스턴트와 사용자의 상호작용을 연구한 카네기멜론대학교 부교수 모타하르 에스라미(Motahhare Eslami)는 대규모 언어 모델이 사용자의 기기 인식 방식을 변경할 가능성을 언급했다. 챗GPT를 비롯한 AI 챗봇이 제시하는 정보의 확신도가 매우 높다는 점에서 사용자는 실제 챗봇이 제공하는 정보의 정확성보다 더 높은 수준으로 챗봇을 신뢰하게 될 수 있다.

에스라미 부교수는 음성과 함께 유창한 언어 구사 능력을 갖춘 AI 챗봇을 의인화할 확률이 높아, 결과적으로 AI 챗봇이 할 수 있는 일과 할 수 없는 일의 이해도가 더 모호해질 수 있다는 문제도 지적했다. AI 챗봇이 사용하는 모든 알고리즘이 음성 비서에서 미묘한 방식으로 일으킬 수 있는 인종차별과 같은 해로운 편견을 일으키지 않도록 확인해야 한다. 에스라미 부교수는 “AI 기술을 옹호하지만, 제한점과 해결해야 할 문제를 적용해야 한다는 조건이 있어야 한다”라고 말했다.

2010년, 애플이 동명의 음성 비서 기술을 위해 인수한 스타트업 시리의 공동 창립자 톰 그루버(Tom Gruber)는 대규모 언어 모델이 앞으로 몇 년 후면 음성 비서의 기능이 대대적으로 도약하도록 이끌 것으로 내다본다. 다만, 새로운 결함이 도입될 가능성도 있다고 본다.

그루버는 “가장 큰 기회이자 가장 큰 위험성은 개인 데이터를 바탕으로 한 맞춤 기능 제공이다”라고 말했다. 사용자 이메일, 슬랙 메시지, 음성 통화 내용, 웹 검색 이력 등 기타 데이터에 접근할 수 있는 음성 비서는 유용한 정보를 일깨워주거나 귀중한 심층 분석 정보를 발견하는 데 도움을 줄 수 있을 것이다. 특히, 사용자가 음성 비서와 함께 자연어로 계속 대화를 이어갈 때 큰 도움이 될 수 있다. 그러나 음성 비서가 제공하는 맞춤 정보는 민감한 개인 데이터 저장소를 새로 생성하는 취약점을 추가할 수도 있다.

그루버는 “사용자 경험을 모두 추적하고, 사용자 개인을 인식하는 수준을 강화하여 사용자 개인 기억이 되는 개인 음성 비서를 개발할 수밖에 없다. 애플과 구글 모두 신뢰할 만한 플랫폼이며, 사용자 개인 정보를 추적하여 맞춤 서비스를 제공할 수 있다. 그러나 맞춤 기능을 위한 강력한 보장 조건이 필요하다”라고 말했다.

샤오 부사장은 구글 내부에서 바드와 생성형 AI의 도움으로 어시스턴트 기능을 추가로 강화할 방법을 고민 중이라고 밝혔다. 사용자 지메일에 저장된 대화와 같은 사용자 개인 정보를 사용하여 개인 맞춤 수준을 강화한 질문 답변 능력을 제공하는 방안이 포함될 수도 있다. 어시스턴트가 사용자 대신 식당 예약, 항공권 예약과 같은 작업을 처리할 가능성도 고려할 수 있다.

하지만 샤오 부사장은 사용자 대신 작업을 처리할 능력 개발은 아직 시작하지 않았다고 말했다. 샤오 부사장은 구글 어시스턴트와 같은 음성 비서가 사용자 대신 복잡한 작업을 처리할 능력과 사용자의 신용카드를 통제하려면 시간이 꽤 걸릴 것으로 본다. 이와 관련하여 “오랜 시간이 지나면, 생성형 AI를 결합한 음서입서 기술이 발전하여 사용자가 일부 작업을 대신 처리할 정도로 신뢰를 얻을 수 있을 것이다. 그러나 그 전에 구글은 관련 기능을 실험하고, 발전 방향을 직접 터득해야 한다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Google Assistant Finally Gets a Generative AI Glow-Up
이 기사를 공유합니다
RECOMMENDED