본문 바로가기 주메뉴 바로가기 검색 바로가기
알파고가 학습 방법에 대해 우리에게 가르쳐줄 수 있는 것
상태바
알파고가 학습 방법에 대해 우리에게 가르쳐줄 수 있는 것
바둑 챔피언을 물리친 프로그램을 만드는 데 도움을 준 딥마인드(DeepMind)의 데이비드 실버(David Silver)는 기계와 인간이 지식을 얻는 방법에 보상이 중요하다고 생각한다.
By WILL KNIGHT, WIRED US

데이비드 실버(David Silver)는 최근 몇 년 동안 주목되는 몇 가지 인공지능 시연을 담당하고 있으며 지난 AI겨울(AI Winter) 이후 이 분야에 대한 관심을 되살리는 데 도움을 준 발전에 힘쓰고 있다.

알파벳(Alphabet)의 자회사인 딥마인드(DeepMind)에서 실버는 컴퓨터 스스로 어려운 문제를 푸는 방법을 배울 수 있는 기술의 개발을 주도해 왔다.

가장 유명한 프로그램에는 알파고(AlphaGo)가 포함되어 있는데, 알파고는 2017년에 고대 보드 게임인 "그랜드마스터 레벨 바둑(Go to grandmaster level)"을 독학했다. 바둑은 너무 교묘하고 직관적이어서 기존의 프로그래밍을 사용하여 길들여지지 않지만, 알파고는 연습과 긍정적인 보상을 통해 연주하는 법을 배웠다. 이것은 "강화 학습"이라고 알려진 AI 기술이다.

2018년에 실버와 동료들은 알파제로(AlphaZero)라고 불리는 좀 더 일반적인 프로그램을 개발했는데, 바둑뿐만 아니라 체스나 쇼기 전문가도 배울 수 있다. 그 후, 2019년 11월, 딥마인드는 이러한 게임과 다른 게임을 배우는 버전인 뮤제로(MuZero)의 세부 정보를 공개했지만, 중요한 것은 사전에 규칙을 알 필요가 없었다는 것이다.

실버는 뮤제로, 강화 학습, AI의 추가 진보에 대한 비밀 등을 논의하기 위해 런던에서 수석 작가 윌 나이트(Will Knight)를 줌을 통해 만났다. 아래의 대본은 길이와 명료함을 위해 편집되었다.
 
[사진=UNSPLASH]
[사진=UNSPLASH]

와이어드: 뮤제로 작품이 오늘 네이처 지에 실렸다. 아직 시작하지 않은 사람들을 위해, 그것이 왜 중요한가?

데이비드 실버: 뮤제로의 큰 발전은 환경의 역동성에 영향을 받지 않는 것이다. 뮤제로는 환경 자체를 위해 미리 계획을 세우고 가장 효과적인 전략이 무엇인지를 알아낸다. 우리는 현실 세계에서 작동하는 알고리즘을 원하지만 현실 세계는 복잡하고 지저분하고 알려지지 않았다. 그래서 체스 게임처럼 그냥 앞을 내다볼 수는 없는 것이다. 당신은 세상이 어떻게 돌아가는지 배워야 한다.


어떤 관찰자들은 뮤제로, 알파고, 알파제로가 처음부터 스스로 시작하지 않는다고 지적한다. 그들은 영리한 인간들에 의해 만들어진 알고리즘을 사용하여 특정 작업을 수행하는 방법을 배우는데 이것이 요점을 놓치는가?

사실, 그런 것 같다. 당신은 정말 빈 판을 가진 적이 없다. 심지어 기계 학습에는 점심식사 정리가 있는데, 이 정리는 당신이 무엇인가를 가지고 시작해야 한다거나, 아무 것도 얻지 못한다는 것을 말한다. 하지만 이 경우, 이 판은 비었다. 우리는 신경망을 제공하고 있고 그 신경망은 스스로 알아내야 한다. 단지 게임의 승패나 점수, 세상을 이해하는 방법에 대한 신호로 말이다.

사람들이 알게 된 한 가지는 우리가 뮤제로에게 각각의 상황에서 합법적인 움직임을 말해준다는 것이다. 하지만 만약 당신이 강화 학습을 한다면, 세상이 알려지지 않은 상황에서 문제를 해결하려고 노력한다면, 보통 당신이 할 수 있는 것을 듣는다고 가정된다. 에이전트에게 어떤 선택을 할 수 있는지 말해야 하고, 그 중 하나가 필요하다.

당신은 우리가 지금까지 해왔던 것을 비판할지도 모른다. 현실 세계는 엄청나게 복잡하다. 그리고 우리는 이런 모든 것에 적응할 수 있는 인간의 뇌 같은 것을 만들지 못했다. 그래서 그것은 공정한 비평이다. 하지만 나는 뮤제로가 첫번째 원칙에서 모델을 만들고 이해하는 방법을 스스로 발견하고 있다고 생각한다.


딥마인드는 최근 알파제로의 이면 기술을 사용하여 중요한 실제 문제를 해결했다고 발표했다. 즉, 단백질이 접힐 형태를 예측한 것이다. 뮤제로가 첫 번째 큰 영향을 미칠 것이라고 생각하는가?

물론 그렇게 생각한다. 뮤제로를 실제 세계 문제에 적용할 수 있는 방법을 찾고 있다. 그리고 몇몇 고무적인 초기 결과들이 있다. 구체적인 예를 들자면, 인터넷상의 트래픽은 비디오에 의해 지배되고 있으며, 큰 미해결 문제는 이러한 비디오를 가능한 한 효율적으로 압축하는 방법이다. 당신은 이것을 강화 학습 문제로 생각할 수 있다. 왜냐하면 비디오를 압축하는 매우 복잡한 프로그램들이 있기 때문이다. 하지만 여러분이 다음에 보게 될 것은 알려지지 않았다. 하지만 뮤제로와 같은 것을 연결하면, 우리의 초기 결과는 상당한 양의 데이터를 저장할 수 있다는 점에서 매우 유망해 보인다. 아마도 비디오 압축에 사용되는 비트의 5% 정도일 것이다.


장기적으로는 강화 학습이 어디에서 가장 큰 영향을 미칠 것으로 생각하는가?"

나는 사용자로서 당신의 목표를 가능한 한 효과적으로 달성할 수 있도록 도와줄 시스템을 생각한다. 당신이 보는 모든 것을 볼 수 있고, 당신이 가지고 있는 모든 감각들을 가지고 있고, 당신의 인생에서 여러분의 목표를 성취하도록 도울 수 있는 강력한 시스템 말이다. 나는 그것이 정말 중요한 것이라고 생각한다. 장기적으로 볼 때 또 다른 혁신적인 것은 개인화된 의료 솔루션을 제공할 수 있는 것이다.


장기적으로는 강화 학습이 어디에서 가장 큰 영향을 미칠 것으로 생각하는가?

나는 사용자로서 당신의 목표를 가능한 한 효과적으로 달성할 수 있도록 도와줄 시스템을 생각한다. 당신이 보는 모든 것을 볼 수 있는 정말 강력한 시스템말이다. 당신이 가지고 있는 모든 감각들을 가지고 있고, 당신의 인생에서 목표를 성취하도록 도울 수 있다. 나는 그것이 정말 중요한 것이라고 생각한다. 장기적으로 볼 때 또 다른 혁신적인 것은 개인화된 의료 솔루션을 제공할 수 있는 것이다.


당신의 일생 동안 기계가 배울 것이라고 생각하는 것이 있는가?

시간을 정해두고 싶지는 않지만, 인간이 이룰 수 있는 모든 것은 결국 기계가 할 수 있다고 생각한다. 뇌는 계산적인 과정이다. 나는 거기에 어떤 마법이 일어나고 있다고 생각하지 않는다.

우리는 인간의 뇌만큼 효과적이고 강력한 알고리즘을 이해하고 구현할 수 있는 지점에 도달할 수 있는가? 시간이 어떻게 되는지는 잘 모르겠다. 하지만 나는 그 여행이 흥미진진하다고 생각한다. 그리고 우리는 그것을 성취하는 것을 목표로 해야 한다. 그 여정의 첫 번째 단계는 지능을 달성하는 것이 무엇을 의미하는지 이해하려고 노력하는 것이다. 지능을 해결하는 데 있어 우리가 해결하고자 하는 문제는 무엇인가?


실용적인 사용을 넘어, 체스나 아타리(Atari)와 같은 게임을 마스터하는 것에서 진정한 지능으로 갈 수 있다고 확신하는가? 강화 학습이 상식을 가진 기계로 이어질 것이라고 생각하는 이유는 무엇인가?

하나의 가설이 있는데, 우리는 그것을 충분한 보상 가설이라고 부른다. 지성의 본질적인 과정은 그것의 보상을 최대화하려는 시스템만큼 간단할 수 있다는 것이다. 그리고 목표를 달성하고 보상을 최대화하려는 과정은 우리가 타고난 지능에서 보는 모든 지능의 속성을 만들어내기에 충분하다고 말한다. 이것은 가설이기 때문에 사실인지 아닌지는 모르지만, 연구 방향을 제시한다.

우리가 상식을 구체적으로 받아들인다면, 상식이 시스템에 유용하다면, 그것은 상식이 실제로 목표를 더 잘 달성하도록 도와야 한다는 것을 의미한다.


자신의 전문 분야인 강화 학습이 어떤 의미에서 지능을 이해하거나 "해결"하는 데 필수적이라고 생각하는가?

매우 필수적이라고 생각한다.  가장 큰 문제는 '이것이 사실인가?'이다. 왜냐하면 많은 사람들이 인공지능을 어떻게 보는지와 마주하게 되기 때문이다. 즉, 지능과 관련된 메커니즘의 엄청나게 복잡한 집합이 있고, 각각의 메커니즘은 그 나름대로의 문제를 해결하거나, 자신만의 특별한 작업 방식을 가지고 있거나, 아니면 심지어 상식과 같은 어떤 명확한 문제 정의조차 없을 수도 있다. 이론에 따르면, 사실 모든 지성에 대해 생각할 수 있는 아주 명확하고 간단한 방법이 있을 수 있는데, 그것은 목표 최적화 시스템이라는 것이다. 그리고 우리가 목표를 최적화하는 방법을 찾는다면, 이 모든 것들이 그 과정에서 나타날 것이다.


강화 학습은 수십 년 동안 있어 왔지만 한동안은 막다른 골목처럼 보였다. 사실 당신의 오래된 조언자 중 한 명이 당신이 그 일을 하는 것을 만류하려고 했다고 말했다. 왜 그를 무시하고 계속 했는가?

많은 사람들이 강화 학습을 AI에서 해결해야 할 많은 문제를 해결하기 위해 적용할 수 있는 많은 해결책 중 하나로 보고 있지만 나는 그렇게 생각하지 않고 강화 학습을 전체로 본다. 우리가 지능을 가능한 한 잘 설명하고 싶다면, 강화 학습은 본질적으로 지능이 의미하는 것을 특징짓는다고 생각한다. 일단 그렇게 보기 시작하면, 내가 어떻게 이 일을 하지 않을 수 있겠는가? 만약 이것이 정말로 지능이라는 의미에 가장 가까운 것이라면 우리는 그것을 해결해 목표를 이룰 것이다.

내가 한 일을 보면, 나는 꾸준히 그 문제에 집중하려고 노력해 왔다. 바둑과 같은 것을 다룰 때, 그것을 풀 때, 우리는 지능이 그 과정에서 무엇을 의미하는지 배운다. 강화 학습은 에이전트가 필요한 다른 모든 기능, 즉 필요한 모든 지능을 획득할 수 있는 능력이라고 생각할 수 있다. 알파고는 게임을 이기라고만 요구되었는데 그것은 사람들이 전문화된 서브시스템을 사용하곤 했던 모든 것을 배웠다.


딥마인드에 알파고와 같은 또 다른 대규모 데모를 해야 한다는 압력을 느끼는가?

좋은 질문이다. 나는 우리가 우리의 위치, 자금에 있어서 이 모든 것들이 매우 안전하다는 점에서 정말 특권적인 위치에 있다고 생각한다.

새로운 대규모 데모를 시도하기 위한 유일한 압박은 일반 지능을 향해 진전을 하기 위한 추진력이다. 이것은 당신이 창업할 때, 자금을 확보하려고 할 때, 혹은 학계에서, 당신의 보조금 등을 확보하려고 할 때 가질 수 없는 진정한 특권이다.


강력한 AI 시스템이 작동하려면 엄청난 양의 컴퓨터 전원이 필요하다. 이것이 진전을 지연시킬까 봐 걱정되는가?

이것을 뮤제로로 되돌리기 위해 계산과 함께 매우 잘 그리고 우아하게 확장되는 알고리즘의 예이다. 우리는 아타리(Atari)에서 실험을 진행했는데, 이 실험에서 아주 적은 양의 컴퓨팅을 몇 주 동안 사용해도 GPU 하나와 거의 동일한 수준으로 작동하며, 성능이 사람을 훨씬 능가하는 것으로 나타났다.

몇 가지 수치들은 여러분이 지금 당장 활용할 수 있는 모든 컴퓨팅 파워를 합친다면 우리는 인간의 뇌와 비슷한 수준에 도달하고 있다는 것을 의미한다. 그래서 더 똑똑한 알고리즘을 고안해야 할 필요가 있을 것이다.

하지만 뮤제로의 아름다움은 그것이 자신만의 모델을 만들고 있기 때문에 세상이 어떻게 돌아가는지 이해하기 시작했다는 것이다. 무언가를 상상하기 위해서인데, 그 상상은 컴퓨팅을 활용하여 미래를 내다보고 다음에 무슨 일이 일어날지 예상하는 방법이다.


일부 군수업체들은 더 나은 무기 시스템을 구축하기 위해 강화 학습을 사용하고 있다. 그것에 대해 어떻게 생각하는가? 당신은 당신의 작품 중 일부을 공유하면 안 된다고 생각해 본 적이 있는가?

나는 어떤 치명적인 무기에든 AI를 사용하는 것에 반대한다. 그리고 나는 우리가 치명적인 자율 무기에 대한 금지를 위해 더 많은 진전을 이루었기를 바란다. 딥마인드와 그 공동 설립자들은 공격적 기술이 항상 적절한 인간 통제 하에 있어야 한다는 원칙에 대한 회사의 신념을 요약한 '살상적 자율 무기 공약'의 서명자들이다.

그러나, 우리는 우리의 방법의 적절한 출판이 과학의 초석이며 범용 AI 알고리즘의 개발은 다수의 긍정적인 응용 분야에서 더 큰 사회적 이익을 가져올 것이라고 계속 믿고있다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 배효린 에디터)

<기사원문>
What AlphaGo can teach us about how people learn
와이어드 코리아=Wired Staff Reporter huyrin1@spotv.net
이 기사를 공유합니다
RECOMMENDED