By WILL KNIGHT, WIRED US
챗GPT가 대대적인 성공을 거두도록 한 핵심 구성요소에는 인공지능(AI) 모델 지침의 이면에서 선과 악을 구성하는 결과물을 가르친 인간 훈련자 집단이 있었다. 이제 오픈AI는 AI를 인간 훈련자를 보조하도록 투입 범위를 넓힌다면, AI 모델의 지능과 신뢰성이 더 향상될 수 있다고 말한다.
오픈AI는 챗GPT 개발 과정에서 인간의 피드백을 병행한 강화 학습(reinforcement learning)을 선도했다. 강화 학습 기법은 인간 테스트 진행자가 입력한 정보를 활용하여 AI 모델이 결과물의 일관성은 향상하고, 거부할 만한 결과물을 줄이면서 정확도를 높이도록 개선할 때 활용하는 기법이다. 강화 학습 기법은 챗봇의 신뢰도와 유용함을 높이는 상황과 잘못된 행동을 예방하는 상황에서 모두 중요한 기법으로 입증되었다.
AI를 인간 훈련 담당자의 도우미로 투입하는 작업에 참여한 오픈AI 연구원 내트 맥알리스(Nat McAleese)는 “강화 학습은 효과가 훌륭하지만, 핵심 제한 사항을 몇 가지 발견할 수 있다”라고 설명했다. 대표적인 제한 사항은 인간의 피드백에 일관성이 없다는 사실이다. 숙련된 인력도 첨단 소프트웨어 코드처럼 매우 복잡한 결과물을 평가하기 어렵다는 점도 또 다른 제한 사항으로 언급되었다. 강화 학습 기법에서의 피드백 과정으로 AI 모델이 실제로 정확성을 갖추기보다는 설득력이 있는 것처럼 보이는 결과물을 생성할 수도 있다.
오픈AI는 현재 사용자에게 제공하는 모델 중 가장 강력한 모델인 GPT-4를 개선하여 코드 평가 작업을 처리하는 인간 담당자를 돕는다. 오픈AI는 인간 훈련자의 도우미 역할을 하는 새로운 모델인 ‘크리틱GPT(CriticGPT)’가 인간이 놓친 버그를 잡아낼 수 있어서 인간 평가자의 코드 평가 수준이 63% 개선된다는 사실을 발견했다. 오픈AI는 추후 크리틱GPT를 활용한 인간 보조 접근 방식을 코드 평가 이외에 다른 작업으로도 확대 적용할 계획이다.
맥알리스 연구원은 “오픈AI는 자체 강화 학습 대화 스택에 크리틱GPT를 이용한 AI의 인간 작업 지원 기법 통합 작업을 시작했다”라고 전했다. 맥알리스 연구원은 크리틱GPT도 거짓을 사실처럼 꾸며내는 실수를 범할 수 있다는 점에서 AI를 인간 담당자의 도우미로 투입하는 방식이 완벽하지 않다는 점에 주목했다. 다만, 크리틱GPT를 활용할 때 인간의 훈련 과정에서 오류를 줄이며 챗GPT의 정확도를 높이는 것은 물론이고, 오픈AI가 그동안 개발한 복수 AI 모델에도 도움이 될 수 있다고 덧붙였다. 크리틱GPT와 같은 AI 도우미가 인간 작업자의 역량을 넘어선 작업을 교육할 수도 있다는 점에서 AI 모델이 훨씬 더 영리해지도록 돕는 것이 중요하다는 점도 추가로 설명했다. 이 부분에서 맥알리스 연구원은 “AI 모델의 지능과 정확도가 향상되면서 인간에게 더 많은 도움이 필요할지 의구심을 제기할 수 있다"라고 언급했다.
AI로 인간의 작업에 도움을 주는 과정은 현재 대규모 언어 모델 개선 및 추가 역량을 갖추도록 압박하도록 개발할 때 채택 중인 다양한 작업 방법 중 하나이다. AI의 역량이 향상되어도 AI가 용납할 수 있는 범위에서 행동하도록 보장할 노력의 한 부분이기도 하다.
2024년 6월, 전 오픈AI 직원 여러 명이 모여 설립한 오픈AI의 경쟁사인 앤트로픽(Anthropic)은 역량을 강화한 새로운 버전의 클라우드(Claude) 챗봇을 발표했다. 클라우드에 채택된 AI 모델의 훈련 시스템과 데이터 주입 방식이 개선된 덕분이다. 최근, 앤트로픽과 오픈AI 모두 속임수 등 원하지 않는 행동을 막고자 AI 모델의 결과물 도달 방식을 파악하기 위한 새로운 AI 모델 조사 방식을 홍보했다.
인간의 작업을 돕는 데 AI를 채택하는 방식은 오픈AI가 갈수록 더 강력한 AI 모델을 훈련하면서도 인간의 가치관과 일치하는 범위에서 신뢰할 수 있는 결과물을 생성하도록 보장하는 데 도움이 될 것이다. 특히, 오픈AI가 코드 검토 작업 이외에도 다른 작업으로도 AI 도우미를 인간의 작업에 배포하는 데 성공한다면, 더 큰 도움이 될 것이다. 오픈AI는 이미 다음 주력 AI 모델 훈련 작업을 진행 중이며, AI 모델이 신뢰할 수 있는 행동을 하도록 보장하는 것을 진지하게 생각한다는 점을 보여주기를 갈망한다는 사실도 분명하다. AI가 제기하는 장기 위험성 평가를 전담하는 유망한 인재로 구성된 부서 해체 이후 드러난 사실이다. 해당 부서는 오픈AI 공동 창립자이자 전 오픈AI 이사회 구성원인 일리야 서츠케버(Ilya Sutskever)가 이끌던 부서이다. 서츠케버는 샘 알트만이 오픈AI CEO 자리에서 잠시 해임되도록 추진한 뒤 해임 추진 의사를 철회하면서 알트만의 복직을 도운 인물이다. 이후 서츠케버가 이끌던 부서의 일부 소속 직원은 오픈AI가 강력한 AI 알고리즘 개발과 상용화를 서두르면서 위험한 행동을 한다고 비판했다.
인간의 가치관과 일치하는 행동을 하는 AI를 연구하는 MIT 교수 딜런 하드필드 매넬(Dylan Hadfield-Menell)은 AI 모델이 더 강력한 모델을 훈련하도록 돕는 방안이 한동안 악용되었다고 주장한다. 그는 “매우 자연스러운 과정이다”라고 전했다.
하드필드 매넬 교수는 초기에 AI를 활용한 강화 학습 기법을 개발한 연구원이 이미 몇 년 전, 관련된 주제를 논의했다는 사실에 주목했다. 하드필드 매넬 교수는 일반적으로 AI를 강화 학습 기법에 활용하는 방법의 적용 가능성과 강력한 효과는 더 지켜보아야 한다고 생각한다. 그는 “개인 역량이 크게 개선되면서 장기적으로 효과가 더 우수한 피드백을 위한 초석을 다질 수 있을 것이다”라고 예측했다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
OpenAI Wants AI to Help Humans Train AI
챗GPT가 대대적인 성공을 거두도록 한 핵심 구성요소에는 인공지능(AI) 모델 지침의 이면에서 선과 악을 구성하는 결과물을 가르친 인간 훈련자 집단이 있었다. 이제 오픈AI는 AI를 인간 훈련자를 보조하도록 투입 범위를 넓힌다면, AI 모델의 지능과 신뢰성이 더 향상될 수 있다고 말한다.
오픈AI는 챗GPT 개발 과정에서 인간의 피드백을 병행한 강화 학습(reinforcement learning)을 선도했다. 강화 학습 기법은 인간 테스트 진행자가 입력한 정보를 활용하여 AI 모델이 결과물의 일관성은 향상하고, 거부할 만한 결과물을 줄이면서 정확도를 높이도록 개선할 때 활용하는 기법이다. 강화 학습 기법은 챗봇의 신뢰도와 유용함을 높이는 상황과 잘못된 행동을 예방하는 상황에서 모두 중요한 기법으로 입증되었다.
AI를 인간 훈련 담당자의 도우미로 투입하는 작업에 참여한 오픈AI 연구원 내트 맥알리스(Nat McAleese)는 “강화 학습은 효과가 훌륭하지만, 핵심 제한 사항을 몇 가지 발견할 수 있다”라고 설명했다. 대표적인 제한 사항은 인간의 피드백에 일관성이 없다는 사실이다. 숙련된 인력도 첨단 소프트웨어 코드처럼 매우 복잡한 결과물을 평가하기 어렵다는 점도 또 다른 제한 사항으로 언급되었다. 강화 학습 기법에서의 피드백 과정으로 AI 모델이 실제로 정확성을 갖추기보다는 설득력이 있는 것처럼 보이는 결과물을 생성할 수도 있다.
오픈AI는 현재 사용자에게 제공하는 모델 중 가장 강력한 모델인 GPT-4를 개선하여 코드 평가 작업을 처리하는 인간 담당자를 돕는다. 오픈AI는 인간 훈련자의 도우미 역할을 하는 새로운 모델인 ‘크리틱GPT(CriticGPT)’가 인간이 놓친 버그를 잡아낼 수 있어서 인간 평가자의 코드 평가 수준이 63% 개선된다는 사실을 발견했다. 오픈AI는 추후 크리틱GPT를 활용한 인간 보조 접근 방식을 코드 평가 이외에 다른 작업으로도 확대 적용할 계획이다.
맥알리스 연구원은 “오픈AI는 자체 강화 학습 대화 스택에 크리틱GPT를 이용한 AI의 인간 작업 지원 기법 통합 작업을 시작했다”라고 전했다. 맥알리스 연구원은 크리틱GPT도 거짓을 사실처럼 꾸며내는 실수를 범할 수 있다는 점에서 AI를 인간 담당자의 도우미로 투입하는 방식이 완벽하지 않다는 점에 주목했다. 다만, 크리틱GPT를 활용할 때 인간의 훈련 과정에서 오류를 줄이며 챗GPT의 정확도를 높이는 것은 물론이고, 오픈AI가 그동안 개발한 복수 AI 모델에도 도움이 될 수 있다고 덧붙였다. 크리틱GPT와 같은 AI 도우미가 인간 작업자의 역량을 넘어선 작업을 교육할 수도 있다는 점에서 AI 모델이 훨씬 더 영리해지도록 돕는 것이 중요하다는 점도 추가로 설명했다. 이 부분에서 맥알리스 연구원은 “AI 모델의 지능과 정확도가 향상되면서 인간에게 더 많은 도움이 필요할지 의구심을 제기할 수 있다"라고 언급했다.
AI로 인간의 작업에 도움을 주는 과정은 현재 대규모 언어 모델 개선 및 추가 역량을 갖추도록 압박하도록 개발할 때 채택 중인 다양한 작업 방법 중 하나이다. AI의 역량이 향상되어도 AI가 용납할 수 있는 범위에서 행동하도록 보장할 노력의 한 부분이기도 하다.
2024년 6월, 전 오픈AI 직원 여러 명이 모여 설립한 오픈AI의 경쟁사인 앤트로픽(Anthropic)은 역량을 강화한 새로운 버전의 클라우드(Claude) 챗봇을 발표했다. 클라우드에 채택된 AI 모델의 훈련 시스템과 데이터 주입 방식이 개선된 덕분이다. 최근, 앤트로픽과 오픈AI 모두 속임수 등 원하지 않는 행동을 막고자 AI 모델의 결과물 도달 방식을 파악하기 위한 새로운 AI 모델 조사 방식을 홍보했다.
인간의 작업을 돕는 데 AI를 채택하는 방식은 오픈AI가 갈수록 더 강력한 AI 모델을 훈련하면서도 인간의 가치관과 일치하는 범위에서 신뢰할 수 있는 결과물을 생성하도록 보장하는 데 도움이 될 것이다. 특히, 오픈AI가 코드 검토 작업 이외에도 다른 작업으로도 AI 도우미를 인간의 작업에 배포하는 데 성공한다면, 더 큰 도움이 될 것이다. 오픈AI는 이미 다음 주력 AI 모델 훈련 작업을 진행 중이며, AI 모델이 신뢰할 수 있는 행동을 하도록 보장하는 것을 진지하게 생각한다는 점을 보여주기를 갈망한다는 사실도 분명하다. AI가 제기하는 장기 위험성 평가를 전담하는 유망한 인재로 구성된 부서 해체 이후 드러난 사실이다. 해당 부서는 오픈AI 공동 창립자이자 전 오픈AI 이사회 구성원인 일리야 서츠케버(Ilya Sutskever)가 이끌던 부서이다. 서츠케버는 샘 알트만이 오픈AI CEO 자리에서 잠시 해임되도록 추진한 뒤 해임 추진 의사를 철회하면서 알트만의 복직을 도운 인물이다. 이후 서츠케버가 이끌던 부서의 일부 소속 직원은 오픈AI가 강력한 AI 알고리즘 개발과 상용화를 서두르면서 위험한 행동을 한다고 비판했다.
인간의 가치관과 일치하는 행동을 하는 AI를 연구하는 MIT 교수 딜런 하드필드 매넬(Dylan Hadfield-Menell)은 AI 모델이 더 강력한 모델을 훈련하도록 돕는 방안이 한동안 악용되었다고 주장한다. 그는 “매우 자연스러운 과정이다”라고 전했다.
하드필드 매넬 교수는 초기에 AI를 활용한 강화 학습 기법을 개발한 연구원이 이미 몇 년 전, 관련된 주제를 논의했다는 사실에 주목했다. 하드필드 매넬 교수는 일반적으로 AI를 강화 학습 기법에 활용하는 방법의 적용 가능성과 강력한 효과는 더 지켜보아야 한다고 생각한다. 그는 “개인 역량이 크게 개선되면서 장기적으로 효과가 더 우수한 피드백을 위한 초석을 다질 수 있을 것이다”라고 예측했다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
OpenAI Wants AI to Help Humans Train AI
저작권자 © WIRED Korea 무단전재 및 재배포 금지
저작권자 © WIRED Korea 무단전재 및 재배포 금지
이 기사를 공유합니다