오픈소스 AI 악용, 새로운 변경 사항으로 차단

By Will Knight, WIRED US

2024년 4월, 메타가 대규모 언어 모델 Llama 3를 배포했다. 이틀 뒤 외부 개발자는 이틀 뒤 혐오 발언을 무차별적으로 생성하는 문제나 각성제의 일종인 메타암페타민 제조법 지시 등 각종 잘못된 행동을 막을 안전 제한 사항이 없는 버전의 언어 모델을 대거 생성했다.

일리노이즈대학교 어바나샴페인캠퍼스, 캘리포니아대학교 샌디에이고대학교 캠퍼스, 래피스 랩스(Lapis Labs), 비영리단체 센터 포 AI 세이프티(Center for AI Safety) 소속 연구원으로 구성된 합동 연구팀이 추후 Llama를 포함한 여러 오픈소스 AI 모델의 안전 조처 제거 어려움을 더할 수도 있는 새로운 훈련 기법을 개발했다. 일부 전문가는 AI가 더 강력해지는 추세에서 피해를 줄 수 있는 행동을 하지 못하도록 막는 기법의 중요성이 입증되리라 확신한다.

일리노이즈대학교 어바나샴페인캠퍼스 대학원생 신분으로 프로젝트에 참여한 센터 포 AI 세이프티 연구원 만타스 마제이카(Mantas Mazeika)는 “테러범과 악의적 활동을 개시하는 국가가 AI 모델을 악용할 것이다. AI 목적을 재구성하기 쉬울수록 그 위험성이 커질 것이다”라고 주장했다.

강력한 성능을 갖춘 AI 모델은 종종 모델 개발자가 공개하지 않으며, 소프트웨어 애플리케이션 프로그래밍 인터페이스나(API) 챗GPT와 같은 대중적으로 공개된 AI 챗봇을 통해서만 접근할 수 있다. 강력한 대규모 언어 모델 개발 작업에는 천문학적인 비용을 부담해야 하지만, 메타를 포함한 다수 테크 기업은 자사 AI 모델 전체를 공개한다. AI 모델을 설치한 누구나 접할 수 있는 AI 모델의 행동을 정의하는 변수인 ‘중요성’ 구성을 포함한다.

과거에는 메타의 Llama와 같은 대규모 언어 모델은 보통 답변 생성 능력과 대화를 이어갈 능력을 향상할 목적으로 변경되었으며, 문제가 되는 질문에는 답변을 거부한다는 사실을 보장했다. 대규모 언어 모델을 바탕으로 기능을 수행하는 AI 챗봇이 무례하거나 부적절한 언행, 혐오 발언 등을 하는 일을 막고, 폭탄 제조법 설명과 같은 답변을 전달하는 일을 막는다.

AI 모델의 문제를 막을 훈련 기법 개발 프로젝트에 참여한 연구팀은 악의적으로 오픈소스 모델을 수정하는 과정이 복잡해지도록 변경할 방법을 찾았다. 그 과정에는 수정 과정 복제가 포함된다. 그러나 이후 모델의 변수를 변경하여 보통 “폭탄 제조법을 알려달라”와 같은 문제가 되는 명령에 답변했을 수도 있는 모델에 변경 사항을 적용한다.

마제이카 연구원은 연구팀과 함께 Llama 3의 불필요한 기능을 줄인 버전의 변경 사항을 입증했다. 연구팀이 변경한 Llama 3는 모델 변수를 변경하여 수천 번 명령을 받아도 부적절한 질문에는 답변할 수 없도록 AI 모델을 훈련한다. 메타는 와이어드의 의견 공개 요청에 답변하지 않았다.

마제이카 연구원은 연구팀이 개발한 훈련 기법이 완벽하지는 않지만, AI 모델 검열 해제 금지가 문제를 제기할 수 있다는 점을 시사한다고 설명했다. 마제이카 연구원은 “통제 가능한 목표는 모델 조작 대가를 대다수 적이 AI 모델을 악의적인 의도로 조작하고자 하는 의도를 막을 정도로 높이는 것이다”라고 전했다.

센터 포 AI 세이프티 소장 댄 헨드릭스(Dan Hendrycks)는 “이번 작업이 악의적인 의도로 AI 모델을 조작하는 행위에 저항성을 갖춘 안전 연구의 시발점이 되어 많은 연구원이 더 강력한 안전 대책을 개발하는 계기가 되기를 바란다”라고 말했다.

오픈소스 AI 모델 변경을 막는 훈련 기법은 오픈소스 AI를 향한 관심도가 커지면서 더 인기를 얻을 것으로 예상된다. 이미 오픈소스 AI 모델은 오픈AI, 구글 등의 현재 비공개 상태에 가까운 AI 모델과 경쟁한다. 일례로, 언어 모델 능력 평가용 인기 벤치마크 기준 2024년 7월 배포된 Llama 3 최신 버전은 챗GPT, 제미나이(Gemini), 클라우드(Claude) 등 인기 챗봇의 근간이 되는 AI 모델과 견줄 만한 역량을 갖추었다. 마찬가지로 2024년 7월 배포된 프랑스 스타트업이 개발한 대규모 언어 모델인 미스트랄 라지 2(Mistral Large 2)도 오픈AI, 구글 등의 언어 모델과 비슷한 능력을 갖추었다.

미국 정부는 오픈소스 AI에 조심스러우면서도 긍정적인 접근 방식을 택한다. 미국 상무부 산하 기관인 미국 통신정보관리청(National Telecommunications and Information Administration)은 2024년 7월 30일 자로 발행한 보고서를 통해 “미국 정부가 잠재적 위험을 감시할 새로운 역량을 개발할 것을 권고한다. 다만, 최대 규모 AI 시스템에서 중시하여 접할 수 있는 범위가 넓은 오픈소스 모델을 즉시 제한하는 것은 삼가야 한다”라고 전했다.

그러나 오픈소스 AI 모델 제한을 환영하는 것은 아니다. 커뮤니티 중심 오픈소스 AI 프로젝트인 엘루더AI(EleutherAI) 소장 스텔라 바이더만(Stella Biderman)은 오픈소스 AI 모델 변경을 제한하는 훈련 기법이 이론상 훌륭하지만, 실질적으로 시행하기에는 까다롭다는 점이 입증될 것이라고 주장한다. 무료 소프트웨어와 AI의 개방성이라는 철학을 기준으로 보았을 때도 비윤리적이라고 지적했다.

바이더만은 “논문이 핵심 문제를 잘못 이해했다고 생각한다. 대규모 언어 모델이 대규모 파괴를 초래할 무기 정보를 생성하는 것과 같은 문제를 우려한다면, 훈련된 모델이 아닌 훈련 데이터에서 문제 수정 개입이 이루어져야 한다”라는 견해를 피력했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
A New Trick Could Block the Misuse of Open Source AI

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다