본문 바로가기 주메뉴 바로가기 검색 바로가기
GPT-4 포함 AI 모델 탈옥에 동원되는 새로운 속임수 등장
상태바
GPT-4 포함 AI 모델 탈옥에 동원되는 새로운 속임수 등장
적대적 알고리즘은 악용할 만한 오픈AI의 GPT-4와 같은 대규모 언어 모델의 약점을 체계적으로 조사한다.
By WILL KNIGHT, WIRED US

2023년 11월, 오픈AI 이사회가 CEO 샘 알트만을 갑자기 해고했을 당시 이사회가 위험한 수준에 이른 인공지능(AI) 발전 속도와 성급한 AI 상용화 방안 모색 탓에 발생할 수 있는 위험성을 우려한 것이라는 추측이 제기됐다. 2020년, AI 시스템 공격 방어 방법을 개발하고자 개발된 스타트업인 로버스트 인텔리전스(Robust Intelligence)는 AI에 존재하는 위험성에 더 주목해야 한다고 경고한다.

로버스트 인텔리전스는 예일대학교 연구팀과 협력하여 오픈AI의 GPT-4를 포함한 대규모 언어 모델을 조사할 체계적인 방법을 고안했다. 연구팀은 대규모 언어 모델의 잘못된 행동을 유도할 탈옥 명령어를 발견할 ‘적대적 AI 모델(adversarial AI model)’을 사용했다.

오픈AI 내부 파장이 밝혀졌으나 연구팀은 오픈AI의 취약점을 경고했다. 연구팀은 오픈AI의 취약점 경고를 알린 뒤 답변을 받지 못했다고 전했다.

하버드대학교 컴퓨터 과학 교수이기도 한 로버스트 인텔리전스 CEO 야론 싱어(Yaron Singer)는 “체계적인 안전 문제가 존재하지만, 제대로 해결하거나 조사하지 않은 문제가 존재한다. AI 시스템의 취약점을 조사하면서 종류와 상관없이 모든 대규모 언어 모델 공격에 맞선 체계적인 접근 방식이 필요하다”라고 설명했다.

오픈AI 대변인 니코 펠릭스(Niko Felix)는 오픈AI가 연구팀의 취약점 발견 사항을 감사하게 생각한다고 전했다. 펠릭스 대변인은 “오픈AI는 항상 자사 모델의 안전 개선과 적대적 공격에 맞선 보안 수준 강화 작업을 하면서 AI 모델의 유용함과 성능을 유지한다”라고 말했다.

새로운 탈옥 방식은 AI 시스템을 이용해 시스템이 API에 요청을 전송하는 방식으로 탈옥하려 하면서 명령어 생성과 평가를 진행한다. 취약점의 속임수는 적어도 대규모 언어 모델의 근본적인 취약점을 부각하는 듯한 일련의 공격에 존재한다. 대규모 언어 모델을 보호하기 위한 기존 방식 제안은 훨씬 부족하다.
 
[사진=Unsplash]
[사진=Unsplash]

2023년 8월, 대규모 언어 모델의 취약점 격차 연구를 진행한 연구팀을 이끈 카네기멜론대학교 교수 지코 콜터(Zico Kolter)는 “대규모 언어 모델 보안 침해가 쉬운 듯한 점이 확실히 우려되는 부분이다”라고 말했다.

콜터 교수는 이제 일부 대규모 언어 모델이 특정 공격을 방어할 안전망을 갖추었다고 언급했다. 그러나 취약점 자체는 여전히 대규모 언어 모델에서 문제를 일으킬 수 있도록 내재해 있는 상태이므로 방어가 어렵다고 덧붙였다. 콜터 교수는 “적대적 공격이 대다수 대규모 언어 모델에 내재해 있다는 점을 이해할 필요가 있다”라며, 적대적 공격을 막기 위해 분명하면서도 확립된 대책이 필요하다고 경고했다.

대규모 언어 모델은 최근 들어 강력한 혁신을 선사하는 최신 기술로 급부상했다. 전 세계 수많은 사용자가 오픈AI의 챗GPT 역량을 시험 삼아 사용하자 대규모 언어 모델의 잠재력이 여러 언론 보도 제목을 장식했다.

챗GPT 출시일 기준 수개월이 지나자 AI 시스템의 보안 및 안정성 관심도 상승은 물론이고, 일부 악성 사용자 사이에서는 새로운 탈옥 방식을 찾는 것도 인기를 얻게 되었다. 그러나 다수 스타트업이 대규모 언어 모델 프로토타입 개발에 나서면서 대규모 언어 모델 API를 적용하여 완성도를 갖춘 제품을 선보이고 있다. 오픈AI는 2023년 11월 진행된 첫 번째 개발자 컨퍼런스 현장에서 API를 사용하는 개발자가 200만 명을 돌파했다고 밝혔다.

대규모 언어 모델은 단순히 주어진 입력 사항 뒤에 올 만한 텍스트를 예측하지만, 수많은 컴퓨터 칩을 동원하여 수주 혹은 수개월에 걸쳐 웹과 각종 디지털 자원에서 수집한 다량의 텍스트로 훈련받는다. 훈련용 데이터 수집량과 훈련 수준 모두 충분히 갖춘 후 대규모 언어 모델은 지식수준이 높은 인간과 같은 예측 능력을 선보이면서 일관성과 적절함을 모두 갖춘 채로 다양한 입력 내용에 답변한다.

대규모 언어 모델은 훈련 데이터에 포함된 선입견도 학습하고, 명령어의 답변으로 노골적이지 않은 듯한 수준으로 정보를 조작하기도 한다. 안전 대책이 없다면, 사용자에게 마약 입수 방법이나 폭탄 제조법 등 법적, 윤리적 문제가 있는 조언을 건넬 수도 있다. 대규모 언어 모델의 문제점을 계속 점검하고자 한다면, 대규모 언어 모델 개발사가 개발 및 훈련 과정과 같은 방식을 적용하여 일관성과 정확도가 높은 답변을 생성하도록 작업해야 한다. 이 과정에는 대규모 언어 모델의 답변에 대한 인간의 평가와 모델 개선을 위한 피드백을 통한 잘못된 행동 유도 확률을 낮추는 방식을 활용할 수 있다.

로버스트 인텔리전스는 대규모 언어 모델에 적용된 안전 대책을 우회하는 탈옥 예시 몇 가지를 보여주었다. 모든 탈옥 수법이 GPT-4를 바탕으로 개발된 챗GPT에서 효과가 있는 것은 아니었다. 반면, 피싱 메시지 생성 유도나 정부 컴퓨터 네트워크에 숨어 있는 사이버 공격 세력의 아이디어에 도움이 될 만한 정보 제공 등 몇 가지 문제는 일으킬 수 있었다.

펜실베이니아대학교 부교수 에릭 웡(Eric Wong)이 이끄는 연구팀도 비슷한 탈옥 수법을 고안했다. 로버스트 인텔리전스 연구팀과 웡 부교수의 연구팀이 찾아낸 탈옥 수법에는 절반의 시도로 시스템이 탈옥 방식을 생성하도록 하는 추가 개선 사항이 포함되었다.

컴퓨터 보안 및 머신러닝 연구를 담당하는 뉴욕대학교 부교수 브란단 돌란 개빗(Brendan Dolan-Gavitt)는 로버스트 인텔리전스 연구팀이 새로이 발견한 대규모 언어 모델 탈옥 수법은 인간의 조작이 대규모 언어 모델을 겨냥한 공격에 맞서 신중하게 보안을 갖출 방식이 아니라는 사실을 입증했다고 본다.

돌란 개빗 연구원은 GPT-4와 같은 대규모 언어 모델을 바탕으로 시스템 개발 작업을 하는 기업이 추가 보안 조처를 적용해야 한다고 말했다. 그는 “대규모 언어 모델을 사용하는 시스템 설계 시 보안이 적용된 사실을 확인하여 탈옥으로 악성 사용자가 문제가 되는 일에 접근하지 못하도록 해야 한다”라고 전했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
A New Trick Uses AI to Jailbreak AI Models—Including GPT-4
이 기사를 공유합니다
RECOMMENDED