美 연구팀, 위험성 바탕으로 AI 모델 순위 평가...광범위한 영역에 위험성 존재

By Will Knight, WIRED US

시카고대학교의 인공지능(AI) 모델 스트레스 테스트 및 위험성 유도를 통한 잘못된 행동 검증 전문가인 리보(Bo Li) 부교수는 일부 컨설팅 기업이 AI 관련 자문을 위해 즉시 찾는 전문가가 되었다. 리 교수를 찾은 컨설팅 기업은 AI 모델의 영리함보다는 법률, 윤리, 규제 준수 측면에서 문제를 일으킬 수준을 더 걱정한다.

리 교수는 시카고대학교의 동료, 자신이 공동 창립한 기업인 버추AI(Virtue AI), 래피스 랩스(Lapis Labs)의 일부 동료와 함께 여러 대규모 언어 모델의 규정 위반 수준을 공개하는 벤치마크와 함께 AI 위험성의 분류 체계를 개발했다. 리 교수는 와이어드와의 인터뷰에서 “규제 준수와 일반적 사용 사례 측면에서 AI 안전 원칙이 필요하다”라고 말했다.

리 교수 연구팀은 미국, 중국, 유럽연합 등 여러 정부의 AI 규제와 지침을 분석했다. 이후 전 세계 주요 AI 기업 16곳의 AI 서비스 사용 정책도 연구했다.

연구팀은 명령어 수천 개를 이용하여 인기 AI 모델을 특정 위험성 측면에서 판단하는 벤치마크인 에어-벤치 2024(AIR-Bench 2024)도 설계했다. 예를 들어, 에어-벤치 2024는 사이버 보안 위협 생성 명령 거부 측면에서 앤트로픽(Anthropic)의 클라우드 3 오퍼스(Claude 3 Opus)의 순위를 높은 순위로 평가했다. 반면, 구글 제미나이 1.5 프로(Gemini 1.5 Pro)는 당사자 동의 없는 나체 이미지 생성 명령 거부 측면에서 높은 순위에 이름을 올렸다.

데이터브릭스(Databricks)가 개발한 모델인 DBRX 인스트럭트(DBRX Instruct)는 전체적으로 가장 낮은 순위에 이름을 올렸다. 2024년 3월, 데이터브릭스가 DBRX 인스트럭트를 공개했을 당시 안전 기능을 꾸준히 개선할 계획이라고 밝혔다.

앤트로픽과 구글, 데이터브릭스 모두 와이어드의 의견 공개 요청에 바로 답변하지 않았다.

특정 AI 모델의 장단점과 함께 위험성 이해는 특정 시장이나 특정 사용 사례에서 AI 배포를 모색하는 기업에는 갈수록 중요성이 커지는 일이다. 예를 들어, 고객 서비스에 대규모 언어 모델을 활용하고자 하는 기업은 핵무기 개발 방법 안내를 지시하는 명령어에 대응하는 것보다는 공격적인 언어를 생성할 위험성에 더 주의해야 한다.

리 교수는 AI 모델 위험성 분석 결과가 AI 개발 및 규제 방식의 몇 가지 흥미로운 문제를 보여준다고 설명했다. 예를 들어, 연구팀은 정부 차원의 AI 규정은 전반적으로 AI 기업 정책보다는 포괄적 문제를 다루기 부족하다는 사실을 발견했다. 이는 규제를 강화할 필요가 있다는 점을 시사한다.

연구팀은 일부 기업이 자사 AI 모델이 안전성을 더 보장해야 할 필요가 있다고 설명했다. 리 교수는 “기업 정책과 비교하여 AI 모델의 안전성을 평가하고자 한다면, 무조건 규정을 준수한다고 보기 어렵다. 즉, AI 안전 개선이 필요한 부분이 존재한다는 의미이다”라고 설명했다.

리 교수 연구팀이 아닌 다른 연구원들도 다루기 어려우면서 혼란스러운 AI 위험성 문제를 개선하고자 노력한다. 2024년 8월, MIT 소속 연구원 두 명이 43가지 AI 위험 규정을 압축한 AI 위험성 데이터베이스를 자체 개발했다. 데이터베이스 개발 작업에 참여한 AI 연구원인 닐 톰슨(Neil Thompson) 연구원은 “많은 기관이 지금도 AI 채택 초기 단계에 있다”라고 말했다.

데이터베이스 개발 작업을 이끈 MIT 미래기술 그룹(FutureTech group) 소속 피터 슬래터리(Peter Slattery) 연구원은 데이터베이스가 AI의 몇 가지 위험성이 다른 위험성보다 더 주목받는다는 사실을 강조한다는 견해를 전했다. AI 안전 규정 중 프라이버시, 보안 문제를 강조한 규정은 70% 이상이었다. 반면, 거짓 정보를 언급한 규정은 약 40%였다.

AI 위험성 분류, 측정 노력은 AI와 함께 진화해야 하는 부분이다. 리 교수는 AI 모델의 감정적 고착도와 같이 최근 급부상하는 문제를 깊이 조사하는 일이 중요하다고 전했다. 버츄AI는 최근, 메타가 선보인 가장 규모가 크면서 강력한 대규모 언어 모델인 Llama 3.1을 분석했다. 버츄AI는 Llama 3.1의 역량은 강화되었으나 기존 AI 모델보다 더 안전한 것은 아니라는 결론을 내렸다. 포괄적인 문제를 다루지 못한 현실을 반영한 결론이다. 리 교수는 “AI 안전은 크게 개선되지 않았다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Researchers Have Ranked AI Models Based on Risk—and Found a Wild Range

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다