챗GPT-4o의 개인 데이터 처리, 신뢰할 수 있을까?

By Kate O'Flaherty, WIRED US

2024년 5월 13일(현지 시각), 오픈AI가 챗GPT의 역량을 부여할 새로운 인공지능(AI) 모델인 GPT-4o을 출시했다. GPT-4o을 바탕으로 한 챗GPT는 매우 강력한 능력을 갖춘 동시에 기존 AI 모델보다 훨씬 더 인간과 같은 능력을 선보인다. GPT-4o은 방정식 풀이 능력, 취침 전 동화책을 읽는 능력, 표정을 바탕으로 한 감정 확인 능력 등을 보유했다.

오픈AI는 자사의 AI 기반 툴을 누구나 무료로 사용하도록 하고자 중요한 선택을 했다. 그러나 GPT-4o을 탑재하여 역량을 강화한 선택은 오픈AI가 자사 AI 모델 훈련 목적으로 이용할 수 있는 정보 범위를 넓혀 프라이버시 우려를 심화할 수 있다는 복수 전문가의 지적이 잇따라 제기되었다.

오픈AI는 그동안 AI의 데이터 보호 문제를 불규칙하게 추적하였다. 2020년 오픈AI의 챗GPT 출시 후 발행된 기술 문서는 인기 온라인 커뮤니티인 레딧 게시물과 도서, 광범위한 웹에서 무수히 많은 페이지를 수집하여 개인적으로 온라인에 공유한 개인 데이터를 포함한 생성형 AI 시스템 생성 작업에 동원한다는 사실을 밝혀냈다. 온라인에서 불특정 다수의 개인 정보를 포함한 데이터를 다량으로 수집한 행위는 챗GPT의 이탈리아 내 데이터 보호 규정 위반 문제를 초래하여 2023년, 이탈리아에서 일시적으로 사용 금지 정책이 시행되는 결과로 이어졌다.

GPT-4o 배포 후 얼마 지나지 않아 맥OS 챗GPT 데스크톱 버전 데모는 챗GPT가 사용자 화면에도 접근할 잠재적 가능성을 시사한다. 2024년 7월, 맥OS 챗GPT 앱은 사용자 개인 컴퓨터에 저장된 대화를 찾고, 간단한 문장으로 읽는 과정이 수월하다는 점에서 보안 우려가 제기되면서 비판받았다.

이후 오픈AI는 대화에 암호화 기술을 적용하는 업데이트 사항을 재빨리 배포했으나 오픈AI와 GPT-4o의 검토 수준은 사용자가 프라이버시를 우려하는 이유를 손쉽게 파악하도록 했다. 최신 챗GPT 버전의 프라이버시는 얼마나 강력할까? 기존 챗GPT 버전보다 프라이버시 보호 수준이 낮을까? 프라이버시 문제를 제한할 방법이 있을까?

오픈AI의 프라이버시 정책
오픈AI의 프라이버시 정책은 표면적으로 개인 정보, 사용 데이터, 챗GPT 사용 시 제공된 콘텐츠를 포함하여 다량의 데이터를 보여준다. 챗GPT는 사용자가 직접 데이터 비활성화 설정을 하거나 엔터프라이즈 버전 서비스를 사용하는 때를 제외하고, 사용자가 공유한 데이터를 이용하여 자사 모델을 훈련한다.

오픈AI는 개인 데이터를 익명으로 처리한다는 개인 정책을 재빨리 제시했다. 그러나 고객사를 대상으로 AI와 데이터 분석 결과 사용 방식을 조언하는 디지털 컨설팅 기관 수석 제품 관리자 앵거스 앨런(Angus Allan)은 전반적인 데이터 처리 접근 방식은 당장 모든 정보를 수집한 뒤 추후 사용할 데이터를 분류하는 것처럼 보인다고 분석했다. 앨런은 “오픈AI의 프라이버시 정책은 사용자가 입력한 사항을 모두 수집하고는 사용자가 입력한 데이터를 자사 AI 모델 훈련 목적으로 사용할 권리를 번복한다”라고 말했다.

앨런이 언급한 바와 같이 여러 가능성을 암시하는 ‘사용자 콘텐츠’ 조항은 데이터 수집 범위에 이미지, 음성 데이터도 포함한다. 앨런은 “데이터 분류 과정으로 과장한 데이터이며, 오픈AI의 프라이버시 정책은 흑백논리로 가득하다. GPT-4o와 관련한 사항을 크게 바꾸지는 않는다. 그러나 GPT-4o의 확장 능력을 고려하면, 사용자 콘텐츠의 범위를 급격히 확장할 수 있다”라고 설명했다.

오픈AI의 프라이버시 정책은 챗GPT가 사용자가 대화 도중 분명하게 입력한 바를 제외한 데이터에는 접근할 일이 없다는 점을 명시했다. 그러나 챗GPT를 포함한 AI 툴을 기업 업무 흐름에 통합하는 방식을 조언하면서도 데이터 프라이버시 문제를 다루는 컨설팅 기업인 스파크(Spark)의 창립자 줄스 러브(Jules Love)는 기본적으로 챗GPT는 사용자와 관련성이 있는 데이터를 다량으로 수집한다고 지적했다. 러브는 “챗GPT는 명령어와 답변부터 이메일 주소, 연락처, 위치 데이터, 네트워크 활동, 사용자가 서비스 접속 시 이용한 기기 등 모든 정보를 이용한다”라고 말했다.

오픈AI는 사용자에게서 수집한 데이터를 AI 모델 훈련, AI 모델의 답변 개선 작업에 사용한다고 밝혔다. 그러나 오픈AI의 사용자 데이터 보호 조약은 오픈AI가 제휴 대상, 공급사, 서비스 공급자, 법률 집행기관 등과 사용자 개인 정보를 공유하도록 한다.

경영 컨설팅 기업 키어니(Kearney)의 데이터 과학자 겸 분석 관행 수석 솔루션 책임자인 바라스 토타(Bharath Thota)는 오픈AI의 프라이버시 데이터 정책은 챗GPT가 사용자 정보를 수집하여 계정을 개설하거나 기업과의 소통 계정을 유지할 수 있는 바를 제공한다. 키어니는 고객사를 대상으로 AI 데이터를 활용하여 새로운 수익 창출 경로를 생성하기를 바란다는 조언을 건넨다.

데이터 수집 대상에는 사용자 전체 이름과 계정 민감 정보, 결제 카드 정보, 결제 기록 등이 있다. 토타는 “특히, 이미지를 명령어 일부분으로 입력했을 때는 개인 정보도 저장할 수 있다. 마찬가지로 사용자가 페이스북, 링크드인, 인스타그램 등 오픈AI의 소셜미디어 페이지 어디든 접속한다면, 사용자가 개인 연락처 정보 공유를 허용할 때 개인 정보 공유가 이루어진다”라고 설명했다.

오픈AI는 다수 테크 업계 대기업, SNS 기업과 마찬가지로 소비자 데이터를 사용하지만, 광고 판매 목적으로 이용하지 않는다는 점이 다르다. 보안 기업 이센타이어(eSentire) 수석 머신러닝 과학자 제프 슈와첸트러버(Jeff Schwartzentruber)는 오픈AI가 AI 기반 툴을 제공한다는 점이 다르다고 말했다. 느는 “사용자가 입력한 데이터는 상품으로 직접 이용하지 않는다. 대신, 사용자에게 도움이 되는 서비스 개선 목적으로 사용한다. 오픈AI의 지식재산권 가치를 높이기도 한다”라고 설명했다.

프라이버시 관리
챗GPT가 2020년 출시된 후 비판과 프라이버시 보호 문제 속에서도 오픈AI는 다양한 툴과 사용자가 데이터를 보호할 관리 권한을 부여했다. 오픈AI는 사용자 프라이버시 보호에 전념한다고 밝혔다.

특히, 챗GPT의 데이터 보호 문제를 살펴보면, 오픈AI는 사용자가 개인 정보를 AI 모델 역량 개선 목적으로 이용하는 것을 원하지 않는다는 점을 이해하여 개인 데이터 보호 권한을 부여한다. 오픈AI는 공식 웹사이트에 “챗GPT 프리(ChatGPT Free)와 챗GPT 플러스(ChatGPT Plus) 사용자는 설정 페이지에서 미래 AI 모델 개선 사항에 기여할 것인지 손쉽게 선택할 수 있다”라는 공지 글을 올리며, API, 챗GPT 엔터프라이스(ChatGPT Enterprise), 챗GPT 팀(ChatGPT Team)에는 개인 데이터 수집이 기본 설정으로 적용되지 않았다고 안내했다.

오픈 AI 대변인 타야 크리스티안손(Taya Christianson)은 와이어드와의 인터뷰에서 “오픈AI는 챗GPT 사용자에게 AI 모델 훈련 목적의 데이터 사용 비활성화, 주기적인 대화 자동 삭제가 적용된 임시 대화 선택 권한 등 다양한 프라이버시 제어 사항을 제공한다”라고 설명했다.

오픈AI는 AI 모델 훈련 목적으로 개인 정보를 찾지 않으며, 인터넷에 공개된 정보를 이용한 인물 프로필 생성이나 맞춤 광고 제공, 특정 인물을 광고 대상으로 설정, 사용자 데이터 판매 등과 같은 행위는 하지 않는다고 주장한다.

오픈AI는 음성 대화에서 생성된 오디오 클립에서 AI 모델을 훈련하지 않는다. 단, 오픈AI 웹사이트의 음성 대화 FAQ 페이지에 명시된 바와 같이 사용자가 음성 대화 개선 목적으로 개인 음성을 모두에게 공유할 때는 예외이다.

오픈AI의 음성 대화 FAQ 페이지에는 “개인 음성 기록을 오픈AI에 공유한다면, 오픈AI는 사용자의 음성 대화를 통해 기록된 오디오를 이용하여 AI 모델을 훈련할 수도 있다”라는 안내가 포함되었다. 반면, 자막이 생성된 대화는 사용자의 선택과 구독 요금제 종류에 따라 AI 모델 훈련 목적으로 사용할 수도 있다.

데이터 보호 문제 법률 자문을 제공하는 법무법인 하퍼제임스(Harper James)의 상업 파트너인 롭 코블리(Rob Cobley) 변호사가 설명한 바와 같이 지난 몇 년간 오픈AI는 데이터 수집, 적정 사용 관련 투명성을 강화하고, 사용자에게 프라이버시 설정을 관리할 확실한 옵션을 제공한다. 코블리 변호사는 “사용자는 개인 정보 접근, 업데이트, 삭제 등 원하는 바를 선택하고, 개인 데이터 관리 권한을 확인할 수 있다”라고 설명했다.

데이터 보호 수준을 유지하기 가장 좋은 방법은 개인 설정 페이지에 접속하여 데이터 수집을 비활성화하는 것이다.

앨런은 대다수 사용자가 몇 분 투자하면, 가능한 범위에서 최대한 AI 모델 훈련 목적으로 개인 데이터를 이용하는 행위를 비활성화할 수 있다고 설명했다. 그는 “개인 데이터 수집 비활성화는 플랫폼에서 개인 콘텐츠를 제거하지 않지만, 이론상 개인 데이터 유출 위험성을 일으킬 수도 있는 미래 AI 모델 훈련 작업에 이용할 수는 없다는 의미이다”라고 전했다.

개인 데이터 수집 비활성화를 원한다면, ‘설정’, ‘데이터 관리(Data Controls)’, ‘모든 사용자를 위한 모델 개선(Improve the model for everyone)’을 비활성화하면 된다.

챗GPT를 사용할 때마다 ‘임시 대화(Temporary Chat)’를 선택하여 오픈AI가 개인 데이터를 수집할 수 없도록 할 수도 있다. 왼쪽 상단에서 ‘챗GPT’를 클릭한 뒤 리스트 하단에 등장하는 ‘임시 대화’를 선택하면 된다.

그러나 데이터 수집 제한은 기능 감소를 의미한다. 러브는 “사용자의 기존 대화 내용을 일절 기억하지 못하여 비교적 포괄적이면서도 미묘한 차이가 적은 답변을 제공할 수 있다”라고 언급했다.

챗GPT 웹 인터페이스에서 사용자는 대화 기록 삭제, 프라이버시 지원을 위한 맞춤 지시사항 추가, 링크 관리 및 공유, 데이터 내보내기 요청, 계정 삭제 기능을 실행할 수도 있다. 슈와첸트러버는 “추가 보안을 위해 다중 인증 방식을 선택하고, 모든 기기 로그아웃을 선택할 수도 있다”라고 전했다.

챗GPT를 사용할 때 다른 방법을 선택하여 프라이버시를 보호할 수도 있다. 개인 맞춤 GPT 서비스를 통해 사용자가 인지하지 못하는 사이에 개인의 민감 데이터에 오픈AI가 접근하도록 허용하는 것을 그 예시로 언급할 수 있다.

처음부터 GPT-4o과 공유하는 콘텐츠를 선별하여 개인 상호작용 데이터도 관리할 수 있다. 이때는 프라이버시 관리와 개인 경험 최적화 간의 장단점 균형을 맞추기 어렵다. 슈와첸트러버는 “챗GPT 사용 시 데이터 공유를 제한한다면, AI와의 핵심 상호작용 측면에 영향을 미칠 수도 있다. 즉, AI가 포괄적 알고리즘 제한 수준을 강화하여 개인 맞춤 서비스 수준이 감소하여 정확도와 관련성도 줄어들 수 있다는 의미이다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Can GPT-4o Be Trusted With Your Private Data?

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다