본문 바로가기 주메뉴 바로가기 검색 바로가기
주요 웹사이트, 애플의 AI 스크랩 툴에 반대
상태바
주요 웹사이트, 애플의 AI 스크랩 툴에 반대
2024년 여름, 애플이 자사 AI 모델 훈련 목적으로 데이터를 사용하고자 동의를 구하는 방식으로 여러 웹사이트에 데이터 통제 권한을 부여했다. 뉴욕타임스, 페이스북은 이미 애플의 데이터 수집 요청을 거부했다.
By Kate Knibbs, WIRED US

애플이 자사 인공지능(AI) 훈련 비활성화를 선택할 툴을 콘텐츠 출판 기업을 상대로 소리 소문 없이 출시하고 3개월도 지나지 않아 유력 언론 기관과 SNS 기업 여러 곳이 애플의 AI 훈련 데이터 수집을 허용하지 않은 것으로 밝혀졌다.

지금까지 페이스북, 인스타그램, 크레이그리스트, 텀블러, 뉴욕타임스, 파이낸셜 타임스, 디애틀랜틱, 복스 미디어, USA 투데이 네트워크, 와이어드의 모기업인 콘데나스크가 애플의 AI 훈련 데이터 수집을 거부했다. 애플의 AI 훈련 데이터 수집 요청에 돌아온 냉담한 반응은 지난 수십 년간 웹을 샅샅이 검색한 로봇 크롤러를 향한 인식과 사용 사실의 큰 변화를 나타낸다. 이제 데이터 수집 봇은 AI 훈련 데이터 수집 시 핵심 역할을 하는 동시에 지식 재산권과 웹의 미래의 분쟁 영역이 되었다.

애플이 새로 배포한 AI 훈련 데이터 수집 툴인 애플봇 익스텐디드(Applebot-Extended)는 웹사이트 소유주가 애플에 AI 훈련 목적으로 자사 데이터를 사용하지 못하도록 특수 설계된 웹 크롤링 봇이다. (애플은 애플봇 익스텐디드의 데이터 수집 방식을 설명한 블로그 게시글을 통해 데이터 사용 관리 방식이라고 주장했다.) 2015년 발표된 초기 웹 크롤링 봇인 애플봇은 초기에 인터넷 크롤링 작업으로 시리, 스포트라이트 등 애플 검색 서비스 기능을 지원했다. 하지만 최근 들어 애플봇의 목적은 애플이 AI 생성 작업을 위해 개발한 근간이 되는 모델을 훈련할 데이터 수집으로 확대되었다.

애플 대변인 나딘 하이자(Nadine Haija)는 애플 익스텐디드가 콘텐츠 제공 기업의 권리를 존중하는 방법이라고 말했다. 애플봇 익스텐디드는 초기 애플봇의 웹사이트 크롤링 활동을 중단하지 않아 애플 검색 제품에 웹사이트의 콘텐츠가 등장하는 방식에 영향을 미칠 수 있다. 하지만 애플의 대규모 언어 모델과 기타 생성형 AI 프로젝트 훈련에도 영향을 미칠 수 있다. 기본적으로 봇 하나가 다른 봇의 실행 방식을 맞춤 설정하는 셈이다.

출판 기업은 자사 웹사이트에서 로봇 익스클루전 프로토콜(Robots Exclusion Protocol)이라는 이름으로 알려진 robots.txt 파일을 업데이트하여 애플봇 익스텐디드를 차단할 수 있다. robot.txt 파일은 봇이 지난 수십 년 동안 웹을 수집하는 방식을 관리했다. 또, 봇 자체와 마찬가지로 AI의 훈련 방식을 둘러싼 다툼의 중심이 되었다. 다수 출판 기업이 이미 robots.txt 파일을 업데이트하여 오픈AI, 앤트로픽을 포함한 여러 AI 기업의 AI 봇을 차단했다.
 
[사진=Unsplash]
[사진=Unsplash]

Robots.txt는 웹사이트 소유주가 상황에 따라 봇을 차단하거나 허용하도록 한다. 봇이 텍스트 파일 내용을 무조건 준수해야 할 법적 의무는 없으나 규정 준수는 오랫동안 형성된 규범이다. 하지만 간혹 무시하기도 하는 규범이다. 2024년 초, 와이어드는 조사를 통해 AI 스타트업 퍼플렉시티(Perplexity)가 robot.txt 파일을 무시하고 갑자기 여러 웹사이트의 데이터를 수집한 사실을 확인했다.

애플봇 익스텐디드는 아직 차단된 웹사이트가 많지 않을 정도로 비교적 새로이 등장한 웹 크롤링 봇이다. 캐나다 온타리오 소재 AI 감지 스타트업 오리지널리티AI(Originality AI)는 2024년 8월 말, 한 주간 트래픽이 높은 웹사이트 1,000곳의 샘플을 분석했다. 이후 주로 뉴스 및 미디어 기관 웹사이트가 해당되는 전체 분석 기업 중 7%만이 애플봇 익스텐디드를 차단했다. 최근, AI 에이전트 감시 서비스 다크비지터(Dark Visitors)가 트래픽이 높은 다른 웹사이트 1,000곳의 샘플을 분석하고는 약 6%는 봇을 차단한 사실을 확인했다. 모두 대다수 주요 웹사이트 소유자가 애플의 AI 훈련 관행을 거부하지 않는 행위가 애플봇 익스텐디드를 비활성화할 방법을 인지하지 못했음을 시사한다.

데이터 저널리스트 벤 웰쉬(Ben Welsh)는 별도의 분석 작업을 통해 주로 영문 기사를 송출하는 미국 기반 언론사 1,167곳 중 294곳을 대상으로 진행한 설문 조사 응한 뉴스 웹사이트 1/4은 애플봇 익스텐디드를 차단한 사실을 확인할 수 있었다. 반면, 웰쉬는 샘플 분석 대상으로 지정한 뉴스 웹사이트 53%가 오픈AI의 봇을 차단한 사실을 확인했다. 2023년 9월, 구글은 자체 AI 툭수 봇인 구글 익스텐디드(Google-Extended)를 도입했다. 구글 익스텐디드는 웰쉬의 분석 대상이 된 웹사이트 약 43%가 차단했다. 애플봇 익스텐디드가 데이터를 수집한다는 사실을 인지하지 못한 웹사이트가 많다는 점을 시사한다. 또, 웰쉬는 와이어드를 통해 “조사를 시작한 뒤 애플봇 익스텐디드를 차단한 웹사이트가 조사를 시작할 때보다 서서히 증가했다”라고 말했다.

웰쉬는 언론 기관의 주요 AI 에이전트 접근 방식 모니터링 프로젝트를 진행 중이다. 그는 “뉴스 출판 기업 사이에서 AI 훈련 데이터 수집 봇 차단 여부를 두고 의견이 나뉘었다. 뉴스 기관마다 AI 에이전트 접근 방식을 직접 결정하는 이유를 확신할 수 없다. 다수 언론 출판 웹사이트에 라이선스 계약으로 봇의 데이터 수집을 대가로 한 데이터 수집을 허용한다. 바로 웹 크롤링 봇을 차단하는 이유 중 하나라고 볼 수 있다”라고 설명했다.

2023년, 뉴욕타임스는 애플이 여러 출판 기업과의 AI 계약을 체결하려 했다고 보도했다. 이후 오픈AI, 퍼플렉시티와 같은 AI 기업도 여러 언론 기관, SNS 플랫폼, 기타 인기 웹사이트와 데이터 수집을 위한 협력 관계를 체결했다. 오리지널리티AI 창립자 존 길엄(Jon Gillham)은 “세계 각지의 여러 출판 기업이 전략적 접근 방식을 택한다는 사실이 분명한다. 간혹 협력 관계를 체결할 때까지 데이터 수집을 거부하는 듯하다.

길엄의 견해를 뒷받침할 만한 몇 가지 증거를 제시할 수 있다. 일례로, 콘데나스트 웹사이트는 오픈AI 웹 크롤러를 차단하고는 했다. 그러나 2024년 8월 20일(현지 시각), 오픈AI와의 협력 관계 체결 소식을 발표한 뒤 오픈AI의 웹 크롤러 차단을 중단했다. (콘데나스트는 이 기사의 기록과 관련한 의견 공개를 거부했다.) 반면, 버즈피드 대변인 줄리아나 클리프톤(Juliana Clifton)은 와이어드에 현재 애플봇 익스텐디드를 차단했다. 하지만 AI 기업이 허핑턴포스트도 소유한 버즈피드와 보통 데이터 사용료 지급 형태로 이루어지는 협력 관계를 체결하기 전 모든 AI 웹 크롤링 봇을 차단 목록에 추가한다고 밝혔다. 

robots.txt는 수동 편집이 필요한 데다가 여러 AI 에이전트가 새로 배포되어 웹 크롤링 봇 차단 목록을 계속 최신 상태로 업데이트하기 어렵다. 다크비지터 창립자 개빈 킹(Gavin King)은 “무엇을 차단해야 하는지 알지 못하는 사례가 많다”라고 말했다. 다크비지터는 고객사 웹사이트의 robots.txt 자동 업데이트 프리미엄 서비스를 제공한다. 킹은 저작권 문제 때문에 고객사 다수가 출판 기업이라고 전했다.

robots.txt는 웹마스터의 불가사의한 영역처럼 보인다. 하지만 AI 시대에 디지털 출판 기업에는 매우 중요하다는 점을 고려하면, 미디어 경영의 도메인과 같다고 할 수 있다. 와이어드는 주요 언론 기업 CEO 두 명이 직접 차단할 웹 크롤링 봇을 선택한 사실을 확인했다.

일부 언론 기관은 AI 스크랩 툴 소유 기업과 협력 관계를 체결하지 않아 AI 스크랩 툴을 차단한다고 분명히 밝힌다. 복스 미디어 커뮤니케이션 전무 로렌 스타크(Lauren Starke)는 “복스 미디어의 전체 지식 재산권이 적용되는 콘텐츠에 애플봇 익스텐디드 차단 설정을 했다. 복스 미디어는 다른 기업과의 상업적 협력 관계를 체결하지 않을 때도 마찬가지로 해당 기업의 AI 스크랩 툴을 차단한다”라며, “복스 미디어의 출판 콘텐츠의 가치 보호가 중요하다고 믿는다”라고 말했다.

다른 출판 기업은 AI 스크랩 툴을 차단한 이유를 모호하면서 직접적이지 않은 표현으로 설명한다. 간넷(Gannett) 최고 커뮤니케이션 책임자 라크 마리 안톤(Lark-Marie Antón)은 “간넷은 현재 애플봇 익스텐디드에 간넷의 콘텐츠 접근 권한을 허용할 가치가 없다고 판단했다”라고 전했다.

반면, 오픈AI를 상대로 저작권 침해 소송을 제기한 뉴욕타임스는 애플봇 익스텐디드 및 그와 유사한 웹 크롤링 로봇을 비판적으로 본다. 뉴욕타임스 외부 커뮤니케이션 책임자 찰리 슈타트랜더(Charlie Stadtlander)는 “법률과 뉴욕타임스 자체 서비스 약관에 명시된 바와 같이 사전 서면 허가 없이 뉴욕타임스 콘텐츠를 상업적으로 스크랩하거나 사용하는 행위는 금지되었다”라며, 앞으로 접근 권한이 없는 봇을 발견하는 즉시 차단 목록에 추가할 것이라고 밝혔다. 이어, “저작권법은 기술적 차단 조처 적용 여부에 따라 적용하는 것이 중요하다. 저작권 보호 대상이 되는 콘텐츠 탈취는 콘텐츠 소유주가 비활성화를 선택할 필요가 있는 사항이 아니다”라고 덧붙였다.

애플이 출판 기업과의 계약 체결 마무리 단계에 더 가까워졌는지는 확실하지 않다. 그러나 실제로 데이터 라이선스 공급이나 데이터 공유 합의 계약을 체결할 때의 여파는 공식 발표 전 robots.txt에서 볼 수 있을 것이다.

길엄은 “오늘날 가장 큰 영향력을 지닌 기술 중 하나가 개발된 후 훈련 데이터 확보를 위한 다툼 전략으로 누구나 공개적으로 볼 수 있는 불분명한 텍스트 파일을 택하는 것을 보는 것이 흥미롭다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Major Sites Are Saying No to Apple’s AI Scraping
이 기사를 공유합니다
RECOMMENDED