By REECE ROGERS, WIRED US
최근, 필자는 구글을 사용하면서 소름 끼칠 정도로 비슷한 기사 한 편을 우연히 발견했다.
필자는 어도비의 인공지능(AI) 정책 관련 최신 정보를 검색하면서 구글에 ‘어도비 AI 콘텐츠 훈련’이라는 검색어를 입력하고는 뉴스 탭으로 이동했다. 그리고 ‘어도비 “AI 훈련에 아티스트 작업 이용하지 않을 것”...예술계는 불신’이라는 제목으로 송출된 와이어드 기사가 검색 결과 두 번째에 등장하는 것을 확인했다. 필자는 검색어 최상단에 등장한 사이러스 #블로그(Syrus #Blog)의 기사 작성자 이름을 확인하지는 못했으나 제목을 보았을 때는 마치 데자뷔 현상처럼 느껴졌다. 기사 제목이 ‘어도비, 아티스트 작품 이용한 AI 훈련 없을 것 약속…예술계는 회의적 반응’이었기 때문이다.
해당 기사의 하이퍼링크를 누르자 기사 사본을 재작성한 내용이 가득한 스팸 웹사이트였다. 원본 기사를 표절한 스팸 웹사이트 다수는 최상단에 AI로 생성한 일러스트레이션이 대거 등장했다. 스팸 기사는 와이어드 기사 전체를 복사하고는 문단만 살짝 변경했다. 원문 기사 출처도 사라졌다. 웹페이지 하단에 남겨져 원문 기사 페이지로 연결할 수 있는 하이퍼링크 하나만이 출처를 알 수 있는 유일한 정보였다.
AI 봇은 영문 기사만 복제하는 것이 아니다. 필자는 와이어드의 콘텐츠가 생성되는 여러 언어인 일본어, 스페인어를 포함한 10개 언어로 작성된 기사도 AI의 표절 대상이 된 것을 발견했다.
로이터, 테크크런치 등 원문 기사를 송출하는 기관의 기사도 사이러스 #블로그가 여러 언어로 작성된 기사를 표절하고, 비슷한 AI 이미지를 기사 상단에 배치했다. 2024년 6월 말부터 7월 초 사이 필자가 이 기사를 작성할 때 필요한 정보를 조사하던 중 사이러스 웹사이트가 다양한 기술 관련 검색어 입력 시 검색 결과 최상단에 나타나도록 구글 뉴스 검색 결과를 제대로 조작한 것을 확인했다.
예를 들어, ‘구글 오픈AI 경쟁 전망’이라는 검색어를 입력하면, 테크크런치 기사가 구글 뉴스 탭의 검색 결과 최상단에 등장한다. 그 아래에는 디애틀란틱과 블룸버그가 송출한 두 기업의 AI 개발 접근 방식 차이점을 비교한 기사가 등장한다. 그러나 인지도가 높은 세 언론 기관 웹사이트에 송출된 기사 바로 아래에 네 번째 검색 결과로 등장한 기사는 또 다른 사이러스 #블로그 기사였다. 해당 기사 내용은 검색 결과 가장 윗부분에 등장한 테크크런치 기사 내용 상당수를 복제했다.
2024년 1월, 404미디어가 보도한 바와 같이 AI를 바탕으로 생성한 기사 여러 편이 구글 뉴스 검색 결과에서 기본 질문의 답변으로 등장했다. 두 달 뒤 구글은 검색 결과를 개선하려는 시도로 자사 알고리즘의 중요한 변경 사항과 신규 스팸 정책을 발표했다. 그리고 2024년 4월 말, 구글은 검색 엔진 랭킹 시스템에서 도움이 되지 않는 검색 결과를 제거하려는 주요 변경 사항 종료 소식을 공유했다. 구글 제품 관리 책임자 엘리자베스 터커(Elizabeth Tucker)는 블로그에 “2024년 4월 19일 자로 구글은 검색 결과 변경 작업 배포를 완료했다. 이제 검색 결과에서 저품질 표절 콘텐츠를 보게 될 확률은 45% 감소했다. 이번 작업의 전반적인 노력으로 검색 결과는 40% 개선되었다”라고 작성했다.
구글이 검색 결과를 개선하고자 다양한 변경 사항을 적용했으나 AI의 도움을 받아 생성한 스팸 콘텐츠는 지금도 구글 뉴스에 넘쳐난다.
마케팅 기관 앰시브(Amsive) 검색 엔진 최적화 최고 책임자 릴리 레이(Lily Ray)는 “AI로 복제한 콘텐츠가 등장하는 문제는 지금 당장 구글에서 만연한 문제이지만, 그 이유를 특별히 설명하기는 어렵다. 앰시브의 고객 중 AI가 자사 기사를 문단 복제하고는 리해시 작업이 되었다는 불만을 이야기한다. 그리고 복제 기사가 자사 원본 기사와 거의 똑같지만, 내용이 다소 혼란스럽고 AI로 재작성한 것처럼 보인다고 주장한다”라고 전했다.
필자가 처음 잠깐 보았을 때 사이러스 #블로그 이미지 일부는 일러스트레이션 속 인물의 눈이 처진 데다가 신체 특성의 형태가 기형으로 변형된 듯한 모습을 바탕으로 AI로 생성한 것처럼 보인다. AI가 인체를 나타내려 한 것을 나타내는 징조이다.
이제 언론 출판 기관의 기사도 AI를 사용하여 재작성하게 될까? 필자는 사이러스 #블로그 운영자에게 연락하여 AI 기반 기사를 완성하는 방식을 알아내고, 이메일을 통해 이탈리아 마케팅 기관으로 알려진 사이러스가 개설한 블로그가 맞는가 확인하고자 했다. 사이러스 #블로그 측은 작성 작업의 일부 과정에서 AI 툴을 사용했다고 주장했다. 와이어드의 문의에 다니엘 사이러스(Daniele Syrus)라는 이름의 인물이 “기사 표절 관련, 사이러스 #블로그의 콘텐츠는 여러 출처의 정보 분석, 합성 작업을 처리하는 AI 툴을 사용하면서도 항상 지식재산권을 존중한다는 사실을 확인시켜 줄 수 있다”라고 답변했다.
또, 기사 하단에 추가된 하이퍼링크 하나가 기사 원본 출처를 충분히 언급한 것이라고 주장하기도 했다. 원본 출처를 알 수 있는 정보가 전혀 없는 것보다는 낫지만, 기사가 송출된 언론 기관 웹사이트 이름도 언급되지 않은 링크는 표절 논란을 방어하기에는 부족하다. 또, 웹사이트의 목표가 구글 검색 엔진의 클릭을 유도하는 것이 아니지만, 여러 언어로 AI 알고리즘을 테스트했다고 주장했다.
와이어드가 답변을 위해 이메일로 문의했으나 구글은 사이러스와 관련한 의견 공개를 거부했다. 구글 대변인 메간 판스워스(Meghann Farnsworth)는 “구글은 특정 웹사이트와 관련한 의견을 공개하지 않는다. 다만, 스팸 정책 개정 사항에 구글 검색 결과 순위를 높일 의도로 저품질의 표절 콘텐츠를 대거 생성하는 행위를 금지한다는 규정이 명시되었다”라며, “구글은 전 세계 단위로 자사 정책을 준수하지 않는 웹사이트에 대응한다”라고 답변했다. (판스워스는 과거, 와이어드 직원으로 근무한 경력이 있다.)
구글 스팸 정책을 자세히 살펴보았을 떄 사이러스 #블로그가 구글의 온라인 스크랩 규정을 위반한 사실이 분명하다는 사실을 확인할 수 있었다. 스팸 정책에는 “정책 위반 스크랩 행위에는 ‘다른 웹사이트의 콘텐츠를 복제한 뒤 콘텐츠 내용을 아주 조금 변경(예시: 유의어 대체 혹은 자동화 기법 사용)하고는 온라인에 출판한 행위’가 포함된다”라는 규정이 명시되었다. 판스워스는 사이러스 #블로그가 구글 정책을 위반했다는 점을 확인하거나 구글이 이번 기사 보도 내용을 바탕으로 사이러스 #블로그의 콘텐츠를 구글 뉴스 검색 결과 순위에서 제거할 것인지 확실히 밝히는 것을 거부했다.
그렇다면, 원본 기사 작성자가 AI를 이용한 불법 표절 문제에서 기사를 보호하고자 할 수 있는 일은 무엇일까? 확실히 알 수 없다. 그러나 필자는 검색 엔진 최적화 전문가 여러 명과 대화한 뒤 한 가지 핵심 주제에 주목했다. 모든 우려 사항을 아우르는 핵심이기도 했다.
온라인 링크 생성 서비스 포트 애널리티카(Forte Analytica) 컨설턴트 앤드류 보이드(Andrew Boyd)는 “검색 엔진 업계는 일종의 후유증을 겪고 있다. 농담이 아니다”라고 말했다. 이어, “AI 표절 문제의 주된 이유는 표절 문제로 피해를 보는 여러 출판 기관 중 단 한 곳에 불과하기 때문이다. 전날 밤 기사 한 편을 송출하고 다음 날 아침에 일어나서 기사 트래픽 50%가 사라진 것을 확인할 수도 있다”라고 덧붙였다. 보이드는 일부 언론 출판 웹사이트가 구글의 검색 알고리즘 업데이트가 이루어진 지난 몇 년간 방문자 대다수를 잃었다고 언급했다.
검색 엔진 최적화 전문가 다수가 구글의 검색 결과 관련 가장 중요한 변경사항의 투명성 부재에 분노했으나 필자와 대화한 이들 모두가 검색 결과에서 스팸이 끊임없이 등장하는 문제를 비판한 것은 아니다. 『제품 주도 SEO(Product-Led SEO)』의 저자 엘리 슈와츠(Eli Schwartz)는 “사실, 구글의 작업은 충분히 인정받지 못하지만, 구글의 최대 난제는 스팸이다”라며, “따라서 많은 이들이 지금은 구글 검색 결과의 품질을 비판해도 하드웨어 검색을 하지 않고는 성인 웹사이트를 발견하게 된다. 현재 구글은 스팸 퇴치 작업을 충분히 하고 있다”라고 설명했다. 구글은 스팸 퇴치를 위한 사소한 검색 업데이트 사항을 꾸준히 배포한다.
그러나 구글은 간혹 관련성이 없는 인기 질문을 검색할 때 사용자 스스로 부적절한 포르노 웹사이트를 발견하는 일을 겪지 않도록 보호하는 방식으로 양호한 사용 경험을 제공한다. 그러나 온라인 콘텐츠 생성, 분배, 소비 방식에 상당한 영향력을 행사하여 세계에서 가장 강력한 기업 중 한 곳인 구글이 뉴스 검색 결과에서 도움이 되지 않는 표절 콘텐츠가 등장하지 않도록 분류하도록 더 나은 작업 성과를 선보일 수 있다.
레이는 “검색 엔진 최적화 작업 담당자는 올바른 작업을 하려 하지만, AI가 표절한 저품질 콘텐츠 사례가 증가하여 좌절감을 느낀다. 따라서 일시적인 문제이기를 바라지만, AI 표절 저품질 콘텐츠가 검색 엔진 최적화 업계에서 수많은 긴장과 적대적인 문제로 이어질 수 있다. 개인적으로 15년 전에는 절대로 본 적이 없는 문제이다”라고 말했다. AI 콘텐츠로 도배된 스팸 웹사이트가 검색 결과 문제를 유발하기 전까지 언론 출판 기업이 고품질 콘텐츠 생성 시 누리는 혜택은 줄어들 것이다. 결국, 사용자가 구글 뉴스 검색 결과 최상단에 등장하는 웹사이트를 신뢰할 이유도 줄어든다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Google Search Ranks AI Spam Above Original Reporting in News Results
최근, 필자는 구글을 사용하면서 소름 끼칠 정도로 비슷한 기사 한 편을 우연히 발견했다.
필자는 어도비의 인공지능(AI) 정책 관련 최신 정보를 검색하면서 구글에 ‘어도비 AI 콘텐츠 훈련’이라는 검색어를 입력하고는 뉴스 탭으로 이동했다. 그리고 ‘어도비 “AI 훈련에 아티스트 작업 이용하지 않을 것”...예술계는 불신’이라는 제목으로 송출된 와이어드 기사가 검색 결과 두 번째에 등장하는 것을 확인했다. 필자는 검색어 최상단에 등장한 사이러스 #블로그(Syrus #Blog)의 기사 작성자 이름을 확인하지는 못했으나 제목을 보았을 때는 마치 데자뷔 현상처럼 느껴졌다. 기사 제목이 ‘어도비, 아티스트 작품 이용한 AI 훈련 없을 것 약속…예술계는 회의적 반응’이었기 때문이다.
해당 기사의 하이퍼링크를 누르자 기사 사본을 재작성한 내용이 가득한 스팸 웹사이트였다. 원본 기사를 표절한 스팸 웹사이트 다수는 최상단에 AI로 생성한 일러스트레이션이 대거 등장했다. 스팸 기사는 와이어드 기사 전체를 복사하고는 문단만 살짝 변경했다. 원문 기사 출처도 사라졌다. 웹페이지 하단에 남겨져 원문 기사 페이지로 연결할 수 있는 하이퍼링크 하나만이 출처를 알 수 있는 유일한 정보였다.
AI 봇은 영문 기사만 복제하는 것이 아니다. 필자는 와이어드의 콘텐츠가 생성되는 여러 언어인 일본어, 스페인어를 포함한 10개 언어로 작성된 기사도 AI의 표절 대상이 된 것을 발견했다.
로이터, 테크크런치 등 원문 기사를 송출하는 기관의 기사도 사이러스 #블로그가 여러 언어로 작성된 기사를 표절하고, 비슷한 AI 이미지를 기사 상단에 배치했다. 2024년 6월 말부터 7월 초 사이 필자가 이 기사를 작성할 때 필요한 정보를 조사하던 중 사이러스 웹사이트가 다양한 기술 관련 검색어 입력 시 검색 결과 최상단에 나타나도록 구글 뉴스 검색 결과를 제대로 조작한 것을 확인했다.
예를 들어, ‘구글 오픈AI 경쟁 전망’이라는 검색어를 입력하면, 테크크런치 기사가 구글 뉴스 탭의 검색 결과 최상단에 등장한다. 그 아래에는 디애틀란틱과 블룸버그가 송출한 두 기업의 AI 개발 접근 방식 차이점을 비교한 기사가 등장한다. 그러나 인지도가 높은 세 언론 기관 웹사이트에 송출된 기사 바로 아래에 네 번째 검색 결과로 등장한 기사는 또 다른 사이러스 #블로그 기사였다. 해당 기사 내용은 검색 결과 가장 윗부분에 등장한 테크크런치 기사 내용 상당수를 복제했다.
2024년 1월, 404미디어가 보도한 바와 같이 AI를 바탕으로 생성한 기사 여러 편이 구글 뉴스 검색 결과에서 기본 질문의 답변으로 등장했다. 두 달 뒤 구글은 검색 결과를 개선하려는 시도로 자사 알고리즘의 중요한 변경 사항과 신규 스팸 정책을 발표했다. 그리고 2024년 4월 말, 구글은 검색 엔진 랭킹 시스템에서 도움이 되지 않는 검색 결과를 제거하려는 주요 변경 사항 종료 소식을 공유했다. 구글 제품 관리 책임자 엘리자베스 터커(Elizabeth Tucker)는 블로그에 “2024년 4월 19일 자로 구글은 검색 결과 변경 작업 배포를 완료했다. 이제 검색 결과에서 저품질 표절 콘텐츠를 보게 될 확률은 45% 감소했다. 이번 작업의 전반적인 노력으로 검색 결과는 40% 개선되었다”라고 작성했다.
구글이 검색 결과를 개선하고자 다양한 변경 사항을 적용했으나 AI의 도움을 받아 생성한 스팸 콘텐츠는 지금도 구글 뉴스에 넘쳐난다.
마케팅 기관 앰시브(Amsive) 검색 엔진 최적화 최고 책임자 릴리 레이(Lily Ray)는 “AI로 복제한 콘텐츠가 등장하는 문제는 지금 당장 구글에서 만연한 문제이지만, 그 이유를 특별히 설명하기는 어렵다. 앰시브의 고객 중 AI가 자사 기사를 문단 복제하고는 리해시 작업이 되었다는 불만을 이야기한다. 그리고 복제 기사가 자사 원본 기사와 거의 똑같지만, 내용이 다소 혼란스럽고 AI로 재작성한 것처럼 보인다고 주장한다”라고 전했다.
필자가 처음 잠깐 보았을 때 사이러스 #블로그 이미지 일부는 일러스트레이션 속 인물의 눈이 처진 데다가 신체 특성의 형태가 기형으로 변형된 듯한 모습을 바탕으로 AI로 생성한 것처럼 보인다. AI가 인체를 나타내려 한 것을 나타내는 징조이다.
이제 언론 출판 기관의 기사도 AI를 사용하여 재작성하게 될까? 필자는 사이러스 #블로그 운영자에게 연락하여 AI 기반 기사를 완성하는 방식을 알아내고, 이메일을 통해 이탈리아 마케팅 기관으로 알려진 사이러스가 개설한 블로그가 맞는가 확인하고자 했다. 사이러스 #블로그 측은 작성 작업의 일부 과정에서 AI 툴을 사용했다고 주장했다. 와이어드의 문의에 다니엘 사이러스(Daniele Syrus)라는 이름의 인물이 “기사 표절 관련, 사이러스 #블로그의 콘텐츠는 여러 출처의 정보 분석, 합성 작업을 처리하는 AI 툴을 사용하면서도 항상 지식재산권을 존중한다는 사실을 확인시켜 줄 수 있다”라고 답변했다.
또, 기사 하단에 추가된 하이퍼링크 하나가 기사 원본 출처를 충분히 언급한 것이라고 주장하기도 했다. 원본 출처를 알 수 있는 정보가 전혀 없는 것보다는 낫지만, 기사가 송출된 언론 기관 웹사이트 이름도 언급되지 않은 링크는 표절 논란을 방어하기에는 부족하다. 또, 웹사이트의 목표가 구글 검색 엔진의 클릭을 유도하는 것이 아니지만, 여러 언어로 AI 알고리즘을 테스트했다고 주장했다.
와이어드가 답변을 위해 이메일로 문의했으나 구글은 사이러스와 관련한 의견 공개를 거부했다. 구글 대변인 메간 판스워스(Meghann Farnsworth)는 “구글은 특정 웹사이트와 관련한 의견을 공개하지 않는다. 다만, 스팸 정책 개정 사항에 구글 검색 결과 순위를 높일 의도로 저품질의 표절 콘텐츠를 대거 생성하는 행위를 금지한다는 규정이 명시되었다”라며, “구글은 전 세계 단위로 자사 정책을 준수하지 않는 웹사이트에 대응한다”라고 답변했다. (판스워스는 과거, 와이어드 직원으로 근무한 경력이 있다.)
구글 스팸 정책을 자세히 살펴보았을 떄 사이러스 #블로그가 구글의 온라인 스크랩 규정을 위반한 사실이 분명하다는 사실을 확인할 수 있었다. 스팸 정책에는 “정책 위반 스크랩 행위에는 ‘다른 웹사이트의 콘텐츠를 복제한 뒤 콘텐츠 내용을 아주 조금 변경(예시: 유의어 대체 혹은 자동화 기법 사용)하고는 온라인에 출판한 행위’가 포함된다”라는 규정이 명시되었다. 판스워스는 사이러스 #블로그가 구글 정책을 위반했다는 점을 확인하거나 구글이 이번 기사 보도 내용을 바탕으로 사이러스 #블로그의 콘텐츠를 구글 뉴스 검색 결과 순위에서 제거할 것인지 확실히 밝히는 것을 거부했다.
그렇다면, 원본 기사 작성자가 AI를 이용한 불법 표절 문제에서 기사를 보호하고자 할 수 있는 일은 무엇일까? 확실히 알 수 없다. 그러나 필자는 검색 엔진 최적화 전문가 여러 명과 대화한 뒤 한 가지 핵심 주제에 주목했다. 모든 우려 사항을 아우르는 핵심이기도 했다.
온라인 링크 생성 서비스 포트 애널리티카(Forte Analytica) 컨설턴트 앤드류 보이드(Andrew Boyd)는 “검색 엔진 업계는 일종의 후유증을 겪고 있다. 농담이 아니다”라고 말했다. 이어, “AI 표절 문제의 주된 이유는 표절 문제로 피해를 보는 여러 출판 기관 중 단 한 곳에 불과하기 때문이다. 전날 밤 기사 한 편을 송출하고 다음 날 아침에 일어나서 기사 트래픽 50%가 사라진 것을 확인할 수도 있다”라고 덧붙였다. 보이드는 일부 언론 출판 웹사이트가 구글의 검색 알고리즘 업데이트가 이루어진 지난 몇 년간 방문자 대다수를 잃었다고 언급했다.
검색 엔진 최적화 전문가 다수가 구글의 검색 결과 관련 가장 중요한 변경사항의 투명성 부재에 분노했으나 필자와 대화한 이들 모두가 검색 결과에서 스팸이 끊임없이 등장하는 문제를 비판한 것은 아니다. 『제품 주도 SEO(Product-Led SEO)』의 저자 엘리 슈와츠(Eli Schwartz)는 “사실, 구글의 작업은 충분히 인정받지 못하지만, 구글의 최대 난제는 스팸이다”라며, “따라서 많은 이들이 지금은 구글 검색 결과의 품질을 비판해도 하드웨어 검색을 하지 않고는 성인 웹사이트를 발견하게 된다. 현재 구글은 스팸 퇴치 작업을 충분히 하고 있다”라고 설명했다. 구글은 스팸 퇴치를 위한 사소한 검색 업데이트 사항을 꾸준히 배포한다.
그러나 구글은 간혹 관련성이 없는 인기 질문을 검색할 때 사용자 스스로 부적절한 포르노 웹사이트를 발견하는 일을 겪지 않도록 보호하는 방식으로 양호한 사용 경험을 제공한다. 그러나 온라인 콘텐츠 생성, 분배, 소비 방식에 상당한 영향력을 행사하여 세계에서 가장 강력한 기업 중 한 곳인 구글이 뉴스 검색 결과에서 도움이 되지 않는 표절 콘텐츠가 등장하지 않도록 분류하도록 더 나은 작업 성과를 선보일 수 있다.
레이는 “검색 엔진 최적화 작업 담당자는 올바른 작업을 하려 하지만, AI가 표절한 저품질 콘텐츠 사례가 증가하여 좌절감을 느낀다. 따라서 일시적인 문제이기를 바라지만, AI 표절 저품질 콘텐츠가 검색 엔진 최적화 업계에서 수많은 긴장과 적대적인 문제로 이어질 수 있다. 개인적으로 15년 전에는 절대로 본 적이 없는 문제이다”라고 말했다. AI 콘텐츠로 도배된 스팸 웹사이트가 검색 결과 문제를 유발하기 전까지 언론 출판 기업이 고품질 콘텐츠 생성 시 누리는 혜택은 줄어들 것이다. 결국, 사용자가 구글 뉴스 검색 결과 최상단에 등장하는 웹사이트를 신뢰할 이유도 줄어든다.
** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Google Search Ranks AI Spam Above Original Reporting in News Results
저작권자 © WIRED Korea 무단전재 및 재배포 금지
저작권자 © WIRED Korea 무단전재 및 재배포 금지
이 기사를 공유합니다