윤리적인 AI 데이터 라이선스 공급 시도하는 단체 등장

By Kate Knibbs, WIRED US

첫 생성형 인공지능(AI) 열풍으로 출시된 툴 대부분 누구나 공개된 공간에서 접근할 수 있는 데이터로 훈련 과정을 거쳤다. 기본적으로 인터넷에서 수집할 수 있는 콘텐츠 무엇이든 AI 모델의 데이터 훈련 자원이 되었다는 의미이다. 이제 훈련 데이터 출처가 되는 곳에서 갈수록 AI 기업의 접근을 제한하면서 훈련 데이터 활용 목적의 라이선스 계약 체결을 추진한다. 훈련 데이터 추가 확보 경쟁이 더 치열해지자 데이터 자원 흐름 유지를 담당하는 새로운 라이선스 공급 스타트업이 등장했다.

2024년 여름 형성된 업계 단체인 데이터세트 공급자 연합(Dataset Providers Alliance)은 AI 업계의 훈련 데이터 활용 표준 형성과 공정한 데이터 사용을 추진하고자 한다. 이를 위해 데이터세트 공급자 연합은 주요 AI 관련 문제와 관련한 견해를 기술한 현황 보고서를 발행했다. 연합은 음원 저작권 관리 기업 라이트사이파이(Rightsify), 일본 사진 이미지 마켓플레이스 픽스타(Pixta), 생성형 AI 저작권 라이선스 스타트업 칼리오프네트웍스(Calliope Networks)를 포함한 AI 라이선스 기업 7개 사의 연합으로 구성되었다.

데이터세트 공급자 연합은 활성화 선택 시스템을 지지한다. 크리에이터와 이해관계자가 명확한 동의를 한 후에만 데이터를 사용할 수 있다는 의미이다. 대다수 AI 기업의 운영 방식과는 큰 차이를 나타낸다. 일부 기업은 제작자가 직접 자신의 작업물마다 별도로 데이터 수집 동의 여부를 선택하는 부담을 더한 자체 데이터 수집 비활성화 시스템을 개발했다. 비활성화 시스템을 전혀 제공하지 않는 기업도 많다.

회원사가 활성화 규정을 준수할 것으로 예상하는 데이터세트 공급자 연합은 데이터 수집 동의 작업물을 직접 선택할 권한을 부여하는 방식이 훨씬 더 윤리적인 방식이라고 본다. 데이터 수집 동의 활성화 규정을 준수하는 라이트사이파이와 음원 데이터 라이선스 기업 글로벌 카피라이트 익스체인지(Global Copyright Exchange) CEO 알렉스 베스톨(Alex Bestall)은 “아티스트와 크리에이터 모두 생성형 AI 훈련 목적 데이터 수집 동의 과정에 참여해야 한다”라고 말했다. 베스톨은 활성화 시스템이 더 실용적이면서도 윤리적인 수단이라고 본다. 그는 “누구나 공개적으로 접근할 수 있는 데이터세트를 판매하는 행위는 저작권 문제로 피소될 수 있는 동시에 신뢰성이 없는 행위이다”라고 주장했다.

현재 윤리적 AI 비영리단체 페어리 트레인드(Fairly Trained)를 운영 중인 전직 AI 기업 임원 에드 뉴톤-렉스(Ed Newton-Rex)는 “비활성화 시스템이 크리에이터에게는 근본적으로 불공정한 방식이다”라고 지적하며, 간혹 비활성화 시스템을 제공하는 순간 자체를 인지하지 못하는 이들도 존재한다고 덧붙였다. 그는 “데이터세트 공급자 연합의 활성화 시스템 채택 추진을 매우 환영한다”라 라고 전했다.

AI 데이터세트 감사 자발적 참여자 무리로 구성된 데이터 출처 계획(Data Provenance Initiative)의 책임자 셰인 롱프레(Shayne Longpre)는 데이터세트 공급자 연합의 윤리적인 데이터 출처 확보 노력을 존중한다고 밝혔다. 그러나 활성화 시스템 표준화는 어려울 것으로 예상한다. 오늘날 AI 모델에 필요한 데이터양 때문이다. 롱프레는 “현재 관리 방식대로라면, 데이터가 매우 부족한 상태가 되거나 훈련 데이터 사용료를 부담해야 한다. 모든 훈련 데이터 라이선스 비용을 부담할 수 있는 기업은 테크 업계 대기업 등 소수 기관뿐일 것이다”라고 말했다.

데이터세트 공급자 연합은 정부가 의무화하는 라이선스 계약을 반대하며, 데이터 출처와 AI 기업이 직접 협상하는 자유시장을 대신 지지한다고 밝혔다. 그 외 다른 데이터 수집 및 활용 지침은 균일하게 적용되지 않는다. 예를 들어, 데이터세트 공급자 연합은 크리에이터와 이해관계자가 데이터 사용료를 공정하게 지급받도록 보장할 5단계 보상 구조를 제시했다. 제안된 보상 방식에는 구독 기반 모델과 데이터 사용 한 건당 사용료를 청구하는 사용 기반 라이선스 모델, 로열티와 수익이 연결되는 결과 기반 라이선스 모델 등이 있다. 베스톨은 “음원, 이미지, 영상, TV, 책 등 어떤 미디어에든 적용할 수 있다”라고 말했다.

현재 저작권을 연구 중인 빌 로젠블라트(Bill Rosenblatt)는 “보상 구조 표준화를 모색하는 일이 긍정적인 방향이 될 수 있다. 데이터세트 공급자 연합은 보상 구조 표준화 조건을 추진하기 좋은 위치에 있다”라고 평가했다. 로젠블라트는 AI 기업이 라이선스 계약 채택 시 혜택을 부여할 필요가 있다고 본다. 저작권 위반 소송 우려나 라이선스 의무화 규정 등 법률상 이유가 가장 매력적인 방안처럼 보이지만, 로젠블라트는 라이선스를 허가하는 개인과 기업이 최대한 간결하면서도 편리한 절차를 제공하는 것도 중요하다고 전했다. 이어, 결제 모델 표준화가 라이선스 공급 채택이 주류가 되도록 하는 데 도움이 된다는 견해를 피력했다.

데이터세트 공급자 연합은 AI로 생성한 합성 데이터의 일부 사용 사례를 공식 지지하며, 합성 데이터가 조만간 훈련 데이터 다수를 차지할 것이라고 주장했다. 베스톨은 “일부 저작권자는 원하지 않을 것이다. 하지만 불가피한 일이다”라고 말했다. 데이터세트 공급자 연합은 합성 데이터 생성과 추후 완성된 데이터 생성 과정의 투명성을 위한 사전 훈련 정보를 적절한 라이선스로 공급하는 것을 옹호한다. 또한, 합성 데이터 모델 정기 평가로 편견과 윤리 문제를 완화할 것을 촉구한다.

데이터 라이선스 계약 표준화를 추진하기 수월하다는 점에서 데이터세트 공급자 연합에 업계 거물급 기업이 합류할 필요가 있다. 뉴턴-렉스는 “윤리적인 데이터 라이선스 제공 방식을 다루는 표준이 등장하는 추세이다. 하지만 AI 기업의 채택을 유도하기에는 부족하다”라고 말했다.

하지만 데이터세트 공급자 연합의 존재 자체는 확립된 AI 표준 부재가 곧 끝날 것을 암시한다. 베스톨은 “모든 상황이 빠른 속도로 바뀌고 있다”라고 전했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
A New Group Is Trying to Make AI Data Licensing Ethical

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다