본문 바로가기 주메뉴 바로가기 검색 바로가기
빅데이터, 사용자 이름 포함 모든 정보 알고 있다?
상태바
빅데이터, 사용자 이름 포함 모든 정보 알고 있다?
데이터 브로커는 미국인 수백만 명의 신원을 알 수 있는 데이터가 위험하지 않다고 주장한다. 국회에서는 ‘익명성’이라는 개념이 추상적이라는 사실을 알아야 한다.
By JUSTIN SHERMAN, WIRED US

액시엄(Axiom), 렉시스넥시스(LexisNexis) 등 다른 일부 기업은 이름과 몇 가지 식별 정보가 연결되지 않는다면, 미국 시민의 민감 데이터 수집, 공유가 문제 될 것이 없다고 주장한다. 어찌 됐든 익명 데이터는 개인과 연결할 수 없으므로 피해를 주지 않는다는 논리이다.

그러나 필자는 12월 7일(현지 시각), 필자가 미국 상원 의회에서 증언한 바와 같이 기본적으로 어떤 정보든 재차 확인할 수 있다. 실제 많은 기업의 상황에 해당한다고 추정할 수 있는 바와 같이 기업이 개인의 이름을 알지 못하더라도 여전히 개인의 주소와 인터넷 검색 이력, 스마트폰 GPS 기록, 그 외 각종 데이터를 수집해 개인의 정체를 확인할 수 있다. 결함이 있는 위험한 이야기가 끊임없이 제기되면서 계속 국회의원에게 강력한 프라이버시 규제 결정을 설득하는 요소로 작용한다.

미국 시민 수백만 명의 인종과 성별, 민족, 종교, 성적 성향, 정치적 신념, 관심사 검색, 마약 복용 여부, GPS 위치 이력 등을 포함한 수많은 정보가 공개 시장에서 거래되며, 이를 구매하고자 하는 기업과 기관 혹은 개인은 수많은 광고 기업, 보험사, 고금리 대출 기업, 미국 법률 집행 기관, 사기꾼, 가정폭력범, 외국인 등 무수히 많다. 사실상 데이터 중개라는 공개적으로 이루어지는 프라이버시 침해 관행 규제는 없다.

많은 데이터 중개 기업이 데이터 거래 중개 행위 자체가 불법이 아니라고 주장한다. 거래 데이터에는 정신 질환을 앓는 미국 시민 수백만 명을 다룬 정보에 이름 항목이 제외된 것처럼 개인을 특정할 정보가 없기 때문이다. 고객 신용 보고 기업 엑스페리언(Experian)이 서드파티와의 광범위한 데이터 공유 범위에는 ‘개인이 아닌 정보 혹은 식별 불가능한 정보, 익명 정보’가 포함됐다고 밝혔다. 미국 최대 금융 데이터 중개 기업 요들(Yodlee)은 외부 기관에 판매하는 미국 시민 관련 모든 데이터는 익명 데이터라고 주장한다. 그러나 ‘익명성’이 개인을 프라이버시 피해로부터 보호한다고 주장하는 기업의 논리는 명백한 거짓이다.

물론, 데이터와 사용자 명칭 혹은 사회 보장 번호나 다른 분명한 식별 정보와 그렇지 않은 데이터 간 약간의 차이가 있다. 하지만, 그 차이는 크지 않으며, 데이터 세트가 점점 더 커질수록 지속하여 그 차이가 줄어든다. 스스로 다음과 같이 재미있는 사실을 생각해보아라. 가장 좋아하는 음식인 스파게티 까르보나라를 1,000명과 나눈다면, 같은 공간에 있는 다른 이도 똑같이 까르보나라를 나눈다고 말할 것이다. 색상이나 여행지, 다음 선거 지지 후보를 이야기할 때도 마찬가지이다. 그러나 자기와 관련, 50가지 흥미로운 사실을 이야기해야 한다면, 다른 이들이 같은 사실을 이야기할 가능성이 현저히 줄어든다. 누군가가 50가지 흥미로운 사실을 건넨다면, 결과적으로 당사자에게 되돌아갈 미니 프로필을 추적하게 된다.

대규모 데이터 세트를 보유한 기업에도 적용되는 문제이다. 일례로, 액시엄과 같은 대형 데이터 중기 기업은 말 그대로 주어진 특정 개인 수만 명의 데이터 포인트를 광고한다. 성적 성향과 소득 수준부터 쇼핑 영수증, 쇼핑몰이나 도시, 국가 등 물리적 장소 이동 기록까지 암시하며 개인 데이터를 수집한 프로필은 고유한 프로필처럼 보인다. 또한, 인터넷 검색 기록부터 쉴 틈 없이 남는 GPS 기록, 마약 복용 기록까지 개인 프로필 내 단일 데이터 포인트도 고유한 정보가 될 수 있다. 모두 데이터 구매 혹은 라이선스 획득 기업, 데이터 탈취 기업까지 데이터 수집 기업이 특정 인물을 추적해 관련지을 수 있는 정보이다. 데이터 중개 기업과 다른 기업 모두 개인의 이름 이외에 각종 고유 데이터를 생성해, 프로필을 생성하면서 개인을 파악할 수 있다. 모바일 광고 식별번호를 이용해 웹사이트와 기기 전체에 걸쳐 개인의 신원을 파악하는 것을 예시로 언급할 수 있다.
 
데이터 중개 기업의 익명 처리된 데이터가 위험성이 없다는 역설적인 주장은 논리적이지 않다. 전체 사업 모델과 마케팅 활동은 매우 가까이서 고도로 선별적으로 개인 추적과 파악, 마이크로타겟이 모두 가능하다는 전제를 기반으로 하기 때문이다.

개인 재식별 과정은 매우 끔찍할 정도로 쉽다. 2006년, AOL이 사용자 65만 명의 웹 검색 기록 2,000만 건 수집 내역과 함께 개인의 이름을 임의 번호로 대체한 채로 게재했을 당시 뉴욕 타임스가 재빨리 공개된 검색 기록과 관련된 개인을 지정했다. 뉴욕타임스 기자는 공개된 정보와 관련된 이를 빠르게 찾을 수 있었다고 밝혔다. 그리고 2년 후, 텍사스대학교 오스틴캠퍼스 연구팀이 넷플릭스 사용자 50만 명의 영화 등급 평가를 찾아내고는 사용자 개인은 물론이고, 명확한 정치적 성향과 다른 민감한 정보까지 모두 찾아낸 것으로 유명하다. 연구팀이 개인의 이름이 포함되지 않은 채로 뉴욕의 모든 택시 탑승 기록을 담은 뉴욕시 정부 데이터 세트를 조사했을 당시 허술하게 생성된 해시코드 역추적은 물론이고, 당시 탑승한 택시 정보 91%, 그리고 택시 기사의 소득 정보까지 모두 확인할 수 있었다.

데이터 중개 기업의 익명 처리된 데이터가 위험성이 없다는 역설적인 주장은 논리적이지 않다. 전체 사업 모델과 마케팅 활동은 매우 가까이서 고도로 선별적으로 개인 추적과 파악, 마이크로타겟이 모두 가능하다는 전제를 기반으로 하기 때문이다.
 
[사진=Unsplash]
[사진=Unsplash]

데이터 중개 기업의 논리는 단순히 결함이 있는 논리일 뿐만 아니라 본질을 흐리는 논리이기도 하다. 데이터 중개 기업은 일반적으로 어떤 방식을 동원하든 개인의 이름을 알아낸다. 게다가 이름이나 사회 보장 번호가 포함된 데이터가 없어도 피해를 초래할 수 있다. 고금리 대출 기업과 보험사 모두 광고 네트워크 접근 권한을 구매하고는 당사자 이름을 알지 못하는 상태에서도 취약 계층의 정보를 악용할 수 있다. 해외 정부는 SNS 플랫폼에서 거짓 정보 및 선동 광고 유포 작전을 펼치면서 광고 기업의 사용자 추측 데이터를 악용할 수 있다. 이때, 개인의 구체적인 신원은 파악할 필요가 없다. 프로그래머는 데이터 세트에 이름을 입력하지 않더라도 여성이나 흑인 얼굴을 정확히 확인하지 못하거나 순찰을 위한 감시 명령을 내리는 인공지능(AI) 툴을 생성한다. 이미 유색인종 순찰 지역에 널리 활용되는 감시 툴 유형이기도 하다.

일부 해결책은 발전하고 있으나 대다수 데이터 중개 기업은 자체적으로 규제한다. 예를 들어, 유출되거나 불법 수집을 거쳐 특정 인물을 감시 표적으로 삼을 데이터 세트의 위험성을 줄일 개인 데이터를 불분명하게 만들 수학적 기법 관련 연구가 급부상한다. 인구 통계국은 통계적으로 계산된 오류를 추가해 응답자에게서 수집하는 데이터를 숨긴다. 또한, 데이터세트를 보는 이가 어느 정도 특정 신원 정보 공개가 이루어지도록 할 과정을 거쳐야 한다는 의미이기도 하다. 그러나 신원 정보 공개 작업은 어떠한 수단이든 피해를 예방하고자 금지된 행위이다. 또, 고도의 민감 데이터를 다량으로 보유한 기업을 다룰 때, 개인의 정체를 매우 쉽게 정확히 집어낼 수 있다.

기업은 앞으로도 고도로 민감한 데이터와 대규모 데이터세트에 적용된 사소한 변화가 정보를 우선적으로 수집과 악용, 분석, 매매, 공유 모두 허용한다는 주장을 펼칠 것이다. 다수 국회의원이 이와 같은 논리에 설득된 듯하다. 기업의 데이터 수집 행위 변경을 공개 의무화나 수집 제한 제외 대상으로 두는 개인정보 보호 법안 발의안을 마련했기 때문이다. 증권거래위원회(SEC)의 코로나19 추적 정보 수집 제한과 같은 다수 프라이버시 관련 법안과 데이터 관련 법안은 개별 확인이 가능한 데이터와 개별 확인이 불가능한 데이터를 구별하며, 그 차이가 안전 제한에 충분하다고 추측한다. 그러나 더 많은 연구와 피해 사례는 개인을 확인하거나 재식별하는 행위가 실질적으로 매우 쉽다는 사실을 보여준다.

미국 의회는 특정 통계 기법의 협소한 언급이 없는 익명화와 개인 식별 정보 대립 개념을 연방 프라이버시법률로 마련해야 하는지 더 진지하게 고려해야 한다. 미국 시민 GPS 위치 기록 등 특정 민감 데이터 판매 금지와 같이 데이터 유형과 데이터 수집 유형, 공유 유형에 대신 집중하는 것이 훌륭한 시작점이 될 것이다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
Big Data May Not Know Your Name. But It Knows Everything Else
이 기사를 공유합니다
RECOMMENDED