By LILY HAY NEWMAN, WIRED US
뉴스레터 구독 가입, 호텔 예약, 온라인 체크아웃 등을 할 때면, 최종 정보 제출 전 이메일 주소 입력 오류를 세 차례 확인하거나 마음을 바꾸고 해당 페이지를 나가도 문제가 될 것이 없다. 실제로 사용자가 ‘제출’ 버튼을 클릭하기 전까지 아무것도 발생하지 않는다. 그렇지 않은가? 그런데 아닐 수도 있다. 어느 한 새로운 연구를 통해 웹과 관련된 각종 추측과 마찬가지로 항상 사용자가 정보 제출을 완료하기 전에도 변화가 발생할 수 있다는 놀라운 사실이 입증됐다. 충격적일 정도로 수많은 웹사이트가 사용자의 정보 제출 완료 전에도 디지털 양식에 입력하는 정보 데이터 일부 혹은 전체를 수집한다.
벨기에 루뱅가톨릭대학교와 네덜란드 라드바우드대학교, 스위스 로잔대학교 소속 전문가로 구성된 합동 연구팀이 인기 상위 10만 개 웹사이트 수집 및 분석하면서 유럽연합에서 웹사이트를 접속할 때와 미국에서 웹사이트에 접속할 때의 상황을 살펴보았다. 연구팀은 웹사이트 1,884곳이 디지털 양식 입력 내용 중 일부분을 이용해 유럽연합 회원국 사용자의 이메일을 수집한 사실을 확인했다. 또, 똑같은 방식으로 미국 사용자 이메일 주소를 수집한 웹사이트는 무려 2,950곳으로 드러났다. 상당수 웹사이트가 데이터 로깅을 시행할 의도는 없는 것으로 보이지만, 사용자 동의 없는 이메일 수집 원인이 되는 외부 기업의 마케팅 및 분석 서비스를 웹사이트에 포함하였다.
연구팀은 2021년 5월, 패스워드 유출 전문 웹사이트에 이어, 러시아 테크 기업 얀덱스(Yandex)를 포함한 외부 기관의 데이터 수집 서비스를 포함한 웹사이트 52곳이 이메일 주소 수집 과정에 따라 사용자가 정보를 제출하기도 전에 패스워드를 수집한다는 사실을 발견했다. 연구팀은 패스워드 수집 문제를 확인한 웹사이트에 연구 결과를 공개했으며, 52곳 모두 연구팀의 안내 이후 문제를 해결했다.
이번 연구를 이끈 라드바우드대학교 디지털 보안 그룹 연구원이기도 한 귀네스 아카르(Güneş Acar) 교수는 “디지털 양식에 제출 버튼이 있다면, 사용자가 제출 버튼을 클릭할 때 데이터 제출이 이루어지는 것이 데이터 수집의 합리적인 예외 사항이다”라고 말했다. 아카르 교수는 “연구팀은 연구 결과에 놀라움을 감출 수 없었다. 처음에는 사용자가 제출 버튼을 누르기 전, 개인 이메일 주소를 수집하는 웹사이트가 수백 곳이라고 추측했다. 하지만 실제로 초기에 예상한 것보다 훨씬 더 많은 웹사이트가 사용자 이메일 주소를 수집한다는 사실을 발견했다”라고 덧붙여 전했다.
2022년 8월, 유세닉스(Usenix) 보안 컨퍼런스에서 연구 결과를 발표할 예정인 연구팀은 여러 언론이 제출 상태와 상관없이 데이터를 수집하는 서드파티과 관련된 보도, 특히 미국 IT 매체 기즈모도를 중심으로 ‘유출 양식(leaky forms)’이라고 일컫는 바가 이번 조사의 계기라고 밝혔다. 연구팀은 핵심으로 사용자의 정보 제출 전부터 이루어지는 이메일 주소 수집 행위가 모든 공격 대상 유형을 기록하는 전형적인 악성 프로그램인 키로거의 행위와 비슷하다는 점을 지적했다. 그러나 연구팀이 조사한 상위 1,000개 웹사이트와 관련, 사용자는 웹사이트가 개인 정보를 기록하리라 예상하지 않는다. 하지만 연구팀은 실질적으로 웹사이트의 사용자 정보 수집 행위에서 소수의 변수를 발견했다. 일부 웹사이트는 키보드를 한 번 누르는 행위로 데이터 입력 정보를 기록한다. 그러나 상당수 웹사이트는 사용자가 ‘다음 페이지 이동’ 버튼을 누를 때, 한 개의 필드에서 전체 제출 정보를 마구 수집한다.
루뱅가톨릭대학교 프라이버시 및 신원 연구원이자 이번 연구 논문의 공동 저자인 아수만 세놀(Asuman Senol) 박사는 “간혹 사용자가 다음 필드로 이동할 때, 이전 필드의 입력 내용을 수집하기도 한다. 예를 들어, 사용자가 패스워드 입력 필드로 이동하면, 이메일 주소를 수집하는 것과 같다. 혹은 사용자가 페이지 내 다른 곳 어디든지 클릭하기만 해도 모든 정보를 즉시 수집하기도 한다. 연구팀은 웹사이트 수천 곳이 이와 같이 사용자 정보 제출 완료 전에 데이터를 수집하리라 예상하지 못했다. 또, 미국에서는 정보 제출 완료 전부터 사용자 정보를 수집하는 웹사이트 수가 매우 많다는 점이 흥미롭기도 하다”라고 말했다.
연구팀은 지역별로 사용자 정보를 수집하는 웹사이트 수가 다른 이유가 테크 기업이 지역마다 사용자 추적 행위와 관련해 취하는 신중함 정도의 차이와 관련이 있을 수 있다고 추측했다. 또, 사용자 정보 수집 서트파티 수의 차이와의 관련성도 제기했다. 유럽연합의 개인정보보호 규정(GDPR) 때문이다. 그러나 연구팀은 한 가지 가능성일 뿐이라고 강조했으며, 지역별 사용자 정보 수집 웹사이트 차이 발생 이유를 설명할 수 있는 요소를 검증하지 않았다.
웹사이트와 서드파티에 사용자 정보 제출 전 데이터 수집 행위를 알리려는 대대적인 노력을 통해 예상치 못한 일부 데이터 수집 행위가 특정 웹페이지의 다른 사용자 행동의 제출 행위 차별화가 어려워지도록 만들 수 있다고 주장했다. 그러나 연구팀은 프라이버시 관점에서 적절한 합리화를 할 수 없다고 강조했다.
연구팀은 논문 작성을 마친 후 메타 픽셀(Meta Pixel)과 틱톡 픽셀(TikTok Pixel) 등 여러 서비스가 자사 웹사이트에 심어두면서 웹 전 영역에서 사용자를 추적하고 광고를 노출하는 눈에 보이지 않는 마케팅 트래커도 발견했다. 메타와 픽셀 모두 직접 공개한 문서를 통해 사용자가 디지털 양식 제출 버튼을 누를 때, 데이터를 수집하는 ‘자동 고급 매칭(automatic advanced matching)’을 사용자가 직접 활성화할 수 있다고 주장했다. 그러나 연구팀은 실제로 메타 픽셀과 틱톡 픽셀이 디지털 양식 제출 전, 플랫폼 전 영역에서 웹 사용자 신원을 파악하는 데 사용하는 불분명한 이메일 주소인 해시 처리된 이메일 주소를 마구 수집한다는 사실을 발견했다. 미국 사용자 중 페이스북 모기업 메타 때문에 디지털 양식 제출 이전에 미국 사용자 이메일 주소를 수집하는 웹사이트는 8,438개, 유럽연합 사용자 이메일 주소를 수집하는 웹사이트는 7,379개라고 확인했다. 틱톡 픽셀로 디지털 양식 전 사용자 이메일 주소를 수집하는 웹사이트는 미국과 유럽 각각 154곳, 147곳으로 나타났다.
3월 25일(현지 시각), 연구팀은 메타에 버그 보고를 통해 해당 사실을 알렸으며, 메타는 재빨리 엔지니어에게 연구팀이 보고한 문제를 제출했다. 그러나 그 후 문제 해결 상황을 업데이트하지 않았다. 연구팀은 틱톡에 4월 21일 자로 문제를 전달했다. 틱톡의 사용자 정보 수집 문제를 비교적 최근에 발견했기 때문이다. 그러나 틱톡 측은 관련 문제 보고에 대한 답변을 보내지 않았다. 메타와 틱톡 모두 연구팀의 조사 결과와 관련된 와이어드의 문의에 회신하지 않았다.
아카르 교수는 “사용자 프라이버시 위험성과 관련, 더 효율적인 사용자 추적이 이루어질 수 있다는 사실을 의미한다. 사용자는 여러 웹사이트와 다른 세션 전 영역에서, 그리고 모바일과 데스크톱 전 영역에서 추적당한다. 이메일 주소는 추적 행위를 위한 유용한 개인 식별 정보이다. 전 세계에서 활용할 수 있으며, 사용자 개인의 고유한 정보이자 끊임없이 사용하는 정보이기 때문이다. 쿠키를 제거하듯이 이메일 주소를 제거할 수 없어, 매우 강력한 개인 정보 식별 수단이다”라고 설명했다.
이어, 아카르 교수는 테크 기업 여러 곳이 프라이버시 우려에 동의하면서 단계적으로 쿠키 기반 수집 행위를 중단할 방법을 찾고 있으나 마케터와 애널리스트는 갈수록 연락처, 이메일 주소 등 정적인 신원 정보 의존도를 높일 수 있다고 지적했다.
이번 연구 결과는 사용자의 양식 제출 완료 전 데이터 삭제가 가능하다는 사실을 시사하지만, 사용자를 모든 수집 행위로부터 보호하기에는 충분하지 않다는 점에 주목했다. 이 때문에 연구팀은 디지털 양식 제출 완료 전 이루어지는 데이터 수집 행위를 감지하는 파이어폭스 확장 프로그램인 LeakInspector를 개발했다. 또, 연구팀은 이번 연구 결과가 일반 웹 사용자뿐만 아니라 시스템이나 웹사이트에 사용하는 서드파티 프로그램이 사용자 동의 없는 데이터 수집 행위를 하는지 적극적으로 검토할 수 있는 웹사이트 개발자와 관리자를 대상으로 데이터 양식 제출 전 사용자 정보 수집 문제의 문제 인식을 제기하기를 바란다.
유출 양식은 이미 매우 복잡한 온라인 필드에서 경계해야 할 데이터 수집 유형 중 추가된 한 가지 유형이다.
** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Thousands of Popular Websites See What You Type—Before You Hit Submit
뉴스레터 구독 가입, 호텔 예약, 온라인 체크아웃 등을 할 때면, 최종 정보 제출 전 이메일 주소 입력 오류를 세 차례 확인하거나 마음을 바꾸고 해당 페이지를 나가도 문제가 될 것이 없다. 실제로 사용자가 ‘제출’ 버튼을 클릭하기 전까지 아무것도 발생하지 않는다. 그렇지 않은가? 그런데 아닐 수도 있다. 어느 한 새로운 연구를 통해 웹과 관련된 각종 추측과 마찬가지로 항상 사용자가 정보 제출을 완료하기 전에도 변화가 발생할 수 있다는 놀라운 사실이 입증됐다. 충격적일 정도로 수많은 웹사이트가 사용자의 정보 제출 완료 전에도 디지털 양식에 입력하는 정보 데이터 일부 혹은 전체를 수집한다.
벨기에 루뱅가톨릭대학교와 네덜란드 라드바우드대학교, 스위스 로잔대학교 소속 전문가로 구성된 합동 연구팀이 인기 상위 10만 개 웹사이트 수집 및 분석하면서 유럽연합에서 웹사이트를 접속할 때와 미국에서 웹사이트에 접속할 때의 상황을 살펴보았다. 연구팀은 웹사이트 1,884곳이 디지털 양식 입력 내용 중 일부분을 이용해 유럽연합 회원국 사용자의 이메일을 수집한 사실을 확인했다. 또, 똑같은 방식으로 미국 사용자 이메일 주소를 수집한 웹사이트는 무려 2,950곳으로 드러났다. 상당수 웹사이트가 데이터 로깅을 시행할 의도는 없는 것으로 보이지만, 사용자 동의 없는 이메일 수집 원인이 되는 외부 기업의 마케팅 및 분석 서비스를 웹사이트에 포함하였다.
연구팀은 2021년 5월, 패스워드 유출 전문 웹사이트에 이어, 러시아 테크 기업 얀덱스(Yandex)를 포함한 외부 기관의 데이터 수집 서비스를 포함한 웹사이트 52곳이 이메일 주소 수집 과정에 따라 사용자가 정보를 제출하기도 전에 패스워드를 수집한다는 사실을 발견했다. 연구팀은 패스워드 수집 문제를 확인한 웹사이트에 연구 결과를 공개했으며, 52곳 모두 연구팀의 안내 이후 문제를 해결했다.
이번 연구를 이끈 라드바우드대학교 디지털 보안 그룹 연구원이기도 한 귀네스 아카르(Güneş Acar) 교수는 “디지털 양식에 제출 버튼이 있다면, 사용자가 제출 버튼을 클릭할 때 데이터 제출이 이루어지는 것이 데이터 수집의 합리적인 예외 사항이다”라고 말했다. 아카르 교수는 “연구팀은 연구 결과에 놀라움을 감출 수 없었다. 처음에는 사용자가 제출 버튼을 누르기 전, 개인 이메일 주소를 수집하는 웹사이트가 수백 곳이라고 추측했다. 하지만 실제로 초기에 예상한 것보다 훨씬 더 많은 웹사이트가 사용자 이메일 주소를 수집한다는 사실을 발견했다”라고 덧붙여 전했다.
2022년 8월, 유세닉스(Usenix) 보안 컨퍼런스에서 연구 결과를 발표할 예정인 연구팀은 여러 언론이 제출 상태와 상관없이 데이터를 수집하는 서드파티과 관련된 보도, 특히 미국 IT 매체 기즈모도를 중심으로 ‘유출 양식(leaky forms)’이라고 일컫는 바가 이번 조사의 계기라고 밝혔다. 연구팀은 핵심으로 사용자의 정보 제출 전부터 이루어지는 이메일 주소 수집 행위가 모든 공격 대상 유형을 기록하는 전형적인 악성 프로그램인 키로거의 행위와 비슷하다는 점을 지적했다. 그러나 연구팀이 조사한 상위 1,000개 웹사이트와 관련, 사용자는 웹사이트가 개인 정보를 기록하리라 예상하지 않는다. 하지만 연구팀은 실질적으로 웹사이트의 사용자 정보 수집 행위에서 소수의 변수를 발견했다. 일부 웹사이트는 키보드를 한 번 누르는 행위로 데이터 입력 정보를 기록한다. 그러나 상당수 웹사이트는 사용자가 ‘다음 페이지 이동’ 버튼을 누를 때, 한 개의 필드에서 전체 제출 정보를 마구 수집한다.
루뱅가톨릭대학교 프라이버시 및 신원 연구원이자 이번 연구 논문의 공동 저자인 아수만 세놀(Asuman Senol) 박사는 “간혹 사용자가 다음 필드로 이동할 때, 이전 필드의 입력 내용을 수집하기도 한다. 예를 들어, 사용자가 패스워드 입력 필드로 이동하면, 이메일 주소를 수집하는 것과 같다. 혹은 사용자가 페이지 내 다른 곳 어디든지 클릭하기만 해도 모든 정보를 즉시 수집하기도 한다. 연구팀은 웹사이트 수천 곳이 이와 같이 사용자 정보 제출 완료 전에 데이터를 수집하리라 예상하지 못했다. 또, 미국에서는 정보 제출 완료 전부터 사용자 정보를 수집하는 웹사이트 수가 매우 많다는 점이 흥미롭기도 하다”라고 말했다.
연구팀은 지역별로 사용자 정보를 수집하는 웹사이트 수가 다른 이유가 테크 기업이 지역마다 사용자 추적 행위와 관련해 취하는 신중함 정도의 차이와 관련이 있을 수 있다고 추측했다. 또, 사용자 정보 수집 서트파티 수의 차이와의 관련성도 제기했다. 유럽연합의 개인정보보호 규정(GDPR) 때문이다. 그러나 연구팀은 한 가지 가능성일 뿐이라고 강조했으며, 지역별 사용자 정보 수집 웹사이트 차이 발생 이유를 설명할 수 있는 요소를 검증하지 않았다.
웹사이트와 서드파티에 사용자 정보 제출 전 데이터 수집 행위를 알리려는 대대적인 노력을 통해 예상치 못한 일부 데이터 수집 행위가 특정 웹페이지의 다른 사용자 행동의 제출 행위 차별화가 어려워지도록 만들 수 있다고 주장했다. 그러나 연구팀은 프라이버시 관점에서 적절한 합리화를 할 수 없다고 강조했다.
연구팀은 논문 작성을 마친 후 메타 픽셀(Meta Pixel)과 틱톡 픽셀(TikTok Pixel) 등 여러 서비스가 자사 웹사이트에 심어두면서 웹 전 영역에서 사용자를 추적하고 광고를 노출하는 눈에 보이지 않는 마케팅 트래커도 발견했다. 메타와 픽셀 모두 직접 공개한 문서를 통해 사용자가 디지털 양식 제출 버튼을 누를 때, 데이터를 수집하는 ‘자동 고급 매칭(automatic advanced matching)’을 사용자가 직접 활성화할 수 있다고 주장했다. 그러나 연구팀은 실제로 메타 픽셀과 틱톡 픽셀이 디지털 양식 제출 전, 플랫폼 전 영역에서 웹 사용자 신원을 파악하는 데 사용하는 불분명한 이메일 주소인 해시 처리된 이메일 주소를 마구 수집한다는 사실을 발견했다. 미국 사용자 중 페이스북 모기업 메타 때문에 디지털 양식 제출 이전에 미국 사용자 이메일 주소를 수집하는 웹사이트는 8,438개, 유럽연합 사용자 이메일 주소를 수집하는 웹사이트는 7,379개라고 확인했다. 틱톡 픽셀로 디지털 양식 전 사용자 이메일 주소를 수집하는 웹사이트는 미국과 유럽 각각 154곳, 147곳으로 나타났다.
3월 25일(현지 시각), 연구팀은 메타에 버그 보고를 통해 해당 사실을 알렸으며, 메타는 재빨리 엔지니어에게 연구팀이 보고한 문제를 제출했다. 그러나 그 후 문제 해결 상황을 업데이트하지 않았다. 연구팀은 틱톡에 4월 21일 자로 문제를 전달했다. 틱톡의 사용자 정보 수집 문제를 비교적 최근에 발견했기 때문이다. 그러나 틱톡 측은 관련 문제 보고에 대한 답변을 보내지 않았다. 메타와 틱톡 모두 연구팀의 조사 결과와 관련된 와이어드의 문의에 회신하지 않았다.
아카르 교수는 “사용자 프라이버시 위험성과 관련, 더 효율적인 사용자 추적이 이루어질 수 있다는 사실을 의미한다. 사용자는 여러 웹사이트와 다른 세션 전 영역에서, 그리고 모바일과 데스크톱 전 영역에서 추적당한다. 이메일 주소는 추적 행위를 위한 유용한 개인 식별 정보이다. 전 세계에서 활용할 수 있으며, 사용자 개인의 고유한 정보이자 끊임없이 사용하는 정보이기 때문이다. 쿠키를 제거하듯이 이메일 주소를 제거할 수 없어, 매우 강력한 개인 정보 식별 수단이다”라고 설명했다.
이어, 아카르 교수는 테크 기업 여러 곳이 프라이버시 우려에 동의하면서 단계적으로 쿠키 기반 수집 행위를 중단할 방법을 찾고 있으나 마케터와 애널리스트는 갈수록 연락처, 이메일 주소 등 정적인 신원 정보 의존도를 높일 수 있다고 지적했다.
이번 연구 결과는 사용자의 양식 제출 완료 전 데이터 삭제가 가능하다는 사실을 시사하지만, 사용자를 모든 수집 행위로부터 보호하기에는 충분하지 않다는 점에 주목했다. 이 때문에 연구팀은 디지털 양식 제출 완료 전 이루어지는 데이터 수집 행위를 감지하는 파이어폭스 확장 프로그램인 LeakInspector를 개발했다. 또, 연구팀은 이번 연구 결과가 일반 웹 사용자뿐만 아니라 시스템이나 웹사이트에 사용하는 서드파티 프로그램이 사용자 동의 없는 데이터 수집 행위를 하는지 적극적으로 검토할 수 있는 웹사이트 개발자와 관리자를 대상으로 데이터 양식 제출 전 사용자 정보 수집 문제의 문제 인식을 제기하기를 바란다.
유출 양식은 이미 매우 복잡한 온라인 필드에서 경계해야 할 데이터 수집 유형 중 추가된 한 가지 유형이다.
** 위 기사는 와이어드UK(WIRED.co.uk)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)
<기사원문>
Thousands of Popular Websites See What You Type—Before You Hit Submit
저작권자 © WIRED Korea 무단전재 및 재배포 금지
저작권자 © WIRED Korea 무단전재 및 재배포 금지
이 기사를 공유합니다