크라우드스트라이크의 소프트웨어 업데이트 문제 1회, 전 세계 컴퓨터 마비 일으키기까지

By LILY HAY NEWMAN, MATT BURGESS, ANDY GREENBERG, WIRED US

인류 역사상 코드 단 한 줄이 즉시 전 세계 컴퓨터 시스템 장애를 일으킨 사례는 손에 꼽을 정도로 드물다. 2003년 슬래머웜(Slammer worm) 바이러스와 러시아가 우크라이나를 겨냥하여 개시한 낫페트야(NotPetya) 공격, 북한이 자체 유포한 랜섬웨어 워너크라이(WannaCry)를 코드 한 줄이 세계 여러 곳의 전산망 장애를 유발한 사례로 언급할 수 있다. 그러나 2024년 7월 18일(현지 시각) 발생한 12시간 넘게 세계 각지의 인터넷과 IT 인프라 장애를 일으킨 디지털 재앙은 해커가 유포한 악성 코드가 아닌 악성 코드 피해를 막고자 설계한 소프트웨어가 원인이 되었다.

2024년 7월 18일 자로 발생한 인터넷 인프라 재앙은 세계 곳곳의 공항, 철도 체계, 병원, 보건 복지 기관, 호텔, TV 방송사 등 여러 곳에 동시다발적인 장애를 일으켰다. 전날 밤 마이크로소프트의 클라우드 플랫폼 애저(Azure)도 대규모 접속 장애를 겪었다. 그리고 이튿날 아침 보안 기업 크라우드스트라이크(CrowdStrike)가 윈도 컴퓨터에 배포한 결함이 있는 소프트웨어 업데이트 사항이 재앙과도 같은 재실행 후 장애를 일으키면서 피해는 걷잡을 수 없는 수준으로 커졌다. 마이크로소프트 대변인은 IT 결함 두 건은 서로 관련이 없다고 전했다.

적어도 마이크로소프트 애저와 크라우드스트라이크의 소프트웨어 업데이트 문제 중 하나의 문제 원인은 분명하다. 바로 버그가 있는 코드가 크라우드스트라이크의 팔콘(Falcon) 모니터링 제품을 업데이트하도록 유도한 것이다. 팔콘은 기본적으로 시스템 깊은 영역에서 실행하면서 노트북, 서버, 라우터 등의 엔드포인트(endpoints)에서 보안 침해로 이어질 수 있는 멀웨어와 의심스러운 활동을 탐지하는 바이러스 방지 플랫폼이다. 팔콘은 직접 주기적으로 자동 업데이트 허가를 요청한다. 크라우드스트라이크가 꾸준히 시스템에 탐지 사항을 추가하여 새로이 진화하는 위협에 맞서 방어하기 때문이다. 그러나 크라우드스트라이크의 시스템 공격 방어 과정이 보안과 안전 강화 의도로 설계된 시스템이 오히려 보안 수준이 저하되는 결과를 초래했다.

사이버 보안 기업 위드시큐어(WithSecure) 최고 연구 책임자 미코 히포넨(Mikko Hyppönen)은 “크라우드스트라이크의 보안 업데이트 결함 사태는 역사상 가장 심각한 보안 사고이다. 이번처럼 전 세계 워크스테이션 장애가 동시다발적으로 발생한 적이 없다”라고 말했다. 히포넨은 10여 년 전에는 웜이나 트로이목마 바이러스 유포로 사이버 공격을 개시한 사례 때문에 넓은 범위에 피해를 일으키는 접속 장애가 지금보다 더 흔했다고 전했다. 최근 들어 보고된 전 세계 접속 장애는 시스템 서버 측에서 발생했다. 아마존 웹 서비스(AWS) 등 클라우드 공급사나 인터넷 케이블 절단, 인증 및 DNS 문제가 접속 장애 원인이라는 뜻이다.

조지 커츠(George Kurtz) 크라우드스트라이크 CEO는 윈도 기기에 배포한 크라우드스트라이크의 코드 결함이 원인이라고 발표했다. 맥과 리눅스 시스템에는 피해가 없었다. 커츠는 공식 성명을 통해 “문제 확인과 격리 조처 후 수정 사항을 배포했다”라며, 사이버 공격이 문제의 원인이 아니라는 점을 덧붙여 전했다. NBC와의 인터뷰에서 전산 장애를 일으킨 것에 공식으로 사과하며, 정상화 완료까지 시간이 다소 걸릴 수 있다고 전했다.

대규모 접속 장애의 근본적 원인을 찾고자 연구하는 보안, IT 애널리스트들은 크라우드스트라이크의 팔콘 소프트웨어 커널 드라이브 업데이트가 이번 문제와 관련이 있다고 말한다. 커널 드라이브는 애플리케이션이 커널이라고 알려진 운영체제의 핵심인 가장 깊은 범위에서 윈도와 상호작용하도록 하는 소프트웨어 구성요소이다. 가장 민감한 곳까지 접근하는 것은 보안 소프트웨어의 필수 요건이다. 시스템에 설치된 악성 소프트웨어보다 먼저 보안 소프트웨어를 실행하여 해커가 코드를 삽입하고자 찾을 법한 시스템 공간 모든 곳에 접근할 수 있기 때문이다. 멀웨어는 시간이 지날수록 발전하면서 진화하므로 공격 방어 소프트웨어를 시스템에 꾸준히 연결하여 관리 범위를 확장하는 것이 중요하다.

보안 기업 마그넷포렌식(Magnet Forensics) 탐지 엔지니어링 사장 매튜 수체(Matthieu Suiche)가 설명한 바와 같이 시스템 접근 범위가 깊을수록 보안 소프트웨어 및 소프트웨어 업데이트 사항이 전체 시스템 충돌을 일으킬 확률이 훨씬 더 높다. 수체는 운영체제의 커널 레벨에서의 악성 코드 탐지 소프트웨어 실행이 심장 절개 수술과 같다고 언급했다.

그러나 러시아 보안 기업 카스퍼스키(Kaspersky)에서 23년 근무하면서 위협 정보팀을 이끌다 2023년에 퇴사한 보안 전문가 코스틴 라이우(Costin Raiu)는 커널 드라이브 업데이트가 전 세계 단위로 대규모 컴퓨터 장애를 일으킬 수 있다는 사실에 놀랐다. 라이우는 카스퍼스키에서 근무하던 당시 수주간 윈도 소프트웨어 드라이브 업데이트를 면밀히 검증하고는 테스트한 뒤 업데이트를 배포했다.

마이크로소프트도 업데이트에 코드 검토와 암호화 서명을 요구한다는 사실은 마이크로소프트도 크라우드스트라이크 팔콘 드라이브의 버그를 놓쳐 전 세계 전산 대란을 촉발했을 수도 있다는 사실이 더 중요하다. 라이우는 “드라이버 업데이트에 극도로 집중하면서도 심각한 피해를 일으킬 수 있다는 사실이 놀랍다. 간단한 드라이버 하나가 모든 전산망 마비를 일으킬 수도 있다. 이번 사태에서 본 사실이다”라고 말했다.

마이크로소프트 대변인은 와이어드의 의견 공개 요청에 “전 세계 IT 시스템 접속 장애는 크라우드스트라이크 업데이트의 책임이다”라며, “마이크로소프트는 크라우드스트라이크의 자체적인 시스템 업데이트 사항을 감독하지 않았다”라고 답변했다. 마이크로소프트가 실제로 업데이트 사항을 조사하고, 커널 드라이브 업데이트에 서명했는지는 추가 설명하지 않았다.

하지만 라이우는 크라우드스트라이크 외에 다른 보안 기업도 드라이브 업데이트로 윈도 컴퓨터 장애를 일으킨 사례가 있다고 언급했다. 예를 들어, 몇 년 전에는 카스퍼스키의 업데이트 사항과 윈도 컴퓨터에 기본 설치된 바이러스 방지 소프트웨어인 윈도 디펜더(Windows Defender)도 복구 불가능한 치명적인 시스템 오류인 블루스크린(Blue Screen of Death)의 원인이 된 적이 있다. 라이우는 “전 세계 보안 솔루션 모두 이번 크라우드스트라이크의 보안 업데이트 오류와 같은 문제를 일으킨 적이 있다. 크라우드스트라이크와 같은 보안 업데이트 결함 자체는 처음 발생한 일이 아니지만, 피해 규모가 이처럼 매우 넓었던 사례는 처음이다”라고 설명했다.

세계 각국의 사이버 보안 당국은 전산망 장애를 경고했으나 마찬가지로 해커 세력의 악의적인 활동이 원인이 되었을 가능성은 문제 원인에서 재빨리 배제했다. 영국 국가사이버보안센터(NCSC) CEO 펠리시티 오스왈드(Felicity Oswald)는 “NCSC는 이번 대규모 전산 장애가 악성 사이버 공격 때문에 발생한 것이 아님을 확인했다”라고 발표했다. 호주 당국도 NCSC와 같은 결론을 내렸다.

그러나 심각한 여파가 매우 빠른 속도로 발생했다. 전산 장애는 세계 곳곳의 기업, 공공 기관으로 확산되었으며, IT 담당 부서는 리부팅을 포함하여 연속 수정 단계를 통한 수동 복구 작업을 진행하는 등 서둘러 결함이 발생한 기기 수정 작업에 나섰다. 영국, 이스라엘, 독일에서는 환자와 소통할 때 활용하는 보건 복지 서비스와 병원 전산망 장애가 발생했다. 일부 환자의 진료 예약도 취소되었다. 911을 이용하는 미국 응급 서비스도 연락 과정에서 문제가 발생한 것으로 알려졌다. 전산 장애 발생 직후 몇 시간 동안 영국 스카이뉴스(Sky News)를 포함한 일부 TV 방송국의 생방송도 중단되었다.

지금까지 크라우드스트라이크의 보안 업데이트 문제가 일으킨 피해는 전 세계 항공 교통 부문에서 가장 심각한 것으로 나타났다. 전 세계 공항에는 승객이 길게 줄을 섰다. 인도의 어느 한 공항에서는 수기로 작성한 탑승권 발급 작업을 진행하는 모습을 볼 수 있었다. 미국에서는 델타항공, 유나이티드항공, 아메리카항공은 모든 항공편 운항을 일시 중단했다. 이 때문에 미국 상공을 이동하는 항공기 수가 급격히 감소한 것을 그래픽으도 확인할 수 있었다.

전 세계 전산 장애라는 재앙과도 같은 상황은 취약점과 깊은 범위의 인터넷 상호 연결 수준을 반영한다. 복수 보안 전문가는 와이어드에 원인이 악성 공격이든 크라우드스트라이크의 보안 업데이트 문제와 같은 인간의 실수로 보안 소프트웨어가 널리 확산되는 문제를 일으키는 상황 예방을 예측하거나 실제로 고객과 협력한다고 전했다. 영국 NCSC 수장이었던 시아란 마틴(Ciaran Martin) 옥스퍼드대학교 교수는 “크라우드스트라이크의 보안 업데이트가 원인이 된 이번 전 세계 전산망 장애는 세계 디지털 취약점과 핵심 인터넷 인프라의 취약점을 강력하게 보여주는 사례”라고 진단했다.

라이우는 한 번의 업데이트가 대규모 장애를 일으킨 사실이 여전히 당황스럽다고 말했다. 시장 조사 기관 가트너(Gartner)는 매출을 기준으로 본 크라우드스트라이크의 보안 소프트웨어 시장 점유율이 14%라고 추산했다. 크라우드스트라이크의 소프트웨어가 광범위한 영역에서 시스템 보안 작업에 참여한다는 의미이다. 라이우는 팔콘 업데이트가 웹 인프라의 다른 부분에서 충돌을 일으켜 피해가 더 심각해졌을 수도 있을 것이라고 설명했다. 라우이는 “크라우드스트라이크는 보안 소프트웨어 업계에서 규모가 크다. 하지만 이처럼 심각한 피해를 일으킬 수는 없다. 공항, 주요 기반 시설, 병원 등 어디서든 크라우드스트라이크의 보안 소프트웨어가 없다면, 전산망을 운영할 수 없은 수준이다. 여러 요인이 결합되어 피해가 확산되는 연쇄 반응이 발생할 것으로 예상한다”라고 말했다.

히포넨은 업데이트 과정에서 인간의 실수 때문에 이번 문제가 발생했을 가능성을 추측한다고 밝혔다. 그는 “크라우드스트라이크의 엔지니어가 매우 큰 실수를 했을 수도 있다”라고 말했다. 이어, 크라우드스트라이크가 테스트나 결함이 섞였을 수도 있는 다른 소프트웨어를 배포했거나 다른 요소의 결합이 이루어졌을 가능성도 제시했다. 히포넨은 “보안 소프트웨어는 포괄적인 테스트 과정을 거친다. 보안 소프트웨어 기업에서 하는 일이다. 보안 업데이트 배포 사항을 매우 조심스럽게 다루어야 한다. 보안 소프트웨어가 자주 업데이트되므로 어려운 일이다”라고 설명했다.

전 세계 전산망 장애 여파가 지금도 발견되면서 해결 작업이 진행되고 있으나 문제의 본질 자체는 개별적으로 문제가 발생한 기기는 자동 문제 복구 절차보다는 수동 리부팅이 필요할 수도 있음을 의미한다. 커츠는 NBC와의 인터뷰에서 “자동 복구를 할 수 없는 일부 시스템은 정상화까지 시간이 걸릴 수도 있다”라고 말했다.

크라우드스트라이크의 장애를 다루는 초기 문제 극복 지침에는 윈도 기기를 안전 모드에서 부팅하고, 특정 파일을 삭제한 뒤 재부팅해야 한다고 명시되었다. 히포넨은 “전산 장애 발생 직후 이루어진 수정 사항은 문제가 발생한 모든 기기에 수동으로 접근해야 한다는 의미이다. 전 세계 기기 수백만 대에 문제가 발생했다는 점에서 며칠이 걸릴 수도 있다”라고 전했다.

시스템 관리자가 시스템 장애 복구 작업을 포함하기 위한 작업에 서두르고 있으나 추후 발생할 비슷한 위기 예방 방법이라는 더 큰 범위의 존립 문제 상당수가 모호한 상황이다.

사이버 보안 컨설팅 기업 헌터스트래티지(Hunter Strategy) 연구개발 부사장 제이크 윌리엄스(Jake Williams)는 “운영 모델 변경 자체를 요구하지 않을 수도 있다. 좋은 쪽이든 나쁜 쪽이든크라우드스트라이크는 IT 개입 없는 업데이트에 서두르는 것이 지속성이 없는 이유를 보여주었다”라고 말했다.

** 위 기사는 와이어드US(WIRED.com)에 게재된 것을 와이어드코리아(WIRED.kr)가 번역한 것입니다. (번역 : 고다솔 에디터)

<기사원문>
How One Bad CrowdStrike Update Crashed the World’s Computers

와이어드 코리아=Wired Staff Reporter iufcsol0122@spotv.net

이 기사를 공유합니다