인터넷 검색을 해본 사람이라면 누구나 캡챠는 익숙한 장애물입니다. 자전거, 신호등, 횡단보도와 같은 사물을 식별해야 하는 이미지 기반 과제는 인간 사용자와 자동화된 봇을 구분하기 위해 고안되었습니다. 수년 동안 이러한 캡차는 악성 봇이 웹사이트에 접근하는 것을 방지하는 게이트키퍼 역할을 해왔습니다. 그러나 새로운 연구에 따르면 첨단 인공지능(AI) 시스템이 이러한 테스트를 쉽게 해독할 수 있게 되면서 이러한 보호 계층이 곧 무용지물이 될 수 있다고 합니다.
ETH 취리히 박사 과정 학생인 Andreas Plesner가 이끄는 연구팀이 전 세계 수백만 개의 웹사이트에서 여전히 널리 사용되고 있는 Google의 reCAPTCHA v2를 100% 풀 수 있는 봇을 개발했습니다. 사전 인쇄 논문으로 발표된 이 연구는 현재 진행 중인 인간과 봇의 대결에서 중요한 진전을 이루었으며, 인간 중심의 장애물을 극복하는 AI 시스템의 정교함이 점점 더 커지고 있음을 강조합니다.
reCAPTCHA의 진화
2014년에 처음 도입된 Google의 reCAPTCHA v2는 사용자에게 거리 이미지 그리드 내에서 자전거, 계단 또는 신호등과 같은 특정 물체를 식별하도록 요청합니다. 이 시스템은 사람이 쉽게 통과할 수 있도록 설계된 반면, 시각적 인식과 판단이 필요한 작업은 봇이 수행하지 못하도록 차단했습니다. 문제를 제시하는 대신 사용자 행동을 모니터링하는 '보이지 않는' 리캡차 v3를 선호하여 단계적으로 폐지되었지만, 리캡차 v2는 여전히 널리 사용되고 있으며 특히 v3가 사용자에게 확실한 '인간' 등급을 부여하는 데 어려움을 겪을 때 대체 수단으로 사용되고 있습니다.
수년 동안 reCAPTCHA v2는 봇의 웹사이트 접근을 차단하는 가장 신뢰할 수 있는 방법 중 하나로 여겨졌습니다. 하지만 플레즈너와 그의 동료들이 최근 발표한 연구 결과는 이러한 가정에 의문을 제기합니다.
보안 문자 코드 해독하기: AI 봇의 작동 방식
재캡차 v2 해독의 핵심은 실시간으로 물체를 식별하는 강력한 오픈 소스 도구로 알려진 YOLO(You Only Look Once) 물체 인식 모델을 사용하는 데 있습니다. 연구진은 YOLO 모델을 미세 조정하고 14,000개의 라벨이 부착된 교통 이미지로 학습시킴으로써 reCAPTCHA v2의 13개 객체 범주에서 이미지를 식별하는 데 있어 인간 수준의 성능을 발휘할 수 있는 시스템을 만들 수 있었습니다. 이 모델은 소화전, 자전거, 신호등과 같은 물체를 거의 완벽에 가까운 정확도로 인식할 수 있었으며 일부 카테고리에서는 100%의 성공률을 달성했습니다.
연구진은 사용자가 이미지의 일부를 식별하도록 요청하는 더 복잡한 '유형 2'의 캡차 문제를 해결하기 위해 사전 학습된 두 번째 YOLO 모델을 사용했습니다. 이 모델은 몇 가지 범주에서 어려움을 겪었지만, 더 까다로운 물체 중 하나를 만나면 새 이미지를 요청할 수 있을 만큼 충분히 잘 수행했습니다.
하지만 이미지 인식만으로는 충분하지 않았습니다. 연구원들은 봇이 전체 보안 문자 시스템을 속일 수 있도록 여러 가지 다른 조치도 구현했습니다. 여기에는 VPN을 사용하여 동일한 IP 주소에서 반복되는 시도를 숨기고, 실제 마우스 움직임을 시뮬레이션하여 사람의 행동을 모방하고, 실제 웹 브라우징 세션의 가짜 브라우저 및 쿠키 데이터를 사용하는 것이 포함되었습니다.
이 봇은 이러한 전술과 YOLO 모델을 결합하여 인간 사용자보다 더 효율적으로 리캡차 v2 문제를 일관되게 해결할 수 있었습니다.
캡차 보안에 대한 시사점
이 연구에 따르면 봇과 캡차 시스템 간의 군비 경쟁이 새로운 국면에 접어들었습니다. 최근까지 봇은 리캡차 문제를 해결할 때 68%~71%의 성공률만 달성할 수 있었습니다. 이제 더 발전된 이미지 인식 모델이 등장하면서 특정 대상 카테고리의 경우 성공률이 100%까지 치솟았습니다.
이 연구 결과에 따르면 reCAPTCHA v2와 같은 기존 캡차로는 더 이상 봇을 차단하기에 충분하지 않을 수 있습니다. 이러한 발전은 웹 보안의 미래에 대한 심각한 우려를 불러일으키며, 특히 봇에 대한 주요 방어 수단으로 CAPTCHA에 의존하는 웹사이트의 경우 더욱 그러합니다. AI가 인간의 몫이었던 작업을 더욱 능숙하게 수행함에 따라 인간 사용자와 자동화된 시스템 간의 격차는 계속 좁혀지고 있습니다.
저자들은 논문에서 "어떤 의미에서 좋은 캡차는 가장 지능적인 기계와 가장 지능이 낮은 인간 사이의 정확한 경계를 표시한다"며 "머신러닝 모델이 인간의 능력에 가까워지면서 좋은 캡차를 찾는 것이 더욱 어려워졌다"고 설명합니다;
보이지 않는 캡챠로의 전환과 향후 과제
이러한 진화하는 위협에 대응하기 위해 Google은 이미 명시적인 도전에 의존하지 않고 사용자 행동을 모니터링하는 reCAPTCHA v3로 많은 부분을 전환했습니다. 이 시스템은 사용자가 마우스를 움직이거나 웹페이지와 상호 작용하는 방식과 같은 미묘한 패턴을 기반으로 봇을 식별하는 것을 목표로 합니다. 구글 클라우드 대변인은 이러한 변화를 강조하며 "우리는 고객이 시각적인 문제를 드러내지 않고 사용자를 보호할 수 있도록 지원하는 데 매우 중점을 두고 있다"고 말했습니다;
그럼에도 불구하고 수백만 개의 웹사이트가 reCAPTCHA v2를 대체 수단으로 계속 사용하고 있으며, 이는 Plesner의 연구에서 설명한 종류의 AI 기반 공격에 여전히 취약하다는 것을 의미합니다. Google은 보호 기능을 개선하기 위해 reCAPTCHA를 지속적으로 개선하고 있지만 AI 개발자와 사이버 보안 팀 간의 경쟁은 아직 끝나지 않았습니다.
머신러닝 모델이 인간의 행동을 모방하는 능력이 향상됨에 따라 인간과 봇을 구분하는 작업은 점점 더 복잡해지고 있습니다. 가장 진보된 AI 시스템도 능가할 수 있는 더 정교한 보안 문자를 개발하기 위한 싸움은 의심할 여지없이 계속될 것입니다. 하지만 현재로서는 현재 진행 중인 이 고양이와 쥐의 게임에서 AI가 우위를 점하고 있는 것으로 보입니다.
인간 검증의 미래
이 연구는 웹 보안과 사용자 인증에 대한 사고방식에 큰 변화를 의미합니다. 이제 AI 시스템이 인간을 능가하는 보안 문자를 해결할 수 있게 되면서 웹 개발자와 사이버 보안 전문가들은 화면 반대편에 있는 사람이 실제로 사람인지 확인할 수 있는 새로운 방법을 모색해야 할 것입니다. 여기에는 고급 행동 분석, 생체 인식 또는 기타 혁신적인 솔루션이 포함될지 여부는 아직 미지수입니다.
한 가지 분명한 사실은 기존 보안 문자의 시대는 끝났다는 것입니다. AI 기술이 계속 발전함에 따라 악성 봇으로부터 온라인 공간을 보호하기 위해 사용하는 방법도 발전해야 합니다.