출처: 샤오샬로 변호사
지난달, 이탈리아 개인정보 보호 규제기관인 가란테는 OpenAI가 한 가지 이상의 EU 규정 위반을 저지르고 ChatGPT의 데이터 수집이 사용자 데이터가 이탈리아의 개인정보 보호법을 위반했다고 발표했습니다. 제너레이티브 AI 붐을 일으킨 ChatGPT가 다시 한 번 데이터 컴플라이언스 문제에 봉착했습니다.
데이터와 연산은 제너레이티브 AI의 핵심입니다. 데이터 보안은 제너레이티브 AI 컴플라이언스의 핵심입니다. AI의 데이터 의존도가 높아지는 배경에서 제너레이티브 AI는 비밀리에 데이터를 수집하여 '사전 동의'와 '최소한의 필요'라는 원칙에 심각한 도전을 제기하고 있습니다. 동시에 제너레이티브 AI는 운영 단계에서 데이터 유출의 심각한 위험을 수반합니다. 이는 개인 정보 보호에 심각한 위협이 됩니다. 오늘은 자 수녀님의 팀이 개인정보 보안에 대한 제너레이티브 AI의 도전 과제와 규정 준수 요건에 대해 이야기합니다.
01 코퍼스 데이터의 수집과 활용. /h2>
데이터의 출처에 따라 개인정보가 포함된 데이터는 크게 개인정보가 포함된 코퍼스 데이터와 개인정보 데이터가 포함된 사용자가 업로드한 데이터로 나눌 수 있습니다.
제너레이티브 AI는 데이터 의존도가 높으며 학습 요건을 충족하기 위해 많은 양의 데이터가 필요합니다. 따라서 제너레이티브 AI는 공개 및 비공개 데이터를 모두 적극적으로 수집하고 처리하는 경우가 많으며, 사전 학습 데이터의 규모는 수십억 개 또는 수백억 개에 이르는 경우가 많습니다. 그 안에 개인정보가 포함되어 있는 경우, 개인정보 보호법 제27조에 따르면 "개인정보처리자는 개인이 자신의 주도로 공개하였거나 적법하게 공개된 개인정보를 개인이 명시적으로 거부하지 않는 한 합리적인 범위 내에서 처리할 수 있다. 개인정보처리자는 공개된 개인정보로서 개인의 권익에 중대한 영향을 미치는 개인정보를 처리하는 경우에는 이 법의 규정에 따라 해당 개인의 동의를 받아야 한다."라고 규정하고 있습니다. 생성 인공지능 관리 임시조치 제7조에서도 "생성 인공지능 서비스 제공자(이하 제공자)는 법에 따라 사전 학습, 최적화 학습 등 학습 데이터 처리 활동을 수행하고 다음 규정을 준수해야 한다. ...... (iii) 개인정보가 관련된 경우, 개인의 동의를 얻어야 한다. 동의하거나 기타 법률 및 행정 규정에서 정한 사항을 준수합니다." 그러나 데이터베이스 데이터 규모가 너무 커서 정보 주체의 동의를 일일이 받아야 하는 요건을 충족하기 어렵습니다.
정보주체의 동의를 받기 어렵다면 데이터베이스에 있는 개인정보를 직접 삭제할 수 있나요? 이것도 어렵습니다. 한편으로는 효과적인 개인정보 정리 알고리즘이 부족하고 기술적 모순이 있으며, 다른 한편으로는 데이터베이스의 방대한 규모로 인해 수작업 데이터 정리 비용이 매우 높고 개인정보 2차 유출의 위험도 존재합니다. 명명된 개체 인식에 기반한 데이터 정제 기술은 임상 건강 데이터의 경우 97%(이름), 80%(간호 단위 번호)의 회수율을 보인다는 지적이 있습니다. 즉, 말뭉치와 데이터베이스에 개인정보가 존재하기 때문에 훈련 단계에서 개인정보 클리닝의 효과가 떨어지고 기술 기업의 컴플라이언스 리스크가 존재한다는 것입니다. 자 자매의 팀은 기술 기업이 말뭉치 데이터를 학습에 사용할 때 개인정보가 포함되지 않은 데이터 세트를 선택하고 인식 알고리즘의 정확도를 최대한 높이며 식별된 개인정보는 익명화하거나 다듬어야 한다고 강조합니다. 기계 필터링 메커니즘과 함께 검토 단계에서 수동 검토 메커니즘을 도입하는 것도 실보다 득이 많은 컴플라이언스 조치입니다.
02 사용자가 업로드한 정보의 수집 및 사용.
사용자가 업로드한 데이터는 "사용자 양성 피딩 데이터"와 "사용자 부정 데이터"로 분류할 수 있습니다. 이른바 사용자 포지티브 피딩 데이터는 사용자가 생성 AI로부터 피드백을 얻기 위해 업로드한 특정 데이터를 말합니다. 사용자 네거티브 피드 데이터는 생성형 AI 알고리즘이 포함된 애플리케이션 또는 디바이스의 다른 기능을 사용할 목적으로 사용자가 업로드한 데이터를 의미합니다.
제너레이티브 AI의 작동을 위해서는 일반적으로 사용자가 특정 데이터를 적극적으로 '공급'해야 하며, 이를 알고리즘에 따라 분석하여 피드백을 제공합니다. 이 과정에서 인간과 컴퓨터의 상호 작용 데이터가 기록, 저장, 분석되며 모델 알고리즘의 반복 학습을 위한 데이터가 될 수 있습니다. 그러나 서비스 제공업체가 프롬프트 의무를 이행하지 않거나 사용자의 보안 인식 부족 등의 상황에서 사용자가 제공하는 데이터에는 사용자의 외모, 주소, 연락처 등의 개인 정보가 포함될 가능성이 높습니다. 복잡한 서비스 모델과 다양한 적용 시나리오는 이러한 위험을 더욱 악화시킵니다. 디지털 기술의 발달로 사용자의 신원은 연락처 정보, 얼굴 데이터, 지문 등과 깊이 연관되어 있으며, 제너레이티브 AI는 대량의 개인 정보를 수집하는 경우가 많습니다. 예를 들어, 잘 알려진 한 AI 회사의 챗봇 프로그램은 교육, 과학 연구, 금융, 미디어, 엔터테인먼트 등 다양한 분야에서 사용되고 있으며, 이 프로그램과 사용자의 채팅 기록에는 개인의 신원, 선호도, 습관 등 민감한 정보가 다량으로 포함되어 있습니다. 이러한 데이터가 잘못된 사람의 손에 들어가면 개인정보 침해, 신원 도용, 금융 사기 등의 위험으로 이어져 사용자에게 직접적인 피해를 입힐 수 있습니다.
또한 제너레이티브 AI는 다양한 시나리오에서 사용되며 주요 애플리케이션과 디바이스에 내장되어 있는 경우가 많습니다. 예를 들어 올해 1월에는 한 브라우저에서 3대 제너레이티브 AI 기능 도입을 발표했고, 한 기업에서는 세계 최초로 제너레이티브 AI 기술을 탑재한 스마트폰을 출시했습니다. 생성형 AI 기술을 사용하지 않더라도 사용자는 관련 앱이나 기기를 사용할 때 필연적으로 데이터를 생성하고 업로드하게 되며, 그 데이터에는 개인정보로 의심되는 내용이 포함될 가능성이 높습니다.
'생성 인공지능 관리 임시조치' 제11조는 "사업자는 법령에 따라 이용자의 입력 정보 및 이용 기록을 보호할 의무를 이행하고, 필수적이지 않은 개인정보를 수집해서는 안 되며, 이용자를 식별할 수 있는 입력 정보 및 이용 기록을 불법적으로 보유해서는 안 되고, 이용자의 입력 정보 및 이용 기록을 타인에게 불법적으로 제공해서는 안 된다"고 규정하고 있습니다. 이용자는 이용자의 입력 정보 및 이용 기록을 타인에게 불법적으로 제공해서는 안 됩니다. 사업자는 개인이 자신의 개인정보 등에 대한 열람, 복사, 정정, 보완, 삭제 등의 요구를 할 경우 법령에 따라 이를 즉시 접수하고 처리해야 합니다." 개인정보 보호법, 아동의 개인정보 보호에 관한 법률 등 법령에서는 데이터 보관 기간에 대한 의무 요건을 정하고 있습니다. 이에 따라 이용자가 자발적으로 제공한 개인정보로 의심되는 정보를 서비스 제공자가 기록 및 보관할 수 있는지 여부와 보관 기간에 대한 논란이 있습니다.
또한 이러한 정보를 알고리즘 학습에 활용할 수 있는지에 대해서도 다소 논란이 있습니다. 생성 인공지능 관리 임시조치안 제7조는 "생성 인공지능 서비스 제공자(이하 제공자)는 법에 따라 사전 학습, 최적화 학습 및 기타 학습 데이터 처리 활동을 수행하고 다음 각 호의 규정을 준수해야 한다. ...... (다) 개인정보가 수반되는 경우에는 본인의 동의를 얻어야 하며, 다음 각 호에 해당하는 경우에는 본인의 동의를 얻어야 한다"고 강조하고 있습니다. 또는 법률 및 행정 규정에서 규정하는 기타 상황을 준수해야 합니다." 최초 사용을 위해 획득한 사용자 승인만으로는 알고리즘 학습 단계에서의 데이터 사용 요건을 충족하기에 충분하지 않으며, 기술 회사는 이러한 유형의 데이터를 사용하기 전에 보다 명시적인 사용 승인을 받거나 법률 및 행정 규정에서 규정하는 기타 상황을 준수해야 하며 그렇지 않으면 민법, 행정법 또는 형법의 관련 조항에 위배될 수 있습니다. 그러나 사용자의 명시적인 동의가 있더라도 생성형 AI의 운영 단계에서는 데이터 유출의 위험이 크며, 기술 기업은 데이터의 보안을 보장할 수 있는 경우에만 개인정보가 포함된 데이터를 활용할 수 있습니다.
제네레이션의 품질을 향상시키기 위해 많은 기술 기업들은 데이터 보유량을 늘리고 데이터 집계를 강화하는 방법을 모색할 것입니다. 예를 들어, 한 AI 회사의 개인정보 처리방침 제2조에는 "당사는 개인정보를 집계하거나 비식별화하여 더 이상 귀하를 식별하는 데 사용되지 않도록 하고, 그러한 정보를 사용하여 당사 서비스의 효과를 분석하고, 당사 서비스의 기능을 개선 및 추가하고, 연구를 수행하고, 기타 유사한 목적을 위해 사용할 수 있습니다."라고 명시되어 있습니다. 이는 실현 가능한 옵션이지만, '사전 고지 동의' 원칙에 따라 서비스 제공자는 정보 제공 의무를 부담하며, 즉 서비스 제공자는 수집할 데이터의 대상, 데이터의 목적, 발생 가능한 위험 등을 정보 주체에게 사전에 설명하고 정보 주체의 동의를 얻어 수집 행위를 수행해야 합니다. 동시에, 기술 기업은 해당 조항을 경직되고 의무적인 고지 조항으로 전환하기보다는 이용자에게 개인정보 활용을 거부할 수 있는 선택권을 제공해야 합니다. 또한 기술 기업은 '필요 최소한'의 원칙에 따라 목적 달성과 관련이 있고 영향이 가장 적은 방식으로 개인정보를 수집해야 하며, 명확하고 구체적인 방식으로 이용자로부터 개인정보를 수집해야 합니다.
03 결론적으로
세대별 AI는 기존 AI보다 정보 수집에 더 적극적이고 데이터 남용의 위험이 더 큰 경향이 있습니다. . 생성형 AI는 스스로를 업그레이드하고 최적화하기 위해 대규모 코퍼스와 데이터 세트를 통해 지속적으로 문맥 이해를 높여야 하며, 데이터 수집, 데이터 저장, 데이터 처리, 데이터 생성 등 생성형 AI의 다양한 운영 단계에서 필연적으로 많은 개인정보와 법률 및 규정 준수 위험이 수반될 수밖에 없습니다. 빅데이터 시대에 개인정보의 의미와 경계가 모호해지고, 법과 규정이 뒤처져 있으며, 기술적 성과만을 추구하다 보니 일부 기술 기업에서는 이러한 리스크를 소홀히 하는 경우도 있습니다. 우리 팀은 규정 준수는 업계의 건전한 발전을 위한 전제 조건이며, 성공을 추구하는 과정에서 법적 레드라인을 가볍게 여겨서는 안 된다는 점을 상기시킵니다.