코인텔레그래프에 따르면 널리 사용되는 다양한 텍스트-이미지 생성기를 훈련하는 데 사용되는 상당한 인공지능(AI) 데이터 세트인 LAION-5B가 아동 성학대 자료(CSAM)로 의심되는 수천 건의 사례를 숨기고 있는 것으로 조사된 후 제작자에 의해 삭제되었습니다. 독일에 본사를 둔 대규모 인공 지능 오픈 네트워크인 LAION은 여러 유명 텍스트-이미지 변환 모델의 근간이 되는 오픈 소스 AI 모델과 데이터 세트를 만드는 것으로 유명한 비영리 단체입니다.
스탠포드 인터넷 관측소 사이버 정책 센터의 연구원들은 12월 20일에 발표한 보고서에서 LAION-5B 데이터 세트에서 3,226개의 CSAM 의심 인스턴스가 발견되었다고 폭로했습니다. 스탠포드 사이버 정책 센터의 빅데이터 아키텍트이자 최고 기술자인 데이비드 틸(David Thiel)이 강조한 바와 같이, 수많은 의심스러운 인스턴스가 독립 기관에 의해 CSAM으로 확인되었습니다.
Thiel은 데이터 세트에서 탐지된 CSAM 인스턴스가 학습된 모델의 결과를 크게 바꾸지는 않겠지만 어느 정도 영향을 미칠 가능성이 있다고 지적했습니다. 또한 동일한 CSAM 인스턴스의 반복은 특정 피해자의 이미지를 강화하기 때문에 우려를 더합니다.
2022년 3월에 도입된 LAION-5B 데이터 세트는 58억 5천만 개의 이미지-텍스트 쌍으로 구성되어 있습니다. 이 조사 결과에 대해 LAION은 성명을 통해 예방 조치로 논란이 된 데이터 세트를 삭제했으며, 여기에는 LAION-5B와 LAION-400M이 모두 포함된다고 밝혔습니다. 해당 데이터 세트의 안전성이 확인되는 대로 다시 게시할 예정입니다.