Theo cointelegraph: LAION-5B, một bộ dữ liệu trí tuệ nhân tạo (AI) đáng kể được sử dụng để đào tạo các trình tạo văn bản thành hình ảnh được sử dụng rộng rãi khác nhau, đã bị người tạo ra nó thu hồi sau khi một cuộc khảo sát cho thấy nó chứa đựng hàng nghìn trường hợp nghi ngờ lạm dụng tình dục trẻ em vật chất (CSAM). LAION, Mạng mở trí tuệ nhân tạo quy mô lớn có trụ sở tại Đức, là một tổ chức phi lợi nhuận nổi tiếng với việc tạo ra các mô hình và bộ dữ liệu AI nguồn mở đóng vai trò là xương sống cho một số mô hình chuyển văn bản thành hình ảnh nổi tiếng.
Các nhà nghiên cứu tại Trung tâm Chính sách Mạng của Đài quan sát Internet Stanford, trong báo cáo được công bố vào ngày 20 tháng 12, đã tiết lộ sự hiện diện của 3.226 trường hợp bị cáo buộc CSAM trong tập dữ liệu LAION-5B. Nhiều trường hợp đáng ngờ đã được các bên độc lập xác minh là CSAM, như David Thiel, Kiến trúc sư trưởng và Kỹ thuật viên trưởng về Dữ liệu lớn của Trung tâm Chính sách Mạng Stanford đã nhấn mạnh.
Thiel lưu ý rằng mặc dù các trường hợp CSAM được phát hiện trong tập dữ liệu có thể không làm thay đổi đáng kể kết quả của các mô hình được đào tạo trên đó nhưng chúng có khả năng gây ra một số ảnh hưởng. Hơn nữa, việc lặp lại các trường hợp CSAM giống hệt nhau làm tăng thêm mối lo ngại do nó củng cố hình ảnh của các nạn nhân cụ thể.
Được giới thiệu vào tháng 3 năm 2022, tập dữ liệu LAION-5B bao gồm 5,85 tỷ cặp văn bản-hình ảnh. Để đáp lại những phát hiện này, LAION xác nhận trong một tuyên bố rằng họ đã loại bỏ các bộ dữ liệu gây tranh cãi như một biện pháp phòng ngừa và chúng bao gồm cả LAION-5B và LAION-400M. Tổ chức sẽ xuất bản lại các bộ dữ liệu sau khi chúng được đảm bảo an toàn.