Nguồn: PermaDAO
FirstBatch là công ty mẹ của Dria. Dria là một nền tảng tổng hợp kiến thức nguồn mở được lưu trữ trên Arweave. Nó nhằm mục đích thiết lập sự trao đổi kiến thức giữa con người và máy móc. Nó được FirstBatch gọi là "phiên bản AI của Wikipedia". Gần đây, FirstBatch bắt đầu loạt báo cáo nghiên cứu về AI phi tập trung, tập trung vào sự kết hợp giữa các vấn đề tổng hợp dữ liệu và phân cấp. Trong báo cáo này, chúng tôi sẽ giới thiệu nội dung của báo cáo nghiên cứu đầu tiên “Thu thập dữ liệu: Chất lượng, Bản quyền và Quyền sở hữu”, chúng tôi sẽ tập trung vào cách phân cấp cung cấp giải pháp cho các vấn đề thu thập dữ liệu cũng như rủi ro và thách thức của các giải pháp phi tập trung.
Cách phân cấp giải quyết các vấn đề gặp phải trong việc thu thập dữ liệu
Các vấn đề mà các nhóm và nhà phát triển AI hiện tại sẽ gặp phải trong việc thu thập dữ liệu:
1. Không thể thu thập đủ dữ liệu
2. Không thể thu thập dữ liệu chất lượng cao
3. Vấn đề về lưu trữ
4. Kiểm soát quyền riêng tư < /p>
5. Các vấn đề về bản quyền
Chúng ta sẽ xem xét cách phân quyền cung cấp giải pháp cho từng vấn đề này từng cái một.
Về lượng dữ liệu được thu thập, nhà khoa học AI trưởng của Meta đã chỉ ra rằng mặc dù có tiến bộ vượt bậc trong LLM, nhưng dữ liệu được sử dụng để đào tạo các mô hình AI vẫn chưa đến 4 -tuổi Lượng thông tin mà một đứa trẻ thu thập được. Hiện tại, các loại và nguồn dữ liệu được giới hạn ở văn bản và một số trường dọc nhất định. FirstBatch hình dung rằng các nhóm hoặc cá nhân có thể được khuyến khích xem xét và lọc dữ liệu thông qua các khuyến khích xã hội hoặc tài chính. Điều này sẽ làm tăng đáng kể tốc độ giới thiệu các loại dữ liệu mới và cũng có thể thêm nhiều nguồn dữ liệu.
Ngày nay, thách thức mà các nhà phát triển AI phải đối mặt là không có khả năng thu thập dữ liệu chất lượng cao và khó khăn trong việc phát hiện chất lượng của dữ liệu được thu thập< /strong> , bởi vì có rất nhiều dữ liệu trùng lặp và lỗi thời trong nguồn dữ liệu và phương pháp phát hiện tự động hiện tại làm giảm độ chính xác và chất lượng của dữ liệu. FirstBatch được lấy cảm hứng từ trải nghiệm cải thiện chất lượng dữ liệu trên các nền tảng dữ liệu mở như Hugging Face, Kaggle và Wikipedia.FirstBatch đề xuất thành lập một trung tâm dữ liệu mở phi tập trung để mọi người có thể tham gia Sàng lọc, đánh giá và đánh giá dữ liệu quá trình đánh giá. Làm như vậy vừa giảm bớt áp lực xử lý cho một nhóm nhỏ chuyên đảm bảo chất lượng của tập dữ liệu vừa ngăn chặn dữ liệu bị thao túng hoặc giả mạo bởi một tổ chức. Nếu các cơ chế khuyến khích phù hợp được triển khai, các trung tâm mở dữ liệu phi tập trung và quy trình đánh giá dữ liệu dựa vào cộng đồng này có thể đảm bảo chất lượng dữ liệu khi dữ liệu chảy vào với tốc độ cao và số lượng lớn. Hiện tại, Dria, một sản phẩm của FirstBatch, đang xây dựng một trung tâm kiến thức toàn cầu phi tập trung như vậy.
Vấn đề mà các dự án AI về lưu trữ gặp phải là vấn đề chi phí và bảo trì. Đối mặt với lượng dữ liệu ngày càng tăng và phí đăng ký tăng sau đó, những người dùng này cũng đã nghĩ đến việc mua trước dung lượng lớn hơn để được giảm giá, nhưng đây cũng là một sự lãng phí từ góc độ kinh tế và kỹ thuật. FirstBatch chọn lưu trữ dữ liệu trên Arweave, nơi lưu trữ dữ liệu vĩnh viễn, do đó bảo vệ khỏi nguy cơ mất dữ liệu. Không những vậy, bạn còn có thể tạo một data pool dùng chung trên đó để cho phép mọi người lưu trữ những dữ liệu khác nhau, để những dữ liệu khác nhau có thể được lưu trữ ở cùng một nơi, giải quyết vấn đề lưu trữ cùng một dữ liệu ở những nơi khác nhau, gây lãng phí dung lượng và lãng phí chi phí lưu kho..
Sẽ có một số dữ liệu nhận dạng cá nhân trong dữ liệu. Dữ liệu này là riêng tư. Việc hiển thị việc sàng lọc dữ liệu này trên một nền tảng cộng tác để hàng nghìn người xem xét sẽ vi phạm một số quy định về quyền riêng tư. . FirstBatch đề xuất sử dụng công nghệ DID hoặc bằng chứng không kiến thức trước khi những dữ liệu riêng tư này đi vào nền tảng sàng lọc dữ liệu công khai để dữ liệu hoạt động trực tuyến trong tương lai có thể được xử lý ở chế độ bảo vệ quyền riêng tư.
Nhiều nền tảng trực tuyến và phương tiện truyền thông đã đặt câu hỏi về việc sử dụng tài liệu có bản quyền của các công ty AI, cho rằng việc đào tạo và sử dụng mô hình AI là vi phạm nội dung gốc. NFT làm cho quyền sở hữu tài liệu sở hữu trí tuệ/sáng tạo trở nên rất rõ ràng và minh bạch do tính minh bạch và bất biến của các hành động trên chuỗi. Những mã thông báo này có thể được sử dụng để xác minh và xác định tài liệu nào phải tuân theo loại quy trình nào, giúp quá trình làm sạch dữ liệu và phản hồi các vụ kiện tụng trở nên dễ dàng hơn.
Rủi ro và thách thức của các giải pháp phi tập trung
Mặc dù các giải pháp phi tập trung Tốt, nhưng< mạnh>vấn đề còn lại là rủi ro do tính ẩn danh của người dùng gây ra. Ví dụ: khi nói đến các vấn đề pháp lý liên quan đến bản quyền hoặc nội dung có hại, hành vi vi phạm ẩn danh có thể gây ra vấn đề lớn hơn và khiến nền tảng gặp rủi ro. Khi dữ liệu được lưu trữ vĩnh viễn trên mạng phi tập trung, dữ liệu được tải lên vẫn có thể chứa nội dung có hại, ngay cả khi xem xét dữ liệu công khai, việc nội dung lọt qua mạng vẫn không thể tránh khỏi.
Một trong những thách thức hiện nay là làm thế nào để cân nhắc giữa khối lượng dữ liệu và chất lượng khuyến khích. Bởi vì dù nền tảng được cấu trúc như thế nào thì sẽ luôn có người tải lên nhiều dữ liệu có chất lượng thấp hơn hoặc dữ liệu có chất lượng cao hơn nhưng số lượng ít hơn.
Tóm tắt
Với sự phát triển hơn nữa của các nền tảng thu thập dữ liệu AI phi tập trung, sẽ có nhiều cơ hội hơn để thúc đẩy các mô hình phối hợp tốt hơn nhằm đạt được quy trình thu thập dữ liệu Mượt mà hơn. Chúng tôi cũng mong đợi nhiều tin tốt hơn từ Dria của FirstBatch về việc cải thiện số lượng và chất lượng dữ liệu.