المصدر: PermaDAO
FirstBatch هي الشركة الأم لـ Dria. Dria هي منصة لتجميع المعرفة مفتوحة المصدر ومخزنة على Arweave، وتهدف إلى تأسيس تبادل المعرفة بين البشر والآلات، يطلق عليها FirstBatch اسم "نسخة الذكاء الاصطناعي من ويكيبيديا". في الآونة الأخيرة، بدأت FirstBatch سلسلة تقارير بحثية حول الذكاء الاصطناعي اللامركزي، مع التركيز على الجمع بين قضايا تجميع البيانات واللامركزية. سنقدم في هذا التقرير محتويات التقرير البحثي الأول "جمع البيانات: الجودة وحقوق النشر والملكية"، وسنركز على كيفية تقديم اللامركزية حلولاً لمشاكل جمع البيانات ومخاطر الحلول اللامركزية وتحدياتها.
كيف تحل اللامركزية المشكلات التي تتم مواجهتها في جمع البيانات
المشكلات التي ستواجهها فرق الذكاء الاصطناعي الحالية والمطورون في جمع البيانات:
1. غير قادر على جمع بيانات كافية
2. غير قادر على جمع بيانات عالية الجودة
3. مشكلات التخزين
4. التحكم في الخصوصية < /p>
5. قضايا حقوق الطبع والنشر
سننظر في كيفية توفير اللامركزية للحلول لهذه المشكلات واحدة تلو الأخرى.
فيما يتعلق بكمية البيانات التي تم جمعها، أشار كبير علماء الذكاء الاصطناعي في Meta إلى أنه على الرغم من التقدم الكبير في LLM، إلا أن البيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي لا تزال أقل من 4 -السنة كمية المعلومات التي يكتسبها الطفل. في الوقت الحالي، تقتصر أنواع البيانات ومصادرها على النص وحقول رأسية معينة. تتصور شركة FirstBatch أنه يمكن تشجيع الفرق أو الأفراد على مراجعة البيانات وتصفيتها من خلال الحوافز الاجتماعية أو المالية. وهذا من شأنه أن يزيد بشكل كبير من سرعة تقديم أنواع جديدة من البيانات، ويمكن أيضًا إضافة مصادر بيانات متعددة.
في الوقت الحاضر، تتمثل التحديات التي يواجهها مطورو الذكاء الاصطناعي في عدم القدرة على جمع بيانات عالية الجودة وصعوبة اكتشاف جودة البيانات المجمعة< /strong>، لأن هناك الكثير من البيانات المكررة والقديمة في مصدر البيانات، كما أن طريقة الاكتشاف التلقائي الحالية تقلل من دقة البيانات وجودتها. تم استلهام FirstBatch من تجربة تحسين جودة البيانات على منصات البيانات المفتوحة مثل Hugging Face وKaggle وWikipedia.تقترح FirstBatch إنشاء مركز لامركزي مفتوح للبيانات حتى يتمكن الجميع من المشاركة في فحص البيانات ومراجعتها و عملية التقييم. يؤدي القيام بذلك إلى تخفيف ضغط المعالجة على فريق صغير مخصص لضمان جودة مجموعة البيانات ويمنع التلاعب بالبيانات أو العبث بها من قبل مؤسسة واحدة. إذا تم تنفيذ آليات الحوافز المناسبة، فإن مراكز البيانات اللامركزية المفتوحة وعمليات مراجعة البيانات المجتمعية يمكن أن تضمن جودة البيانات عندما تتدفق البيانات بسرعة عالية وبكميات كبيرة. في الوقت الحالي، تقوم Dria، أحد منتجات FirstBatch، ببناء مركز المعرفة العالمي اللامركزي.
تتمثل المشكلات التي تواجهها مشاريع الذكاء الاصطناعي في التخزين في مشكلات التكلفة والصيانة. في مواجهة الكمية المتزايدة من البيانات والزيادة اللاحقة في رسوم الاشتراك، فكر هؤلاء المستخدمون أيضًا في شراء مساحة أكبر مقدمًا للحصول على خصومات، ولكن هذا يعد أيضًا إهدارًا من منظور اقتصادي وفني. يختار FirstBatch تخزين البيانات على Arweave، الذي يقوم بتخزين البيانات بشكل دائم، وبالتالي الحماية من مخاطر فقدان البيانات. ليس هذا فقط، يمكنك أيضًا إنشاء تجمع بيانات مشترك عليه ليسمح للجميع بتخزين بيانات مختلفة، بحيث يمكن تخزين بيانات مختلفة في نفس المكان، حل مشكلة تخزين نفس البيانات في أماكن مختلفة مما يسبب إهدار المساحة وإهدار تكاليف التخزين..
ستكون هناك بعض بيانات التعريف الشخصية في البيانات. هذه البيانات خاصة. إن تعريض فحص هذه البيانات لمنصة تعاونية لآلاف الأشخاص لمراجعتها سوف ينتهك بعض لوائح الخصوصية. . تقترح FirstBatch استخدام تقنية إثبات المعرفة الصفرية أو DID قبل أن تدخل هذه البيانات الخاصة إلى منصة فحص البيانات العامة، بحيث يمكن معالجة بيانات النشاط المستقبلي عبر الإنترنت في وضع حماية الخصوصية.
شككت العديد من المنصات والمنافذ الإعلامية عبر الإنترنت في استخدام شركات الذكاء الاصطناعي للمواد المحمية بحقوق الطبع والنشر، زاعمة أن التدريب واستخدام نماذج الذكاء الاصطناعي ينتهك المحتوى الأصلي. تجعل NFT ملكية مواد الملكية الإبداعية/الفكرية واضحة وشفافة للغاية بسبب شفافية الإجراءات وثباتها على السلسلة. يمكن استخدام هذه الرموز للتحقق وتحديد المواد التي تخضع لأي نوع من الإجراءات، مما يجعل عملية تنقية البيانات والاستجابة للتقاضي أسهل.
مخاطر وتحديات الحلول اللامركزية
على الرغم من أن الحلول اللامركزية جيدة، ولكن< قوي>المشكلة المتبقية هي الخطر الذي يشكله عدم الكشف عن هوية المستخدم. على سبيل المثال، عندما يتعلق الأمر بالمشكلات التنظيمية المتعلقة بحقوق الطبع والنشر أو المحتوى الضار، يمكن أن تتسبب الانتهاكات مجهولة المصدر في حدوث مشكلات أكبر وتعريض الأنظمة الأساسية للخطر. عندما يتم تخزين البيانات بشكل دائم على شبكة لا مركزية، قد تظل البيانات التي تم تحميلها تحتوي على محتوى ضار. وحتى مع مراجعة البيانات العامة، لا يزال من المحتم أن يتسلل المحتوى عبر الشبكة.
أحد التحديات الحالية هو كيفية تقييم حجم البيانات وجودة الحوافز. لأنه بغض النظر عن هيكلة النظام الأساسي، سيكون هناك دائمًا أشخاص يقومون بتحميل المزيد من البيانات ذات الجودة الأقل أو البيانات ذات الجودة الأعلى ولكن بكمية أقل.
الملخص
مع التطوير الإضافي لمنصات جمع بيانات الذكاء الاصطناعي اللامركزية، سيكون هناك المزيد من الفرص لتعزيز نماذج تنسيق أفضل لتحقيق عملية جمع بيانات أكثر سلاسة. نتطلع أيضًا إلى المزيد من الأخبار الجيدة من Dria من FirstBatch حول تحسين كمية ونوعية البيانات.