وفقًا لكوينتيليغراف، قام فريق من الباحثين من شركة الذكاء الاصطناعي (AI) AutoGPT وجامعة نورث إيسترن وMicrosoft Research بتطوير أداة تراقب نماذج اللغة الكبيرة (LLMs) بحثًا عن مخرجات قد تكون ضارة وتمنعها من التنفيذ. تم وصف الوكيل في ورقة بحثية مطبوعة مسبقًا بعنوان "اختبار وكلاء نماذج اللغة بأمان في البرية". يشير البحث إلى أن الوكيل يتمتع بالمرونة الكافية لمراقبة LLMs الموجودة ويمكنه إيقاف المخرجات الضارة مثل هجمات التعليمات البرمجية قبل حدوثها.
يبدو أن الأدوات الحالية لمراقبة مخرجات ماجستير إدارة الأعمال فيما يتعلق بالتفاعلات الضارة تعمل بشكل جيد في البيئات المختبرية، ولكن عند تطبيقها على نماذج الاختبار قيد الإنتاج بالفعل على الإنترنت المفتوح، فإنها غالبًا ما تفشل في التقاط التعقيدات الديناميكية للعالم الحقيقي. ويرجع ذلك إلى حد كبير إلى وجود حالات حافة واستحالة قيام الباحثين بتخيل كل ناقل ضرر محتمل قبل حدوثه في مجال الذكاء الاصطناعي. حتى عندما يكون لدى البشر الذين يتفاعلون مع الذكاء الاصطناعي أفضل النوايا، فقد ينشأ ضرر غير متوقع من حوافز تبدو غير ضارة.
لتدريب وكيل المراقبة، قام الباحثون ببناء مجموعة بيانات تضم ما يقرب من 2000 تفاعل آمن بين الإنسان والذكاء الاصطناعي عبر 29 مهمة مختلفة تتراوح من مهام استرجاع النص البسيطة وتصحيحات الترميز إلى تطوير صفحات ويب كاملة من الصفر. كما قاموا بإنشاء مجموعة بيانات اختبار منافسة مليئة بمخرجات عدائية تم إنشاؤها يدويًا، بما في ذلك العشرات المصممة لتكون غير آمنة. تم بعد ذلك استخدام مجموعات البيانات لتدريب أحد العملاء على نظام GPT 3.5 Turbo الخاص بشركة OpenAI، وهو نظام متطور قادر على التمييز بين المخرجات غير الضارة والمحتملة الضرر بمعامل دقة يصل إلى 90% تقريبًا.