تسجيل الدخول/ اشتراك

تُصدر OpenAI تحديثًا لتمكين التفكير في الوقت الفعلي عبر الصوت والمرئية والنص

٠٢/١٠/٢٠٢٤ ١٩:٣٤

أجرت OpenAI أربعة تحديثات لنماذجها في أكتوبر لمساعدة نماذج الذكاء الاصطناعي الخاصة بها على إجراء محادثات أفضل وتحسين التعرف على الصور. أول تحديث رئيسي هو Live API، الذي يسمح للمطورين بإنشاء تطبيقات كلام تم إنشاؤها بواسطة الذكاء الاصطناعي باستخدام موجه واحد، مما يتيح محادثات طبيعية مشابهة لوضع الكلام المتقدم في ChatGPT. في السابق، كان على المطورين "دمج" نماذج متعددة معًا لإنشاء هذه التجارب. غالبًا ما يحتاج إدخال الصوت إلى التحميل والمعالجة بالكامل قبل تلقي الرد، مما يعني زمن وصول أعلى للتطبيقات في الوقت الفعلي مثل محادثات الصوت للتحدث. بفضل إمكانيات البث لواجهة Realtime API، يمكن للمطورين الآن تحقيق تفاعلات فورية وطبيعية، تمامًا مثل المساعد الصوتي. تعمل واجهة برمجة التطبيقات (API) على GPT-4، الذي تم إصداره في مايو 2024، ويمكنها إجراء الاستدلال عبر الصوت والمرئية والنص في الوقت الفعلي. يتضمن تحديث آخر أدوات ضبط دقيقة للمطورين، مما يسمح لهم بتحسين استجابات الذكاء الاصطناعي الناتجة عن إدخال الصور والنص. تعمل أجهزة الدوران المستندة إلى الصور على تمكين الذكاء الاصطناعي من فهم الصور بشكل أفضل، وبالتالي تعزيز قدرات البحث البصري واكتشاف الأشياء. تتضمن العملية تعليقات من البشر، الذين يقدمون أمثلة على الاستجابات الجيدة والسيئة للتدريب. بالإضافة إلى تحديثات الكلام والرؤية، تقدم OpenAI أيضًا "التقطير النموذجي" و"التخزين المؤقت للتلميحات" الذي يسمح للنماذج الأصغر بالتعلم من النماذج الأكبر حجمًا وتقليل تكاليف التطوير والوقت عن طريق إعادة استخدام النص المعالج. وتتوقع شركة OpenAI أن ترتفع الإيرادات إلى 11.6 مليار دولار العام المقبل، ارتفاعًا من 3.7 مليار دولار المتوقعة في عام 2024، حسبما ذكرت رويترز. (كوينتيليغراف)

صاعد

سبحة