تعمل OpenAI على تعزيز قدراتها الصوتية من خلال إطلاق وضع الصوت المتقدم لمستخدمي ChatGPT Plus وTeams.
تعد هذه الميزة المرتقبة بتحويل تفاعلات المستخدم مع برنامج المحادثة الآلي إلى تجارب محادثة أكثر طبيعية.
يعمل وضع الصوت، المدعوم بنظام GPT-4o، أحدث طراز من OpenAI، على دمج النص والرؤية والصوت، مما يؤدي إلى تبادلات أسرع وأكثر سلاسة.
أعلنت شركة OpenAI عبر تغريدة رسمية:
سيتم طرح ميزة Advanced Voice لجميع مستخدمي Plus وTeam في تطبيق ChatGPT على مدار الأسبوع.
كما سلطوا الضوء على جانب مسلي في هذه الميزة، حيث ذكروا أنها تستطيع قول "آسف لقد تأخرت" بأكثر من 50 لغة، وهي إشارة إلى الجدول الزمني الطويل لتطوير المشروع.
خطوة نحو محادثات سلسة
وأكدت شركة OpenAI أن ميزة الصوت المتقدمة أصبحت متاحة الآن لمستخدمي خدمتها المتميزة.
يتيح هذا الابتكار للمستخدمين المشاركة في محادثات أكثر ديناميكية، مما يعزز التجربة التفاعلية الشاملة.
ومع ذلك، لم يصبح إطلاق الخدمة متاحًا بعد للمستخدمين في الاتحاد الأوروبي، وأيسلندا، وليختنشتاين، والنرويج، وسويسرا، والمملكة المتحدة، مما يخلق فجوة جغرافية في مدى توفر الخدمة.
وقد حظيت القدرة الصوتية الجديدة، التي تم الإعلان عنها لأول مرة في شهر مايو/أيار الماضي، باهتمام كبير بسبب خيار الصوت المسمى Sky، والذي يشبه إلى حد كبير صوت سكارليت جوهانسون في فيلم Her لعام 2013.
وبعد هذا الكشف، أرسل الممثلون القانونيون لجوهانسون رسائل إلى OpenAI، زاعمين أن الشركة تفتقر إلى الحقوق اللازمة لاستخدام صوت مشابه جدًا لصوتيها.
وبناء على ذلك، أوقفت شركة OpenAI استخدام الصوت في منتجاتها، حسبما ذكرت قناة CNBC.
تجربة صوتية أكثر ثراءً
في الأشهر التي أعقبت الإعلان الأولي، أصبح بإمكان المستخدمين التفاعل مع ChatGPT باستخدام أصوات مختلفة في فئة مجانية.
ومع ذلك، فإن الإصدار المتقدم يحسن الاستجابة بشكل كبير، مما يسمح له بالتوقف مؤقتًا والاستماع إذا تمت مقاطعته في منتصف المحادثة.
في الوقت الحالي، يمكن للمستخدمين الاختيار من بين تسعة أصوات مختلفة، ويمكنهم تخصيص تجربتهم من خلال إعدادات التطبيق.
صرح سام ألتمان، المؤسس المشارك والرئيس التنفيذي لشركة OpenAI، في منشور على X، قائلاً: "آمل أن تجدوا أن الأمر يستحق الانتظار"، مما يعكس الترقب المحيط بهذه الميزة.
مع تكثيف المنافسة، تجد OpenAI نفسها في عالم سريع التطور من الذكاء الاصطناعي التوليدي.
أطلقت شركة جوجل مؤخرًا ميزة Gemini Live الصوتية على أجهزة أندرويد، في حين من المتوقع أن تكشف شركة Meta عن أصوات المشاهير التي يمكن الوصول إليها عبر منصاتها، بما في ذلك فيسبوك وإنستغرام.
التنقل عبر الميزة الجديدة
يتوفر الوضع الصوتي المتقدم من OpenAI حصريًا لمشتركي خطط Plus أو Team أو Enterprise، حيث تبدأ فئة Plus من 20 دولارًا شهريًا.
للوصول إلى هذه الميزة الجديدة، يحتاج المستخدمون إلى التأكد من تثبيت الإصدار الأحدث من تطبيق ChatGPT على أجهزتهم.
بمجرد منح الوصول، سيظهر إشعار داخل التطبيق، يطالب المستخدمين بالمتابعة.
لبدء محادثة صوتية، يمكن للمستخدمين التمرير سريعًا إلى اليمين أو النقر على الرمز المكون من سطرين في الزاوية العلوية اليسرى من التطبيق لإنشاء محادثة جديدة.
ستظهر أيقونة موجة صوتية بجوار حقل نص الرسالة وأيقونة الميكروفون، مما يشير إلى أن وظيفة الصوت جاهزة.
بعد النقر على الرمز، يصدر صوت "ضربة" قصيرة للإشارة إلى الاستعداد، مما يحول الدائرة التي تظهر على الشاشة إلى رسوم متحركة زرقاء وبيضاء ديناميكية.
يمكن للمستخدمين البدء في التحدث، ويجب أن يتوقعوا استجابة سريعة.
لقد حققت OpenAI تقدمًا كبيرًا في تحسين اللهجات عبر مختلف اللغات الأجنبية وتعزيز سرعة المحادثة.
إذا رغب المستخدمون في تغيير طريقة التسليم، فيمكنهم طلب تعديلات، مثل مطالبة ChatGPT بتسريع كلامه أو اعتماد لهجة جنوبية.
القيود وحالات الاستخدام
يتيح وضع الصوت المتقدم لـ ChatGPT مساعدة المستخدمين في مهام مختلفة، بدءًا من سرد قصص ما قبل النوم وحتى الاستعداد لمقابلات العمل أو ممارسة مهارات اللغة الأجنبية.
ومع ذلك، يجب على المستخدمين أن يدركوا أن حتى المشتركين الذين يدفعون يخضعون لحدود الاستخدام.
بعد حوالي 30 دقيقة من التفاعل، يظهر إشعار في أسفل الشاشة يفيد بـ "بقية 15 دقيقة"، مما يثير تساؤلات حول مدى إمكانية الوصول إلى هذه الميزة.
مع استمرار OpenAI في الابتكار وتوسيع قدراتها، فإن تقديم وضع الصوت المتقدم يمثل خطوة حاسمة في جعل تفاعلات الذكاء الاصطناعي أكثر جاذبية وواقعية.