ثورة في الرسوم المتحركة بالذكاء الاصطناعي
بعد إطلاقأول سلسلة رسوم متحركة بتقنية الذكاء الاصطناعي في الصين قدم معهد علي بابا للحوسبة الذكية نظامًا رائدًا للذكاء الاصطناعي أطلق عليه اسم "EMO". اختصار لـ Emote Portrait Alive. يتمتع هذا النظام المبتكر بالقدرة على تحريك الصور الشخصية الثابتة، وإضفاء الحيوية عليها من خلال التحدث وغناء مقاطع الفيديو بواقعية مذهلة.
EMO: قفزة في تكنولوجيا الرسوم المتحركة AI
تستخدم EMO أسلوب تركيب الصوت إلى الفيديو المباشر، متجاوزة الحاجة إلى نماذج ثلاثية الأبعاد وسيطة أو معالم الوجه. تسمح هذه التقنية الرائدة بإنشاء حركات وجه وأوضاع رأس سلسة ومعبرة تحاكي الفروق الدقيقة في المسار الصوتي المقدم.
(المصدر: Emote Portrait Alive)
التوليف المباشر للصوت إلى الفيديو
على عكس الطرق السابقة التي اعتمدت على نماذج الوجه ثلاثية الأبعاد أو مزج الأشكال، يقوم EMO بتحويل أشكال الموجات الصوتية مباشرة إلى إطارات فيديو. ومن خلال القيام بذلك، فإنه يلتقط الحركات الدقيقة وخصائص الوجه الفردية المرتبطة بالكلام الطبيعي، مما يضع معيارًا جديدًا في إنشاء فيديو الرأس الناطق المعتمد على الصوت.
الشخصية: أودري كاثلين هيبورن-روستون، المصدر الصوتي: مقطع المقابلة (المصدر: Emote Portrait Alive)
تقنيات التدريب المتطورة
يكمن أساس النظام في نموذج الانتشار، وهو تقنية ذكاء اصطناعي قوية معروفة بتوليد صور اصطناعية نابضة بالحياة. تم تدريب EMO على مجموعة بيانات ضخمة تضم أكثر من 250 ساعة من مقاطع الفيديو الناطقة المنسقة المستمدة من وسائط مختلفة، وقد تم صقلها بدقة لتقديم جودة وتعبير لا مثيل لهما.
مقاييس الأداء الاستثنائية
تُظهر النتائج التجريبية الموضحة في الورقة البحثية تفوق EMO على المنهجيات الحالية. إنها تتفوق على المنافسين في مقاييس مهمة مثل جودة الفيديو والحفاظ على الهوية والتعبير. تؤكد دراسة المستخدم كذلك على طبيعية وعاطفية مقاطع الفيديو التي تم إنشاؤها بواسطة EMO.
توسيع القدرات: مقاطع الفيديو الغنائية
بالإضافة إلى مقاطع الفيديو الحوارية، تُظهر EMO كفاءتها في تحريك الصور الغنائية. ومن خلال القدرة على مزامنة أشكال الفم وتعبيرات الوجه مع الغناء، فإنه ينشئ مقاطع فيديو غنائية تتسم بالواقعية والتعبير الرائعين، متجاوزة معايير الصناعة الحالية.
الشخصية: AI Lady من SORA، المصدر الصوتي: Dua Lipa - لا تبدأ الآن (المصدر: Emote Portrait Alive)
تشمل قدراتها أيضًا موسيقى الراب، مما يزيد من توسيع إمكاناتها الإبداعية.
الشخصية: المشاهير الصينيين Cai Xu Kun، المصدر الصوتي: Eminem - Rap God (المصدر: Emote Portrait Alive)
الآثار والاعتبارات الأخلاقية
إن قدرة EMO على تحريك الصور الثابتة مثيرة للإعجاب بلا شك، حيث توفر طرقًا جديدة لإنشاء محتوى مخصص. ومع ذلك، فإن احتمال سوء الاستخدام، بما في ذلك توليدالتزييف العميق للمواد الإباحية كما رأينا في قضية تايلور سويفت الأخيرة ، نشر معلومات مضللة مثلرئيس وزراء سنغافورة لي هسين لونج يروج للعملات المشفرة أو حتى التأثير على الانتخابات كما شهدناالانتخابات الرئاسية الأمريكية 2024 ، هو اعتبار حاسم. كما هو الحال مع أي تقنية قوية، يعد التطوير والضمانات المسؤولة أمرًا ضروريًا للتخفيف من الأضرار المحتملة وضمان بقاء EMO قوة من أجل الخير.
لمحة عن المستقبل
يمثل EMO الخاص بشركة Alibaba قفزة كبيرة إلى الأمام في تكنولوجيا الرسوم المتحركة بالذكاء الاصطناعي. إن قدرتها على بث الحياة في صور ثابتة، وإنتاج مقاطع فيديو تتحدث وغناء نابضة بالحياة، تحمل وعدًا هائلاً لمختلف التطبيقات. ومع ذلك، كما هو الحال مع أي تكنولوجيا تحويلية، فإن النظر بعناية في الآثار الأخلاقية أمر بالغ الأهمية لضمان الابتكار المسؤول.