المصدر: Metaverse Daily Explosion
لم يتم فتح OpenAI بعد للاختبار العام، وقد صدمت دائرة التكنولوجيا والإنترنت ودائرة وسائل التواصل الاجتماعي بالمقطع الدعائي الذي تم إنتاجه بواسطة نموذج فيديو توليد النص Sora.
وفقًا للفيديو الرسمي الذي أصدرته شركة OpenAI، يستطيع Sora إنشاء مشهد معقد مدته دقيقة واحدة "hyper video" استنادًا إلى المعلومات النصية التي يقدمها المستخدم. ليست تفاصيل الصورة واقعية فحسب، بل إنها يمكن للنموذج أيضًا محاكاة حركة العدسة.
انطلاقًا من تأثيرات الفيديو التي تم إصدارها، فإن الصناعة متحمسة لقدرة سورا على فهم العالم الحقيقي. بالمقارنة مع نماذج تحويل النص إلى الفيديو الكبيرة الأخرى، يُظهر Sora مزايا في الفهم الدلالي وعرض الصور والتماسك البصري والمدة.
يطلق عليها OpenAI اسم "محاكي العالم" بشكل مباشر، معلنًا أنه يمكنه محاكاة خصائص الأشخاص والحيوانات والبيئات في العالم المادي. لكن الشركة تعترف أيضًا بأن Sora ليس مثاليًا بعد، ولا تزال هناك عيوب في الفهم والمشكلات الأمنية المحتملة.
لذلك، فإن Sora مفتوح فقط للاختبار لعدد صغير جدًا من الأشخاص. ولم تعلن OpenAI بعد متى سيكون Sora مفتوحًا للجمهور، لكن الصدمة التي يجلبها كافية للشركات التي تطور نماذج مماثلة انظر الفجوة.
01 صدمت "مقطورة" Sora الجميع
بمجرد إصدار نموذج فيديو إنشاء النص OpenAI Sora، كانت هناك تعليقات "صادمة" في الصين .
هتفنا نحن وسائل الإعلام بأن "الواقع لم يعد موجودًا"، وتفاخر رؤساء الإنترنت أيضًا بقدرات سورا. قال Zhou Hongyi، مؤسس 360، إن ميلاد Sora يعني أنه قد يتم اختصار تنفيذ AGI من 10 سنوات إلى حوالي عامين. وفي غضون أيام قليلة، زاد فهرس بحث Google الخاص بـ Sora بسرعة، وكانت شعبيته قريبة من شعبية ChatGPT.
تنبع شعبية Sora من مقاطع الفيديو الـ 48 التي أصدرتها OpenAI، وأطولها يبلغ دقيقة واحدة. وهذا لا يكسر فقط الحد الأقصى لمدة الفيديو الذي تم إنشاؤه بواسطة نماذج فيديو Vincent السابقة Gen2 وRunway، ولكن أيضًا الصورة واضحة، بل إنها تتعلم لغة العدسة.
في الفيديو الذي تبلغ مدته دقيقة واحدة، امرأة ترتدي فستانًا أحمر تسير في شارع تصطف على جانبيه أضواء النيون، الأسلوب واقعي والصورة سلسة، الشيء الأكثر روعة هو اللقطة المقربة البطلة، بما في ذلك المسام والمسام الموجودة على وجهها. تتم محاكاة جميع البقع وعلامات حب الشباب، وتأثير إزالة المكياج يشبه إيقاف تشغيل مرشح التجميل في البث المباشر. حتى أن خطوط الرقبة على الرقبة "تسرب" بدقة العمر، وموحدة تماما مع حالة الوجه.
بالإضافة إلى كونه واقعيًا فيما يتعلق بالشخصيات، يستطيع Sora أيضًا محاكاة الحيوانات والبيئات الواقعية. فيديو لقطة مقربة متعددة الزوايا لحمامة فيكتوريا المتوجة. يُظهر الوضوح العالي للغاية الريش الأزرق من جسم الطائر إلى التاج، وحتى ديناميكيات العيون الحمراء ومعدل تنفسها. من الصعب معرفة ذلك سواء تم إنشاء هذا بواسطة الذكاء الاصطناعي أو تم تصويره بواسطة البشر.
بالنسبة للرسوم المتحركة الإبداعية غير الواقعية، تصل تأثيرات جيل Sora أيضًا إلى مظهر أفلام الرسوم المتحركة من Disney، مما يجعل مستخدمي الإنترنت يشعرون بالقلق بشأن وظائف رسامي الرسوم المتحركة.
التحسينات التي أدخلها Sora على نموذج فيديو إنشاء النص لا تقتصر فقط على مدة الفيديو وتأثيرات الصورة، ولكن أيضًا في محاكاة مسارات حركة العدسة والتصوير، ومنظور الشخص الأول للعبة، المنظور الجوي، وحتى الفيلم لقطة في النهاية.
بعد مشاهدة الفيديو الرائع الذي أصدرته شركة OpenAI، يمكنك أن تفهم سبب صدمة الرأي العام في دائرة الإنترنت ووسائل التواصل الاجتماعي بسبب Sora، وهذه مجرد مقاطع دعائية.
02 تقترح OpenAI مجموعة بيانات "التصحيح المرئي"
إذن، كيف يحقق Sora إمكانات المحاكاة؟
وفقًا لتقرير Sora الفني الصادر عن Open AI، يتجاوز هذا النموذج القيود المفروضة على نماذج توليد بيانات الصور السابقة.
لقد استخدمت الأبحاث السابقة حول إنشاء الصور المرئية للنصوص طرقًا مختلفة، بما في ذلك الشبكات المتكررة وشبكات الخصومة التوليدية (GAN) ومحولات الانحدار الذاتي ونماذج الانتشار، ولكن القاسم المشترك هو أنها تركز على فئات بيانات أقل وضوحًا وأقصر مقاطع الفيديو، أو مقاطع الفيديو ذات الحجم الثابت.
يتبنى Sora نموذج نشر يعتمد على المحول. يمكن تقسيم عملية إنشاء الرسم البياني إلى مرحلتين: عملية أمامية وعملية عكسية، بحيث يتمكن Sora من التحرك للأمام أو للخلف على طول المخطط الزمني. قم بتوسيع الفيديو قدرات.
تحاكي مرحلة العملية الأمامية عملية الانتشار من صورة حقيقية إلى صورة ضوضاء نقية. وعلى وجه التحديد، يضيف النموذج التشويش إلى الصورة تدريجيًا حتى تصبح الصورة مشوشة تمامًا. العملية العكسية هي عكس العملية الأمامية، وسيقوم النموذج باستعادة الصورة الأصلية تدريجيًا من صورة الضوضاء. واحدة إيجابية والأخرى سلبية، ذهابًا وإيابًا بين الافتراضي والحقيقي، وبهذه الطريقة، يسمح OpenAI للآلة Sora بفهم تكوين الرؤية.
العملية من التشويش الكامل إلى الصور الواضحة
وبطبيعة الحال، هذه العملية تتطلب التدريب والتعلم المتكرر، وسيتعلم النموذج كيفية إزالة التشويش تدريجيا واستعادة تفاصيل الصورة. ومن خلال تكرار هاتين المرحلتين، أصبح نموذج الانتشار الخاص بسورا قادرًا على توليد صور عالية الجودة. أظهر هذا النموذج أداءً ممتازًا في توليد الصور وتحرير الصور والدقة الفائقة وغيرها من المجالات.
تشرح العملية المذكورة أعلاه سبب قدرة Sora على تحقيق دقة عالية وتفاصيل فائقة. ومع ذلك، بدءًا من الصور الثابتة ووصولاً إلى مقاطع الفيديو الديناميكية، لا يزال النموذج بحاجة إلى تجميع البيانات والتدريب والتعلم بشكل أكبر.
استنادًا إلى نموذج الانتشار، تقوم OpenAI بتحويل جميع أنواع البيانات المرئية، مثل مقاطع الفيديو والصور، إلى تمثيل موحد لإجراء تدريب توليدي واسع النطاق لـ Sora. يتم تعريف التمثيل الذي يستخدمه Sora بواسطة OpenAI على أنه "تصحيحات مرئية"، وهي عبارة عن مجموعات من وحدات البيانات الأصغر، تشبه المجموعات النصية في GPT.
قام الباحثون أولاً بضغط الفيديو في مساحة كامنة منخفضة الأبعاد، ثم قاموا بتحليل هذا التمثيل إلى بقع زمانية مكانية، وهو نموذج تمثيل قابل للتطوير بشكل كبير يسهل التحويل من الفيديو إلى التصحيح، كما أنه مناسب أيضًا لتدريب النماذج التوليدية التي تعالج أنواعًا متعددة من مقاطع الفيديو والصور.
تحويل البيانات المرئية إلى تصحيحات
من أجل تدريب Sora باستخدام معلومات وحسابات أقل، قامت OpenAI بتطوير شبكة ضغط فيديو لتقليل أبعاد الفيديو أولاً إلى بُعد منخفض على مستوى البكسل المساحة الكامنة، ثم استخدم بيانات الفيديو المضغوطة لإنشاء تصحيحات، والتي يمكن أن تقلل معلومات الإدخال وتقلل الضغط الحسابي. وفي الوقت نفسه، قامت OpenAI أيضًا بتدريب نموذج وحدة فك التشفير المقابل على تعيين المعلومات المضغوطة مرة أخرى إلى مساحة البكسل.
استنادًا إلى تمثيل التصحيحات المرئية، يمكن للباحثين تدريب Sora على مقاطع فيديو/صور ذات دقة ومدد ونسب أبعاد مختلفة. عند دخول مرحلة الاستدلال، يستطيع Sora تحديد منطق الفيديو والتحكم في حجم الفيديو الذي تم إنشاؤه عن طريق ترتيب التصحيحات التي تمت تهيئتها بشكل عشوائي في شبكة ذات حجم مناسب.
تشير OpenAI إلى أنه عند التدريب على نطاق واسع، أظهر نموذج الفيديو قدرات مثيرة، بما في ذلك قدرة Sora على محاكاة الأشخاص والحيوانات والبيئات حقًا في العالم الحقيقي، وإنشاء مقاطع فيديو عالية الدقة، وتحقيق النجاح في الوقت نفسه. الاتساق ثلاثي الأبعاد والاتساق الزمني لمحاكاة العالم المادي حقًا.
03 يعمل ألتمان بمثابة أداة اختبار لمستخدمي الإنترنت
قوي من النتائج إلى عملية البحث والتطوير، يُظهر Sora قدرات قوية، لكن المستخدمين العاديين لم يتمكنوا بعد من تجربتها. في الوقت الحاضر، يمكنهم فقط كتابة كلمات سريعة. على X، مؤسس @OpenAI سام Altman، حيث يساعد Setter مستخدمي الإنترنت في إنشاء مقاطع فيديو عن Sora ثم نشرها للجمهور لرؤية التأثير.
وهذا أيضًا يجعل الناس يتساءلون عما إذا كان Sora رائعًا حقًا كما يظهر OpenAI رسميًا.
في هذا الصدد، ذكرت OpenAI بصراحة أنه لا تزال هناك بعض المشكلات في النموذج الحالي. مثل GPT المبكر، يعاني Sora الحالي أيضًا من "الهلوسة"، وهي تمثيلات أكثر واقعية للأخطاء في نتائج الفيديو التي تركز على المرئيات.
على سبيل المثال، لا يمكنه محاكاة العديد من العمليات الفيزيائية التفاعلية الأساسية بدقة، مثل العلاقة بين مسارات جهاز المشي وحركة الأشخاص، والمنطق الزمني لكسر الزجاج وتدفق السائل من الكأس، وما إلى ذلك.
في مقطع الفيديو أدناه "علماء الآثار ينقبون عن كرسي بلاستيكي"، "يطفو" الكرسي البلاستيكي مباشرة خارج الرمال.
هناك أيضًا أشبال ذئاب تظهر من الهواء الرقيق، والتي يسميها مستخدمو الإنترنت مازحًا "انقسام الذئب".
في بعض الأحيان لا يمكن التمييز بين الأمام والخلف واليسار واليمين.
يبدو أن العيوب الموجودة في هذه الصور الديناميكية تثبت أن سورا لا يزال بحاجة إلى مزيد من الفهم والتدريب في منطق حركة العالم المادي. بالإضافة إلى ذلك، بالمقارنة مع مخاطر ChatGPT، فإن المخاطر الأخلاقية والأمنية لـ Sora، التي توفر تجربة بصرية بديهية، أكبر.
في السابق، أخبر نموذج الرسم البياني فينسنت ميدجورني البشر أن "الصور لا تعني بالضرورة الحقيقة". وقد بدأت الصور المولدة بواسطة الذكاء الاصطناعي والتي تبدو وكأنها صور حقيقية تصبح عناصر من الشائعات. قال الدكتور نيويل، كبير المسؤولين العلميين في شركة التحقق من الهوية iProov، إن Sora يمكن أن يسهل "على الجهات الخبيثة إنشاء مقاطع فيديو مزيفة عالية الجودة".
من المتصور أنه إذا تم إنشاء Sora يتم إساءة استخدام مقاطع الفيديو بشكل ضار بغرض الاحتيال والتشهير ونشر العنف والمواد الإباحية، والعواقب لا تحصى. ولهذا السبب يجعل سورا الناس في حالة من الصدمة والخوف.
أخذت OpenAI أيضًا في الاعتبار المشكلات الأمنية التي قد يجلبها Sora، وهو على الأرجح السبب وراء كون Sora مفتوحًا فقط لعدد صغير جدًا من الأشخاص لإجراء اختبار الدعوة فقط. متى سيكون مفتوحا للجمهور؟ لم تقدم OpenAI جدولاً زمنيًا، واستنادًا إلى الفيديو الرسمي الذي تم إصداره، فإن الشركات الأخرى ليس لديها الوقت الكافي للحاق بنموذج Sora.