لم يمض وقت طويل على إصدار Sora، حتى أصدرت Stable AI لعبة Stable Diffusion 3. بالنسبة لأولئك الذين يستخدمون الذكاء الاصطناعي للتصميم الإبداعي، فهو بلا شك عام جديد. لذلك تم إعداد هذه المقالة خصيصًا لهؤلاء المستخدمين، وسوف تصف السمتين الرئيسيتين لـ Stable Diffusion 3 بعبارات أكثر وضوحًا: "نموذج محولات الانتشار" و"مطابقة التدفق"، لمساعدتك على استخدامه بشكل أفضل للإنشاء بعد إصدار النموذج .
نموذج محول الانتشار (محولات الانتشار)، سنشير إليه باسم DiTs أدناه. كما ترون من الاسم، هذا نموذج نشر متغير كامن للصورة يعتمد على بنية المحولات. إذا كنت قد قرأت مقالة Silicon Star Pro "الكشف عن Sora: استخدام نموذج لغة كبير لفهم مقاطع الفيديو وإدراك "ظهور" العالم المادي"، فأنت تعتبر بالفعل "ممثلًا للفئة" للمحتوى التالي. . مثل Sora، تستخدم DiTs أيضًا مفهوم "التصحيحات"، ولكن نظرًا لاستخدام DiTs لإنشاء الصور، فهي لا تحتاج إلى الحفاظ على الارتباط المنطقي بين صور الإطارات المختلفة مثل Sora، لذلك لا تحتاج إلى توليد الزمان والمكان. قطع من الفضاء.
جيل الانتشار المستقر 3
بالنسبة لـ DiTs، فهو مشابه لمحول الرؤية (ViT) الذي تسبب في عاصفة دموية في مجال رؤية الكمبيوتر منذ 4 أو 5 سنوات. سيتم تقسيم الصورة إلى تصحيحات متعددة بواسطة DiTs ويتم تضمينها في In في الفضاء المتجه المستمر، يتم تشكيل مدخلات تسلسلية للمعالجة بواسطة المحول. ومع ذلك، تجدر الإشارة هنا إلى أنه نظرًا لأن DiTs لديها عمل، بالنسبة لمهام إنشاء الصور المشروطة، تحتاج DiTs إلى تلقي معلومات الحالة الخارجية ودمجها، مثل تسميات الفئات أو الأوصاف النصية. يتم تحقيق ذلك عادةً من خلال توفير علامات إدخال إضافية أو آليات الانتباه المتبادل، مما يسمح للنموذج بتوجيه عملية الإنشاء بناءً على معلومات شرطية معينة.
لذلك عندما تصل هذه الكتلة إلى داخل DiTs، يمكن معالجتها إلى المحتوى المطلوب بواسطة كتلة DiT داخل DiTs. كتلة DiT هي الجزء الأساسي من DiTs، وهي عبارة عن هيكل محول خاص مصمم لنموذج الانتشار ويمكنه معالجة معلومات الصورة والحالة. بشكل عام، تتم ترجمة الكتلة نفسها على أنها كتلة، ولكن لتمييزها عن التصحيحات، أستخدم الكتلة مباشرة هنا.
جيل الانتشار المستقر 3
تنقسم كتلة DiT إلى ثلاث كتل صغيرة: الانتباه المتقاطع، وadaLN، وadaLN-Zero. يشير الانتباه المتقاطع إلى إضافة طبقة انتباه متقاطع إضافية متعددة الرؤوس بعد طبقة الانتباه الذاتي متعددة الرؤوس، وتتمثل وظيفتها في استخدام معلومات الحالة لتوجيه عملية إنشاء الصور بحيث تكون الصور التي تم إنشاؤها أكثر اتساقًا مع الكلمات السريعة، ولكن بتكلفة زادت حوالي 15% من الجهد الحسابي.
يشير LN في adaLN إلى تطبيع إخراج الوحدات الداخلية لكل طبقة من الشبكة العصبية لتقليل مشكلة التحول المتغير الداخلي (التحول المتغير)، وبالتالي تحسين سرعة التقارب والأداء أثناء تدريب النموذج. adaLN هو امتداد لتطبيع الطبقة القياسية، والذي يسمح بتعديل معلمات تسوية الطبقة ديناميكيًا بناءً على بيانات الإدخال أو معلومات الحالة الإضافية. إنه مثل نظام تعليق السيارة تمامًا، حيث يُستخدم لزيادة ثبات النموذج وقدرته على التكيف.
جيل الانتشار المستقر 3
التالي، يقوم الذكاء الاصطناعي المستقر بإجراء تحسينات بناءً على كتلة adaLN DiT. بالإضافة إلى التراجع γ وβ، فإنه يتراجع أيضًا عن معلمة القياس على مستوى البعد α وأي بقايا داخل كتلة DiT. يتم تطبيق هذه المعلمات مباشرة قبل الاتصال. هذه الكتلة هي adaLN-Zero والغرض منها هو تقليد استراتيجية التهيئة المفيدة في الشبكة المتبقية لتعزيز التدريب الفعال وتحسين النموذج.
بعد المرور عبر كتلة DiT، سيتم فك تشفير تسلسل الرمز المميز في التنبؤ بضوضاء الإخراج والتنبؤ بالتغاير القطري للإخراج. باستخدام وحدة فك ترميز خطية قياسية، يكون التنبؤان بنفس حجم الأبعاد المكانية للصورة المدخلة. أخيرًا، يتم إعادة ترتيب هذه الرموز المميزة التي تم فك تشفيرها وفقًا لتخطيطها المكاني الأصلي للحصول على قيم الضوضاء وقيم التغاير المتوقعة.
جيل الانتشار المستقر 3
الفصل الثاني، مطابقة التدفق (يشار إليها فيما يلي باسم FM). وفقًا لـ Stable AI، فهي طريقة تدريب فعالة لنموذج CNF خالية من المحاكاة وتسمح باستخدام المسارات الاحتمالية العالمية للإشراف على عملية تدريب CNF. ما هو مهم بشكل خاص هو أن FM يكسر حاجز التدريب القابل للتطوير لـ CNF بما يتجاوز نموذج الانتشار ويمكنه تشغيل المسار الاحتمالي مباشرة دون فهم عميق لعملية الانتشار، وبالتالي تجاوز الصعوبات في التدريب التقليدي.
ما يسمى CNF هو تدفقات التطبيع المستمرة، تدفق التطبيع المستمر. هذا نموذج احتمالي وتقنية نموذجية توليدية في التعلم العميق. في CNF، يتم تحويل التوزيع الاحتمالي البسيط إلى توزيع احتمالي للبيانات المعقدة عالية الأبعاد من خلال سلسلة من التحويلات العكسية والمستمرة. عادةً ما يتم تحديد معلمات هذه التحويلات بواسطة شبكة عصبية بحيث يتم تحويل المتغيرات العشوائية الأصلية بشكل مستمر لمحاكاة توزيع البيانات المستهدفة. عند ترجمتها إلى اللغة العامية، تقوم CNF بإنشاء بيانات مثل رمي النرد.
جيل الانتشار المستقر 3
ومع ذلك، يتطلب CNF الكثير من موارد الحوسبة والوقت في التشغيل الفعلي، لذلك تساءل الذكاء الاصطناعي المستقر عما إذا كان يمكن أن ينتج نتيجة مماثلة تقريبًا لـ CNF، ولكن يجب أن تكون العملية مستقرة ويجب أن يكون مبلغ الحساب تكون منخفضة الطريقة؟ وهكذا ولدت FM. جوهر FM هو تقنية لتدريب نماذج CNF للتكيف مع ومحاكاة عملية التطور لتوزيع معين للبيانات، حتى لو كنا لا نعرف التعبير الرياضي المحدد لهذا التوزيع أو مجال ناقل التوليد المقابل في يتقدم. من خلال تحسين وظيفة هدف FM، يمكن للنموذج أيضًا أن يتعلم تدريجيًا مجالًا متجهًا يمكنه إنشاء توزيع احتمالي مقارب لتوزيع البيانات الحقيقي.
بالمقارنة مع CNF، يجب اعتبار FM طريقة تحسين، وهدفها هو تدريب مجال المتجه الناتج عن نموذج CNF والمسار الاحتمالي للهدف المثالي. مجال المتجه هو أقرب ما يمكن.
جيل الانتشار المستقر 3
بعد قراءة الميزتين الفنيتين الأساسيتين لـ Stable Diffusion 3، ستجد أنه في الواقع قريب جدًا من Sora. كلا النموذجين عبارة عن نموذجين للمحولات (تم استخدام U-Net سابقًا للانتشار المستقر)، وكلاهما يستخدم الكتل، وكلاهما يتمتع باستقرار وتحسين يصنعان عصرًا جديدًا، وتاريخ ميلادهما قريب جدًا. أعتقد أنه ليس من المبالغة أن نقول إنهما مرتبطان دم.
ومع ذلك، هناك فرق جوهري بين "الأخوين"، وهو أن Sora مغلق المصدر وStable Diffusion 3 مفتوح المصدر. في الواقع، سواء كانت Midjourney أو DALL · E، فهي جميعها مغلقة المصدر، فقط Stable Diffusion هو مفتوح المصدر. إذا كنت تهتم بالذكاء الاصطناعي مفتوح المصدر، فلا بد أنك اكتشفت أن مجتمع المصادر المفتوحة كان في ورطة لفترة طويلة، ولا يوجد اختراق واضح، وقد فقد الكثير من الناس الثقة فيه. يعمل Stable Diffusion 2 وStable Diffusion XL فقط على تحسين جماليات الصور التي تم إنشاؤها، بينما يقوم Stable Diffusion 1.5 بذلك بالفعل. إن رؤية التحسينات الثورية لـ Stable Diffusion 3 يمكن أن تعيد إحياء ثقة العديد من المطورين في مجتمع المصادر المفتوحة.
جيل الانتشار المستقر 3
للحديث عن شيء مثير آخر، قال الرئيس التنفيذي لشركة Stable AI محمد عماد موثق (মোহম্মদ ইমদ মোশত ثاني) على Twitter أنه على الرغم من أن الذكاء الاصطناعي المستقر لديه موارد أكثر في مجال الذكاء الاصطناعي أكثر من غيرها، إلا أن بعض الشركات خفضتها بنفس القدر 100 مرة، لكن بنية Stable Diffusion 3 يمكنها بالفعل قبول محتوى آخر غير مقاطع الفيديو والصور، لكن لا يمكن الإعلان عن ذلك كثيرًا بعد.
قلت إنني لا أزال أستطيع فهم الصور ومقاطع الفيديو، ولكن ماذا تقصد بالمحتوى "الآخر"؟ في الواقع، الشيء الوحيد الذي يمكنني التفكير فيه هو الصوت، الذي يولد الصور من خلال قطعة من الصوت. إنه أمر محير، ولكن بمجرد أن يصدر الذكاء الاصطناعي المستقر أحدث نتائج الأبحاث، فسنقوم بالتأكيد بتفسيرها في أقرب وقت ممكن.
جيل الانتشار المستقر 3
Preview
احصل على فهم أوسع لصناعة العملات المشفرة من خلال التقارير الإعلامية، وشارك في مناقشات متعمقة مع المؤلفين والقراء الآخرين ذوي التفكير المماثل. مرحبًا بك للانضمام إلينا في مجتمع Coinlive المتنامي:https://t.me/CoinliveSG