المؤلف: Alphatu المصدر: X، @Alphatu4 الترجمة: Shan Oppa، Golden Finance
منذ أن بدأت OpenAI في طرح ميزات الصوت والصورة الجديدة على منصة ChatGPT الخاصة بها في سبتمبر 2023، تم تقديم واجهة أكثر سهولة للسماح للمستخدمين بإجراء المحادثات الصوتية والمشاركة مع صور ChatGPT، وبالتالي تعزيز تجربة المستخدم الشاملة.
لقد أدى هذا الوضع إلى تفاقم الشعبية المزدهرة بالفعل للنقل متعدد الوسائط.
p> p>
في الواقع، يوفر تكامل وظائف الصوت والصورة للمستخدمين طرقًا متعددة للتفاعل مع ChatGPT في جميع جوانب الحياة. سواء أثناء التنقل أو في المنزل، يمكن للمستخدمين الآن الاستفادة من إمكانات الوسائط المتعددة هذه للحصول على تفاعلات غامرة أكثر مع نماذج الذكاء الاصطناعي، مما يضيف الخيال إلى العديد من سيناريوهات المنتجات التي كانت مستحيلة في السابق.
سيتم استخدام تعدد الوسائط على نطاق أوسع في السيناريوهات الصناعية مقارنة بنماذج اللغة العامة.
ما هو الذكاء الاصطناعي متعدد الوسائط؟
يشير الذكاء الاصطناعي متعدد الوسائط إلى أنظمة ونماذج الذكاء الاصطناعي التي يمكنها فهم المعلومات ومعالجتها من أوضاع أو مصادر متعددة. في سياق الذكاء الاصطناعي، الطريقة هي شكل أو قناة مختلفة للإدخال، مثل النص أو الصور أو الصوت أو الفيديو أو أي نوع آخر من البيانات. يهدف الذكاء الاصطناعي المتعدد الوسائط إلى دمج وتحليل المعلومات من مختلف الأساليب لتحقيق فهم أكثر شمولاً للبيانات.
لقد أدى الاستخدام الواسع النطاق لوحدات معالجة الرسومات (GPUs أو TPUs) إلى تعزيز تطوير الذكاء الاصطناعي للتعلم العميق. ومع ذلك، فإن الذكاء الاصطناعي التوليدي يأخذ هذا التقدم إلى أبعد من ذلك، مما يمنحه القدرة التي لا تشبع على ما يبدو على استيعاب البيانات في شكل الرموز المميزة، والمعلمات التي تمثل عدد الاتصالات بين الخلايا العصبية. بالإضافة إلى ذلك، فإنه يستخدم مقياس قوة الحوسبة يسمى عمليات النقطة العائمة (FLOPS). تم تجهيز أحدث طراز GPT-4 الآن بقدرات متعددة الوسائط، ويمكنه مزج النصوص والصور، وقد تم تحسينه بشكل كبير، مما نال الثناء على أدائه المتفوق مقارنة ببرامج LLM الحالية في مجموعة متنوعة من مهام معالجة اللغة الطبيعية.
الذكاء الاصطناعي متعدد الوسائط والسيناريوهات الصناعية
ومع ذلك، فإن قيود البيانات أحادية الوسائط هذه يجلب تحديات لسيناريوهات الحياة الواقعية، وخاصة السيناريوهات الصناعية، ويتطلب استخدام الذكاء الاصطناعي متعدد الوسائط.
في السيناريوهات الغنية بالمعلومات، لا يعد الاعتماد فقط على نماذج "اللغة" كافيًا. يتطلب اتخاذ القرار الفعال وتقييم المعلومات إشارات متعددة.
لنأخذ الصناعة التحويلية كمثال. هناك كمية كبيرة من الصور ودرجة الحرارة والوزن وغيرها من البيانات في الصناعة التحويلية. في هذه الحالة، الاعتماد فقط على النماذج اللغوية ليس كافيا، مما يسلط الضوء على الحاجة إلى دمج أشكال مختلفة من المعلومات.
خذ المجال الطبي كمثال. لماذا يفضل الأطباء التشخيص وجها لوجه، ولماذا لا يستطيع الذكاء الاصطناعي الحالي تشخيص الأمراض بشكل كامل؟ التفسير يكمن في قيام الطبيب بتحليل النص وأداء المريض. عند فحص أشعة سينية معينة، ينخرط الأطباء في العصف الذهني والتشاور حيث يستخرجون أكثر من مجرد صورة أو مقطع نصي، ويفسرون المعلومات متعددة الوسائط.
لا يقتصر الإدخال متعدد الوسائط على النص، ولكنه يتضمن أيضًا بيانات الصوت والأشعة تحت الحمراء وعناصر أخرى. يساعد هذا النهج في تدريب النماذج على التفكير بأبعاد متعددة.
لنفترض أن السيارة ذاتية القيادة مزودة بنظام كاميرا فقط؛ حيث ستواجه صعوبة في التعرف على المشاة في ظروف الإضاءة المنخفضة. ولمواجهة هذه التحديات بشكل كامل، يعد الجمع بين أجهزة الليدار والرادار ونظام تحديد المواقع العالمي (GPS) أمرًا بالغ الأهمية. يتيح هذا التكامل للمركبات إدراك محيطها بشكل كامل، وبالتالي تحسين سلامة وموثوقية القيادة.
تؤكد المبادئ الأساسية هنا على أهمية دمج الحواس المتعددة للحصول على فهم أعمق للأحداث المعقدة. ومن خلال الاستفادة من الذكاء الاصطناعي متعدد الوسائط، يمكن دمج المعلومات النصية والصور ومقاطع الفيديو والصوت لتشكيل وصف متماسك وشامل لموقف معين.
يحل الذكاء الاصطناعي بشكل أساسي مشاكل المعرفة، بينما يحل الإنترنت مشاكل المعلومات بشكل أساسي. المعرفة ذات طبيعة محددة وتفتقر إلى عالمية الإنترنت. إن التكامل التعاوني لخبراء المجال وقدرات الذكاء الاصطناعي متعدد الوسائط داخل التصنيع لديه القدرة على تقليل التكاليف بشكل كبير وزيادة الكفاءة. ص>