تكشف Meta عن نموذج جديد لتوليد الصور بالذكاء الاصطناعي CM3leon، يروج لكفاءة أكبر

تواصل Meta المضي قدمًا في أبحاثها في الأشكال الجديدة لنماذج الذكاء الاصطناعي التوليدية، وتكشف اليوم عن أحدث جهودها المعروفة باسم CM3leon (تُنطق مثل “الحرباء”).

CM3leon هو نموذج أساسي متعدد الوسائط لإنشاء نص إلى صورة، بالإضافة إلى إنشاء صورة إلى نص، وهو مفيد لإنشاء تسميات توضيحية للصور تلقائيًا.

من الواضح أن الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي ليست مفهومًا جديدًا في هذه المرحلة، حيث تتوفر أدوات شائعة مثل Stable Diffusion وDALL-E و Midjourney على نطاق واسع. 

الجديد هو التقنيات التي تستخدمها Meta لبناء CM3leon والأداء الذي تدعي Meta أن نموذج الأساس قادر على تحقيقه.

تعتمد تقنيات إنشاء تحويل النص إلى صورة اليوم بشكل كبير على استخدام نماذج الانتشار (حيث حصل Stable Diffusion على اسمه) لإنشاء صورة. يستخدم CM3leon شيئًا مختلفًا: نموذج الارتداد التلقائي القائم على الرمز المميز.

كتب بحث ميتا في ورقة بحثية بعنوان Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning: “لقد سيطرت نماذج الانتشار مؤخرًا على عمل توليد الصور نظرًا لأدائها القوي وتكاليفها الحسابية المتواضعة نسبيًا”. 

“على النقيض من ذلك، من المعروف أيضًا أن نماذج الانحدار الذاتي القائمة على الرمز المميز تؤدي إلى نتائج قوية، مع تماسك أفضل للصور العالمية على وجه الخصوص، ولكنها أغلى بكثير في التدريب والاستخدام للاستدلال.”

ما تمكن باحثو Meta من القيام به مع CM3leon هو في الواقع توضيح كيف يمكن أن يكون نموذج الانحدار الذاتي القائم على الرمز المميز، في الواقع، أكثر كفاءة من النهج القائم على نموذج الانتشار.

كتب باحث ميتا في منشور بالمدونة: “تحقق CM3leon أداءً متطورًا لتوليد النص إلى صورة، على الرغم من تدريبها بخمس مرات أقل من الأساليب السابقة القائمة على المحولات”.

نهج ميتا “الأخلاقي” للتدريب على الصور

يشبه المخطط التفصيلي الأساسي لكيفية عمل CM3leon إلى حد ما كيفية عمل نماذج إنشاء النص الحالية.

بدأ باحثو Meta بمرحلة ما قبل التدريب المعزز بالاسترجاع. بدلاً من مجرد حذف الصور المتاحة للجمهور من الإنترنت، وهي طريقة تسببت في بعض التحديات القانونية للنماذج القائمة على الانتشار، اتخذت Meta مسارًا مختلفًا.

“الآثار الأخلاقية لمصادر بيانات الصور في مجال توليد النص إلى صورة كانت موضوع نقاش كبير،” جاء في ورقة البحث Meta. 

“في هذه الدراسة، نستخدم فقط الصور المرخصة من Shutterstock. ونتيجة لذلك، يمكننا تجنب المخاوف المتعلقة بملكية الصورة وإسنادها، دون التضحية بالأداء “.

بعد التدريب المسبق، يمر نموذج CM3leon بمرحلة ضبط دقيق خاضعة للإشراف (SFT) يزعم باحثو Meta أنها تنتج نتائج محسّنة للغاية، سواء من حيث استخدام الموارد أو جودة الصورة.

SFT هو نهج تستخدمه OpenAI للمساعدة في تدريب ChatGPT. تلاحظ Meta في ورقتها البحثية أن SFT يستخدم لتدريب النموذج على فهم المطالبات المعقدة التي تكون مفيدة للمهام التوليدية.

“لقد وجدنا أن ضبط التعليمات يزيد بشكل ملحوظ من أداء النموذج متعدد الوسائط عبر مهام مختلفة مثل إنشاء تعليق على الصورة، والإجابة على الأسئلة المرئية، والتحرير المستند إلى النص، وإنشاء الصورة الشرطية،” تنص الورقة.

بالنظر إلى مجموعات العينات من الصور التي تم إنشاؤها والتي شاركتها Meta في منشور المدونة الخاص بها حول CM3leon، فإن النتائج مثيرة للإعجاب وتظهر بوضوح قدرة النموذج على فهم المطالبات المعقدة متعددة المراحل، مما ينتج عنه صور عالية الدقة نتيجة لذلك.

نهج ميتا "الأخلاقي" للتدريب على الصور

يعد CM3leon حاليًا جهدًا بحثيًا وليس من الواضح متى أو حتى ما إذا كانت Meta ستجعل هذه التقنية متاحة للجمهور في خدمة على إحدى منصاتها. 

نظرًا لمدى قوتها، وكفاءة التوليد العالية، فمن المحتمل جدًا أن ينتقل CMleon ونهجه في الذكاء الاصطناعي التوليدي إلى ما هو أبعد من البحث (في النهاية).

المصدر: venturebeat

قد يهمك:

شركة SEO

فتح حساب Exness

تسجيل دخول قناة على تيليجرام

طرق زيادة متابعين تيك توك

قالب ووردبريس نيوز بيبر Newspaper

أنت تستخدم إضافة Adblock

يعتمد موقع انشاء على الاعلانات كمصدر لدعم الموقع، يجب عليك ايقاف تشغيل حاجب الاعلانات لمشاهدة المحتوي