يجعل نظام مولدات الصور MIT AI نماذج مثل DALL-E 2 أكثر إبداعًا

طريقة جديدة طورها الباحثون تستخدم نماذج متعددة لإنشاء صور أكثر تعقيدًا مع فهم أفضل.
مع تقديم DALL-E، كان للإنترنت لحظة شعور جماعي بالسعادة. مولد الصور هذا المستند إلى الذكاء الاصطناعي مستوحى من الفنان سلفادور دالي والروبوت المحبوب WALL-E ويستخدم لغة طبيعية لإنتاج أي صورة غامضة وجميلة ترغب فيها قلبك.
إن رؤية المدخلات المكتوبة مثل “غوفر مبتسم يحمل مخروط آيس كريم” تنبض بالحياة على الفور، وهي صورة حية تم إنشاؤها بواسطة الذكاء الاصطناعي يتردد صداها بوضوح مع العالم.
إنها ليست مهمة صغيرة أن تظهر على شاشتك غوفر والسمات المبتسمة. يستخدم DALL-E 2 شيئًا يسمى نموذج الانتشار، حيث يحاول ترميز النص بأكمله في وصف واحد لتوليد صورة.
ومع ذلك، بمجرد أن يحتوي النص على تفاصيل أكثر، يصعب على وصف واحد التقاطه بالكامل.
علاوة على ذلك، في حين أنها مرنة للغاية، فإن نماذج الانتشار تكافح أحيانًا لفهم تكوين مفاهيم معينة، مثل الخلط بين السمات أو العلاقات بين الكائنات المختلفة.

تم إنشاء هذه المجموعة من الصور التي تم إنشاؤها، والتي تُظهر “قطارًا على جسر” و “نهر تحت الجسر”، باستخدام طريقة جديدة طورها باحثو معهد ماساتشوستس للتكنولوجيا. الائتمان: الصورة بإذن من الباحثين
لإنشاء صور أكثر تعقيدًا مع فهم أفضل، قام علماء من مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) التابع لمعهد ماساتشوستس للتكنولوجيا (MIT) ببناء النموذج النموذجي من زاوية مختلفة: أضافوا سلسلة من النماذج معًا، حيث يتعاونون جميعًا لإنشاء صور مرغوبة تلتقط صورًا متعددة.
جوانب مختلفة حسب طلب نص الإدخال أو التسميات. لإنشاء صورة ذات مكونين، على سبيل المثال، موصوفين بجملتين من الوصف، سيتعامل كل نموذج مع مكون معين من الصورة.
تعمل النماذج التي تبدو سحرية وراء إنشاء الصور من خلال اقتراح سلسلة من خطوات التحسين التكرارية للوصول إلى الصورة المطلوبة.
يبدأ بصورة “سيئة” ثم ينقحها تدريجيًا حتى تصبح الصورة المحددة. من خلال تكوين نماذج متعددة معًا، يقومون بتحسين المظهر بشكل مشترك في كل خطوة، وبالتالي تكون النتيجة صورة تعرض جميع سمات كل نموذج.
من خلال تعاون عدة نماذج، يمكنك الحصول على تركيبات إبداعية أكثر في الصور التي تم إنشاؤها.

تم إنشاء مجموعة الصور التي تم إنشاؤها، والتي تُظهر “نهرًا يقود إلى الجبال” و “أشجار حمراء على الجانب”، باستخدام طريقة جديدة طورها باحثو معهد ماساتشوستس للتكنولوجيا. الائتمان: الصورة بإذن من الباحثين
خذ، على سبيل المثال، شاحنة حمراء وبيتًا أخضر. عندما تصبح هذه الجمل معقدة للغاية، فإن النموذج سوف يخلط بين مفهومي الشاحنة الحمراء والبيوت الخضراء.
قد يقوم مولد نموذجي مثل DALL-E 2 بتبديل تلك الألوان حولها وإنشاء شاحنة خضراء ومنزل أحمر.
يمكن لنهج الفريق التعامل مع هذا النوع من ربط السمات بالكائنات، وخاصة عندما تكون هناك مجموعات متعددة من الأشياء، يمكنه التعامل مع كل كائن بشكل أكثر دقة.
“يمكن للنموذج أن يصمم بشكل فعال مواضع الكائنات والأوصاف العلائقية، وهو ما يمثل تحديًا لنماذج توليد الصور الحالية.
على سبيل المثال، ضع شيئًا ومكعبًا في موضع معين وكرة في موضع آخر. يقول شوانغ لي، طالب دكتوراه في معهد ماساتشوستس للتكنولوجيا CSAIL والمؤلف الرئيسي المشارك: “إن DALL-E 2 جيد في إنشاء صور طبيعية ولكنه يواجه صعوبة في فهم العلاقات بين الكائنات في بعض الأحيان”.
“بعيدًا عن الفن والإبداع، ربما يمكننا استخدام نموذجنا في التدريس. إذا كنت تريد أن تطلب من الطفل أن يضع مكعبًا فوق كرة، وإذا قلنا ذلك بلغة، فقد يكون من الصعب عليهم فهمه. لكن نموذجنا يمكنه إنشاء الصورة وإظهارها “.
جعل دالي فخوراً
الانتشار المركب – نموذج الفريق – يستخدم نماذج الانتشار جنبًا إلى جنب مع عوامل التركيب لدمج أوصاف النص دون مزيد من التدريب.
يلتقط نهج الفريق تفاصيل النص بدقة أكبر من نموذج الانتشار الأصلي، والذي يشفر الكلمات مباشرة كجملة واحدة طويلة. على سبيل المثال، بالنظر إلى “سماء وردية” و “جبل أزرق في الأفق” و “أزهار الكرز أمام الجبل”، كان نموذج الفريق قادرًا على إنتاج تلك الصورة بالضبط، في حين أن نموذج الانتشار الأصلي جعل السماء زرقاء وكل شيء أمام الجبال الوردي.
تمكن الباحثون من إنشاء بعض الصور السريالية المدهشة مع النص، “كلب” و “السماء”.
على اليسار يظهر كلب وسحب بشكل منفصل، مكتوب عليهما “كلب” و “سماء” تحته، وعلى اليمين تظهر صورتان لكلاب تشبه السحابة مع التسمية “الكلب والسماء” تحتها. الائتمان: الصورة بإذن من الباحثين
“حقيقة أن نموذجنا قابل للإنشاء يعني أنه يمكنك تعلم أجزاء مختلفة من النموذج، واحدة تلو الأخرى.
يمكنك أولاً أن تتعلم شيئًا فوق شيء آخر، ثم تتعلم شيئًا على يمين آخر، ثم تتعلم شيئًا ما بقي من شيء آخر، “كما يقول المؤلف الرئيسي المشارك وطالب الدكتوراه في معهد ماساتشوستس للتكنولوجيا CSAIL Yilun Du.
“نظرًا لأنه يمكننا تكوين هذه العناصر معًا، يمكنك أن تتخيل أن نظامنا يمكّننا من تعلم اللغة أو العلاقات أو المعرفة بشكل تدريجي، وهو ما نعتقد أنه اتجاه مثير للاهتمام للعمل في المستقبل.”
على الرغم من أنها أظهرت براعة في إنشاء صور معقدة وواقعية، إلا أنها لا تزال تواجه تحديات لأن النموذج تم تدريبه على مجموعة بيانات أصغر بكثير من تلك مثل DALL-E 2. لذلك، كانت هناك بعض الأشياء التي لم يتمكن من التقاطها.
الآن بعد أن أصبح بإمكان Composable Diffusion العمل فوق النماذج التوليدية، مثل DALL-E 2، أصبح الباحثون جاهزين لاستكشاف التعلم المستمر كخطوة تالية محتملة.
نظرًا لأنه يتم عادةً إضافة المزيد إلى علاقات الكائنات، فإنهم يريدون معرفة ما إذا كانت نماذج الانتشار يمكن أن تبدأ في “التعلم” دون نسيان المعرفة التي تم تعلمها مسبقًا – إلى مكان يمكن فيه للنموذج إنتاج صور مع كل من المعرفة السابقة والجديدة.
تم إنشاء هذا الرسم التوضيحي للصور باستخدام صور تم إنشاؤها من نظام MIT يسمى Composable Diffusion ، وتم ترتيبها في Photoshop.
تم استخدام عبارات مثل “نموذج الانتشار” و “الشبكة” لتوليد النقاط الوردية والصور الهندسية الزاويّة.
تم تضمين عبارة “حصان وحقل زهرة أصفر” في الجزء العلوي من الصورة. تظهر الصور المُنشأة للحصان والحقل الأصفر على اليسار، وتظهر الصور المدمجة للحصان في حقل الزهرة الصفراء على اليمين.
الائتمان: خوسيه لويس أوليفاريس ومعهد ماساتشوستس للتكنولوجيا والباحثين
يقول مارك تشن: “يقترح هذا البحث طريقة جديدة لتأليف المفاهيم في توليد النص إلى صورة، ليس من خلال تجميعها لتشكيل موجه، ولكن بدلاً من ذلك عن طريق حساب الدرجات فيما يتعلق بكل مفهوم وتأليفها باستخدام عوامل الاقتران والنفي”.
وهو أحد مؤسسي DALL-E 2 وعالم أبحاث في OpenAI. “هذه فكرة جيدة تستفيد من التفسير القائم على الطاقة لنماذج الانتشار بحيث يمكن تطبيق الأفكار القديمة حول التركيب باستخدام النماذج القائمة على الطاقة.
النهج قادر أيضًا على الاستفادة من الإرشادات الخالية من المصنفات، ومن المدهش أن نرى أنه يتفوق في الأداء على خط الأساس GLIDE في مختلف المعايير التركيبية ويمكن أن ينتج نوعًا أنواعًا مختلفة جدًا من أجيال الصور. “
يقول برايان راسل، عالم الأبحاث في Adobe Systems: “يمكن للبشر تأليف مشاهد تتضمن عناصر مختلفة بطرق لا تعد ولا تحصى، ولكن هذه المهمة تمثل تحديًا لأجهزة الكمبيوتر”.
“يقترح هذا العمل صياغة أنيقة تؤلف بشكل صريح مجموعة من نماذج الانتشار لتوليد صورة في ضوء موجه لغة طبيعية معقد.”
المصدر: scitechdaily
قد يهمك: