يُظهر DALL-E 2 قوة التعلم العميق التوليدي، لكنه يثير الجدل حول ممارسات الذكاء الاصطناعي

احتل مختبر أبحاث الذكاء الاصطناعي OpenAI عناوين الأخبار مرة أخرى، هذه المرة مع DALL-E 2، وهو نموذج للتعلم الآلي يمكنه إنشاء صور مذهلة من أوصاف النص.
يعتمد DALL-E 2 على نجاح سلفه DALL-E ويحسن جودة ودقة الصور الناتجة بفضل تقنيات التعلم العميق المتقدمة.
كان الإعلان عن DALL-E 2 مصحوبًا بحملة على وسائل التواصل الاجتماعي قام بها مهندسو OpenAI ومديرها التنفيذي، Sam Altman، الذين شاركوا صورًا رائعة تم إنشاؤها بواسطة نموذج التعلم الآلي التوليدي على Twitter.
يُظهر DALL-E 2 المدى الذي وصل إليه مجتمع أبحاث الذكاء الاصطناعي في تسخير قوة التعلم العميق ومعالجة بعض حدوده.
كما أنه يوفر نظرة مستقبلية حول كيف يمكن لنماذج التعلم العميق التوليدية أن تفتح أخيرًا تطبيقات إبداعية جديدة ليستخدمها الجميع.
في الوقت نفسه، يذكرنا ببعض العقبات التي لا تزال قائمة في أبحاث الذكاء الاصطناعي والنزاعات التي يجب تسويتها.
جمال DALL-E 2
مثل إعلانات OpenAI الأخرى المهمة، يأتي DALL-E 2 بورقة مفصلة ومنشور مدونة تفاعلي يوضح كيفية عمل نموذج التعلم الآلي. يوجد أيضًا مقطع فيديو يقدم نظرة عامة على ما تستطيع التكنولوجيا فعله وما هي حدودها.
DALL-E 2 هو “نموذج توليدي”، وهو فرع خاص من التعلم الآلي يقوم بإنشاء مخرجات معقدة بدلاً من أداء مهام التنبؤ أو التصنيف على بيانات الإدخال. أنت تزود DALL-E 2 بوصف نصي، وتقوم بإنشاء صورة تناسب الوصف.
تعد النماذج التوليدية مجالًا ساخنًا من الأبحاث التي حظيت باهتمام كبير مع إدخال شبكات الخصومة التوليدية (GAN) في عام 2014.
وقد شهد هذا المجال تحسينات هائلة في السنوات الأخيرة، وتم استخدام النماذج التوليدية في مجموعة متنوعة من المهام، بما في ذلك إنشاء الوجوه الاصطناعية والتزييف العميق والأصوات المركبة وغير ذلك.
ومع ذلك، فإن ما يميز DALL-E 2 عن النماذج التوليدية الأخرى هو قدرته على الحفاظ على الاتساق الدلالي في الصور التي ينشئها.
على سبيل المثال، تم إنشاء الصور التالية (من منشور مدونة DALL-E 2) من الوصف “رائد فضاء يركب حصانًا.” ينتهي أحد الأوصاف بـ “كرسم بالقلم الرصاص” والآخر “بأسلوب تصوير واقعي”.

يظل النموذج ثابتًا في رسم رائد الفضاء الجالس على ظهر الحصان ويمسك يديه أمامه. يظهر هذا النوع من التناسق نفسه في معظم الأمثلة التي شاركتها OpenAI.
تُظهر الأمثلة التالية (أيضًا من موقع OpenAI) ميزة أخرى لـ DALL-E 2، وهي إنشاء أشكال مختلفة من صورة الإدخال.
هنا، بدلاً من تزويد DALL-E 2 بوصف نصي، فإنك تزوده بصورة، ويحاول إنشاء أشكال أخرى لنفس الصورة.
هنا، يحافظ DALL-E على العلاقات بين العناصر في الصورة، بما في ذلك الفتاة، والكمبيوتر المحمول، وسماعات الرأس، والقط، وأضواء المدينة في الخلفية، وسماء الليل مع القمر والغيوم.

تشير أمثلة أخرى إلى أن DALL-E 2 يبدو أنه يفهم العمق والأبعاد، وهو تحد كبير للخوارزميات التي تعالج الصور ثنائية الأبعاد.
حتى لو تم اختيار الأمثلة الموجودة على موقع OpenAI على الويب، فهي مثيرة للإعجاب.
تُظهر الأمثلة التي تمت مشاركتها على Twitter أنه يبدو أن DALL-E 2 قد وجد طريقة لتمثيل وإعادة إنتاج العلاقات بين العناصر التي تظهر في الصورة، حتى عندما تكون “تحلم” بشيء ما لأول مرة.
في الواقع، لإثبات مدى جودة DALL-E 2، انتقل Altman إلى Twitter وطلب من المستخدمين اقتراح مطالبات للتغذية بالنموذج التوليدي. النتائج (انظر الموضوع أدناه) رائعة.
العلم وراء DALL-E 2
يستفيد DALL-E 2 من نماذج CLIP والنشر، وهما تقنيتان متقدمتان للتعلم العميق تم إنشاؤهما في السنوات القليلة الماضية. لكنها تشترك في جوهرها في نفس المفهوم مع جميع الشبكات العصبية العميقة الأخرى: التعلم التمثيلي.
ضع في اعتبارك نموذج تصنيف الصورة. تقوم الشبكة العصبية بتحويل ألوان البكسل إلى مجموعة من الأرقام التي تمثل ميزاتها.
يُطلق على هذا المتجه أحيانًا اسم “تضمين” المدخلات. يتم بعد ذلك تعيين هذه الميزات إلى طبقة الإخراج، والتي تحتوي على درجة احتمالية لكل فئة من الصور التي من المفترض أن يكتشفها النموذج.
أثناء التدريب، تحاول الشبكة العصبية تعلم أفضل تمثيلات للميزات التي تميز بين الفصول الدراسية.
من الناحية المثالية، يجب أن يكون نموذج التعلم الآلي قادرًا على تعلم الميزات الكامنة التي تظل متسقة عبر ظروف الإضاءة والزوايا وبيئات الخلفية المختلفة.
لكن كما رأينا كثيرًا، غالبًا ما تتعلم نماذج التعلم العميق التمثيلات الخاطئة. على سبيل المثال، قد تعتقد الشبكة العصبية أن البيكسلات الخضراء هي سمة من سمات فئة “الأغنام” لأن جميع صور الأغنام التي شاهدتها أثناء التدريب تحتوي على الكثير من العشب.
نموذج آخر تم تدريبه على صور الخفافيش التي تم التقاطها أثناء الليل قد يعتبر الظلام سمة من سمات جميع صور الخفافيش ويخطئ في تصنيف صور الخفافيش التي تم التقاطها خلال النهار.
قد تصبح النماذج الأخرى حساسة للأشياء التي يتم توسيطها في الصورة وتوضع أمام نوع معين من الخلفية.
إن تعلم التمثيلات الخاطئة هو جزئيًا سبب هشاشة الشبكات العصبية، وحساسيتها للتغيرات في البيئة، والضعف في التعميم بما يتجاوز بيانات التدريب الخاصة بها.
لهذا السبب أيضًا، يجب تحديد الشبكات العصبية المدربة لتطبيق واحد لتطبيقات أخرى – عادةً ما تكون ميزات الطبقات النهائية للشبكة العصبية خاصة جدًا بالمهمة ولا يمكن تعميمها على التطبيقات الأخرى.
من الناحية النظرية، يمكنك إنشاء مجموعة بيانات تدريب ضخمة تحتوي على جميع أنواع البيانات المختلفة التي يجب أن تكون الشبكة العصبية قادرة على التعامل معها.
لكن إنشاء مثل هذه المجموعة من البيانات ووضع العلامات عليها يتطلب جهدًا بشريًا هائلاً وهو عمليًا مستحيل.
هذه هي المشكلة التي يحلها التعلم التباين – التدريب المسبق على الصورة (CLIP).
يقوم CLIP بتدريب شبكتين عصبيتين بالتوازي على الصور والتعليقات التوضيحية الخاصة بها.
تتعلم إحدى الشبكات التمثيلات المرئية في الصورة وتتعلم الأخرى تمثيلات النص المقابل. أثناء التدريب، تحاول الشبكتان تعديل معاييرهما بحيث تنتج الصور والأوصاف المتشابهة زخارف متشابهة.

التعلم التقابلي – التدريب المسبق على الصورة
تتمثل إحدى الفوائد الرئيسية لبرنامج CLIP في أنه لا يحتاج إلى تسمية بيانات التدريب الخاصة به لتطبيق معين.
يمكن تدريبه على العدد الهائل من الصور والأوصاف الفضفاضة التي يمكن العثور عليها على الويب.
بالإضافة إلى ذلك، بدون الحدود الصارمة للفئات الكلاسيكية، يمكن لـ CLIP تعلم تمثيلات أكثر مرونة والتعميم على مجموعة متنوعة من المهام.
على سبيل المثال، إذا تم وصف صورة على أنها “صبي يحتضن جروًا” ووصفت صورة أخرى بأنها “صبي يركب حصانًا صغيرًا”، فسيكون النموذج قادرًا على تعلم تمثيل أكثر قوة لما هو “الصبي” وكيف يرتبط ذلك إلى العناصر الأخرى في الصور.
لقد أثبت برنامج CLIP بالفعل أنه مفيد جدًا للتعلم بدون طلقة وقليل من اللقطات، حيث يتم عرض نموذج التعلم الآلي أثناء التنقل لأداء المهام التي لم يتم التدريب عليها.
تقنية التعلم الآلي الأخرى المستخدمة في DALL-E 2 هي “الانتشار”، وهو نوع من النماذج التوليدية التي تتعلم إنشاء الصور عن طريق التشويش التدريجي وتقليل التشويش على أمثلة التدريب.
تشبه نماذج الانتشار أجهزة التشفير التلقائية، والتي تحول بيانات الإدخال إلى تمثيل تضمين ثم إعادة إنتاج البيانات الأصلية من معلومات التضمين.
تقوم DALL-E بتدريب نموذج CLIP على الصور والتعليقات التوضيحية. ثم يستخدم نموذج CLIP لتدريب نموذج الانتشار.
بشكل أساسي، يستخدم نموذج الانتشار نموذج CLIP لإنشاء الزخارف لموجه النص والصورة المقابلة له. ثم يحاول إنشاء الصورة التي تتوافق مع النص.

العمارة DALL-E 2
الخلافات حول التعلم العميق وأبحاث الذكاء الاصطناعي
في الوقت الحالي، لن يتوفر DALL-E 2 إلا لعدد محدود من المستخدمين الذين اشتركوا في قائمة الانتظار.
منذ إصدار GPT-2، كانت شركة OpenAI مترددة في طرح نماذج الذكاء الاصطناعي الخاصة بها للجمهور. GPT-3، نموذج اللغة الأكثر تقدمًا، متاح فقط من خلال واجهة API. لا يوجد وصول إلى الكود الفعلي ومعلمات النموذج.
سياسة OpenAI المتمثلة في عدم إطلاق نماذجها للجمهور لم تكن جيدة مع مجتمع الذكاء الاصطناعي وقد اجتذبت انتقادات من بعض الشخصيات المشهورة في هذا المجال.
كما أعاد DALL-E 2 ظهور بعض الخلافات القديمة حول النهج المفضل تجاه الذكاء العام الاصطناعي.
لقد أثبت أحدث ابتكارات OpenAI بالتأكيد أنه مع البنية الصحيحة والتحيزات الاستقرائية، لا يزال بإمكانك الضغط على المزيد من الشبكات العصبية.
استغل مؤيدو مناهج التعلم العميق الخالص الفرصة لإهانة نقادهم، بما في ذلك مقال حديث للعالم المعرفي غاري ماركوس بعنوان ” التعلم العميق يضرب جدارًا “.
يؤيد ماركوس نهجًا هجينًا يجمع بين الشبكات العصبية والأنظمة الرمزية.
استنادًا إلى الأمثلة التي شاركها فريق OpenAI، يبدو أن DALL-E 2 يظهر بعض القدرات المنطقية التي كانت مفقودة منذ فترة طويلة في أنظمة التعلم العميق.
لكن يبقى أن نرى مدى عمق هذا الاستقرار المنطقي والدلالي، وكيف سيتعامل DALL-E 2 وخلفاؤه مع مفاهيم أكثر تعقيدًا مثل التركيب.
تذكر ورقة DALL-E 2 بعض قيود النموذج في إنشاء نص ومشاهد معقدة. رداً على العديد من التغريدات الموجهة بطريقته، أشار ماركوس إلى أن ورقة DALL-E 2 تثبت في الواقع بعض النقاط التي كان قد أثارها في أوراقه ومقالاته.
أشار بعض العلماء إلى أنه على الرغم من النتائج الرائعة لـ DALL-E 2، فإن بعض التحديات الرئيسية للذكاء الاصطناعي لا تزال دون حل.
أثارت ميلاني ميتشل، أستاذة التعقيد في معهد سانتا في ومؤلفة كتاب الذكاء الاصطناعي: دليل للتفكير البشري، بعض الأسئلة المهمة في سلسلة تغريدات على تويتر.
أشار ميتشل إلى مشاكل بونجارد ، وهي مجموعة من التحديات التي تختبر فهم المفاهيم مثل التشابه، والتجاور، والعدد، والتقعر / التحدب، والانغلاق / الانفتاح.
غرد ميتشل: “يمكننا نحن البشر حل هذه الألغاز المرئية نظرًا لمعرفتنا الأساسية بالمفاهيم الأساسية وقدراتنا على التجريد المرن والقياس”.
“إذا تم إنشاء مثل هذا النظام للذكاء الاصطناعي، سأكون مقتنعًا بأن هذا المجال يحرز تقدمًا حقيقيًا على مستوى الذكاء البشري.
حتى ذلك الحين، سأعجب بالمنتجات الرائعة للتعلم الآلي والبيانات الضخمة، لكنني لن أخطئ في أنها تقدم نحو الذكاء العام “.
دراسة الجدوى لـ DALL-E 2
منذ التحول من هيكل غير ربحي إلى هيكل “ربح محدود”، تحاول شركة OpenAI إيجاد التوازن بين البحث العلمي وتطوير المنتجات.
منحت شراكة الشركة الإستراتيجية مع Microsoft قنوات قوية لتحقيق الدخل من بعض تقنياتها، بما في ذلك GPT-3 و Codex
في منشور بالمدونة، اقترح ألتمان إطلاقًا محتملاً لمنتج DALL-E 2 في الصيف. يقترح العديد من المحللين بالفعل تطبيقات لـ DALL-E 2، مثل إنشاء رسومات للمقالات (يمكنني بالتأكيد استخدام بعضها لي) وإجراء تعديلات أساسية على الصور.
سيمكن DALL-E 2 المزيد من الأشخاص من التعبير عن إبداعهم دون الحاجة إلى مهارات خاصة باستخدام الأدوات.
يقترح ألتمان أن التقدم في الذكاء الاصطناعي يأخذنا نحو “عالم تكون فيه الأفكار الجيدة هي الحد لما يمكننا القيام به، وليس مهارات محددة”.
على أي حال، ستظهر التطبيقات الأكثر إثارة للاهتمام لـ DALL-E مع تزايد عدد المستخدمين الذين يتلاعبون بها. على سبيل المثال، ظهرت فكرة Copilot وCodex عندما بدأ المستخدمون في استخدام GPT-3 لإنشاء كود مصدر للبرنامج.
إذا أصدرت OpenAI خدمة API مدفوعة على غرار GPT-3، فسيتمكن المزيد والمزيد من الأشخاص من إنشاء تطبيقات باستخدام DALL-E 2 أو دمج التكنولوجيا في التطبيقات الحالية.
لكن كما كان الحال مع GPT-3، فإن بناء نموذج عمل حول منتج DALL-E 2 محتمل سيكون له تحديات فريدة خاصة به. سيعتمد الكثير منها على تكاليف التدريب وتشغيل DALL-E 2، والتي لم يتم نشر تفاصيلها بعد.
وباعتبارها صاحبة الترخيص الحصري لتكنولوجيا GPT-3، ستكون Microsoft هي الفائز الرئيسي في أي ابتكار تم إنشاؤه فوق DALL-E 2 لأنها ستكون قادرة على القيام بذلك بشكل أسرع وأرخص.
مثل GPT-3، يعد DALL-E 2 بمثابة تذكير بأنه مع استمرار مجتمع الذكاء الاصطناعي في الانجذاب نحو إنشاء شبكات عصبية أكبر مدربة على مجموعات بيانات تدريب أكبر باستمرار، سيستمر تعزيز القوة في عدد قليل جدًا من الشركات الثرية جدًا التي لديها الموارد المالية والموارد التقنية اللازمة لأبحاث الذكاء الاصطناعي.
المصدر: thenextweb
شاهد ايضا: