Google LIMoE – خطوة نحو هدف ذكاء اصطناعي واحد

أعلنت Google عن اختراق تستدعي خطوة نحو تحقيق الهدف المتمثل في نموذج ذكاء اصطناعي واحد يتعامل مع مهام متعددة
أعلنت Google عن تقنية جديدة تسمى LIMoE تقول إنها تمثل خطوة نحو الوصول إلى هدف Google الخاص بهندسة ذكاء اصطناعي تسمى Pathways.
Pathways هي بنية AI وهي نموذج واحد يمكنه تعلم القيام بمهام متعددة يتم إنجازها حاليًا من خلال استخدام خوارزميات متعددة.
LIMoE هي اختصار لتعلم طرائق متعددة باستخدام نموذج واحد من خليط الخبراء المتناثرين. إنه نموذج يعالج الرؤية والنص معًا.
في حين أن هناك معماريات أخرى للقيام بأشياء مماثلة، فإن الاختراق يكمن في الطريقة التي ينجز بها النموذج الجديد هذه المهام، باستخدام تقنية الشبكة العصبية تسمى النموذج المتقطع.
تم وصف النموذج المتناثر في ورقة بحثية من عام 2017 قدمت نهج طبقة مزيج الخبراء (MoE)، في ورقة بحثية بعنوان، الشبكات العصبية الكبيرة للغاية: طبقة خليط الخبراء ذات البوابات المتفرقة.
في عام 2021، أعلنت Google عن نموذج لوزارة التعليم يسمى GLaM: التحجيم الفعال لنماذج اللغة باستخدام مزيج من الخبراء تم تدريبه فقط على النص.
الفرق مع LIMoE هو أنه يعمل على النصوص والصور في وقت واحد.
يختلف النموذج المتناثر عن النماذج “الكثيفة” في أنه بدلاً من تكريس كل جزء من النموذج لإنجاز مهمة، فإن النموذج المتفرق يخصص المهمة إلى “خبراء” مختلفين متخصصين في جزء من المهمة.
ما يفعله هذا هو خفض التكلفة الحسابية، مما يجعل النموذج أكثر كفاءة.
لذلك، على غرار الطريقة التي يرى بها الدماغ كلبًا ويعرف أنه كلب، وأنه كلب صغير وأن الكلب يعرض معطفًا بلون فضي مزيف، يمكن لهذا النموذج أيضًا عرض صورة وإنجاز المهمة بطريقة مماثلة، عن طريق تعيين حسابية مهام لخبراء مختلفين متخصصين في مهمة التعرف على الكلب، وسلالته، ولونه، وما إلى ذلك.
يوجه نموذج LIMoE المشكلات إلى “الخبراء” المتخصصين في مهمة معينة، ويحققون نتائج مماثلة أو أفضل من الأساليب الحالية لحل المشكلات.
ميزة مثيرة للاهتمام في النموذج هي كيف يتخصص بعض الخبراء في الغالب في معالجة الصور، والبعض الآخر يتخصص في الغالب في معالجة النصوص ويتخصص بعض الخبراء في القيام بالأمرين معًا.
اكتب محتوى جذابًا بأسلوبك الفريد
أتمتة إنشاء المحتوى بالكامل؛ الحصول على أفكار محتوى مخصصة؛ وكتابة المقالات وتحسينها ونشرها بنقرة واحدة – باستخدام ContentShake.
يوضح وصف Google لكيفية عمل LIMoE كيف يوجد خبير في العيون وآخر للعجلات وخبير في الأنسجة المخططة والأنسجة الصلبة والكلمات ومقابض الأبواب والطعام والفواكه والبحر والسماء وخبير في صور النباتات.
يصف الإعلان عن الخوارزمية الجديدة هؤلاء الخبراء:
“هناك أيضًا بعض الأنماط النوعية الواضحة بين خبراء الصور – على سبيل المثال، في معظم نماذج LIMoE ، يوجد خبير يعالج جميع تصحيحات الصور التي تحتوي على نص. … أحد الخبراء يعالج الحيوانات والمساحات الخضراء، والآخر يعالج الأيدي البشرية “.
يوفر الخبراء المتخصصون في أجزاء مختلفة من المشكلات القدرة على التوسع وإنجاز العديد من المهام المختلفة بدقة ولكن بتكلفة حسابية أقل.
تلخص الورقة البحثية النتائج التي توصلوا إليها:
- “نقترح LIMoE ، أول مزيج متعدد الوسائط واسع النطاق من نماذج الخبراء.
- نوضح بالتفصيل كيف أن النهج السابقة لتنظيم مزيج من نماذج الخبراء تقصر في التعلم متعدد الوسائط، ونقترح مخطط تنظيم جديد قائم على الانتروبيا لتحقيق الاستقرار في التدريب.
- نوضح أن LIMoE تعمم عبر مقاييس العمارة، مع تحسينات نسبية في دقة ImageNet ذات اللقطة الصفرية والتي تتراوح من 7٪ إلى 13٪ مقارنة بالنماذج ذات الكثافة المكافئة.
- بمقاس أكبر، تصل LIMoE-H / 14 إلى 84.1٪ من دقة ImageNet الصفرية، مقارنة بنماذج SOTA المتباينة مع العمود الفقري لكل طريقة والتدريب المسبق. “
المباريات حالة الفن
هناك العديد من الأوراق البحثية تنشر كل شهر. لكن القليل منها فقط تم تسليط الضوء عليه بواسطة Google.
عادةً ما يسلط Google الضوء على البحث لأنه يحقق شيئًا جديدًا، بالإضافة إلى تحقيق حالة من الفن.
ينجز LIMoE هذا الإنجاز المتمثل في تحقيق نتائج مماثلة لأفضل خوارزميات اليوم ولكنه يفعل ذلك بكفاءة أكبر.
يسلط الباحثون الضوء على هذه الميزة:
“في تصنيف الصور ذات اللقطة الصفرية، تتفوق LIMoE في الأداء على كل من النماذج متعددة الوسائط الكثيفة المماثلة والنهج ثنائي البرج.
تحقق أكبر شركة LIMoE دقة ImageNet بدون لقطات تصل إلى 84.1٪، مقارنةً بأحدث الموديلات الأكثر تكلفة.
يُمكِّن Sparsity شركة LIMoE من الارتقاء برشاقة وتعلم التعامل مع المدخلات المختلفة للغاية، ومعالجة التوتر بين كونك خبيرًا متخصصًا في جميع المهن وخبير متخصص.”
أدت النتائج الناجحة لـ LIMoE إلى أن يلاحظ الباحثون أن LIMoE يمكن أن تكون وسيلة للمضي قدمًا لتحقيق نموذج متعدد الوسائط.
لاحظ الباحثون:
“نعتقد أن القدرة على بناء نموذج عام بمكونات متخصصة، والتي يمكنها تحديد كيفية تفاعل الأساليب أو المهام المختلفة، ستكون مفتاحًا لإنشاء نماذج متعددة الوسائط حقًا تتفوق في كل ما تفعله.
ليمو هي خطوة أولى واعدة في هذا الاتجاه “.
أوجه القصور المحتملة والتحيزات والمشاكل الأخلاقية الأخرى
هناك أوجه قصور في هذه البنية لم تتم مناقشتها في إعلان Google ولكنها مذكورة في ورقة البحث نفسها.
تشير الورقة البحثية إلى أنه، على غرار النماذج الكبيرة الأخرى، قد تقدم LIMoE أيضًا تحيزات في النتائج.
يذكر الباحثون أنهم لم يعالجوا “بشكل صريح” المشكلات المتأصلة في النماذج واسعة النطاق.
يكتبون:
“الأضرار المحتملة للنماذج الكبيرة … والنماذج المتباينة … والبيانات متعددة الوسائط على نطاق الويب … تنتقل أيضًا إلى هنا، حيث لا تتناولها شركة LIMoE صراحةً.”
يشير البيان أعلاه (في رابط الحاشية السفلية) إلى ورقة بحثية لعام 2021 تسمى، حول الفرص ومخاطر نماذج الأساس (ملف PDF هنا).
تحذر هذه الورقة البحثية من عام 2021 كيف يمكن لتقنيات الذكاء الاصطناعي الناشئة أن تسبب تأثيرًا سلبيًا على المجتمع مثل:
“… الظلم، وسوء الاستخدام، والأثر الاقتصادي والبيئي، والاعتبارات القانونية والأخلاقية.”
وفقًا للورقة المذكورة، يمكن أن تنشأ المشكلات الأخلاقية أيضًا من الميل نحو تجانس المهام، والتي يمكن أن تقدم بعد ذلك نقطة فشل يتم إعادة إنتاجها بعد ذلك لمهام أخرى تتبع المصب.
تنص الورقة البحثية التحذيرية على ما يلي:
يمكن تلخيص أهمية نماذج الأساس بكلمتين: الظهور والتجانس.
النشوء يعني أن سلوك نظام ما يتم تحريضه ضمنيًا بدلاً من بنائه صراحة؛ إنه مصدر الإثارة العلمية والقلق بشأن العواقب غير المتوقعة.
يشير التجانس إلى توحيد المنهجيات لبناء أنظمة التعلم الآلي عبر مجموعة واسعة من التطبيقات؛ إنه يوفر تأثيرًا قويًا تجاه العديد من المهام ولكنه يؤدي أيضًا إلى إنشاء نقاط فشل فردية “.
يتمثل أحد مجالات الحذر في الذكاء الاصطناعي المرتبط بالرؤية.
تنص ورقة عام 2021 على أن انتشار الكاميرات في كل مكان يعني أن أي تقدم في الذكاء الاصطناعي مرتبط بالرؤية يمكن أن يحمل مخاطر مصاحبة تجاه التكنولوجيا التي يتم تطبيقها بطريقة غير متوقعة والتي يمكن أن يكون لها “تأثير مدمر”، بما في ذلك ما يتعلق بالخصوصية والمراقبة.
هناك تحذير تحذيري آخر يتعلق بالتقدم في مجال الذكاء الاصطناعي المرتبط بالرؤية وهو مشاكل الدقة والتحيز.
يلاحظون:
“هناك تاريخ موثق جيدًا للتحيز المكتسب في نماذج الرؤية الحاسوبية، مما أدى إلى انخفاض الدقة والأخطاء المترابطة للمجموعات الممثلة تمثيلا ناقصًا، وبالتالي نشر غير مناسب وسابق لأوانه لبعض إعدادات العالم الحقيقي.”
يوثق الجزء المتبقي من الورقة كيف يمكن لتقنيات الذكاء الاصطناعي أن تتعلم التحيزات الموجودة وتديم عدم المساواة.
“النماذج التأسيسية لديها القدرة على تحقيق نتائج غير عادلة: معاملة الناس غير العادلة، لا سيما بسبب التوزيع غير المتكافئ على طول الخطوط التي تضاعف التمييز التاريخي…. مثل أي نظام ذكاء اصطناعي، يمكن لنماذج الأساس مضاعفة أوجه عدم المساواة القائمة من خلال إنتاج نتائج غير عادلة، وترسيخ أنظمة القوة، وتوزيع النتائج السلبية للتكنولوجيا بشكل غير متناسب على المهمشين بالفعل … “
لاحظ باحثو LIMoE أن هذا النموذج المعين قد يكون قادرًا على الالتفاف حول بعض التحيزات ضد المجموعات الممثلة تمثيلا ناقصًا بسبب طبيعة كيفية تخصص الخبراء في أشياء معينة.
هذه الأنواع من النتائج السلبية ليست نظريات، إنها حقائق وقد أثرت بالفعل سلبًا على الحياة في تطبيقات العالم الحقيقي مثل التحيزات غير العادلة القائمة على العرق التي أدخلتها خوارزميات التوظيف.
يعترف مؤلفو ورقة LIMoE بأوجه القصور المحتملة في فقرة قصيرة تعمل بمثابة تحذير تحذيري.
لكنهم لاحظوا أيضًا أنه قد تكون هناك إمكانية لمعالجة بعض التحيزات باستخدام هذا النهج الجديد.
كتبوا:
“… قد تؤدي القدرة على توسيع نطاق النماذج باستخدام خبراء متخصصين بعمق إلى أداء أفضل في المجموعات الممثلة تمثيلاً ناقصًا.”
أخيرًا، السمة الرئيسية لهذه التكنولوجيا الجديدة التي يجب ملاحظتها هي أنه لا يوجد استخدام صريح لها.
إنها ببساطة تقنية يمكنها معالجة الصور والنصوص بطريقة فعالة.
كيف يمكن تطبيقه، إذا تم تطبيقه في هذا الشكل أو الشكل المستقبلي، لم يتم تناوله أبدًا.
وهذا عامل مهم أثارته الورقة التحذيرية (الفرص ومخاطر النماذج الأساسية)، يلفت الانتباه إلى أن الباحثين ينشئون قدرات للذكاء الاصطناعي دون النظر في كيفية استخدامها وتأثيرها على قضايا مثل الخصوصية وحماية.
“نماذج الأساس هي أصول وسيطة ليس لها غرض محدد قبل تكييفها؛ يتطلب فهم أضرارها التفكير في كل من خصائصها والدور الذي تلعبه في بناء نماذج خاصة بالمهام “.
تم استبعاد كل هذه التحذيرات من مقالة إعلان Google ولكن تمت الإشارة إليها في نسخة PDF من ورقة البحث نفسها.
Pathways AI العمارة والليموزين
يُشار إلى النصوص والصور والبيانات الصوتية على أنها طرائق وأنواع مختلفة من البيانات أو تخصص المهام، إذا جاز التعبير. يمكن أن تعني الأساليب أيضًا اللغة المنطوقة والرموز.
لذلك عندما ترى عبارة “الوسائط المتعددة” أو “الأساليب” في المقالات العلمية والأوراق البحثية، فإن ما يتحدثون عنه عمومًا هو أنواع مختلفة من البيانات.
هدف Google النهائي للذكاء الاصطناعي هو ما تسميه هندسة Pathways Next-Generation AI.
تمثل Pathways الابتعاد عن نماذج التعلم الآلي التي تؤدي شيئًا واحدًا جيدًا (وبالتالي تتطلب الآلاف منها) إلى نموذج واحد يقوم بكل شيء بشكل جيد حقًا.
Pathways (و LIMoE) هو نهج متعدد الوسائط لحل المشكلات.
يعتمد الناس على حواس متعددة لإدراك العالم. هذا يختلف تمامًا عن الطريقة التي تهضم بها أنظمة الذكاء الاصطناعي المعاصرة المعلومات.
تعالج معظم نماذج اليوم طريقة واحدة فقط للمعلومات في كل مرة. يمكن أن يأخذوا نصًا أو صورًا أو كلامًا – ولكن ليس كلهم عادةً في وقت واحد.
يمكن أن تتيح Pathways نماذج متعددة الوسائط تشمل الرؤية والسمع وفهم اللغة في وقت واحد. “
ما يجعل LIMoE مهمة هو أنها بنية متعددة الوسائط أشار إليها الباحثون على أنها ” … خطوة مهمة نحو رؤية Pathways … “
يصف الباحثون LIMoE على أنها ” خطوة ” لأن هناك المزيد من العمل الذي يتعين القيام به، والذي يتضمن استكشاف كيف يمكن لهذا النهج أن يعمل بطرق تتجاوز مجرد الصور والنصوص.
توضح ورقة البحث هذه والمقالة الموجزة المصاحبة لها الاتجاه الذي تتجه إليه أبحاث الذكاء الاصطناعي من Google وكيف تصل إلى هناك.
المصدر: searchenginejournal
قد يهمك: