تمهد تقنية التعلم العميق الجديدة الطريق لروبوتات صناعة البيتزا

بالنسبة للبشر، فإن العمل مع الأشياء المشوهة ليس أصعب بكثير من التعامل مع الأشياء الصلبة. نتعلم بشكل طبيعي تشكيلها وطيها والتلاعب بها بطرق مختلفة وما زلنا نتعرف عليها.
ولكن بالنسبة للروبوتات وأنظمة الذكاء الاصطناعي، فإن التلاعب بالأجسام المشوهة يمثل تحديًا كبيرًا.
ضع في اعتبارك سلسلة الخطوات التي يجب أن يتخذها الروبوت لتشكيل كرة من العجين في قشور بيتزا.
يجب أن تتعقب العجينة أثناء تغيير شكلها، وفي نفس الوقت يجب أن تختار الأداة المناسبة لكل خطوة من خطوات العمل.
هذه مهام صعبة لأنظمة الذكاء الاصطناعي الحالية، والتي تعتبر أكثر استقرارًا في التعامل مع أجسام الجسم الصلب، والتي لديها حالات أكثر قابلية للتنبؤ.
الآن، تُظهر تقنية التعلم العميق الجديدة التي طورها باحثون في معهد ماساتشوستس للتكنولوجيا وجامعة كارنيجي ميلون وجامعة كاليفورنيا في سان دييغو، وعدًا بجعل أنظمة الروبوتات أكثر استقرارًا في التعامل مع الأشياء المشوهة.
تسمى هذه التقنية DiffSkill، وهي تستخدم شبكات عصبية عميقة لتعلم مهارات بسيطة ووحدة تخطيط للجمع بين المهارات لحل المهام التي تتطلب خطوات وأدوات متعددة.
التعامل مع الأشياء المشوهة من خلال التعلم المعزز والتعلم العميق
إذا أراد نظام ذكاء اصطناعي التعامل مع كائن ما، فيجب أن يكون قادرًا على اكتشاف حالته وتعريفها والتنبؤ بالشكل الذي سيبدو عليه في المستقبل.
هذه مشكلة تم حلها إلى حد كبير للأجسام الصلبة. مع مجموعة جيدة من الأمثلة التدريبية، ستكون الشبكة العصبية العميقة قادرة على اكتشاف جسم صلب من زوايا مختلفة.
مع ذلك، عندما يتعلق الأمر بالأجسام القابلة للتشوه، تصبح مساحة الحالات المحتملة أكثر تعقيدًا.
“بالنسبة للأجسام الصلبة، يمكننا وصف حالتها بستة أرقام: ثلاثة أرقام لإحداثياتها XYZ وثلاثة أرقام أخرى لاتجاهها”، Xingyu Lin ، دكتوراه. طالب في CMU والمؤلف الرئيسي لورقة DiffSkill، أخبر TechTalks.
“ومع ذلك، فإن الأجسام القابلة للتشوه، مثل العجين أو الأقمشة، تتمتع بدرجة لا نهائية من الحرية، مما يجعل من الصعب للغاية وصف حالتها بدقة.
علاوة على ذلك، من الصعب أيضًا نمذجة طرق التشوه بطريقة رياضية مقارنة بالأجسام الصلبة “.
مكّن تطوير محاكيات فيزيائية قابلة للتفاضل من تطبيق الأساليب القائمة على التدرج لحل مهام معالجة الكائنات القابلة للتشوه.
هذا على عكس نهج التعلم المعزز التقليدي الذي يحاول تعلم ديناميات البيئة والأشياء من خلال تفاعلات التجربة والخطأ البحتة.
تم استلهام DiffSkill من PlasticineLab، وهو محاكي فيزيائي مختلف تم تقديمه في مؤتمر ICLR في عام 2021. أظهر PlasticineLab أن المحاكيات القابلة للتفاضل يمكن أن تساعد في المهام قصيرة المدى.

PlasticineLab هو محاكاة تفاضلية قائمة على الفيزياء للأشياء القابلة للتشوه. إنها مناسبة لتدريب النماذج القائمة على التدرج.
لكن المحاكيات القابلة للتفاضل لا تزال تعاني من مشاكل بعيدة المدى تتطلب خطوات متعددة واستخدام أدوات مختلفة.
تتطلب أنظمة الذكاء الاصطناعي التي تعتمد على المحاكيات القابلة للتفاضل أيضًا أن يعرف الوكيل حالة المحاكاة الكاملة والمعلمات المادية ذات الصلة للبيئة.
هذا مقيد بشكل خاص لتطبيقات العالم الحقيقي، حيث عادة ما يدرك الوكيل العالم من خلال البيانات الحسية المرئية والعمق (RGB-D).
قال لين: “بدأنا في التساؤل عما إذا كان بإمكاننا استخلاص [الخطوات المطلوبة لإنجاز مهمة ما] كمهارات وأيضًا تعلم المفاهيم المجردة حول المهارات حتى نتمكن من ربطها لحل المهام الأكثر تعقيدًا”.
DiffSkill هو إطار عمل حيث يتعلم وكيل الذكاء الاصطناعي تجريد المهارات باستخدام نموذج الفيزياء القابلة للتفاضل ويؤلفها لإنجاز مهام التلاعب المعقدة.
ركز عمل لين السابق على استخدام التعلم المعزز للتلاعب بالأشياء القابلة للتشوه مثل القماش والحبال والسوائل. بالنسبة إلى DiffSkill، اختار التلاعب بالعجين بسبب التحديات التي يطرحها.
قال لين: “يعد التلاعب بالعجين أمرًا مثيرًا للاهتمام بشكل خاص لأنه لا يمكن إجراؤه بسهولة باستخدام أداة إمساك الروبوت، ولكنه يتطلب استخدام أدوات مختلفة بالتتابع، وهو أمر يجيده البشر ولكنه ليس شائعًا جدًا بالنسبة للروبوتات”.
بمجرد التدريب، يمكن لـ DiffSkill إنجاز مجموعة من مهام معالجة العجين بنجاح باستخدام إدخال RGB-D فقط.
تعلم المهارات المجردة مع الشبكات العصبية

يقوم DiffSkill بتدريب شبكة عصبية للتنبؤ بجدوى حالة الهدف من الحالة الأولية والمعلمات التي تم الحصول عليها من محاكي فيزيائي قابل للتفاضل.
يتكون DiffSkill من عنصرين رئيسيين: “مستخلص المهارات العصبية” الذي يستخدم الشبكات العصبية لتعلم المهارات الفردية و “المخطط” الذي يؤلف مهارة حل المهام طويلة المدى.
يستخدم DiffSkill محاكيًا فيزيائيًا مختلفًا لإنشاء أمثلة تدريبية لمستخلص المهارة. توضح هذه العينات كيفية تحقيق هدف قصير الأفق بأداة واحدة، مثل استخدام أسطوانة لفرد العجين أو ملعقة لتحريك العجين.
يتم تقديم هذه الأمثلة إلى مستخلص المهارة على هيئة مقاطع فيديو RGB-D.
بالنظر إلى ملاحظة الصورة، يجب أن يتنبأ مستخلص المهارة بما إذا كان الهدف المنشود ممكنًا أم لا. يتعلم النموذج ويضبط معلماته من خلال مقارنة تنبؤاته بالنتيجة الفعلية لمحاكاة الفيزياء.
في الوقت نفسه، تقوم DiffSkill بتدريب المشفر التلقائي المتغير (VAE) لتعلم تمثيل الفضاء الكامن للأمثلة التي تم إنشاؤها بواسطة محاكاة الفيزياء.
يقوم VAE بتشفير الصور في مساحة ذات أبعاد أقل تحافظ على الميزات المهمة وتتجاهل المعلومات غير ذات الصلة بالمهمة.
من خلال نقل مساحة الصورة عالية الأبعاد إلى الفضاء الكامن، يلعب VAE دورًا مهمًا في تمكين DiffSkill من التخطيط عبر آفاق طويلة والتنبؤ بالنتائج من خلال مراقبة البيانات الحسية.
تتمثل إحدى التحديات المهمة لتدريب VAE في التأكد من أنها تتعلم الميزات الصحيحة وتعمم على العالم الحقيقي، حيث يختلف تكوين البيانات المرئية عن تلك التي تم إنشاؤها بواسطة محاكاة الفيزياء.
على سبيل المثال، لا يكون لون دبوس الأسطوانة أو الطاولة مناسبًا للمهمة، ولكن موضع الأسطوانة وزاويةها وموقع العجين مناسبان.
حاليًا، يستخدم الباحثون تقنية تسمى “المجال العشوائي”، والتي تقوم بترتيب الخصائص غير ذات الصلة لبيئة التدريب مثل الخلفية والإضاءة بشكل عشوائي، وتحافظ على الميزات المهمة مثل موضع الأدوات وتوجيهها.
هذا يجعل VAE أكثر استقرارًا عند تطبيقه على العالم الحقيقي.
قال لين: “إن القيام بذلك ليس بالأمر السهل، لأننا نحتاج إلى تغطية جميع الاختلافات المحتملة التي تختلف بين المحاكاة والعالم الحقيقي [المعروف باسم فجوة sim2real]”.
“أفضل طريقة هي استخدام سحابة نقطية ثلاثية الأبعاد كتمثيل للمشهد، وهو أسهل بكثير للانتقال من المحاكاة إلى العالم الحقيقي. في الواقع، نحن نعمل على مشروع متابعة باستخدام سحابة النقاط كمدخلات “.
تخطيط مهام الكائن القابلة للتشوه في الأفق الطويل

يستخدم DiffSkill وحدة مخطط لتقييم مجموعات وتسلسلات مختلفة من المهارات التي يمكن أن تحقق الهدف المستهدف.
بمجرد تدريب مستخلص المهارة، يستخدم DiffSkill وحدة التخطيط لحل المهام طويلة المدى. يجب أن يحدد المخطط عدد وتسلسل المهارات اللازمة للانتقال من الحالة الأولية إلى الوجهة.
يكرر هذا المخطط التوليفات الممكنة من المهارات والنتائج الوسيطة التي ينتج عنها.
يأتي المشفر التلقائي المتغير مفيدًا هنا. بدلاً من التنبؤ بنتائج الصورة الكاملة، يستخدم DiffSkill VAE للتنبؤ بنتيجة الفضاء الكامن للخطوات الوسيطة نحو الهدف النهائي.
إن الجمع بين المهارات المجردة وتمثيلات الفضاء الكامن يجعل الأمر أكثر كفاءة من الناحية الحسابية لرسم مسار من الحالة الأولية إلى الهدف.
في الواقع، لم يحتاج الباحثون إلى تحسين وظيفة البحث واستخدموا بحثًا شاملاً لجميع المجموعات.
قال لين: “الحساب ليس كثيرًا لأننا نخطط عبر المهارات والأفق ليس طويلًا جدًا”.
“يلغي هذا البحث الشامل الحاجة إلى تصميم رسم تخطيطي للمخطط وقد يؤدي إلى حلول جديدة لم يأخذها المصمم في الاعتبار بطريقة أكثر عمومية، على الرغم من أننا لم نلاحظ ذلك في المهام المحدودة التي جربناها.
علاوة على ذلك، يمكن أيضًا تطبيق تقنيات بحث أكثر تطورًا “
وفقًا لورقة DiffSkill، “يمكن إجراء التحسين بكفاءة في حوالي 10 ثوانٍ لكل مجموعة مهارات على وحدة معالجة رسومات NVIDIA 2080Ti واحدة.”
تحضير عجينة البيتزا باستخدام DiffSkill

اختبر الباحثون أداء DiffSkill مقابل العديد من الأساليب الأساسية التي تم تطبيقها على الكائنات القابلة للتشوه، بما في ذلك خوارزميات التعلم المعزز الخالي من النماذج ومحسن المسار الذي يستخدم فقط محاكي الفيزياء.
تم اختبار النماذج على عدة مهام تتطلب خطوات وأدوات متعددة. على سبيل المثال، في إحدى المهام، يجب على وكيل الذكاء الاصطناعي رفع العجين بملعقة، ووضعها على لوح تقطيع، ونشرها باستخدام بكرة.
تظهر النتائج أن DiffSkill أفضل بكثير من التقنيات الأخرى في حل المهام طويلة المدى، متعددة الأدوات باستخدام المعلومات الحسية فقط.
تظهر التجارب أنه عندما يتم تدريبه جيدًا، يمكن لمخطط DiffSkill العثور على حالات وسيطة جيدة بين الحالات الأولية وحالات الهدف وإيجاد تسلسل لائق من المهارات لحل المهام.

يمكن لمخطط DiffSkill التنبؤ بالخطوات الوسيطة بدقة مذهلة.
قال لين: “إحدى الوجبات الجاهزة هي أن مجموعة من المهارات يمكن أن توفر تجريدًا زمنيًا مهمًا للغاية، مما يسمح لنا بالتفكير في أفق طويل”.
“هذا أيضًا مشابه لكيفية تعامل الإنسان مع المهام المختلفة: التفكير في تجريدات زمنية مختلفة بدلاً من التفكير فيما يجب فعله في كل ثانية تالية.”
ومع ذلك، هناك أيضًا حدود لقدرة DiffSkill. على سبيل المثال، عند أداء إحدى المهام التي تتطلب تخطيطًا ثلاثي المراحل، يتدهور أداء DiffSkill بشكل كبير (على الرغم من أنه لا يزال أفضل من التقنيات الأخرى).
ذكر لين أيضًا أنه في بعض الحالات، ينتج عن متنبئ الجدوى إيجابيات خاطئة. يعتقد الباحثون أن تعلم مساحة كامنة أفضل يمكن أن يساعد في حل هذه المشكلة.
يستكشف الباحثون أيضًا اتجاهات أخرى لتحسين DiffSkill، بما في ذلك خوارزمية مخطط أكثر كفاءة يمكن استخدامها لمهام الأفق الأطول.
يأمل لين أن يتمكن يومًا ما من استخدام DiffSkill على روبوتات حقيقية لصنع البيتزا. “ما زلنا بعيدين عن هذا. تظهر تحديات مختلفة من التحكم ونقل sim2real والأمان. لكننا الآن أكثر ثقة في تجربة بعض المهام بعيدة المدى.
المصدر: thenextweb
قد يهمك: