كيف يقوم باحثو معهد ماساتشوستس للتكنولوجيا بسد الفجوة بين رؤية الإنسان والآلة

اكتشف باحثو معهد ماساتشوستس للتكنولوجيا أن تدريب نماذج الرؤية الحاسوبية باستخدام التدريب العدائي يمكن أن يحسن استقامتها الإدراكية، مما يجعلها أكثر تشابهًا مع المعالجة البصرية للإنسان.
يمكّن الاستقامة الإدراكي النماذج من التنبؤ بشكل أفضل بحركات الأجسام، مما يحتمل أن يحسن من سلامة المركبات المستقلة.
تعتبر النماذج المدربة بشكل خصام أكثر قوة، حيث تحتفظ بتمثيل ثابت للأشياء على الرغم من التغييرات الطفيفة في الصور.
يهدف الباحثون إلى استخدام النتائج التي توصلوا إليها لإنشاء مخططات تدريب جديدة ومواصلة التحقيق في سبب مساعدة التدريب العدائي في محاكاة النماذج البشرية.
يحدد الباحثون خاصية تساعد نماذج الرؤية الحاسوبية على تعلم تمثيل العالم المرئي بطريقة أكثر استقرارًا ويمكن التنبؤ بها.
وجد باحثو معهد ماساتشوستس للتكنولوجيا أن التدريب العدائي يحسن الاستقامة الإدراكية في نماذج رؤية الكمبيوتر، مما يجعلها أكثر تشابهًا مع المعالجة البصرية للإنسان وتمكين التنبؤ بشكل أفضل بحركات الأشياء.
إعلان
تخيل أنك جالس على مقعد في الحديقة، وأنت تشاهد شخصًا يمشي بجواره.
بينما قد يتغير المشهد باستمرار بينما يمشي الشخص، يمكن للدماغ البشري تحويل هذه المعلومات المرئية الديناميكية إلى تمثيل أكثر استقرارًا بمرور الوقت.
تساعدنا هذه القدرة، المعروفة باسم التقويم الحسي، على التنبؤ بمسار الشخص الذي يمشي.
على عكس البشر، لا تُظهر نماذج الرؤية الحاسوبية عادةً استقامة الإدراك الحسي، لذا فهم يتعلمون تمثيل المعلومات المرئية بطريقة غير متوقعة إلى حد كبير.
ولكن إذا كانت نماذج التعلم الآلي تتمتع بهذه القدرة، فقد تمكنها من تقدير كيفية تحرك الأشياء أو الأشخاص بشكل أفضل.
اكتشف باحثو معهد ماساتشوستس للتكنولوجيا أن طريقة تدريب محددة يمكن أن تساعد نماذج الرؤية الحاسوبية في تعلم المزيد من التمثيلات المستقيمة الإدراكية، كما يفعل البشر.
يتضمن التدريب عرض ملايين الأمثلة على نموذج التعلم الآلي حتى يتمكن من تعلم مهمة ما.
وجد الباحثون أن تدريب نماذج الرؤية الحاسوبية باستخدام تقنية تسمى التدريب العدائي، مما يجعلها أقل تفاعلًا مع الأخطاء الصغيرة المضافة إلى الصور، يحسن الاستقامة الإدراكية للنماذج.
اكتشف باحثو معهد ماساتشوستس للتكنولوجيا أن تقنية تدريب محددة يمكن أن تمكن أنواعًا معينة من نماذج الرؤية الحاسوبية لتعلم تمثيلات بصرية أكثر استقرارًا ويمكن التنبؤ بها، والتي تشبه إلى حد كبير أولئك البشر الذين يتعلمون باستخدام خاصية بيولوجية تعرف باسم التقويم الإدراكي. الائتمان: أخبار معهد ماساتشوستس للتكنولوجيا مع iStock
اكتشف الفريق أيضًا أن الاستقامة الإدراكية تتأثر بالمهمة التي يدرب المرء نموذجًا على أدائها.
تتعلم النماذج المدربة على أداء مهام مجردة، مثل تصنيف الصور، تمثيلات مستقيمة بشكل إدراكي أكثر من تلك المدربة على أداء مهام أكثر دقة، مثل تخصيص كل بكسل في صورة لفئة.
على سبيل المثال، تحتوي العقد داخل النموذج على عمليات تنشيط داخلية تمثل “كلب”، والتي تسمح للنموذج باكتشاف الكلب عندما يرى أي صورة لكلب.
التمثيلات المستقيمة من الناحية الإدراكية تحتفظ بتمثيل “كلب” أكثر ثباتًا عندما تكون هناك تغييرات صغيرة في الصورة. هذا يجعلها أكثر قوة.
من خلال اكتساب فهم أفضل للاستقامة الإدراكية في رؤية الكمبيوتر، يأمل الباحثون في الكشف عن رؤى يمكن أن تساعدهم في تطوير نماذج تقدم تنبؤات أكثر دقة.
على سبيل المثال، قد تعمل هذه الخاصية على تحسين سلامة المركبات المستقلة التي تستخدم نماذج رؤية الكمبيوتر للتنبؤ بمسارات المشاة وراكبي الدراجات والمركبات الأخرى.
يقول Vasha DuTell: “إحدى الرسائل التي يتم أخذها إلى المنزل هنا هي أن أخذ الإلهام من الأنظمة البيولوجية، مثل الرؤية البشرية، يمكن أن يمنحك نظرة ثاقبة حول سبب عمل بعض الأشياء بالطريقة التي تعمل بها وكذلك إلهام الأفكار لتحسين الشبكات العصبية”.
، وهو باحث ما بعد الدكتوراة في معهد ماساتشوستس للتكنولوجيا ومؤلف مشارك لورقة بحثية تستكشف الاستقامة الإدراكية في رؤية الكمبيوتر.
انضم إلى DuTell في الورقة المؤلف الرئيسي آن هارينجتون ، طالبة دراسات عليا في قسم الهندسة الكهربائية وعلوم الكمبيوتر (EECS)؛ عيوش تيواري ، باحث ما بعد الدكتوراة؛ مارك هاملتون، طالب دراسات عليا؛ سايمون ستينت ، مدير الأبحاث في Woven Planet ؛ روث روزنهولتز ، عالمة الأبحاث الرئيسية في قسم الدماغ والعلوم المعرفية وعضو في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL)؛ وكبير المؤلفين ويليام تي فريمان، أستاذ توماس وجيرد بيركنز للهندسة الكهربائية وعلوم الكمبيوتر وعضو CSAIL. يتم تقديم البحث في المؤتمر الدولي لتمثيل التعلم.
دراسة الاستقامة
بعد قراءة ورقة بحثية عام 2019 من فريق من باحثي جامعة نيويورك حول الاستقامة الإدراكية لدى البشر، تساءل DuTell و Harrington وزملاؤهم عما إذا كانت هذه الخاصية قد تكون مفيدة في نماذج الرؤية الحاسوبية أيضًا.
شرعوا في تحديد ما إذا كانت الأنواع المختلفة من نماذج الرؤية الحاسوبية تصحح التمثيلات المرئية التي يتعلمونها.
قاموا بتغذية كل إطارات نموذجية للفيديو ثم قاموا بفحص التمثيل في مراحل مختلفة من عملية التعلم الخاصة به.
إذا تغير تمثيل النموذج بطريقة يمكن التنبؤ بها عبر إطارات الفيديو، فإن هذا النموذج يتم تقويمه. في النهاية، يجب أن يكون تمثيل المخرجات أكثر استقرارًا من تمثيل المدخلات.
“يمكنك التفكير في التمثيل على أنه خط يبدأ بشكل متعرج حقًا. يشرح DuTell أن النموذج الذي يتم تقويمه يمكن أن يأخذ هذا الخط المتعرج من الفيديو ويصقله من خلال خطوات المعالجة الخاصة به.
معظم النماذج التي قاموا باختبارها لم يتم تقويمها. من بين القلة التي فعلت ذلك، تم تدريب أولئك الذين تم تقويمهم بشكل أكثر فاعلية على مهام التصنيف باستخدام التقنية المعروفة باسم التدريب العدائي.
يتضمن التدريب على الخصومة تعديل الصور بمهارة عن طريق تغيير كل بكسل بشكل طفيف.
على الرغم من أن الإنسان لن يلاحظ الاختلاف، إلا أن هذه التغييرات الطفيفة يمكن أن تخدع آلة لذلك فهي تصنف الصورة بشكل خاطئ. يجعل التدريب العدائي النموذج أكثر قوة، لذلك لن يتم خداعة من خلال هذه التلاعبات.
يوضح هارينغتون أن التدريب العدائي يعلم النموذج أن يكون أقل تفاعلًا مع التغييرات الطفيفة في الصور، وهذا يساعده على تعلم تمثيل أكثر قابلية للتنبؤ بمرور الوقت.
تقول: “كان لدى الناس بالفعل فكرة أن التدريب على الخصومة قد يساعدك في جعل نموذجك أكثر شبهاً بالإنسان، وكان من المثير للاهتمام أن ترى ذلك ينتقل إلى خاصية أخرى لم يختبرها الناس من قبل”.
لكن الباحثين وجدوا أن النماذج المدربة على الخصوم لا تتعلم التقويم إلا عندما يتم تدريبها على مهام واسعة، مثل تصنيف الصور بأكملها إلى فئات.
النماذج المكلفة بالتقسيم – تسمية كل بكسل في صورة ما كفئة معينة – لم يتم تقويمها، حتى عندما تم تدريبهم على الخصوم.
تصنيف متسق
اختبر الباحثون نماذج تصنيف الصور هذه من خلال عرض مقاطع فيديو عليها. وجدوا أن النماذج التي تعلمت تمثيلات أكثر استقامة من الناحية الإدراكية تميل إلى تصنيف الكائنات بشكل صحيح في مقاطع الفيديو بشكل أكثر اتساقًا.
يقول DuTell: “بالنسبة لي، من المدهش أن هذه النماذج المدربة على الخصوم، والتي لم تشاهد مقطع فيديو من قبل ولم يتم تدريبها أبدًا على البيانات الزمنية، لا تزال تُظهر قدرًا من التقويم”.
لا يعرف الباحثون بالضبط ما الذي يمكّن عملية التدريب العدائي لنموذج رؤية الكمبيوتر من تقويمه، لكن نتائجهم تشير إلى أن مخططات التدريب الأقوى تجعل النماذج تستقيم أكثر، كما توضح.
بناءً على هذا العمل، يريد الباحثون استخدام ما تعلموه لإنشاء مخططات تدريب جديدة من شأنها أن تعطي نموذجًا هذه الخاصية بشكل صريح.
يريدون أيضًا التعمق في التدريب العدائي لفهم سبب مساعدة هذه العملية في تقويم النموذج.
“من وجهة نظر بيولوجية، التدريب العدائي ليس بالضرورة منطقيًا. إنها ليست الطريقة التي يفهم بها البشر العالم.
لا يزال هناك الكثير من الأسئلة حول لماذا يبدو أن عملية التدريب هذه تساعد النماذج على التصرف أكثر مثل البشر، “يقول هارينجتون.
يقول بيل لوتر، الأستاذ المساعد في معهد دانا فاربر للسرطان وكلية الطب بجامعة هارفارد، والذي لم يشارك في هذا البحث: “إن فهم التمثيلات التي تعلمتها الشبكات العصبية العميقة أمر بالغ الأهمية لتحسين الخصائص مثل المتانة والتعميم”.
“هارينغتون وآخرون. إجراء تقييم شامل لكيفية تغير تمثيلات نماذج الرؤية الحاسوبية بمرور الوقت عند معالجة مقاطع الفيديو الطبيعية، موضحًا أن انحناء هذه المسارات يختلف اختلافًا كبيرًا اعتمادًا على بنية النموذج وخصائص التدريب والمهمة. يمكن أن تساعد هذه النتائج في تطوير نماذج محسنة، كما تقدم رؤى حول المعالجة البصرية البيولوجية “.
“تؤكد الورقة أن استقامة مقاطع الفيديو الطبيعية هي خاصية فريدة إلى حد ما يعرضها النظام البصري البشري.
لا تعرضه سوى الشبكات المدربة على الخصوم، مما يوفر ارتباطًا مثيرًا للاهتمام مع توقيع آخر للإدراك البشري: قوته في تحولات الصور المختلفة، سواء كانت طبيعية أو اصطناعية، كما يقول أوليفييه هناف، عالم أبحاث في DeepMind ، والذي لم يشارك في هذا البحث.
“حتى أن نماذج تجزئة المشهد المدربة على الخصوم لا تصحح مدخلاتها تثير أسئلة مهمة للعمل المستقبلي: هل يحلل البشر المشاهد الطبيعية بنفس طريقة نماذج الرؤية الحاسوبية؟ كيف تُمثل وتتنبأ بمسارات الأجسام المتحركة بينما تظل حساسة لتفاصيلها المكانية؟ في ربط فرضية التقويم بالجوانب الأخرى للسلوك البصري،
المصدر: scitechdaily
شاهد المزيد: