تفريغ نماذج الصندوق الأسود: إطار ExSum الرياضي لتقييم تفسيرات نماذج التعلم الآلي

ينشئ باحثو معهد ماساتشوستس للتكنولوجيا إطارًا رياضيًا لتقييم تفسيرات نماذج التعلم الآلي وتحديد مدى فهم الناس لها.
غالبًا ما يشار إلى نماذج التعلم الآلي الحديثة، مثل الشبكات العصبية، باسم “الصناديق السوداء” لأنها معقدة للغاية لدرجة أنه حتى الأشخاص الذين يصممونها لا يمكنهم فهم كيفية عمل التنبؤات بشكل كامل.
لتقديم بعض الأفكار، يستخدم العلماء طرق التفسير التي تسعى إلى وصف القرارات النموذجية الفردية.
قد يقومون، على سبيل المثال، بتسليط الضوء على الكلمات في مراجعة الفيلم التي أثرت على حكم النموذج بأن المراجعة كانت مواتية.
لكن طرق التفسير هذه لا تفيد أي شيء إذا كان البشر لا يستطيعون فهمها بسهولة، وقد يكون الأمر أسوأ عندما يسيء الناس فهمها.
لذلك، أنشأ باحثو معهد ماساتشوستس للتكنولوجيا إطارًا رياضيًا لتقدير وتقييم قابلية فهم التفسيرات لنماذج التعلم الآلي بشكل رسمي.
يمكن أن يساعد ذلك في تحديد الرؤى حول سلوك النموذج التي قد يتم تفويتها إذا كان الباحث يقوم فقط بتقييم عدد قليل من التفسيرات الفردية لمحاولة فهم النموذج بأكمله.
“مع هذا الإطار، يمكننا الحصول على صورة واضحة جدًا ليس فقط لما نعرفه عن النموذج من هذه التفسيرات المحلية، ولكن الأهم من ذلك ما لا نعرفه عنه”، كما يقول ييلون زو ، خريج الهندسة الكهربائية وعلوم الكمبيوتر طالب في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) والمؤلف الرئيسي لورقة بحثية تقدم هذا الإطار.
من بين المؤلفين المشاركين لـ Zhou ماركو توليو ريبيرو ، باحث أول في Microsoft Research ، وكبيرة المؤلف جولي شاه، أستاذة الطيران والملاحة الفضائية ومديرة مجموعة الروبوتات التفاعلية في CSAIL.
سيتم تقديم البحث في مؤتمر فرع أمريكا الشمالية لجمعية اللغويات الحاسوبية.
فهم التفسيرات المحلية
تتمثل إحدى طرق فهم نموذج التعلم الآلي في العثور على نموذج آخر يحاكي تنبؤاته ولكنه يستخدم أنماط تفكير شفافة. ومع ذلك، فإن نماذج الشبكة العصبية الحديثة معقدة للغاية لدرجة أن هذه التقنية تفشل عادة.
بدلاً من ذلك، يلجأ الباحثون إلى استخدام التفسيرات المحلية التي تركز على المدخلات الفردية. غالبًا ما تُبرز هذه التفسيرات الكلمات الموجودة في النص للإشارة إلى أهميتها لتنبؤ واحد تم إجراؤه بواسطة النموذج.

يستخدم الباحثون طرق التفسير المحلية لمحاولة فهم كيفية اتخاذ نماذج التعلم الآلي للقرارات. حتى لو كانت هذه التفسيرات صحيحة، فإنها لا تفيد أي شيء إذا لم يستطع البشر فهم ما تعنيه.
طور باحثو معهد ماساتشوستس للتكنولوجيا الآن إطارًا رياضيًا لتقدير وتقييم قابلية فهم التفسير. الائتمان: بإذن من الباحثين
ضمنيًا، يقوم الناس بعد ذلك بتعميم هذه التفسيرات المحلية على سلوك النموذج العام. قد يرى شخص ما أن طريقة تفسير محلية أبرزت كلمات إيجابية (مثل “لا تنسى” أو “لا تشوبه شائبة” أو “ساحرة”) باعتبارها الأكثر تأثيرًا عندما قرر النموذج أن مراجعة الفيلم لها مشاعر إيجابية.
من المحتمل بعد ذلك أن يفترضوا أن جميع الكلمات الإيجابية تقدم مساهمات إيجابية لتوقعات النموذج، ولكن قد لا يكون هذا هو الحال دائمًا، كما يقول تشو.
طور الباحثون إطارًا، يُعرف باسم ExSum (اختصارًا لملخص الشرح)، يضفي الطابع الرسمي على هذه الأنواع من المطالبات في قواعد يمكن اختبارها باستخدام المقاييس القابلة للقياس الكمي.
يقوم ExSum بتقييم قاعدة على مجموعة بيانات كاملة، بدلاً من مجرد مثيل واحد تم إنشاؤه من أجله.
باستخدام واجهة مستخدم رسومية، يكتب الفرد قواعد يمكن تعديلها بعد ذلك وضبطها وتقييمها. على سبيل المثال، عند دراسة نموذج يتعلم تصنيف مراجعات الأفلام على أنها إيجابية أو سلبية، يمكن للمرء أن يكتب قاعدة تقول “كلمات النفي لها أهمية سلبية”، مما يعني أن كلمات مثل “لا” و “لا” و “لا شيء” تساهم بشكل سلبي في الشعور بمراجعات الأفلام.
باستخدام ExSum ، يمكن للمستخدم معرفة ما إذا كانت هذه القاعدة صامدة باستخدام ثلاثة مقاييس محددة: التغطية والصلاحية والحدة.
تقيس التغطية مدى تطبيق القاعدة على نطاق واسع عبر مجموعة البيانات بأكملها.
تبرز الصلاحية النسبة المئوية للأمثلة الفردية التي تتفق مع القاعدة. الحدة تصف مدى دقة القاعدة؛ يمكن أن تكون القاعدة الصالحة للغاية عامة لدرجة أنها لا تفيد في فهم النموذج.
افتراضات الاختبار
إذا كان الباحث يسعى إلى فهم أعمق لكيفية تصرف نموذجها، فيمكنه استخدام ExSum لاختبار افتراضات محددة، كما تقول تشو.
إذا اشتبهت في أن نموذجها تمييزي من حيث الجنس، فيمكنها وضع قواعد للقول بأن ضمائر الذكور لها مساهمة إيجابية وأن ضمائر الإناث لها مساهمة سلبية. إذا كانت هذه القواعد ذات صلاحية عالية، فهذا يعني أنها صحيحة بشكل عام ومن المحتمل أن يكون النموذج متحيزًا.
يمكن أن يكشف ExSum أيضًا عن معلومات غير متوقعة حول سلوك النموذج. على سبيل المثال، عند تقييم مصنف مراجعة الفيلم، تفاجأ الباحثون عندما اكتشفوا أن الكلمات السلبية تميل إلى أن يكون لها مساهمات أكثر حدة في قرارات النموذج أكثر من الكلمات الإيجابية. يوضح تشو أن هذا قد يكون بسبب محاولة الكتاب المراجعين أن يكونوا مهذبين وأقل فظاظة عند انتقاد الفيلم.
“لتأكيد فهمك حقًا، تحتاج إلى تقييم هذه الادعاءات بشكل أكثر صرامة في كثير من الحالات. هذا النوع من الفهم على هذا المستوى الدقيق، على حد علمنا، لم يتم الكشف عنه في الأعمال السابقة، كما يقول.
كان الانتقال من التفسيرات المحلية إلى الفهم العالمي فجوة كبيرة في الأدبيات. يُعد ExSum خطوة أولى جيدة في سد هذه الفجوة “، يضيف ريبيرو.
توسيع الإطار
في المستقبل، يأمل Zhou في البناء على هذا العمل من خلال توسيع مفهوم الفهم إلى معايير أخرى وأشكال التفسير، مثل التفسيرات المضادة للواقع (التي تشير إلى كيفية تعديل المدخلات لتغيير التنبؤ النموذجي). في الوقت الحالي، ركزوا على طرق إحالة الميزات، التي تصف الميزات الفردية التي يستخدمها النموذج لاتخاذ قرار (مثل الكلمات في مراجعة فيلم).
بالإضافة إلى ذلك، فهو يريد زيادة تحسين الإطار وواجهة المستخدم حتى يتمكن الأشخاص من إنشاء القواعد بشكل أسرع. يمكن أن تتطلب قواعد الكتابة ساعات من المشاركة البشرية – ومستوى معين من المشاركة البشرية أمر بالغ الأهمية لأن البشر يجب أن يكونوا قادرين في النهاية على فهم التفسيرات – لكن مساعدة الذكاء الاصطناعي يمكن أن تبسط العملية.
بينما كان يتأمل مستقبل ExSum ، يأمل Zhou في أن يسلط عملهم الضوء على الحاجة إلى تغيير الطريقة التي يفكر بها الباحثون في تفسيرات نماذج التعلم الآلي.
قبل هذا العمل، إذا كان لديك تفسير محلي صحيح، فقد انتهيت. لقد حققت الكأس المقدسة في شرح نموذجك. نقترح هذا البعد الإضافي للتأكد من أن هذه التفسيرات مفهومة. يجب أن يكون الفهم مقياسًا آخر لتقييم تفسيراتنا “، كما يقول تشو.
المصدر: scitechdaily
شاهد ايضا: