تعمل تقنية جديدة لي التعلم الآلي على تعزيز قدرة النماذج على تقليل التحيز

تعمل تقنية جديدة على تعزيز قدرة النماذج على تقليل التحيز، حتى إذا كانت مجموعة البيانات المستخدمة لتدريب النموذج غير متوازنة.

إذا تم تدريب نموذج التعلم الآلي باستخدام مجموعة بيانات غير متوازنة، مثل تلك التي تحتوي على صور أكثر بكثير لأشخاص ذوي بشرة أفتح من الأشخاص ذوي البشرة الداكنة، فهناك مخاطرة كبيرة في أن تكون تنبؤات النموذج غير عادلة عند نشرها في العالم الحقيقي.

لكن هذا ليس سوى جزء واحد من المشكلة. وجد علماء معهد ماساتشوستس للتكنولوجيا أن نماذج التعلم الآلي الشائعة لمهام التعرف على الصور تشفر في الواقع التحيز عند تدريبها على بيانات غير متوازنة. 

من المستحيل إصلاح هذا التحيز داخل النموذج لاحقًا، حتى مع أحدث تقنيات تعزيز الإنصاف، وحتى عند إعادة تدريب النموذج باستخدام مجموعة بيانات متوازنة.

لذلك، توصل الباحثون إلى تقنية لإدخال الإنصاف مباشرةً في التمثيل الداخلي للنموذج نفسه. 

يمكّن هذا النموذج من إنتاج مخرجات عادلة حتى لو تم تدريبه على بيانات غير عادلة، وهو أمر مهم بشكل خاص نظرًا لوجود عدد قليل جدًا من مجموعات البيانات المتوازنة للتعلم الآلي.

لا يؤدي الحل الذي طوروه إلى نماذج تقدم تنبؤات أكثر توازناً فحسب، بل يؤدي أيضًا إلى تحسين أدائها في المهام النهائية مثل التعرف على الوجه وتصنيف أنواع الحيوانات.

تعزيز قدرة النماذج على تقليل التحيز

وجد باحثو معهد ماساتشوستس للتكنولوجيا أنه إذا تم تدريب نوع معين من نماذج التعلم الآلي باستخدام مجموعة بيانات غير متوازنة، فإن التحيز الذي يتعلمه من المستحيل إصلاحه بعد الحقيقة. 

لقد طوروا تقنية تؤدي إلى الإنصاف مباشرة في النموذج، بغض النظر عن مدى عدم توازن مجموعة بيانات التدريب، والتي يمكن أن تعزز أداء النموذج في المهام النهائية. الائتمان: جوزيه لويس أوليفاريس ، معهد ماساتشوستس للتكنولوجيا

“في التعلم الآلي، من الشائع إلقاء اللوم على البيانات في التحيز في النماذج. لكن ليس لدينا دائمًا بيانات متوازنة. 

لذا، نحن بحاجة إلى ابتكار طرق تعمل بالفعل على حل مشكلة البيانات غير المتوازنة، “كما تقول المؤلفة الرئيسية ناتالي دولرود ، طالبة دراسات عليا في مجموعة Healthy ML في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) في معهد ماساتشوستس للتكنولوجيا.

المؤلفون المشاركون في Dullerud هم كيميا حميدية، طالبة دراسات عليا في مجموعة Healthy ML. كارستن روث، باحث زائر سابق وهو الآن طالب دراسات عليا في جامعة توبنغن. 

نيكولا بابيرنو ، الأستاذ المساعد في قسم الهندسة الكهربائية وعلوم الكمبيوتر بجامعة تورنتو؛ وكبيرة المؤلفين مرزيه قاسمي، الأستاذة المساعدة ورئيسة مجموعة Healthy ML Group. سيتم تقديم البحث في المؤتمر الدولي لتمثيل التعلم.

تحديد الإنصاف

تُعرف تقنية التعلم الآلي التي درسها الباحثون باسم التعلم المتري العميق، وهو شكل واسع من أشكال التعلم التمثيلي. 

في التعلم المتري العميق، تتعلم الشبكة العصبية التشابه بين الكائنات عن طريق تعيين صور متشابهة قريبة من بعضها وصور مختلفة متباعدة. 

أثناء الالتدريب،قوم هذه الشبكة العصبية بتعيين الصور في “مساحة التضمين” حيث يتوافق مقياس التشابه بين الصور مع المسافة بينهما.

على سبيل المثال، إذا تم استخدام نموذج التعلم المتري العميق لتصنيف أنواع الطيور، فسوف يقوم بتعيين صور العصافير الذهبية معًا في جزء واحد من مساحة التضمين والكرادلة معًا في جزء آخر من مساحة التضمين. 

بمجرد التدريب، يمكن للنموذج أن يقيس بشكل فعال تشابه الصور الجديدة التي لم يرها من قبل. 

سوف يتعلم تجميع صور أنواع الطيور غير المرئية بالقرب من بعضها البعض، ولكن بعيدًا عن الكرادلة أو العصافير الذهبية داخل مساحة التضمين.

تعزيز قدرة النماذج على تقليل التحيز

تُظهر هذه الصورة اثنين من مراسم الزفاف المتميزة للون الطيور. على اليسار، تم تعيين كلا الصورتين المثاليتين على مجموعات بها طيور من نفس الريش. 

على اليمين في تضمين ملصق الفصل، بسبب فك الارتباط، يتم فصل الصور عن منطقة الفضاء مع طيور أخرى من نفس الريش، ولكنها لا تزال متجمعة جيدًا، مما يشير إلى أن PARADE يمكن أن تجد سمات أخرى لتمييز هذه الأنواع عناقيد المجموعات. الائتمان: بإذن من الباحثين

يقول دولرود إن مقاييس التشابه التي يتعلمها النموذج قوية للغاية، ولهذا السبب غالبًا ما يتم استخدام التعلم المتري العميق للتعرف على الوجه. لكنها تساءلت هي وزملاؤها عن كيفية تحديد ما إذا كان مقياس التشابه متحيزًا.

“نحن نعلم أن البيانات تعكس تحيزات العمليات في المجتمع. وهذا يعني أنه يتعين علينا تحويل تركيزنا إلى تصميم الأساليب الأكثر ملاءمة للواقع “، كما يقول قاسمي.

حدد الباحثون طريقتين يمكن أن يكون مقياس التشابه غير عادل. باستخدام مثال التعرف على الوجه، سيكون المقياس غير عادل إذا كان من المرجح أن يتضمن الأفراد ذوي البشرة الداكنة أقرب إلى بعضهم البعض، حتى لو لم يكونوا نفس الشخص، مما لو كانت تلك الصور لأشخاص ذوي لون أفتح- وجوه بشرة. 

ثانيًا، سيكون غير عادل إذا كانت الميزات التي يتعلمها لقياس التشابه أفضل لمجموعة الأغلبية منها لمجموعة الأقلية.

أجرى الباحثون عددًا من التجارب على نماذج ذات مقاييس تشابه غير عادلة ولم يتمكنوا من التغلب على التحيز الذي تعلمه النموذج في مساحة التضمين الخاصة به.

“هذا مخيف جدًا لأنه ممارسة شائعة جدًا للشركات لإصدار نماذج التضمين هذه ومن ثم يقوم الأشخاص بصقلها لبعض مهام التصنيف النهائية. 

ولكن بغض النظر عما تفعله في اتجاه مجرى النهر، لا يمكنك ببساطة إصلاح مشكلات الإنصاف التي تم إحداثها في مساحة التضمين، “كما يقول دولرود.

وتقول إنه حتى إذا أعاد المستخدم تدريب النموذج على مجموعة بيانات متوازنة للمهمة النهائية، وهو السيناريو الأفضل لإصلاح مشكلة الإنصاف، فلا تزال هناك فجوات في الأداء بنسبة 20 في المائة على الأقل.

الطريقة الوحيدة لحل هذه المشكلة هي التأكد من أن مساحة التضمين عادلة في البداية.

تعلم مقاييس منفصلة

يتضمن حل الباحثين، المسمى Partial Attribute Decorrelation (PARADE)، تدريب النموذج على تعلم مقياس تشابه منفصل لسمة حساسة، مثل لون البشرة، ثم ربط مقياس تشابه لون البشرة من مقياس التشابه المستهدف. 

إذا كان النموذج يتعلم مقاييس التشابه لوجوه بشرية مختلفة، فسوف يتعلم تعيين وجوه متشابهة قريبة من بعضها البعض ووجوه مختلفة متباعدة باستخدام ميزات أخرى غير لون البشرة.

يمكن ربط أي عدد من السمات الحساسة من مقياس التشابه المستهدف بهذه الطريقة. 

ونظرًا لأن مقياس التشابه للسمة الحساسة يتم تعلمه في مساحة تضمين منفصلة، يتم تجاهله بعد التدريب، لذلك يبقى مقياس التشابه المستهدف فقط في النموذج.

طريقتهم قابلة للتطبيق على العديد من المواقف لأن المستخدم يمكنه التحكم في مقدار العلاقة بين مقاييس التشابه. 

على سبيل المثال، إذا كان النموذج سيشخص سرطان الثدي من صور التصوير الشعاعي للثدي، فمن المحتمل أن يرغب الطبيب في بقاء بعض المعلومات حول الجنس البيولوجي في مساحة التضمين النهائية لأنه من المرجح أن تصاب النساء بسرطان الثدي أكثر من الرجال، كما يوضح دولرود.

اختبروا طريقتهم في مهمتين، التعرف على الوجه وتصنيف أنواع الطيور، ووجدوا أنها قللت من فجوات الأداء الناتجة عن التحيز، سواء في مساحة التضمين أو في مهمة المصب، بغض النظر عن مجموعة البيانات التي استخدموها.

من الآن فصاعدًا، Dullerud مهتم بدراسة كيفية فرض نموذج تعلم متري عميق لتعلم ميزات جيدة في المقام الأول.

“كيف تدقيق الإنصاف بشكل صحيح؟ هذا سؤال مفتوح الآن. كيف يمكنك معرفة أن النموذج سيكون عادلاً، أو أنه سيكون عادلاً فقط في مواقف معينة، وما هي تلك المواقف؟ هذه أسئلة أنا مهتم حقًا بالمضي قدمًا بها.

إدخال الإنصاف في الذكاء الاصطناعي: نماذج التعلم الآلي التي تنتج مخرجات عادلة حتى عندما يتم تدريبها على بيانات غير عادلة

المصدر: scitechdaily

قد يهمك:

شركة SEO

خطوات إنشاء حساب Exness

فتح قناة على تيليجرام

زيادة متابعين تيك توك

قالب ووردبريس Profession للسيرة الذاتية

أنت تستخدم إضافة Adblock

يعتمد موقع انشاء على الاعلانات كمصدر لدعم الموقع، يجب عليك ايقاف تشغيل حاجب الاعلانات لمشاهدة المحتوي