عندما يلعب الذكاء الاصطناعي دور الحكم: الخطورة غير المقصودة لنماذج التعلم الآلي

غالبًا ما تصدر نماذج التعلم الآلي المصممة لتقليد صنع القرار البشري أحكامًا مختلفة وأحيانًا أقسى من البشر بسبب التدريب على النوع الخاطئ من البيانات، وفقًا لباحثين من معهد ماساتشوستس للتكنولوجيا ومؤسسات أخرى.
البيانات “الصحيحة” لتدريب هذه النماذج هي بيانات معيارية، يتم تصنيفها من قبل البشر الذين سُئلوا صراحة عما إذا كانت العناصر تتحدى قاعدة معينة.
ومع ذلك، يتم تدريب معظم النماذج على البيانات الوصفية، حيث يحدد البشر الميزات الواقعية بدلاً من ذلك.
عندما يتم تدريب النماذج على البيانات الوصفية للحكم على انتهاكات القواعد، فإنها تميل إلى المبالغة في التنبؤ بهذه الانتهاكات، مما قد يؤدي إلى تداعيات خطيرة في العالم الحقيقي.
وجد الباحثون أن النماذج المدربة باستخدام تقنيات جمع البيانات الشائعة تحكم على انتهاكات القواعد بشكل أكثر قسوة مما يفعل البشر.
غالبًا ما تصدر نماذج التعلم الآلي أحكامًا أقسى من البشر بسبب التدريب على نوع خاطئ من البيانات، والذي يمكن أن يكون له آثار خطيرة في العالم الحقيقي، وفقًا لباحثين من معهد ماساتشوستس للتكنولوجيا ومؤسسات أخرى.
في محاولة لتحسين العدالة أو تقليل الأعمال المتراكمة، تُصمم نماذج التعلم الآلي أحيانًا لتقليد صنع القرار البشري، مثل تقرير ما إذا كانت منشورات وسائل التواصل الاجتماعي تنتهك سياسات المحتوى السام.
لكن الباحثين من معهد ماساتشوستس للتكنولوجيا وأماكن أخرى وجدوا أن هذه النماذج غالبًا لا تكرر القرارات البشرية بشأن انتهاكات القواعد.
إذا لم يتم تدريب النماذج بالبيانات الصحيحة، فمن المحتمل أن تصدر أحكامًا مختلفة، وغالبًا ما تكون أقسى من البشر.
في هذه الحالة، البيانات “الصحيحة” هي تلك البيانات التي تم تصنيفها من قبل البشر الذين تم سؤالهم صراحة عما إذا كانت العناصر تتحدى قاعدة معينة.
يتضمن التدريب عرض ملايين من الأمثلة على نموذج التعلم الآلي لهذه “البيانات المعيارية” حتى يتمكن من تعلم مهمة ما.
لكن البيانات المستخدمة لتدريب نماذج التعلم الآلي عادةً ما يتم تصنيفها وصفيًا – مما يعني أنه يُطلب من البشر تحديد الميزات الواقعية، مثل، على سبيل المثال، وجود طعام مقلي في الصورة.
إذا تم استخدام “البيانات الوصفية” لتدريب النماذج التي تحكم على انتهاكات القواعد، مثل ما إذا كانت الوجبة تنتهك سياسة المدرسة التي تحظر الطعام المقلي، فإن النماذج تميل إلى المبالغة في توقع انتهاكات القواعد.
وجد الباحثون أن نماذج التعلم الآلي المُدرَّبة لتقليد صنع القرار البشري غالبًا ما توحي بأحكام أقسى من البشر. وجدوا أن الطريقة التي تم بها جمع البيانات وتسميتها تؤثر على مدى دقة تدريب النموذج للحكم على ما إذا كانت القاعدة قد انتهكت أم لا. الائتمان: أخبار معهد ماساتشوستس للتكنولوجيا مع أرقام من iStock
قد يكون لهذا الانخفاض في الدقة آثار خطيرة في العالم الحقيقي. على سبيل المثال، إذا تم استخدام نموذج وصفي لاتخاذ قرارات حول ما إذا كان من المحتمل أن يعاود الفرد الإساءة، فإن نتائج الباحثين تشير إلى أنه قد يصدر أحكامًا أكثر صرامة من الإنسان، مما قد يؤدي إلى مبالغ كفالة أعلى أو عقوبات جنائية أطول.
“أعتقد أن معظم الباحثين في مجال الذكاء الاصطناعي / التعلم الآلي يفترضون أن الأحكام البشرية في البيانات والتسميات متحيزة، لكن هذه النتيجة تقول شيئًا أسوأ.
لا تقوم هذه النماذج حتى بإعادة إنتاج أحكام بشرية متحيزة بالفعل لأن البيانات التي يتم تدريبهم عليها بها عيب: قد يقوم البشر بتسمية ميزات الصور والنصوص بشكل مختلف إذا كانوا يعرفون أن هذه الميزات ستستخدم في الحكم. يقول مرزيه قاسمي، الأستاذ المساعد ورئيس مجموعة Healthy ML في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL)، إن هذا له تداعيات هائلة على أنظمة التعلم الآلي في العمليات البشرية.
قاسمي هو مؤلف أول لورقة بحثية جديدة تتناول هذه النتائج بالتفصيل، ونُشرت في 10 مايو في مجلة Science Advances .
ينضم إليها في الورقة المؤلف الرئيسي Aparna Balagopalan ، طالبة دراسات عليا في الهندسة الكهربائية وعلوم الكمبيوتر؛ ديفيد مادراس ، طالب دراسات عليا في جامعة تورنتو؛ ديفيد هـ. يانغ، طالب دراسات عليا سابق وهو الآن مؤسس مشارك لـ ML Estimation ؛ ديلان هادفيلد مينيل ، الأستاذ المساعد في معهد ماساتشوستس للتكنولوجيا. وجيليان ك. هادفيلد ، كرسي شوارتز رايزمان في التكنولوجيا والمجتمع وأستاذ القانون في جامعة تورنتو.
تناقض في التسمية
نشأت هذه الدراسة من مشروع مختلف اكتشف كيف يمكن لنموذج التعلم الآلي تبرير تنبؤاته. أثناء جمع البيانات لهذه الدراسة، لاحظ الباحثون أن البشر أحيانًا يقدمون إجابات مختلفة إذا طُلب منهم تقديم تسميات وصفية أو معيارية حول نفس البيانات.
لجمع العلامات الوصفية، يطلب الباحثون من المصنفين تحديد الميزات الواقعية – هل يحتوي هذا النص على لغة بذيئة؟ لجمع الملصقات المعيارية، يعطي الباحثون المصنفين قاعدة ويسألون عما إذا كانت البيانات تنتهك هذه القاعدة – هل ينتهك هذا النص سياسة اللغة الصريحة للمنصة؟
فاجأ الباحثون بهذا الاكتشاف، وأطلقوا دراسة على المستخدم للتعمق أكثر. لقد جمعوا أربع مجموعات بيانات لتقليد سياسات مختلفة، مثل مجموعة بيانات لصور الكلاب التي يمكن أن تنتهك قاعدة الشقة ضد السلالات العدوانية. ثم طلبوا من مجموعات المشاركين تقديم تسميات وصفية أو معيارية.
في كل حالة، طُلب من المصنفين الوصفيين الإشارة إلى ما إذا كانت هناك ثلاث ميزات واقعية موجودة في الصورة أو النص، مثل ما إذا كان الكلب يبدو عدوانيًا.
ثم تم استخدام ردودهم لصياغة الأحكام. (إذا قال أحد المستخدمين إن الصورة تحتوي على كلب عدواني، فإن هذه السياسة قد انتهكت). من ناحية أخرى، تم إعطاء الملصقات المعيارية سياسة تحظر الكلاب العدوانية، ثم سألوا عما إذا كانت كل صورة تنتهكها، ولماذا.
وجد الباحثون أن البشر كانوا أكثر ميلًا إلى تصنيف كائن على أنه انتهاك في الإعداد الوصفي.
تراوح التباين، الذي حسبوه باستخدام الاختلاف المطلق في الملصقات في المتوسط ، من 8 بالمائة في مجموعة بيانات من الصور المستخدمة للحكم على انتهاكات قواعد اللباس إلى 20 بالمائة لصور الكلاب.
“على الرغم من أننا لم نختبر سبب حدوث ذلك بشكل صريح، فإن إحدى الفرضيات هي أنه ربما تختلف طريقة تفكير الناس بشأن انتهاكات القواعد عن طريقة تفكيرهم في البيانات الوصفية.
بشكل عام، تكون القرارات المعيارية أكثر تساهلاً “، كما يقول بالاجوبالان.
ومع ذلك، عادةً ما يتم جمع البيانات باستخدام تسميات وصفية لتدريب نموذج على مهمة معينة للتعلم الآلي. غالبًا ما يتم إعادة توجيه هذه البيانات لاحقًا لتدريب نماذج مختلفة تؤدي أحكامًا معيارية، مثل انتهاكات القواعد.
مشاكل التدريب
لدراسة التأثيرات المحتملة لتغيير الغرض من البيانات الوصفية، قام الباحثون بتدريب نموذجين للحكم على انتهاكات القواعد باستخدام أحد إعدادات البيانات الأربعة الخاصة بهم.
قاموا بتدريب أحد النماذج باستخدام البيانات الوصفية والآخر باستخدام البيانات المعيارية، ثم قارنوا أدائهم.
ووجدوا أنه إذا تم استخدام البيانات الوصفية لتدريب نموذج ما، فسيؤدي ذلك إلى ضعف أداء النموذج المدرب لأداء نفس الأحكام باستخدام البيانات المعيارية.
على وجه التحديد، من المرجح أن يخطئ النموذج الوصفي في تصنيف المدخلات من خلال التنبؤ الخاطئ بانتهاك القواعد. وكانت دقة النموذج الوصفي أقل حتى عند تصنيف الأشياء التي اختلف عليها المصممون البشريون.
“هذا يدل على أن البيانات مهمة حقًا. من المهم مطابقة سياق التدريب مع سياق النشر إذا كنت تقوم بتدريب النماذج لاكتشاف ما إذا كان قد تم انتهاك قاعدة ما، كما يقول بالاغوبالان.
قد يكون من الصعب جدًا على المستخدمين تحديد كيفية جمع البيانات؛ يقول قاسمي إن هذه المعلومات يمكن دفنها في ملحق ورقة بحثية أو عدم الكشف عنها من قبل شركة خاصة.
يُعد تحسين شفافية مجموعة البيانات إحدى الطرق التي يمكن من خلالها التخفيف من حدة هذه المشكلة.
إذا عرف الباحثون كيف تم جمع البيانات، فإنهم يعرفون كيف ينبغي استخدام هذه البيانات. تتمثل الإستراتيجية الأخرى الممكنة في صقل نموذج مدرَّب وصفيًا على كمية صغيرة من البيانات المعيارية.
هذه الفكرة، المعروفة باسم التعلم التحويلي، هي شيء يرغب الباحثون في استكشافه في العمل المستقبلي.
إنهم يريدون أيضًا إجراء دراسة مماثلة مع مصممين خبراء، مثل الأطباء أو المحامين، لمعرفة ما إذا كان يؤدي إلى نفس التباين في التسمية.
“تتمثل طريقة إصلاح هذا في الإقرار بشفافية أننا إذا أردنا إعادة إصدار الحكم البشري، فيجب علينا فقط استخدام البيانات التي تم جمعها في هذا الإعداد.
خلاف ذلك، سننتهي بأنظمة ستخضع لتعديلات قاسية للغاية، أقسى بكثير مما قد يفعله البشر. يقول قاسمي: “سيرى البشر فارقًا بسيطًا أو يقومون بتمييز آخر، في حين أن هذه النماذج لا تفعل ذلك”.
المصدر: scitechdaily
شاهد المزيد: