دراسة قاسية تكشف نهج Google الضار في تطوير الذكاء الاصطناعي

يبدو أن دراسة نشرت في وقت سابق من هذا الأسبوع من قبل Surge AI كشفت عن واحدة من أكبر المشاكل التي تعاني منها صناعة الذكاء الاصطناعي: الهراء، ممارسات تصنيف البيانات الاستغلالية.
في العام الماضي، أنشأت Google مجموعة بيانات تسمى “GoEmotions”.
وقد وُصفت بأنها “مجموعة بيانات دقيقة عن المشاعر” – وهي أساسًا مجموعة بيانات جاهزة للتدريب على بناء الذكاء الاصطناعي الذي يمكنه التعرف على المشاعر العاطفية في النص.
لكل منشور على مدونة Google :
في “GoEmotions: مجموعة بيانات من المشاعر الدقيقة”، نصف GoEmotions، وهي مجموعة بيانات مشروحة بشريًا مكونة من 58 ألف تعليق على Reddit مستخرجة من subreddits باللغة الإنجليزية ومُصنَّفة بـ 27 فئة من فئات المشاعر.
نظرًا لكوننا أكبر مجموعة بيانات مفصلة عن المشاعر باللغة الإنجليزية مشروحة بالكامل حتى الآن، فقد صممنا تصنيف GoEmotions مع وضع كل من علم النفس وإمكانية تطبيق البيانات في الاعتبار.
إليك طريقة أخرى لوضعها: ألغت Google 58000 تعليق Reddit ثم أرسلت هذه الملفات إلى شركة خارجية لتصنيفها. المزيد عن ذلك لاحقًا.
الدراسة
ألقى Surge AI نظرة على عينة من 1000 تعليق مصنّف من مجموعة بيانات GoEmotions ووجد أن جزءًا كبيرًا منها تمت تسميته بشكل خاطئ.
في الدراسة:
تم تسمية 30٪ من مجموعة البيانات بشكل خاطئ بشدة! (لقد حاولنا تدريب نموذج على مجموعة البيانات بأنفسنا، لكننا لاحظنا مشكلات عميقة في الجودة.
لذلك أخذنا 1000 تعليق عشوائي، وسألنا سورغرز عما إذا كانت المشاعر الأصلية دقيقة بشكل معقول، ووجدنا أخطاءً قوية في 308 منهم.)
ويمضي ليشير إلى بعض المشكلات الرئيسية في مجموعة البيانات، بما في ذلك هذه الدوامة:
المشكلة رقم 1: “تم تقديم تعليقات Reddit بدون بيانات وصفية إضافية”
بادئ ذي بدء، اللغة لا تعيش في فراغ! لماذا قد تقدم تعليقًا بدون بيانات وصفية إضافية؟ يعد subreddit والمنشور الرئيسي الذي يرد عليه سياقًا مهمًا بشكل خاص.
تخيل أنك ترى التعليق “فخاخه تخفي الشمس اللعينة” في حد ذاتها. هل لديك أي فكرة عما تعنيه؟ ربما لا – ربما لهذا السبب أخطأت Google في تسميتها.
ولكن ماذا لو قيل لك أنه جاء من / r / nattyorjuice subreddit المخصص لكمال الأجسام؟ هل تدرك إذن أن الفخاخ تشير إلى عضلات شبه منحرفة لشخص ما؟
المشكلة
لا يمكن تسمية هذا النوع من البيانات بشكل صحيح. باستخدام التعليق أعلاه “تخفي مصائده الشمس اللعينة” كمثال، من المستحيل تخيل شخص واحد على هذا الكوكب قادر على فهم كل حالة متطرفة عندما يتعلق الأمر بمشاعر الإنسان.
لا يعني ذلك أن المصممين المعينين لم يؤدوا عملًا جيدًا، إنه تم تكليفهم بمهمة مستحيلة.
لا توجد طرق مختصرة لتلقي نظرة ثاقبة على الاتصالات البشرية.
نحن لسنا أغبياء مثل الآلات. يمكننا دمج بيئتنا بأكملها وتاريخنا المعاش في سياق اتصالاتنا، ومن خلال التعبير الأكثر رقة عن فهمنا البارع للتلاعب الدلالي، تحويل الهراء إلى فلسفة (يحدث الهراء) أو تحويل عبارة دنيوية حقًا إلى جملة نكتة دائمة الشباب (للوصول إلى الجانب الآخر).
ما فعله باحثو Google هو إنفاق من يعرف مقدار الوقت والمال في تطوير نسخة رقمية سيئة من Magic 8-Ball. أحيانًا يكون هذا صحيحًا، وأحيانًا يكون خاطئًا، ولا توجد طريقة للتأكد بطريقة أو بأخرى.
هذا النوع الخاص من تطوير الذكاء الاصطناعي هو هراء. انها عملية احتيال. وهي واحدة من أقدم الكتب في الكتاب.
إليك كيفية عملها: أخذ الباحثون مشكلة مستحيلة، “كيفية تحديد المشاعر الإنسانية في النص بمقاييس هائلة بدون سياق”، واستخدموا سحر الهراء لتحويلها إلى مشكلة بسيطة نسبيًا يمكن لأي ذكاء اصطناعي حلها “كيفية المطابقة كلمات رئيسية لتصنيفات “.
والسبب في ذلك هو أنك لست بحاجة إلى الذكاء الاصطناعي لمطابقة الكلمات الرئيسية مع التصنيفات. بحق الجحيم، يمكنك فعل ذلك في Microsoft Excel قبل 20 عامًا.
أعمق قليلا
أنت تعلم أن مجموعة البيانات التي تم تدريب الذكاء الاصطناعي عليها تحتوي على بيانات خاطئة.
بالتالي، فإن الطريقة الوحيدة التي يمكنك من خلالها التأكد تمامًا من دقة نتيجة معينة تُرجعها هي التحقق منها بنفسك – عليك أن تكون ما يسمى بالإنسان في الحلقة. ولكن ماذا عن كل النتائج التي لا ترجعها كما ينبغي؟
لا نحاول العثور على جميع السيارات ذات اللون الأحمر في مجموعة بيانات لصور السيارات. نحن نتخذ قرارات بشأن البشر.
إذا أخطأ الذكاء الاصطناعي وأخطأ بعض السيارات الحمراء، فمن غير المرجح أن تعاني تلك السيارات من نتائج سلبية.
وإذا وصفت عن طريق الخطأ بعض السيارات الزرقاء بأنها حمراء، فيجب أن تكون تلك السيارات الزرقاء بخير.
ولكن تم تصميم مجموعة البيانات هذه خصيصًا لاتخاذ القرارات المتعلقة بالنتائج البشرية.
في جوجل:
لقد كان هدفًا طويل المدى بين مجتمع البحث لتمكين الآلات من فهم السياق والعاطفة، والتي بدورها ستمكن مجموعة متنوعة من التطبيقات، بما في ذلك روبوتات الدردشة المتعاطفة، والنماذج لاكتشاف السلوك الضار عبر الإنترنت، وتحسين تفاعلات دعم العملاء.
مرة أخرى، نعلم حقيقة أن أي نموذج ذكاء اصطناعي تم تدريبه على مجموعة البيانات هذه سينتج مخرجات خاطئة.
هذا يعني أنه في كل مرة يتخذ فيها الذكاء الاصطناعي قرارًا يكافئ أو يعاقب أي إنسان، فإنه يتسبب في ضرر واضح للبشر الآخرين.
إذا كان من الممكن استخدام مخرجات الذكاء الاصطناعي للتأثير على المكافآت البشرية – على سبيل المثال، من خلال عرض جميع السير الذاتية في حزمة تحتوي على “مشاعر إيجابية” فيها – علينا أن نفترض أن بعض الملفات التي لم تظهر على السطح تم تمييزها بشكل خاطئ ضد.
هذا شيء لا يستطيع البشر في الحلقة أن يساعدوا فيه. سيتطلب الأمر من شخص مراجعة كل ملف لم يتم تحديده.
وإذا كان للذكاء الاصطناعي القدرة على التأثير في العقوبات البشرية – من خلال، على سبيل المثال، إزالة المحتوى الذي يعتبره “كلامًا يحض على الكراهية” – فيمكننا التأكد من أن المشاعر التي لا تستحق العقاب بشكل موضوعي ستظهر بشكل خاطئ، وبالتالي، سوف يتضرر.
والأسوأ من ذلك كله، أن دراسة بعد دراسة توضح أن هذه الأنظمة مليئة بطبيعتها بالتحيز البشري وأن مجموعات الأقليات دائمًا ما تتأثر سلبًا بشكل غير متناسب.
الحل
هناك طريقة واحدة فقط لإصلاح هذا النوع من البحث: رميها في سلة المهملات.
إن موقفنا هنا في Neural هو أنه من غير الأخلاقي تمامًا تدريب الذكاء الاصطناعي على المحتوى الذي أنشأه الإنسان دون الموافقة الفردية الصريحة للبشر الذين قاموا بإنشائه.
سواء كان ذلك قانونيًا أم لا، فهذا غير ذي صلة. عندما أنشر على Reddit، أفعل ذلك بحسن نية أن خطابي مخصص للبشر الآخرين.
لا تعوضني Google عن بياناتي، لذا لا ينبغي لها استخدامها، حتى إذا كانت شروط الخدمة تسمح بذلك.
علاوة على ذلك، فإن موقفنا أيضًا هو أنه من غير الأخلاقي نشر نماذج الذكاء الاصطناعي المدربة على البيانات التي لم يتم التحقق من خلوها من الأخطاء عندما يكون للإخراج من هذه النماذج القدرة على التأثير على النتائج البشرية.
افكار اخيرة
باحثو Google ليسوا أغبياء. إنهم يعلمون أن خوارزمية “البحث عن الكلمات الرئيسية والمقارنة” العامة لا يمكنها تحويل نموذج الذكاء الاصطناعي إلى خبير على المستوى البشري في علم النفس وعلم الاجتماع والثقافة الشعبية والدلالات لمجرد أنهم يغذونها بمجموعة بيانات مليئة بمشاركات Reddit العشوائية.
يمكنك استخلاص استنتاجاتك الخاصة فيما يتعلق بدوافعهم.
لكن لا يمكن لأي قدر من المواهب والتكنولوجيا أن يحول حقيبة مليئة بالهراء إلى نموذج ذكاء اصطناعي مفيد عندما تكون النتائج البشرية على المحك.
المصدر: thenextweb
قد يهمك: