يحذر الباحثون من “انهيار النموذج” بينما يتدرب الذكاء الاصطناعي على المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي

لقد حان عصر الذكاء الاصطناعي التوليدي: بعد ستة أشهر فقط من ظهور برنامج ChatGPT الخاص بـ OpenAI ، ما يقرب من نصف موظفي بعض الشركات العالمية الرائدة يستخدمون بالفعل هذا النوع من التكنولوجيا في سير عملهم،والعديد من الشركات الأخرى تسارع إلى تقدم منتجات جديدة مع الذكاء الاصطناعي التوليدي المدمج.
ولكن، كما يعلم أولئك الذين يتبعون الصناعة المزدهرة وأبحاثها الأساسية، فإن البيانات المستخدمة لتدريب نماذج اللغة الكبيرة (LLMs) ونماذج المحولات الأخرى التي تقوم عليها منتجات مثل ChatGPT وStable Diffusion وMidjourney تأتي في البداية من مصادر بشرية – كتب ومقالات، الصور الفوتوغرافية وما إلى ذلك – تم إنشاؤها بدون مساعدة الذكاء الاصطناعي.
الآن، مع استخدام المزيد من الأشخاص للذكاء الاصطناعي لإنتاج المحتوى ونشره، يُطرح سؤال واضح: ماذا يحدث عندما ينتشر المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي في جميع أنحاء الإنترنت، وتبدأ نماذج الذكاء الاصطناعي في التدريب عليه، بدلاً من المحتوى الذي ينشئه الإنسان في المقام الأول؟
بحثت مجموعة من الباحثين من المملكة المتحدة وكندا في هذه المشكلة بالذات ونشروا مؤخرًا ورقة بحثية عن عملهم في مجلة الوصول المفتوح arXiv.
ما وجدوه مثير للقلق بالنسبة لتكنولوجيا الذكاء الاصطناعي التوليدية الحالية ومستقبلها: “وجدنا أن استخدام المحتوى الناتج عن النموذج في التدريب يسبب عيوبًا لا رجعة فيها في النماذج الناتجة.”
ملء الإنترنت بالبلاهة
بالنظر على وجه التحديد إلى التوزيعات الاحتمالية للنماذج المولدة للذكاء الاصطناعي من نص إلى نص ومن صورة إلى صورة، خلص الباحثون إلى أن “التعلم من البيانات التي تنتجها النماذج الأخرى يتسبب في انهيار النموذج – وهي عملية تنكسية حيث تنسى النماذج بمرور الوقت الأساس الحقيقي. توزيع البيانات … هذه العملية حتمية، حتى بالنسبة للحالات ذات الظروف المثالية تقريبًا للتعلم على المدى الطويل. “
كتب إيليا شوما يلوف، أحد مؤلفي الورقة الرئيسيين، في رسالة بريد إلكتروني إلى VentureBeat: “بمرور الوقت، تتراكم الأخطاء في البيانات المتولدة، وفي النهاية تفرض النماذج التي تتعلم من البيانات التي تم إنشاؤها على تصور خاطئ للواقع إلى أبعد من ذلك”
. “لقد فوجئنا بمراقبة سرعة حدوث انهيار النموذج: يمكن للنماذج أن تنسى بسرعة معظم البيانات الأصلية التي تعلموها في البداية.”
بعبارة أخرى: نظرًا لأن نموذج تدريب الذكاء الاصطناعي يتعرض لمزيد من البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي، فإنه يعمل بشكل أسوأ بمرور الوقت، وينتج المزيد من الأخطاء في الردود والمحتوى الذي ينتج عنه، وينتج عنه تنوع أقل غير خاطئ في استجاباته.
كما كتب أحد مؤلفي الورقة، روس أندرسون، أستاذ هندسة الأمن في جامعة كامبريدج وجامعة إدنبرة، في منشور بالمدونة يناقش الورقة:
“ تمامًا كما نثرت المحيطات بالقمامة البلاستيكية وملأنا الغلاف الجوي بالكربون ثاني أكسيد، لذلك نحن على وشك ملء الإنترنت بلاه
. سيؤدي ذلك إلى زيادة صعوبة تدريب النماذج الجديدة عن طريق إزالة الويب، وإعطاء ميزة للشركات التي فعلت ذلك بالفعل، أو التي تتحكم في الوصول إلى واجهات الإنسان على نطاق واسع.
في الواقع، نرى بالفعل شركات ناشئة في مجال الذكاء الاصطناعي تعمل على تطوير أرشيف الإنترنت للحصول على بيانات التدريب “.
نشر تيد شيانغ، مؤلف الخيال العلمي المشهور “قصة حياتك”، الرواية التي ألهمت فيلم وصول، وكاتب في Microsoft، مؤخرًا مقالًا في The New Yorker يفترض أن نسخ الذكاء الاصطناعي من النسخ ستؤدي إلى تدهور الجودة، تشبيه المشكلة بالقطع الأثرية المتزايدة المرئية عند نسخ صورة JPEG بشكل متكرر.
هناك طريقة أخرى للتفكير في المشكلة مثل فيلم الخيال العلمي الكوميدي عام 1996 Multiplicity بطولة مايكل كيتون، حيث يقوم رجل متواضع باستنساخ نفسه ثم استنساخ الحيوانات المستنسخة، كل منها يؤدي إلى انخفاض مستويات الذكاء بشكل كبير وزيادة الغباء.
كيف يحدث “انهيار النموذج”
في الأساس، يحدث انهيار النموذج عندما تنتهي نماذج الذكاء الاصطناعي للبيانات بتلويث مجموعة التدريب للنماذج اللاحقة.
أوضح شومايلوف أن “البيانات الأصلية التي تم إنشاؤها بواسطة البشر تمثل العالم بشكل أكثر إنصافًا، أي أنها تحتوي أيضًا على بيانات غير محتملة”.
“النماذج التوليدية، من ناحية أخرى، تميل إلى الإفراط في استيعاب البيانات الشائعة وغالبًا ما تسيء فهم / تحريف البيانات الأقل شيوعًا.”
أوضح شومايلوف هذه المشكلة لـ VentureBeat من خلال سيناريو افتراضي، حيث يتم تدريب نموذج التعلم الآلي على مجموعة بيانات تحتوي على صور 100 قطط – 10 منها بفرو أزرق، و90 قطط باللون الأصفر.
يتعلم النموذج أن القطط الصفراء أكثر انتشارًا، ولكنه يمثل أيضًا القطط الزرقاء على أنها صفراء أكثر مما هي عليه بالفعل، ويعيد بعض نتائج القطط الخضراء عندما يُطلب منها إنتاج بيانات جديدة.
بمرور الوقت، تتآكل السمة الأصلية للفراء الأزرق من خلال دورات التدريب المتتالية، وتتحول من اللون الأزرق إلى الأخضر، ثم الأصفر في النهاية.
هذا التشويه التدريجي والفقدان النهائي لخصائص بيانات الأقلية هو انهيار النموذج. لمنع ذلك، من المهم ضمان التمثيل العادل للأقليات في مجموعات البيانات، من حيث الكمية والتصوير الدقيق للسمات المميزة.
ينتج عن هذا “التلوث” بالبيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي أن النماذج تكتسب تصورًا مشوهًا للواقع.
حتى عندما قام الباحثون بتدريب النماذج على عدم إنتاج الكثير من الاستجابات المتكررة، وجدوا أنه لا يزال يحدث انهيار النموذج، حيث ستبدأ النماذج في تكوين استجابات خاطئة لتجنب تكرار البيانات بشكل متكرر.
قال شومايلوف: “هناك العديد من الجوانب الأخرى التي ستؤدي إلى تداعيات أكثر خطورة، مثل التمييز على أساس الجنس أو العرق أو أي سمات حساسة أخرى”، خاصةً إذا كان الذكاء الاصطناعي التوليدي يتعلم بمرور الوقت لإنتاج، على سبيل المثال، عرق واحد في ردوده، بينما “نسيان” الآخرين موجود.
من المهم ملاحظة أن هذه الظاهرة تختلف عن “النسيان الكارثي”، حيث تفقد النماذج المعلومات التي تم تعلمها سابقًا. في المقابل، ينطوي انهيار النموذج على نماذج تسيء تفسير الواقع بناءً على معتقداتهم المعززة.
وجد الباحثون وراء هذه الورقة البحثية أنه حتى لو تم استخدام 10٪ من البيانات الأصلية التي كتبها الإنسان لتدريب النموذج في الأجيال اللاحقة، فإن “انهيار النموذج لا يزال يحدث، ولكن ليس بالسرعة نفسها”، كما قال شومايلوف لموقع VentureBeat.
طرق لتجنب “انهيار النموذج”
لحسن الحظ، هناك طرق لتجنب انهيار النموذج، حتى مع المحولات الحالية وLLMs.
يسلط الباحثون الضوء على طريقتين محددتين. الأول هو الاحتفاظ بنسخة هيبة من مجموعة البيانات الأصلية التي ينتجها الإنسان حصريًا أو اسميًا، وتجنب التلوث بالبيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي.
بعد ذلك، يمكن إعادة تدريب النموذج بشكل دوري على هذه البيانات، أو تحديثه بالكامل، بدءًا من نقطة الصفر.
الطريقة الثانية لتجنب تدهور جودة الاستجابة وتقليل الأخطاء أو التكرارات غير المرغوب فيها من نماذج الذكاء الاصطناعي هي إعادة إدخال مجموعات بيانات جديدة ونظيفة من صنع الإنسان في تدريبهم.
ومع ذلك، كما يشير الباحثون، فإن هذا سيتطلب نوعًا من آلية وضع العلامات الجماعية أو جهدًا من قبل منتجي المحتوى أو شركات الذكاء الاصطناعي للتمييز بين المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي والمحتوى الذي ينشئه الإنسان.
في الوقت الحالي، لا يوجد مثل هذا الجهد الموثوق أو الواسع النطاق عبر الإنترنت.
قال شومايلوف لموقع VentureBeat: “لوقف انهيار النموذج، نحتاج إلى التأكد من تمثيل مجموعات الأقليات من البيانات الأصلية بشكل عادل في مجموعات البيانات اللاحقة”.
“من الناحية العملية، هذا أمر غير تافه على الإطلاق. يجب نسخ البيانات احتياطيًا بعناية، وتغطية جميع حالات الزاوية الممكنة. عند تقييم أداء النماذج، استخدم البيانات التي من المتوقع أن يعمل عليها النموذج، حتى حالات البيانات الأكثر احتمالًا.
لاحظ أن هذا لا يعني أن البيانات غير المحتملة يجب أن يتم أخذ عينات منها بشكل زائد عن الحد، ولكن يجب تمثيلها بشكل مناسب.
نظرًا لأن التقدم يدفعك إلى إعادة تدريب النماذج الخاصة بك، تأكد من تضمين البيانات القديمة وكذلك الجديدة. سيؤدي هذا إلى زيادة تكلفة التدريب، ولكنه سيساعدك على مواجهة انهيار النموذج، على الأقل إلى حد ما “.
ما الذي يمكن أن تفعله صناعة الذكاء الاصطناعي والمستخدمون حيال ذلك في المستقبل
في حين أن كل هذه الأخبار مقلقة بالنسبة لتكنولوجيا الذكاء الاصطناعي التوليدية الحالية والشركات التي تسعى إلى تحقيق الدخل منها، خاصة على المدى المتوسط إلى الطويل، إلا أن هناك جانبًا مضيئًا لمنشئي المحتوى البشري: خلص الباحثون إلى أنه في المستقبل المليء بالجينات.
ستكون أدوات الذكاء الاصطناعي ومحتواها، المحتوى الذي أنشأه الإنسان أكثر قيمة مما هو عليه اليوم – ولو كمصدر لبيانات التدريب الأصلية للذكاء الاصطناعي.
هذه النتائج لها آثار كبيرة على مجال الذكاء الاصطناعي، مع التأكيد على الحاجة إلى تحسين المنهجيات للحفاظ على سلامة النماذج التوليدية بمرور الوقت. إنها تؤكد على مخاطر العمليات التوليدية غير الخاضعة للرقابة وقد توجه البحث المستقبلي لتطوير استراتيجيات لمنع أو إدارة انهيار النموذج.
المصدر: venturebeat
قد يهمك: