عندما يتعلق الأمر بالذكاء الاصطناعي، هل يمكننا التخلص من مجموعات البيانات؟

أظهرت دراسة أن نموذج التعلم الآلي لتصنيف الصور الذي يتم تدريبه باستخدام البيانات التركيبية يمكن أن ينافس نموذجًا تم تدريبه على الشيء الحقيقي.

هناك حاجة إلى كميات هائلة من البيانات لتدريب نماذج التعلم الآلي لأداء مهام تصنيف الصور، مثل تحديد الضرر في صور الأقمار الصناعية بعد وقوع كارثة طبيعية. ومع ذلك، ليس من السهل دائمًا الحصول على هذه البيانات. قد يكلف إنشاء مجموعات البيانات ملايين الدولارات، إذا كانت البيانات القابلة للاستخدام موجودة في المقام الأول، وغالبًا ما تحتوي أفضل مجموعات البيانات على تحيزات تؤثر سلبًا على أداء النموذج.

للتحايل على بعض المشكلات التي قدمتها مجموعات البيانات، طور باحثو معهد ماساتشوستس للتكنولوجيا طريقة لتدريب نموذج التعلم الآلي الذي يستخدم نوعًا خاصًا من نماذج التعلم الآلي بدلاً من استخدام مجموعة بيانات لتوليد بيانات تركيبية واقعية للغاية يمكنها تدريب نموذج آخر على مهام الرؤية النهائية.

تظهر نتائجهم أن نموذج التعلم بالتمثيل التباين الذي تم تدريبه باستخدام هذه البيانات التركيبية فقط قادر على تعلم التمثيلات المرئية التي تنافس أو حتى تتفوق على تلك التي تم تعلمها من البيانات الحقيقية.

هل يمكننا التخلص من مجموعات البيانات؟

أظهر باحثو معهد ماساتشوستس للتكنولوجيا استخدام نموذج التعلم الآلي التوليدي لإنشاء بيانات تركيبية، بناءً على بيانات حقيقية، يمكن استخدامها لتدريب نموذج آخر لتصنيف الصور. تُظهر هذه الصورة أمثلة على طرق تحويل النموذج التوليدي. الائتمان: بإذن من الباحثين

يتطلب هذا النموذج الخاص للتعلم الآلي، والمعروف باسم النموذج التوليدي، ذاكرة تخزين أو مشاركة أقل بكثير من مجموعة البيانات. يمكن أن يؤدي استخدام البيانات التركيبية أيضًا إلى تجنب بعض المخاوف المتعلقة بحقوق الخصوصية والاستخدام التي تحد من كيفية توزيع بعض البيانات الحقيقية. يمكن أيضًا تعديل النموذج التوليدي لإزالة سمات معينة، مثل العرق أو الجنس، والتي يمكن أن تعالج بعض التحيزات الموجودة في مجموعات البيانات التقليدية.

“كنا نعلم أن هذه الطريقة ستنجح في النهاية؛ كنا بحاجة فقط إلى انتظار هذه النماذج التوليدية لتصبح أفضل وأفضل. يقول على جهانيان ، عالم الأبحاث في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) والمؤلف الرئيسي للورقة البحثية: “لكننا سعدنا بشكل خاص عندما أظهرنا أن هذه الطريقة في بعض الأحيان تعمل بشكل أفضل من الشيء الحقيقي”.

كتب جاهانيان الورقة مع طلاب الدراسات العليا في CSAIL Xavier Puig و Yonglong Tian وكبير المؤلفين Phillip Isola ، الأستاذ المساعد في قسم الهندسة الكهربائية وعلوم الكمبيوتر. سيتم تقديم البحث في المؤتمر الدولي لتمثيل التعلم.

توليد البيانات التركيبية

بمجرد تدريب النموذج التوليدي على بيانات حقيقية، يمكنه إنشاء بيانات تركيبية واقعية للغاية بحيث لا يمكن تمييزها تقريبًا عن البيانات الحقيقية. تتضمن عملية التدريب إظهار ملايين الصور للنموذج التوليدي التي تحتوي على أشياء في فئة معينة (مثل السيارات أو القطط) ، ثم تتعلم كيف تبدو السيارة أو القطة حتى تتمكن من إنشاء أشياء متشابهة.

بشكل أساسي عن طريق قلب المفتاح، يمكن للباحثين استخدام نموذج توليدي مُدرب مسبقًا لإنتاج دفق ثابت من الصور الفريدة والواقعية التي تستند إلى تلك الموجودة في مجموعة بيانات التدريب الخاصة بالنموذج، كما يقول جاهانيان.

ويقول إن النماذج التوليدية أكثر فائدة لأنها تتعلم كيفية تحويل البيانات الأساسية التي يتم تدريبهم عليها. إذا تم تدريب النموذج على صور السيارات، فيمكنه “تخيل” كيف ستبدو السيارة في المواقف المختلفة – المواقف التي لم تشاهدها أثناء التدريب – ثم إخراج الصور التي تظهر السيارة في أوضاع أو ألوان أو أحجام فريدة.

يعد الحصول على عروض متعددة للصورة نفسها أمرًا مهمًا لتقنية تسمى التعلم التباين، حيث يتم عرض نموذج التعلم الآلي على العديد من الصور غير المسماة لمعرفة الأزواج المتشابهة أو المختلفة.

ربط الباحثون نموذجًا تم إنشاؤه مسبقًا بنموذج التعلم التباين بطريقة تسمح للنموذجين بالعمل معًا تلقائيًا. يشرح جهانيان أن المتعلم المتباين يمكنه إخبار النموذج التوليدي بإنتاج وجهات نظر مختلفة لكائن ما، ثم تعلم كيفية التعرف على هذا الشيء من زوايا متعددة.

“كان هذا بمثابة ربط لبنات بناء. نظرًا لأن النموذج التوليدي يمكن أن يعطينا وجهات نظر مختلفة عن الشيء نفسه، فإنه يمكن أن يساعد الطريقة المتباينة لتعلم تمثيلات أفضل، “كما يقول.

حتى أفضل من الشيء الحقيقي

قارن الباحثون طريقتهم بالعديد من نماذج تصنيف الصور الأخرى التي تم تدريبها باستخدام بيانات حقيقية ووجدوا أن طريقتهم تعمل أيضًا، وأحيانًا أفضل، من النماذج الأخرى.

تتمثل إحدى مزايا استخدام النموذج التوليدي في أنه يمكنه، من الناحية النظرية، إنشاء عدد لا حصر له من العينات. لذلك، درس الباحثون أيضًا كيف أثر عدد العينات على أداء النموذج. ووجدوا أنه في بعض الحالات، أدى توليد أعداد أكبر من العينات الفريدة إلى تحسينات إضافية.

“الشيء الرائع في هذه النماذج التوليدية هو أن شخصًا آخر دربها لك. يمكنك العثور عليها في مستودعات عبر الإنترنت، بحيث يمكن للجميع استخدامها. ولا تحتاج إلى التدخل في النموذج للحصول على تمثيلات جيدة، “يقول جهانيان.

لكنه يحذر من وجود بعض القيود على استخدام النماذج التوليدية. في بعض الحالات، يمكن لهذه النماذج أن تكشف عن بيانات المصدر، والتي يمكن أن تشكل مخاطر على الخصوصية، ويمكن أن تضخم التحيزات في مجموعات البيانات التي تم تدريبهم عليها إذا لم يتم تدقيقها بشكل صحيح.

يخطط هو ومعاونيه لمعالجة هذه القيود في العمل المستقبلي. هناك مجال آخر يرغبون في استكشافه وهو استخدام هذه التقنية لإنشاء حالات زاوية يمكنها تحسين نماذج التعلم الآلي. غالبًا ما لا يمكن تعلم حالات الزاوية من البيانات الحقيقية. على سبيل المثال، إذا قام الباحثون بتدريب نموذج رؤية كمبيوتر لسيارة ذاتية القيادة، فلن تحتوي البيانات الحقيقية على أمثلة لكلب ومالكه يركضون في طريق سريع، لذلك لن يتعلم النموذج أبدًا ما يجب القيام به في هذه الحالة. يمكن أن يؤدي إنشاء بيانات حالة الركن هذه بشكل تركيبي إلى تحسين أداء نماذج التعلم الآلي في بعض المواقف عالية المخاطر.

المصدر: scitechdaily

شاهد ايضا:

إنشاء حساب باي بال

تسجيل دخول انستقرام

تسجيل دخول جيميل

إنشاء حساب Hotmail | تسجيل دخول

إنشاء حساب Yahoo

إنشاء حساب فيسبوك

إنشاء حساب Apple ID

أنت تستخدم إضافة Adblock

يعتمد موقع انشاء على الاعلانات كمصدر لدعم الموقع، يجب عليك ايقاف تشغيل حاجب الاعلانات لمشاهدة المحتوي