البيانات التي تدرب الذكاء الاصطناعي تحت دائرة الضوء

من المفهوم على نطاق واسع أن الذكاء الاصطناعي اليوم متعطش للبيانات وأن نماذج اللغات الكبيرة (LLMs) مدربة على مجموعات ضخمة من البيانات غير المسماة

ولكن في الأسبوع الماضي، حصل عامة الناس على نظرة خاطفة كاشفة تحت غطاء أحدهم، عندما نشرت صحيفة واشنطن بوست نظرة عميقة على مجموعة بيانات Google C4، أو مجموعة البيانات الإنجليزية Colossal Clean Crawled Corpus.

من خلال العمل مع باحثين من معهد ألين للذكاء الاصطناعي، كشف المنشور عن 15 مليون موقع، بما في ذلك مواقع الويب المملوكة والشخصية والمسيئة، والتي دخلت في بيانات التدريب – والتي تم استخدامها لتدريب نماذج رفيعة المستوى مثل Google T5 وMeta LLaMA.

ووفقًا للمقال، فقد هيمنت على مجموعة البيانات “مواقع الويب من الصناعات بما في ذلك الصحافة والترفيه وتطوير البرمجيات والطب وإنشاء المحتوى، مما يساعد في تفسير سبب تهديد هذه المجالات من قبل الموجة الجديدة من الذكاء الاصطناعي”.

قامت منظمة CommonCrawl غير الربحية بكشط C4 في أبريل 2019.

وقالت CommonCrawl لصحيفة واشنطن بوست إنها “تحاول إعطاء الأولوية للمواقع الأكثر أهمية وذات السمعة الطيبة، لكنها لا تحاول تجنب المحتوى المرخص أو المحمي بحقوق الطبع والنشر.”

يتم تمثيل VentureBeat جيدًا في مجموعة البيانات

لا ينبغي أن يكون مفاجئًا، إذن، أن البحث السريع في مواقع الويب في مجموعة البيانات (المعروض في المقالة من خلال مربع بحث بسيط) أظهر أن VentureBeat تم تمثيله جيدًا، مع 10 ملايين رمز (أجزاء صغيرة من النص تستخدم لمعالجة المعلومات غير المنظمة – عادةً كلمة أو عبارة). 

ولكن كان من المثير للقلق أن أجد أن كل منشور كتبته من أجله هو أيضًا – حتى تلك التي حاولت فيها توقيع عقود مواتية للعمل المستقل – وحتى موقع الويب الخاص بالموسيقى هو جزء من مجموعة البيانات.

ضع في اعتبارك، لقد طورت جلدًا سميكًا عندما يتعلق الأمر بحفر البيانات الرديئة. 

بدأت الكتابة عن تحليلات البيانات منذ أكثر من 10 سنوات لمجلة تغطي صناعة التسويق المباشر – وهي شركة اعتمدت لعقود على وسطاء القائمة البريدية الذين باعوا أو استأجروا الوصول إلى مجموعات البيانات القيمة. 

لقد أمضيت سنوات في تغطية العالم الجامح والصوفي لتكنولوجيا الإعلان الرقمي، مع “ملفات تعريف الارتباط” المخيفة التي تسمح للعلامات التجارية بمتابعتك في جميع أنحاء الويب. 

وشعرت وكأنها دهور منذ أن اكتشفت أن نظام تحديد المواقع العالمي (GPS) في سيارتي وهاتفي كانا يجمعان البيانات لمشاركتها مع العلامات التجارية.

لذلك كان على أن أسأل نفسي: لماذا شعرت بالغرابة لدرجة أن مخرجاتي الإبداعية قد تم امتصاصها في فراغ مجموعات بيانات الذكاء الاصطناعي عندما يكون جزء كبير من حياتي جاهزًا بالفعل؟

تدريب نماذج الذكاء الاصطناعي مع مجموعات البيانات الضخمة ليس بالأمر الجديد

إن تدريب نماذج الذكاء الاصطناعي مع مجموعات البيانات الضخمة ليس بالأمر الجديد بالطبع. 

تم نشر مجموعة بيانات Google C4 في عام 2020، بينما تم أيضًا نشر مجموعة بيانات The Pile ، وهي مجموعة بيانات أخرى كبيرة ومتنوعة ونمذجة للغة مفتوحة المصدر تم تطويرها بواسطة Eleuther AI، والتي تتكون من كل شيء من PubMed إلى Wikipedia إلى Github، في عام 2020. تم تدريب نموذج لغة Stability AI الجديد، StableLM ، على مجموعة بيانات تجريبية جديدة مبنية على The Pileens التي تحتوي على 1.5 تريليون.

في الواقع، تمت مشاركة The Pile على نطاق واسع في هذه المرحلة لدرجة أن إليوثر جادل في مقال نشر مؤخرًا في صحيفة الغارديان بأنه “لا يشكل ضررًا متزايدًا بشكل كبير”. 

ومع ذلك، في عام 2021، أشارت Stella Rose Biderman، المديرة التنفيذية لشركة Eleuther AI، على Twitter إلى أنها تعتبر مجموعة بيانات C4 “أقل جودة من Pile، أو أي مجموعة بيانات أخرى يتم تنسيقها وإنتاجها بشكل انتقائي” “.

بالإضافة إلى ذلك، قالت في ذلك الوقت إنها “شعرت بسعادة غامرة لأن مجموعة البيانات هذه علنية … السبب الرئيسي # جعل EleutherAI الكومة هو الافتقار إلى مجموعات بيانات متاحة للجمهور (وبالتالي قابلة للنقد علنًا) لتدريب LLMs.”

من المؤكد أن جزءًا من عامل “اليقظة” هو أنه من الصعب للغاية أن ألتف ذهني حول حجم البيانات التي نتحدث عنها هنا وعدم الوضوح حول كيفية استخدام البيانات بالضبط.

في مقال الجارديان، قال مايكل وولدريدج، أستاذ علوم الكمبيوتر في جامعة أكسفورد، إن ماجستير إدارة الأعمال، مثل تلك التي تدعم ChatGPT من OpenAI وGoogle Bard، تجمع كميات هائلة من البيانات.

“يشمل ذلك شبكة الويب العالمية بأكملها – كل شيء. يتم اتباع كل رابط في كل صفحة، ويتم اتباع كل رابط في تلك الصفحات … في هذا الكم الهائل من البيانات ربما يكون هناك الكثير من البيانات عنك وعني، “قال. 

“ولا يتم تخزينها في قاعدة بيانات كبيرة في مكان ما – لا يمكننا أن ننظر لنرى بالضبط ما هي المعلومات الموجودة لدي. كل ذلك مدفون بعيدًا في شبكات عصبية هائلة ومبهمة “.

الجانب الإنساني لبيانات تدريب الذكاء الاصطناعي

في صميم ما يزعجني، أعتقد، أسئلة حول الجانب الإنساني لبيانات تدريب الذكاء الاصطناعي. 

لا أعتقد أن وظيفتي ككاتبة أولى في VentureBeat معرضة للخطر بشكل وشيك بسبب نماذج اللغة الكبيرة مثل ChatGPT، ولكن مع ذلك من المزعج معرفة أن مقالاتي هي جزء من مجموعة البيانات التي تدربهم. 

يبدو الأمر كما لو أنني ساعدت في تدريب المتدرب الطموح الذي يتظاهر بأنه أوزة مافريك لكنه يخطط لطردي من الطائرة تمامًا. وككاتب يغطي عالم الذكاء الاصطناعي، فإنه يشعر بشكل خاص بالميتا.

باحثو الذكاء الاصطناعي لا يوافقون بالضرورة. على سبيل المثال، تحدثت الأسبوع الماضي مع Vipul Ved Prakash، المؤسس والرئيس التنفيذي لشركة Together، والتي أعلنت أن مشروعها RedPajama قد كرر مجموعة بيانات Meta LLaMA بهدف بناء LLMs مفتوحة المصدر وحديثة.

أخبرني براكاش أنه يعتقد أن “هذه النماذج تلتقط بطريقة ما ناتج المجتمع البشري وهناك نوع من الالتزام لجعلها مفتوحة وقابلة للاستخدام من قبل الجميع”، مضيفًا أن “معظم سحر” هذه النماذج يأتي من حقيقة أنها مدربة على بيانات “واسعة وواسعة النطاق حقًا”.

كما أشار إلى أن البيانات الأصلية مضغوطة بشكل كبير في النماذج الفعلية التي تنتج عنها. 

يبلغ حجم مجموعة بيانات RedPajama 5 تيرابايت، لكن النماذج التي تم إنشاؤها يمكن أن تكون صغيرة مثل 14 جيجا بايت، أي 500 مرة أصغر من البيانات الأصلية التي يتم تصميمها.

قال براكاش: “هذا يعني أن المعرفة من البيانات يتم تجريدها وتحويلها ونمذجتها في تمثيل مختلف تمامًا لأوزان وتحيزات المعلمات في نموذج الشبكة العصبية، ولا يتم تخزينها واستخدامها في شكلها الأصلي”. 

لذلك، “لا يتم إعادة إنتاج بيانات التدريب – إنه عمل مشتق فوق ذلك. من فهمنا، يُعتبر استخدامًا عادلًا طالما أن النموذج لا يعيد إنتاج البيانات – إنه يتعلم منها “.

التصدي لترميز البيانات

أستطيع أن أفهم وجهة نظر براكاش كباحث في الذكاء الاصطناعي. ولكن بصفتي منشئًا بشريًا، يمكنني أيضًا أن أفهم أنه بغض النظر عن كيفية “تجريد بياناتنا وتحويلها ونمذجتها”، فإنها تأتي من المخرجات البشرية، مما يعني وجود عواقب. 

أعني، إذا كنت نباتيًا، فقط لأن أجزاء الحيوانات قد تم غليها في النسيان، فهذا لا يعني أن الأطعمة التي تحتوي على الجيلاتين ليست محظورة.

هناك قضايا حقوق نشر ضخمة حول نماذج اللغات الكبيرة، مع المزيد والمزيد من الدعاوى القضائية التي يتم رفعها. 

هناك مخاوف كبيرة حول المعلومات الخاطئة، مع المناقشات حول التنظيم يتحرك في المقدمة والوسط. 

أغلقت شركات مثل OpenAI بالكامل تقريبًا حول مجموعات البيانات التي تستخدمها لبناء نماذجها. 

إنهم يعلمون بالتأكيد أنه كلما زادت الدعاية التي تحصل عليها مجموعات البيانات الضخمة هذه، كلما زاد الضغط من الجمهور، الذي بدأ للتو في فهم تداعيات مشاركة حياتهم وسبل عيشهم مع الإنترنت.

لا أعرف ما هي الحلول لهذه التحديات. لكنني سأستمر في الإبلاغ عن الاحتمالات. 

ومع ذلك، بدءًا من الأسبوع المقبل، سأتوقف قليلاً عن الإضافة إلى مجموعات بيانات الويب – سأذهب في إجازة لمدة أسبوعين اعتبارًا من 30 أبريل. سأعود بإيقاع جديد للذكاء الاصطناعي في منتصف مايو!

المصدر: venturebeat

قد يهمك:

إنشاء حساب باي بال تجاري

إنشاء حساب Wise

إنشاء حساب تيك توك

حساب Payoneer

إنشاء حساب Kucoin

إنشاء حساب جديد فيسبوك

إنشاء حساب انستقرام

hotmail.com انشاء حساب

أنت تستخدم إضافة Adblock

يعتمد موقع انشاء على الاعلانات كمصدر لدعم الموقع، يجب عليك ايقاف تشغيل حاجب الاعلانات لمشاهدة المحتوي