Google Bard AI – ما هي المواقع التي تم استخدامها لتدريبها؟

يتم تدريب Bard AI من Google على استخدام محتوى موقع الويب ولكن لا يُعرف سوى القليل عن كيفية جمعه واستخدام محتواه
- تفاصيل المواقع المستخدمة لتدريب Bard / LaMDA محاطة بالسرية
- 50٪ من بيانات التدريب مأخوذة من المنتديات العامة
- برمجة مواقع الأسئلة والأجوبة والمواقع التعليمية المستخدمة للتدريب
يعتمد برنامج Bard من Google على نموذج لغة LaMDA ، الذي تم تدريبه على مجموعات البيانات بناءً على محتوى الإنترنت المسمى Infiniset والذي لا يُعرف عنه سوى القليل جدًا من أين أتت البيانات وكيف حصلت عليها.
تسرد الورقة البحثية لعام 2022 LaMDA النسب المئوية لأنواع مختلفة من البيانات المستخدمة لتدريب LaMDA ، ولكن 12.5٪ فقط تأتي من مجموعة بيانات عامة للمحتوى الذي تم الزحف إليه من الويب و12.5٪ أخرى تأتي من ويكيبيديا.
يتسم موقع Google بالغموض عن قصد بشأن مصدر بقية البيانات المسروقة ولكن هناك تلميحات حول المواقع الموجودة في مجموعات البيانات هذه.
مجموعة بيانات Infiniset من Google
يعتمد Google Bard على نموذج لغة يسمى LaMDA ، وهو اختصار لنموذج اللغة لتطبيقات الحوار.
تم تدريب LaMDA على مجموعة بيانات تسمى Infiniset.
Infiniset عبارة عن مزيج من محتوى الإنترنت تم اختياره عمدًا لتعزيز قدرة النموذج على المشاركة في الحوار.
توضح ورقة بحث LaMDA (PDF) سبب اختيارهم هذا التكوين للمحتوى:
“… تم اختيار هذا التكوين لتحقيق أداء أكثر قوة في مهام الحوار … مع الحفاظ على قدرته على أداء مهام أخرى مثل إنشاء التعليمات البرمجية.
كعمل مستقبلي، يمكننا دراسة كيفية تأثير اختيار هذا التكوين على جودة بعض مهام البرمجة اللغوية العصبية الأخرى التي يؤديها النموذج. “
تشير الورقة البحثية إلى الحوارات والحوارات، وهي تهجئة الكلمات المستخدمة في هذا السياق، في مجال علوم الكمبيوتر.
في المجموع، تم تدريب LaMDA مسبقًا على 1.56 تريليون كلمة من ” بيانات الحوار العام ونص الويب “.
تتكون مجموعة البيانات من المزيج التالي:
- 12.5٪ من البيانات المستندة إلى C4
- 12.5٪ ويكيبيديا اللغة الإنجليزية
- 12.5٪ من وثائق التعليمات البرمجية من برمجة مواقع الأسئلة والأجوبة والبرامج التعليمية وغيرها
- 6.25٪ مستندات الويب الإنجليزية
- 6.25٪ مستندات الويب غير الإنجليزية
- 50٪ حوارات البيانات من المنتديات العامة
يتكون الجزءان الأولان من Infiniset (C4 و Wikipedia) من البيانات المعروفة.
اكتب محتوى جذابًا بأسلوبك الفريد
أتمتة إنشاء المحتوى بالكامل؛ الحصول على أفكار محتوى مخصصة؛ وكتابة المقالات وتحسينها ونشرها بنقرة واحدة – باستخدام ContentShake.
مجموعة بيانات C4، التي سيتم استكشافها قريبًا، هي نسخة تمت تصفيتها بشكل خاص من مجموعة بيانات الزحف المشترك.
25٪ فقط من البيانات مأخوذة من مصدر مسمى (مجموعة بيانات C4 وويكيبيديا).
تتكون بقية البيانات التي تشكل الجزء الأكبر من مجموعة بيانات Infiniset ، 75٪، من كلمات تم حذفها من الإنترنت.
لا تذكر الورقة البحثية كيف تم الحصول على البيانات من مواقع الويب، أو ما هي المواقع التي تم الحصول عليها منها أو أي تفاصيل أخرى حول المحتوى المسروق.
تستخدم Google أوصافًا عامة فقط مثل “مستندات الويب بغير اللغة الإنجليزية”.
تعني كلمة “غامض” عندما لا يتم شرح شيء ما ويتم إخفاؤه في الغالب.
Murky هي أفضل كلمة لوصف 75٪ من البيانات التي استخدمتها Google لتدريب LaMDA.
هناك بعض القرائن التي قد تعطي فكرة عامة عن المواقع المضمنة في 75٪ من محتوى الويب، ولكن لا يمكننا معرفة ذلك على وجه اليقين.
مجموعة بيانات C4
C4 هي مجموعة بيانات تم تطويرها بواسطة Google في عام 2020. C4 تعني ” Colossal Clean Crawled Corpus “.
تستند مجموعة البيانات هذه إلى بيانات الزحف المشترك، وهي مجموعة بيانات مفتوحة المصدر.
حول الزحف المشترك
Common Crawl هي منظمة غير ربحية مسجلة تزحف إلى الإنترنت شهريًا لإنشاء مجموعات بيانات مجانية يمكن لأي شخص استخدامها.
يدير منظمة Common Crawl حاليًا أشخاص عملوا في مؤسسة ويكيبيديا ، وموظفو Google السابقون، ومؤسس Blekko ، ويعتبرون كمستشارين مثل Peter Norvig ، مدير الأبحاث في Google وداني سوليفان (أيضًا في Google).
كيف تم تطوير C4 من خلال الزحف المشترك
يتم تنظيف بيانات الزحف المشترك الخام عن طريق إزالة أشياء مثل المحتوى الرقيق، والكلمات الفاحشة، و lorem ipsum ، والقوائم الملاحية، وإلغاء البيانات المكررة، وما إلى ذلك من أجل قصر مجموعة البيانات على المحتوى الرئيسي.
كان الهدف من تصفية البيانات غير الضرورية هو إزالة الهراء والاحتفاظ بأمثلة من اللغة الإنجليزية الطبيعية.
هذا ما كتبه الباحثون الذين ابتكروا C4:
“لتجميع مجموعة البيانات الأساسية الخاصة بنا، قمنا بتنزيل النص المستخرج من الويب اعتبارًا من أبريل 2019 وطبقنا التصفية المذكورة أعلاه.
ينتج عن هذا مجموعة من النصوص ليست فقط بأحجام أكبر من معظم مجموعات البيانات المستخدمة للتدريب المسبق (حوالي 750 جيجابايت) ولكنها تشتمل أيضًا على نص إنجليزي طبيعي ونظيف بشكل معقول.
نحن نطلق على هذه البيانات مجموعة “Colossal Clean Crawled Corpus” (أو C4 للاختصار) ونصدرها كجزء من مجموعات بيانات TensorFlow … “
هناك أيضًا إصدارات أخرى لم تتم تصفيتها من C4.
عنوان الورقة البحثية التي تصف مجموعة بيانات C4، استكشاف حدود نقل التعلم باستخدام محول نص إلى نص موحد (PDF).
بحثت ورقة بحثية أخرى من عام 2021، (توثيق مجموعة نصوص الويب الكبيرة: دراسة حالة عن مجموعة البيانات الزاحفة الضخمة النظيفة – PDF) في تكوين المواقع المدرجة في مجموعة بيانات C4.
ومن المثير للاهتمام، أن الورقة البحثية الثانية اكتشفت شذوذًا في مجموعة بيانات C4 الأصلية التي أدت إلى إزالة صفحات الويب التي كانت من أصل لاتيني وأمريكي من أصل أفريقي.
تمت إزالة صفحات الويب المتوافقة مع ذوي الأصول الأسبانية بواسطة مرشح قائمة الحظر (كلمات بذيئة، وما إلى ذلك) بمعدل 32٪ من الصفحات.
تمت إزالة صفحات الويب المتوافقة مع الأمريكيين من أصل أفريقي بمعدل 42٪.
يفترض أنه تم معالجة أوجه القصور هذه …
ومن النتائج الأخرى أن 51.3٪ من مجموعة بيانات C4 تتكون من صفحات ويب تم استضافتها في الولايات المتحدة.
أخيرًا، يقر تحليل 2021 لمجموعة بيانات C4 الأصلية بأن مجموعة البيانات لا تمثل سوى جزء بسيط من إجمالي الإنترنت.
يقول التحليل:
يوضح تحليلنا أنه في حين أن مجموعة البيانات هذه تمثل جزءًا مهمًا من شبكة الإنترنت العامة، فإنها لا تمثل بأي حال العالم الناطق باللغة الإنجليزية، وتمتد على مدى واسع من السنوات.
عند إنشاء مجموعة بيانات من كشط على الويب، يعد الإبلاغ عن المجالات التي تم اقتطاف النص منها جزءًا لا يتجزأ من فهم مجموعة البيانات؛ يمكن أن تؤدي عملية جمع البيانات إلى توزيع مختلف بشكل كبير لنطاقات الإنترنت عما يتوقعه المرء “.
الإحصاءات التالية حول مجموعة بيانات C4 مأخوذة من ورقة البحث الثانية المرتبطة أعلاه.
أفضل 25 موقعًا (حسب عدد الرموز) في C4 هي:
- patents.google.com
- en.wikipedia.org
- en.m.wikipedia.org
- www.nytimes.com
- www.latimes.com
- www.theguardian.com
- Journal.plos.org
- www.forbes.com
- www.huffpost.com
- patents.com
- www.scribd.com
- www.washingtonpost.com
- www.fool.com
- ipfs.io
- www.frontiersin.org
- www.businessinsider.com
- www.chicagotribune.com
- www.booking.com
- www.theatlantic.com
- link.springer.com
- www.aljazeera.com
- www.kickstarter.com
- caselaw.findlaw.com
- www.ncbi.nlm.nih.gov
- www.npr.org
هذه هي أهم 25 نطاقًا تم تمثيلها في المستوى الأعلى في مجموعة بيانات C4:
لقطة شاشة من توثيق مجموعة نصوص ويب كبيرة: دراسة حالة عن مجموعة البيانات المجنزرة النظيفة الهائلة
إذا كنت مهتمًا بمعرفة المزيد عن مجموعة بيانات C4، فإنني أوصي بقراءة Documenting Large Webtext Corpora: دراسة حالة حول Colossal Clean Crawled Corpus (PDF) بالإضافة إلى ورقة البحث الأصلية لعام 2020 (PDF) التي تم إنشاء C4 من أجلها.
ماذا يمكن أن تكون بيانات الحوارات من المنتديات العامة؟
50٪ من بيانات التدريب مصدرها ” بيانات الحوارات من المنتديات العامة “.
هذا كل ما تقوله ورقة بحث LaMDA من Google حول بيانات التدريب هذه.
إذا كان على المرء أن يخمن، فإن Reddit والمجتمعات الكبرى الأخرى مثل StackOverflow هي رهانات آمنة.
يتم استخدام Reddit في العديد من مجموعات البيانات المهمة مثل تلك التي طورتها OpenAI والتي تسمى WebText2 (PDF)، وهو تقريب مفتوح المصدر لـ WebText2 يسمى OpenWebText2 ومجموعة بيانات Google التي تشبه نصوص الويب (PDF) من عام 2020.
نشرت Google أيضًا تفاصيل مجموعة بيانات أخرى لمواقع الحوار العام قبل شهر من نشر ورقة LaMDA.
تسمى مجموعة البيانات التي تحتوي على مواقع الحوار العام MassiveWeb.
نحن لا نتوقع أن تم استخدام مجموعة بيانات MassiveWeb لتدريب LaMDA.
لكنه يحتوي على مثال جيد لما اختارته Google لنموذج لغة آخر ركز على الحوار.
تم إنشاء MassiveWeb بواسطة DeepMind ، المملوكة لشركة Google.
تم تصميمه للاستخدام بواسطة نموذج لغة كبير يسمى Gopher (رابط إلى ملف PDF الخاص بورقة البحث).
يستخدم MassiveWeb مصادر الويب المحاورة التي تتجاوز Reddit لتجنب إنشاء تحيز تجاه البيانات المتأثرة بـ Reddit.
لا يزال يستخدم Reddit. ولكنه يحتوي أيضًا على بيانات مأخوذة من العديد من المواقع الأخرى.
مواقع الحوار العامة المدرجة في MassiveWeb هي:
مرة أخرى، هذا لا يشير إلى أن LaMDA قد تم تدريبه على المواقع المذكورة أعلاه.
من المفترض فقط إظهار ما كان بإمكان Google استخدامه، من خلال إظهار مجموعة بيانات كانت Google تعمل عليها في نفس الوقت تقريبًا مثل LaMDA ، وهو موقع يحتوي على مواقع من نوع المنتدى.
النسبة المتبقية 37.5٪
المجموعة الأخيرة من مصادر البيانات هي:
- 12.5٪ من وثائق الكود من المواقع المتعلقة بالبرمجة مثل مواقع الأسئلة والأجوبة والبرامج التعليمية وما إلى ذلك؛
- 12.5٪ ويكيبيديا (الإنجليزية)
- 6.25٪ مستندات الويب الإنجليزية
- 6.25٪ مستندات الويب غير الإنجليزية.
لا تحدد Google المواقع الموجودة في فئة مواقع البرمجة الأسئلة والأجوبة التي تشكل 12.5٪ من مجموعة البيانات التي تدرب عليها LaMDA.
لذلك يمكننا فقط التكهن.
يبدو Stack Overflow و Reddit كخيارات واضحة، لا سيما أنه تم تضمينهما في مجموعة بيانات MassiveWeb.
ما هي مواقع ” البرامج التعليمية ” التي تم الزحف إليها؟ يمكننا فقط التكهن بما قد تكون عليه هذه المواقع “التعليمية”.
هذا يترك الفئات الثلاث الأخيرة من المحتوى، اثنتان منها غامضة للغاية.
لا تحتاج ويكيبيديا الإنجليزية إلى مناقشة، فنحن جميعًا نعرف ويكيبيديا.
لكن لم يتم شرح الأمرين التاليين:
تعد صفحات الويب باللغة الإنجليزية وغير الإنجليزية وصفًا عامًا لـ 13٪ من المواقع المدرجة في قاعدة البيانات.
هذه هي كل المعلومات التي تقدمها Google حول هذا الجزء من بيانات التدريب.
هل يجب أن تتحلى Google بالشفافية بشأن مجموعات البيانات المستخدمة لشركة Bard؟
يشعر بعض الناشرين بعدم الارتياح لاستخدام مواقعهم لتدريب أنظمة الذكاء الاصطناعي لأن هذه الأنظمة، في رأيهم، يمكن أن تجعل مواقعهم الإلكترونية قديمة وتختفي.
سواء كان هذا صحيحًا أم لا، يبقى أن نرى، ولكنه مصدر قلق حقيقي عبر عنه الناشرون وأعضاء مجتمع التسويق عبر البحث.
جوجل غامضة بشكل محبط بشأن المواقع الإلكترونية المستخدمة لتدريب LaMDA وكذلك التكنولوجيا المستخدمة لكشط مواقع الويب للحصول على البيانات.
كما لوحظ في تحليل مجموعة بيانات C4، يمكن أن تؤثر منهجية اختيار محتوى موقع الويب المراد استخدامه لتدريب نماذج اللغة الكبيرة على جودة نموذج اللغة من خلال استبعاد مجموعات سكانية معينة.
هل يجب أن تكون Google أكثر شفافية بشأن المواقع المستخدمة لتدريب الذكاء الاصطناعي الخاص بها أو على الأقل نشر تقرير شفافية يسهل العثور عليه حول البيانات التي تم استخدامها؟
المصدر: searchenginejournal
قد يهمك: