كيفية منع ChatGPT من استخدام محتوى موقع الويب الخاص بك

يحصل ChatGPT على حق الوصول إلى محتوى موقع الويب للتعلم منه. هذه هي كيفية منع المحتوى الخاص بك من أن يصبح بيانات تدريب على الذكاء الاصطناعي.

هناك قلق بشأن عدم وجود طريقة سهلة لإلغاء الاشتراك في استخدام المحتوى لتدريب نماذج لغة كبيرة (LLMs) مثل ChatGPT . هناك طريقة للقيام بذلك، لكنها ليست مباشرة ولا مضمونة للعمل.

كيف تتعلم الذكاء الاصطناعي من المحتوى الخاص بك

يتم تدريب نماذج اللغات الكبيرة (LLMs) على البيانات التي تنشأ من مصادر متعددة. العديد من مجموعات البيانات هذه مفتوحة المصدر وتستخدم بحرية لتدريب الذكاء الاصطناعي AI.

بشكل عام، تستخدم نماذج اللغات الكبيرة مجموعة متنوعة من المصادر للتدريب منها.

أمثلة على أنواع المصادر المستخدمة:

  • ويكيبيديا
  • سجلات المحكمة الحكومية
  • كتب
  • رسائل البريد الإلكتروني
  • مواقع الويب التي تم الزحف إليها

هناك بالفعل بوابات ومواقع إلكترونية تقدم مجموعات بيانات تقدم كميات هائلة من المعلومات.

تستضيف أمازون إحدى البوابات، وتقدم الآلاف من مجموعات البيانات في سجل البيانات المفتوحة على AWS.

تعد بوابة Amazon التي تحتوي على آلاف مجموعات البيانات مجرد بوابة واحدة من بين العديد من المواقع الأخرى التي تحتوي على المزيد من مجموعات البيانات.

تسرد ويكيبيديا 28 بوابة لتنزيل مجموعات البيانات، بما في ذلك مجموعة بيانات Google وبوابات Hugging Face للعثور على آلاف مجموعات البيانات.

مجموعات البيانات المستخدمة لتدريب ChatGPT

يعتمد ChatGPT على GPT-3.5، والمعروف أيضًا باسم InstructGPT.

مجموعات البيانات المستخدمة لتدريب GPT-3.5 هي نفسها المستخدمة في GPT-3. الفرق الرئيسي بين الاثنين هو أن GPT-3.5 استخدم تقنية تعرف باسم التعلم المعزز من ردود الفعل البشرية (RLHF).

مجموعات البيانات الخمس المستخدمة لتدريب GPT-3 (وGPT-3.5) موصوفة في الصفحة 9 من ورقة البحث، نماذج اللغة هي متعلمون قليلو الطلقات (PDF)

مجموعات البيانات هي:

  1. الزحف المشترك (مصفى)
  2. نص الويب 2
  3. الكتب 1
  4. الكتب 2
  5. ويكيبيديا

من بين مجموعات البيانات الخمس، الاثنتان اللتان تستندان إلى الزحف إلى الإنترنت هما:

  • الزحف المشترك
  • نص الويب 2

حول مجموعة بيانات WebText2

WebText2 عبارة عن مجموعة بيانات OpenAI خاصة تم إنشاؤها عن طريق الزحف إلى الروابط من Reddit التي تحتوي على ثلاثة أصوات مؤيدة.

الفكرة هي أن عناوين URL هذه جديرة بالثقة وستحتوي على محتوى عالي الجودة.

WebText2 هو نسخة موسعة من مجموعة بيانات WebText الأصلية التي طورتها شركة OpenAI.

تحتوي مجموعة بيانات WebText الأصلية على حوالي 15 مليار رمز مميز. تم استخدام WebText لتدريب GPT-2.

WebText2 أكبر قليلاً عند 19 مليار رمز. WebText2 هو ما تم استخدامه لتدريب GPT-3 وGPT-3.5

OpenWebText2

WebText2 (تم إنشاؤه بواسطة OpenAI) غير متاح للجمهور.

ومع ذلك، هناك إصدار مفتوح المصدر متاح للجمهور يسمى OpenWebText2. OpenWebText2 عبارة عن مجموعة بيانات عامة تم إنشاؤها باستخدام نفس أنماط الزحف التي يُفترض أنها تقدم مجموعة بيانات مماثلة، إن لم تكن نفسها، لعناوين URL مثل OpenAI WebText2.

أذكر هذا فقط في حالة رغبة شخص ما في معرفة ما يوجد في WebText2. يمكن للمرء تنزيل OpenWebText2 للحصول على فكرة عن عناوين URL الموجودة فيه.

يمكن تنزيل نسخة نظيفة من OpenWebText2 هنا. الإصدار الأولي من OpenWebText2 متاح هنا.

لم أتمكن من العثور على معلومات حول وكيل المستخدم المستخدم لأي من الزاحف، ربما تم تحديده على أنه Python ، لست متأكدًا.


على حد علمي، لا يوجد وكيل مستخدم لحظره، على الرغم من أنني لست متأكدًا بنسبة 100٪.

ومع ذلك، نحن نعلم أنه إذا كان موقعك مرتبطًا من Reddit بثلاثة أصوات مؤيدة على الأقل، فهناك فرصة جيدة لأن يكون موقعك في مجموعة بيانات OpenAI WebText2 المغلقة المصدر وإصدار مفتوح المصدر منه، OpenWebText2.

مزيد من المعلومات حول OpenWebText2 هنا.

الزحف المشترك

واحدة من أكثر مجموعات البيانات شيوعًا التي تتكون من محتوى الإنترنت هي مجموعة بيانات الزحف المشتركة التي أنشأتها منظمة غير ربحية تسمى الزحف المشترك.

تأتي بيانات الزحف الشائعة من روبوت يزحف إلى الإنترنت بالكامل.

يتم تنزيل البيانات من قبل المؤسسات التي ترغب في استخدام البيانات ثم تنظيفها من المواقع غير المرغوب فيها، وما إلى ذلك.

اسم روبوت الزحف المشترك هو CCBot.

يلتزم CCBot ببروتوكول robots.txt لذلك من الممكن حظر الزحف المشترك باستخدام Robots.txt ومنع بيانات موقع الويب الخاص بك من تحويلها إلى مجموعة بيانات أخرى.

ومع ذلك، إذا تم الزحف إلى موقعك بالفعل، فمن المحتمل أنه تم تضمينه بالفعل في مجموعات بيانات متعددة.

ومع ذلك، من خلال حظر الزحف المشترك، من الممكن إلغاء تضمين محتوى موقع الويب الخاص بك في مجموعات البيانات الجديدة التي يتم الحصول عليها من مجموعات بيانات الزحف الشائعة الأحدث.

هذا ما قصدته في بداية المقال عندما كتبت أن العملية “ليست مباشرة ولا مضمونة للعمل”.

سلسلة CCBot User-Agent هي:

أضف ما يلي إلى ملف robots.txt لحظر روبوت الزحف المشترك:

هناك طريقة إضافية لتأكيد ما إذا كان وكيل مستخدم CCBot شرعيًا وهو أنه يزحف من عناوين IP الخاصة بـ Amazon AWS.

يلتزم CCBot أيضًا بتوجيهات العلامات الوصفية لبرامج الروبوت nofollow.

استخدم هذا في العلامة الوصفية لبرامج الروبوت الخاصة بك:

يجب أخذ الاعتبار قبل حظر أي روبوتات

يمكن استخدام العديد من مجموعات البيانات، بما في ذلك الزحف المشترك، من قبل الشركات التي تقوم بتصفية عناوين URL وتصنيفها من أجل إنشاء قوائم بمواقع الويب لاستهدافها بالإعلانات.

على سبيل المثال، تقدم شركة تدعى Alpha Quantum مجموعة بيانات من عناوين URL المصنفة باستخدام تصنيف مكتب الإعلان التفاعلي. مجموعة البيانات مفيدة لتسويق AdTech والإعلان السياقي. قد يؤدي الاستبعاد من قاعدة بيانات كهذه إلى فقدان الناشر للمعلنين المحتملين.

منع الذكاء الاصطناعي من استخدام المحتوى الخاص بك

تسمح محركات البحث للمواقع الإلكترونية بالانسحاب من الزحف إليها. يسمح الزحف المشترك أيضًا بالانسحاب. ولكن لا توجد طريقة حاليًا لإزالة محتوى موقع الويب من مجموعات البيانات الموجودة.

علاوة على ذلك، لا يبدو أن علماء الأبحاث يقدمون لناشري مواقع الويب طريقة لإلغاء الاشتراك في الزحف.

المقال، هل استخدام ChatGPT لمحتوى الويب عادل؟ يستكشف موضوع ما إذا كان من الأخلاقي استخدام بيانات موقع الويب دون إذن أو وسيلة لإلغاء الاشتراك.

قد يقدّر العديد من الناشرين ذلك إذا تم إعطاؤهم في المستقبل القريب رأيًا أكبر في كيفية استخدام محتواهم، خاصةً بواسطة منتجات الذكاء الاصطناعي مثل ChatGPT.

المصدر: searchenginejournal

أقرأ ايضا:

شركة سيو

خبير SEO محترف

أفضل شركة استضافة ووردبريس

أفضل شركة استضافة مواقع

قوالب ووردبريس

إنشاء مدونة ووردبريس

شراء باك لينك

ما هو التسويق الالكتروني

أفضل قوالب Shopify

ربح المال من الانترنت

أنت تستخدم إضافة Adblock

يعتمد موقع انشاء على الاعلانات كمصدر لدعم الموقع، يجب عليك ايقاف تشغيل حاجب الاعلانات لمشاهدة المحتوي