هل يعد استخدام ChatGPT لمحتوى الويب مقبولاً؟

البعض غير مرتاح لكيفية استخدام ChatGPT لمحتوى الويب الخاص بهم للتدريب والتعلم منه
Highlights
- هناك طريقة لمنع استخدام المحتوى الخاص بك في تدريب نماذج لغات كبيرة مثل ChatGPT
- يقول متخصص في قانون الملكية الفكرية إن التكنولوجيا قد فاقت قدرة قوانين حقوق النشر على مواكبة ذلك
- يتساءل خبير تسويق البحث عما إذا كان استخدام الذكاء الاصطناعي لمحتوى الإنترنت بدون إذن عادلًا
نماذج اللغات الكبيرة (LLMs) مثل تدريب ChatGPT باستخدام مصادر متعددة للمعلومات، بما في ذلك محتوى الويب. تشكل هذه البيانات أساس ملخصات هذا المحتوى في شكل مقالات تم إنتاجها دون إسناد أو فائدة لأولئك الذين نشروا المحتوى الأصلي المستخدم في تدريب ChatGPT.
تقوم محركات البحث بتنزيل محتوى موقع الويب (يسمى الزحف والفهرسة) لتقديم إجابات في شكل روابط لمواقع الويب.
يتمتع ناشرو مواقع الويب بالقدرة على إلغاء الاشتراك في الزحف إلى محتواهم وفهرسته بواسطة محركات البحث من خلال بروتوكول استبعاد الروبوتات، والذي يشار إليه عادةً باسم Robots.txt.
بروتوكول استثناءات الروبوتات ليس معيارًا رسميًا للإنترنت ولكنه معيار تلتزم به برامج زحف الويب الشرعية.
هل يجب أن يتمكن ناشرو الويب من استخدام بروتوكول Robots.txt لمنع نماذج اللغات الكبيرة من استخدام محتوى مواقع الويب الخاصة بهم؟
تستخدم نماذج اللغات الكبيرة محتوى موقع الويب دون إسناد
لا يشعر بعض المشاركين في التسويق عبر محركات البحث بالارتياح تجاه كيفية استخدام بيانات موقع الويب لتدريب الآلات دون رد أي شيء، مثل إقرار أو حركة مرور.
شارك Hans Petter Blindheim (ملف LinkedIn الشخصي)، كبير الخبراء في Curamando بآرائه معي.
علق هانز بيتر:
“عندما يكتب أحد المؤلفين شيئًا ما بعد أن يتعلم شيئًا من مقال على موقعك، فغالبًا ما لا يرتبط بعملك الأصلي لأنه يوفر مصداقية ومجاملة مهنية.
يطلق عليه اقتباس.
لكن الحجم الذي تستوعب به ChatGPT المحتوى ولا تمنحه أي شيء يميزه عن كل من Google والأشخاص.
يتم إنشاء موقع ويب بشكل عام مع وضع التوجيه التجاري في الاعتبار.
تساعد Google الأشخاص في العثور على المحتوى، وتوفير حركة المرور، الأمر الذي يعود بالفائدة على ذلك المحتوى.
لكن الأمر لا يشبه طلب نماذج اللغات الكبيرة إذنك لاستخدام المحتوى الخاص بك، فهم يستخدمونه فقط بمعنى أوسع مما كان متوقعًا عندما تم نشر المحتوى الخاص بك.
وإذا كانت النماذج اللغوية للذكاء الاصطناعي لا تقدم قيمة في المقابل – فلماذا يسمح الناشرون لهم بالزحف إلى المحتوى واستخدامه؟
هل استخدامهم للمحتوى الخاص بك يتوافق مع معايير الاستخدام العادل؟
عندما تتدرب نماذج ChatGPT وML / AI الخاصة بـ Google على المحتوى الخاص بك دون إذن، فإنها تدور حول ما تتعلمه هناك وتستخدم ذلك مع إبعاد الأشخاص عن مواقع الويب الخاصة بك – لا ينبغي أن تحاول الصناعة والمشرعون أيضًا استعادة السيطرة على الإنترنت عن طريق الإجبار عليهم الانتقال إلى نموذج “التمكين”؟ “
المخاوف التي عبر عنها هانز بيتر معقولة.
في ضوء سرعة تطور التكنولوجيا، هل ينبغي إعادة النظر في القوانين المتعلقة بالاستخدام العادل وتحديثها؟
سألت جون رزفي ، محامي براءات الاختراع المسجل (ملف تعريف LinkedIn ) المعتمد من مجلس الإدارة في قانون الملكية الفكرية، إذا كانت قوانين حقوق النشر على الإنترنت قديمة.
أجاب يوحنا:
“نعم بلا شك.
تتمثل إحدى نقاط الخلاف الرئيسية في مثل هذه الحالات في حقيقة أن القانون يتطور حتماً بشكل أبطأ بكثير من تطور التكنولوجيا.
في القرن التاسع عشر، ربما لم يكن هذا مهمًا كثيرًا لأن التقدم كان بطيئًا نسبيًا ولذا كانت الآليات القانونية مُجهزة بشكل أو بآخر للمطابقة.
اليوم، ومع ذلك، فإن التقدم التكنولوجي الجامح فاق بكثير قدرة القانون على مواكبة.
هناك ببساطة الكثير من التطورات والعديد من الأجزاء المتحركة التي يتعذر على القانون مواكبةها.
نظرًا لأنه يتم تشكيله وإدارته حاليًا، إلى حد كبير من قبل أشخاص ليسوا خبراء في مجالات التكنولوجيا التي نناقشها هنا، فإن القانون ضعيف التجهيز أو التنظيم لمواكبة التكنولوجيا … ويجب أن نعتبر أن هذا ليس بالكامل شيء سيء.
لذلك، في أحد الجوانب، نعم، لا يحتاج قانون الملكية الفكرية إلى التطور حتى إذا كان يزعم، ناهيك عن الآمال، لمواكبة التقدم التكنولوجي.
تكمن المشكلة الأساسية في تحقيق توازن بين مواكبة الطرق التي يمكن بها استخدام مختلف أشكال التكنولوجيا مع التراجع عن التجاوزات الصارخة أو الرقابة الصريحة لتحقيق مكاسب سياسية متخفية في النوايا الخيرية.
يجب أن يحرص القانون أيضًا على عدم إصدار تشريعات ضد الاستخدامات المحتملة للتكنولوجيا على نطاق واسع بحيث يخنق أي فائدة محتملة قد تنجم عنها.
يمكنك بسهولة أن تتعارض مع التعديل الأول وأي عدد من القضايا التي تمت تسويتها والتي تحدد كيف ولماذا وإلى أي درجة يمكن استخدام الملكية الفكرية ومن قبل من.
ومحاولة تصور كل استخدام يمكن تصوره للتكنولوجيا قبل سنوات أو عقود من وجود إطار العمل لجعله قابلاً للتطبيق أو حتى ممكنًا ستكون مهمة أحمق شديدة الخطورة.
في مثل هذه المواقف، لا يمكن للقانون حقًا أن يساعد ولكن يكون رد فعل لكيفية استخدام التكنولوجيا … وليس بالضرورة كيف كان الغرض منها.
من غير المحتمل أن يتغير هذا في أي وقت قريب، ما لم نصل إلى هضبة تكنولوجية هائلة وغير متوقعة تسمح للقانون بوقت لمواكبة الأحداث الجارية “.
لذلك يبدو أن قضية قوانين حقوق النشر لها العديد من الاعتبارات التي يجب موازنتها عندما يتعلق الأمر بكيفية تدريب الذكاء الاصطناعي Artificial intelligence، فلا توجد إجابة بسيطة.
OpenAI و Microsoft Sued
هناك حالة مثيرة للاهتمام تم رفعها مؤخرًا وهي حالة استخدم فيها OpenAI و Microsoft كود مفتوح المصدر لإنشاء منتج CoPilot الخاص بهما.
تكمن مشكلة استخدام التعليمات البرمجية مفتوحة المصدر في أن رخصة المشاع الإبداعي تتطلب الإسناد.
وبحسب مقال نشر في مجلة علمية:
“يزعم المدعون أن OpenAI و GitHub جمعا ووزعا منتجًا تجاريًا يسمى Copilot لإنشاء كود إنشائي باستخدام كود يمكن الوصول إليه للجمهور متاحًا في الأصل بموجب تراخيص نمط” مفتوحة المصدر “متنوعة، يشتمل الكثير منها على متطلبات الإسناد.
كما يقول GitHub ، “… [ر] أمطرت على بلايين أسطر التعليمات البرمجية، يحول GitHub Copilot مطالبات اللغة الطبيعية إلى اقتراحات ترميز عبر عشرات اللغات.”
يُزعم أن المنتج الناتج قد حذف أي ائتمان لمنشئي المحتوى الأصليين “.
كتب مؤلف هذا المقال، وهو خبير قانوني في موضوع حقوق النشر، أن الكثيرين يعتبرون تراخيص المشاع الإبداعي مفتوحة المصدر “مجانية للجميع”.
قد يعتبر البعض أيضًا العبارة المجانية للجميع وصفًا عادلًا لمجموعات البيانات المكونة من محتوى الإنترنت يتم كشطها واستخدامها لإنشاء منتجات AI مثل ChatGPT.
خلفية عن LLMs ومجموعات البيانات
تتدرب نماذج اللغات الكبيرة على مجموعات بيانات متعددة من المحتوى. يمكن أن تتكون مجموعات البيانات من رسائل بريد إلكتروني، وكتب، وبيانات حكومية، ومقالات ويكيبيديا، وحتى مجموعات بيانات تم إنشاؤها لمواقع الويب المرتبطة من منشورات على Reddit تحتوي على ثلاث تصويتات مؤيدة على الأقل.
تعود أصول العديد من مجموعات البيانات المتعلقة بمحتوى الإنترنت إلى الزحف الذي أنشأته منظمة غير ربحية تسمى الزحف المشترك.
مجموعة البيانات الخاصة بهم، مجموعة بيانات الزحف المشترك، متاحة للتنزيل والاستخدام مجانًا.
مجموعة بيانات الزحف الشائعة هي نقطة البداية للعديد من مجموعات البيانات الأخرى التي تم إنشاؤها منها.
على سبيل المثال، استخدم GPT-3 إصدارًا مصفى من الزحف المشترك (نماذج اللغة هي ملف PDF لمتعلمي اللقطات القليلة).
هذه هي الطريقة التي استخدم بها باحثو GPT-3 بيانات موقع الويب المضمنة في مجموعة بيانات الزحف المشترك:
“توسعت مجموعات البيانات الخاصة بنماذج اللغة بسرعة، وبلغت ذروتها في مجموعة بيانات الزحف المشترك … التي تشكل ما يقرب من تريليون كلمة.
هذا الحجم من مجموعة البيانات كافٍ لتدريب أكبر النماذج لدينا دون التحديث على نفس التسلسل مرتين.
ومع ذلك، وجدنا أن الإصدارات غير المفلترة أو التي تمت تصفيتها بشكل خفيف من الزحف المشترك تميل إلى أن تكون ذات جودة أقل من مجموعات البيانات المنسقة.
لذلك، اتخذنا 3 خطوات لتحسين متوسط جودة مجموعات البيانات لدينا:
(1) قمنا بتنزيل نسخة من CommonCrawl وتصفيتها استنادًا إلى التشابه مع مجموعة مرجعية عالية الجودة،
(2) أجرينا إلغاء المضاعفة الغامض على مستوى المستند، داخل مجموعات البيانات وعبرها، لمنع التكرار والحفاظ على سلامة مجموعة التحقق من الصحة المعلقة الخاصة بنا كمقياس دقيق للإفراط في التجهيز، و
(3) أضفنا أيضًا مجموعات مرجعية معروفة عالية الجودة إلى مزيج التدريب لزيادة CommonCrawl وزيادة تنوعها. “
مجموعة بيانات C4 من Google (مجموعة بيانات الزحف العمودية النظيفة)، والتي تم استخدامها لإنشاء محول نقل النص إلى نص (T5)، لها جذورها في مجموعة بيانات الزحف الشائعة أيضًا.
توضح الورقة البحثية الخاصة بهم (استكشاف حدود نقل التعلم باستخدام ملف PDF موحد لتحويل النص إلى نص ) ما يلي:
“قبل تقديم النتائج من دراستنا التجريبية واسعة النطاق، نقوم بمراجعة الموضوعات الأساسية الضرورية المطلوبة لفهم نتائجنا، بما في ذلك بنية نموذج المحولات والمهام النهائية التي نقوم بتقييمها.
نقدم أيضًا أسلوبنا في التعامل مع كل مشكلة على أنها مهمة تحويل النص إلى نص ووصف “مجموعة البيانات الزاحفة النظيفة الهائلة” (C4)، وهي مجموعة البيانات الشائعة المستندة إلى الزحف التي أنشأناها كمصدر لبيانات نصية غير مصنفة.
نشير إلى نموذجنا وإطار العمل لدينا باسم “محول تحويل النص إلى نص” (T5). “
نشرت Google مقالة على مدونة الذكاء الاصطناعي الخاصة بها والتي تشرح بشكل أكبر كيفية استخدام بيانات الزحف المشترك (التي تحتوي على محتوى مقتطع من الإنترنت) لإنشاء C4.
كتبوا:
“أحد المكونات المهمة لعملية التعلم هو مجموعة البيانات غير المسماة المستخدمة في التدريب المسبق.
لقياس تأثير زيادة كمية التدريب المسبق بدقة، يحتاج المرء إلى مجموعة بيانات ليست عالية الجودة ومتنوعة فحسب، بل ضخمة أيضًا.
لا تفي مجموعات البيانات الموجودة قبل التدريب بجميع هذه المعايير الثلاثة – على سبيل المثال، النص من ويكيبيديا ذو جودة عالية، ولكنه موحد في الأسلوب وصغير نسبيًا لأغراضنا، في حين أن قصاصات الويب المشتركة الزحف هائلة ومتنوعة للغاية، ولكن بشكل معقول جودة منخفضة.
لتلبية هذه المتطلبات، قمنا بتطوير Colossal Clean Crawled Corpus (C4)، وهي نسخة نظيفة من الزحف المشترك أكبر بمرتبتين من الحجم من Wikipedia.
تضمنت عملية التنظيف الخاصة بنا إزالة البيانات المكررة، والتخلص من الجمل غير المكتملة، وإزالة المحتوى المسيء أو الصاخب.
أدى هذا التصفية إلى نتائج أفضل في المهام النهائية، في حين أن الحجم الإضافي سمح بزيادة حجم النموذج دون زيادة التجهيز أثناء التدريب المسبق. “
تستخدم Google و OpenAI وحتى البيانات المفتوحة من Oracle محتوى الإنترنت، المحتوى الخاص بك، لإنشاء مجموعات بيانات تُستخدم بعد ذلك لإنشاء تطبيقات AI مثل ChatGPT.
يمكن حظر الزحف المشترك
من الممكن حظر الزحف المشترك وبالتالي إلغاء الاشتراك في جميع مجموعات البيانات التي تستند إلى الزحف المشترك.
ولكن إذا تم الزحف إلى الموقع بالفعل، فإن بيانات موقع الويب موجودة بالفعل في مجموعات البيانات. لا توجد طريقة لإزالة المحتوى الخاص بك من مجموعة بيانات الزحف المشتركة وأي من مجموعات البيانات المشتقة الأخرى مثل C4 و Open Data.
سيؤدي استخدام بروتوكول Robots.txt إلى حظر عمليات الزحف المستقبلية بواسطة الزحف المشترك فقط، ولن يمنع الباحثين من استخدام المحتوى الموجود بالفعل في مجموعة البيانات.
كيفية منع الزحف المشترك من بياناتك
يمكن حظر الزحف المشترك من خلال استخدام بروتوكول Robots.txt، ضمن القيود الموضحة أعلاه.
يسمى برنامج الزحف المشترك CCBot.
يتم تحديده باستخدام أحدث سلسلة CCBot User-Agent: CCBot / 2.0
يتم تنفيذ حظر CCBot باستخدام Robots.txt كما هو الحال مع أي روبوت آخر.
فيما يلي رمز حظر CCBot باستخدام Robots.txt.
يقوم CCBot بالزحف من عناوين IP الخاصة بـ Amazon AWS.
يتبع CCBot أيضًا العلامة الوصفية nofollow Robots:
ماذا لو كنت لا تحظر الزحف المشترك؟
يمكن تنزيل محتوى الويب بدون إذن، وهي طريقة عمل المتصفحات، حيث يقومون بتنزيل المحتوى.
لا يحتاج Google أو أي شخص آخر إلى إذن لتنزيل واستخدام المحتوى المنشور بشكل عام.
ناشرو مواقع الويب لديهم خيارات محدودة
لا يبدو أن النظر فيما إذا كان تدريب الذكاء الاصطناعي على محتوى الويب أمرًا أخلاقيًا هو جزء من أي محادثة حول أخلاقيات كيفية تطوير تقنية الذكاء الاصطناعي.
يبدو أنه من المسلم به أنه يمكن تنزيل محتوى الإنترنت وتلخيصه وتحويله إلى منتج يسمى ChatGPT.
المصدر: searchenginejournal
مقالات قد تهمك: