هل هذه خوارزمية المحتوى المفيد من Google؟

تصف ورقة بحث Google خوارزمية يمكنها تحديد صفحات الويب منخفضة الجودة، على غرار ما تفعله إشارة المحتوى المفيدة
- تصف ورقة بحث Google خوارزمية تكتشف الصفحات منخفضة الجودة والمحتوى غير المرغوب فيه والمحتوى الذي تم إنشاؤه آليًا
- تتميز الخوارزمية باستخدام منخفض للموارد والقدرة على التعامل مع تحليل مقياس الويب
- لا يلزم تدريب الخوارزمية للعثور على أنواع معينة من المحتوى منخفض الجودة، بل يمكنها التعلم من تلقاء نفسها
نشرت Google ورقة بحثية رائدة حول تحديد جودة الصفحة باستخدام الذكاء الاصطناعي. تبدو تفاصيل الخوارزمية مشابهة بشكل ملحوظ لما يُعرف أن خوارزمية المحتوى المفيد تفعله.
لا تحدد Google تقنيات الخوارزمية
لا يمكن لأي شخص خارج Google أن يقول على وجه اليقين أن هذه الورقة البحثية هي أساس إشارة المحتوى المفيدة.
لا تحدد Google بشكل عام التقنية الأساسية لخوارزمياتها المختلفة مثل خوارزميات Penguin أو Panda أو SpamBrain.
لذلك لا يمكن للمرء أن يقول على وجه اليقين أن هذه الخوارزمية هي خوارزمية المحتوى المفيدة، ويمكن للمرء فقط التكهن وإبداء الرأي حولها.
لكن الأمر يستحق نظرة لأن أوجه التشابه تفتح العين.
إشارة المحتوى المفيد
1. يحسن المصنف
قدمت Google عددًا من القرائن حول إشارة المحتوى المفيدة ولكن لا يزال هناك الكثير من التكهنات حول ماهيتها حقًا.
كانت القرائن الأولى في تغريدة بتاريخ 6 ديسمبر 2022 تعلن عن أول تحديث مفيد للمحتوى.
“إنه يحسن المصنف لدينا ويعمل عبر المحتوى على مستوى العالم بجميع اللغات.”
المصنف، في التعلم الآلي، هو شيء يصنف البيانات (هل هذا هو هذا أم ذاك؟).
2. إنه ليس إجراء يدوي أو بريد عشوائي
خوارزمية المحتوى المفيد، وفقًا لشرح Google (ما يجب أن يعرفه المبدعون عن تحديث المحتوى المفيد من Google في أغسطس 2022)، ليس إجراءً غير مرغوب فيه أو إجراءً يدويًا.
“عملية المصنف هذه آلية بالكامل، باستخدام نموذج التعلم الآلي.
إنه ليس إجراءً يدويًا أو إجراءً غير مرغوب فيه “.
3. إنها إشارة ذات صلة بالترتيب
يوضح شرح تحديث المحتوى المفيد أن خوارزمية المحتوى المفيدة هي إشارة تُستخدم لترتيب المحتوى.
“… إنها مجرد إشارة جديدة وإحدى الإشارات العديدة التي تقيمها Google لترتيب المحتوى.”
4. يتحقق ما إذا كان المحتوى من خلال الأشخاص
الشيء المثير للاهتمام هو أن إشارة المحتوى المفيدة (على ما يبدو) تتحقق مما إذا كان المحتوى قد تم إنشاؤه بواسطة أشخاص.
اكتب محتوى جذابًا بأسلوبك الفريد
أتمتة إنشاء المحتوى بالكامل؛ الحصول على أفكار محتوى مخصصة؛ وكتابة المقالات وتحسينها ونشرها بنقرة واحدة – باستخدام ContentShake.
ذكرت مدونة Google على تحديث المحتوى المفيد (المزيد من المحتوى من قبل الأشخاص ، للأشخاص في البحث) أنها إشارة لتحديد المحتوى الذي تم إنشاؤه بواسطة الأشخاص وللناس.
كتب داني سوليفان من Google:
“… نطرح سلسلة من التحسينات على البحث لتسهيل عثور الأشخاص على محتوى مفيد تم إنشاؤه بواسطة الأشخاص ومن أجلهم.
… نتطلع إلى البناء على هذا العمل لتسهيل العثور على المحتوى الأصلي من قِبل أشخاص حقيقيين ومن أجلهم في الأشهر المقبلة “.
يتكرر مفهوم كون المحتوى “من قبل الأشخاص” ثلاث مرات في الإعلان، مما يشير على ما يبدو إلى أنه جودة إشارة المحتوى المفيدة.
وإذا لم تتم كتابته “بواسطة الأشخاص”، فإنه يتم إنشاؤه آليًا، وهو أمر مهم لأن الخوارزمية التي تمت مناقشتها هنا تتعلق باكتشاف المحتوى الذي تم إنشاؤه بواسطة الجهاز.
5. هل المحتوى المفيد يشير إلى أشياء متعددة؟
أخيرًا، يبدو أن إعلان مدونة Google يشير إلى أن تحديث المحتوى المساعد ليس شيئًا واحدًا فقط، مثل خوارزمية واحدة.
كتب داني سوليفان أنها ” سلسلة من التحسينات ” والتي، إذا لم أقرأها كثيرًا، فهذا يعني أنها ليست مجرد خوارزمية أو نظام واحد، بل العديد منها معًا ينجز مهمة التخلص من المحتوى غير المفيد.
هذا ما كتبه:
“… نطرح سلسلة من التحسينات على البحث لتسهيل عثور الأشخاص على محتوى مفيد تم إنشاؤه بواسطة الأشخاص ومن أجلهم”.
يمكن لنماذج إنشاء النص توقع جودة الصفحة
ما تكتشفه هذه الورقة البحثية هو أن نماذج اللغات الكبيرة (LLM) مثل GPT-2 يمكنها تحديد المحتوى منخفض الجودة بدقة.
استخدموا المصنفات التي تم تدريبها لتحديد النص الذي تم إنشاؤه آليًا واكتشفوا أن هذه المصنفات نفسها كانت قادرة على تحديد نص منخفض الجودة، على الرغم من عدم تدريبهم على القيام بذلك.
يمكن لنماذج اللغات الكبيرة تعلم كيفية القيام بأشياء جديدة لم يتم تدريبهم على القيام بها.
تناقش مقالة جامعة ستانفورد حول GPT-3 كيف تعلمت بشكل مستقل القدرة على ترجمة النص من الإنجليزية إلى الفرنسية، وذلك ببساطة لأنه تم إعطاؤها المزيد من البيانات للتعلم منها، وهو أمر لم يحدث مع GPT-2، والذي تم تدريبه على أقل. بيانات.
تشير المقالة إلى كيفية تسبب إضافة المزيد من البيانات في ظهور سلوكيات جديدة، نتيجة لما يسمى التدريب غير الخاضع للإشراف.
التدريب غير الخاضع للإشراف هو عندما تتعلم الآلة كيفية القيام بشيء لم يتم تدريبه على القيام به.
كلمة ” الظهور ” هذه مهمة لأنها تشير إلى الوقت الذي تتعلم فيه الآلة أن تفعل شيئًا لم تكن مدربة على فعله.
يوضح مقال جامعة ستانفورد عن GPT-3:
“قال المشاركون في ورشة العمل إنهم فوجئوا بأن مثل هذا السلوك ينشأ من القياس البسيط للبيانات والموارد الحسابية وأعربوا عن فضولهم بشأن القدرات الإضافية التي ستظهر من النطاق الآخر.”
القدرة الجديدة الناشئة هو بالضبط ما تصفه الورقة البحثية. اكتشفوا أن كاشف النص الذي تم إنشاؤه آليًا يمكنه أيضًا توقع محتوى منخفض الجودة.
يكتب الباحثون:
“عملنا ذو شقين: أولاً نثبت من خلال التقييم البشري أن المصنفين المدربين على التمييز بين النص الذي تم إنشاؤه بواسطة الإنسان والآلة يظهرون كمتنبئين غير خاضعين للإشراف لـ ” جودة الصفحة “، وقادرون على اكتشاف المحتوى منخفض الجودة دون أي تدريب.
يتيح ذلك إمكانية التمهيد السريع لمؤشرات الجودة في بيئة منخفضة الموارد.
ثانيًا، فضوليًا لفهم مدى انتشار وطبيعة الصفحات منخفضة الجودة في البرية، نجري تحليلًا نوعيًا وكميًا مكثفًا لأكثر من 500 مليون مقالة ويب، مما يجعلها أكبر دراسة أجريت حول هذا الموضوع على الإطلاق “.
الخلاصة هنا هي أنهم استخدموا نموذج إنشاء نص تم تدريبه على اكتشاف المحتوى الذي تم إنشاؤه آليًا واكتشفوا ظهور سلوك جديد، وهو القدرة على تحديد الصفحات منخفضة الجودة.
كاشف OpenAI GPT-2
اختبر الباحثون نظامين لمعرفة مدى نجاحهما في اكتشاف المحتوى منخفض الجودة.
أحد الأنظمة المستخدمة RoBERTa ، وهي طريقة ما قبل التدريب وهي نسخة محسنة من BERT.
هذان هما النظامان اللذان تم اختبارهما:
- كاشف GPT-2 المستند إلى RoBERTa من OpenAI
- GLTR (الكشف الإحصائي وتصور النص المُنشأ)
يبحث عن “التوقيع الإحصائي” للمحتوى المُنشأ آليًا. يستخدم BERT وGPT-2.
اكتشفوا أن كاشف GPT-2 الخاص بـ OpenAI كان متفوقًا في اكتشاف المحتوى منخفض الجودة.
يعكس وصف نتائج الاختبار بدقة ما نعرفه عن إشارة المحتوى المفيدة.
يكتشف الذكاء الاصطناعي جميع أشكال الرسائل غير المرغوب فيها للغة
تشير الورقة البحثية إلى أن هناك العديد من إشارات الجودة ولكن هذا النهج يركز فقط على جودة اللغة أو جودة اللغة.
لأغراض ورقة بحث الخوارزمية هذه، تعني عبارتا “جودة الصفحة” و “جودة اللغة” نفس المعنى.
الاختراق في هذا البحث هو أنهم استخدموا بنجاح تنبؤات كاشف OpenAI GPT-2 حول ما إذا كان شيء ما تم إنشاؤه آليًا أم لا كدرجة لجودة اللغة.
يكتبون:
“… تميل المستندات ذات الدرجة العالية (المكتوبة آليًا) إلى انخفاض جودة اللغة.
… يمكن أن يكون اكتشاف تأليف الآلة بمثابة وكيل قوي لتقييم الجودة.
لا يتطلب أي أمثلة معنونة – فقط مجموعة نصية للتدريب عليها بطريقة تمييزية ذاتية.
هذا مهم بشكل خاص في التطبيقات التي تكون فيها البيانات المسمى شحيحة أو حيث يكون التوزيع معقدًا للغاية بحيث لا يمكن أخذ عينات منه جيدًا.
على سبيل المثال، من الصعب تنسيق ممثل مجموعة بيانات مصنّف لجميع أشكال محتوى الويب منخفض الجودة “.
ما يعنيه هذا هو أن هذا النظام لا يحتاج إلى تدريب لاكتشاف أنواع معينة من المحتوى منخفض الجودة.
يتعلم العثور على جميع الاختلافات ذات الجودة المنخفضة في حد ذاته.
هذه طريقة فعالة لتحديد الصفحات التي ليست بجودة عالية.
النتائج تعكس تحديث المحتوى المفيد
لقد اختبروا هذا النظام على نصف مليار صفحة ويب، وقاموا بتحليل الصفحات باستخدام سمات مختلفة مثل طول المستند وعمر المحتوى والموضوع.
لا يتعلق عمر المحتوى بوضع علامة على المحتوى الجديد على أنه منخفض الجودة.
لقد قاموا ببساطة بتحليل محتوى الويب بمرور الوقت واكتشفوا أن هناك قفزة هائلة في الصفحات منخفضة الجودة بداية من عام 2019، بالتزامن مع تزايد شعبية استخدام المحتوى الذي تم إنشاؤه آليًا.
كشف التحليل حسب الموضوع أن بعض مجالات الموضوعات تميل إلى الحصول على صفحات ذات جودة أعلى، مثل الموضوعات القانونية والحكومية.
ومن المثير للاهتمام أنهم اكتشفوا قدرًا هائلاً من الصفحات منخفضة الجودة في مجال التعليم، والتي قالوا إنها تتوافق مع المواقع التي تقدم مقالات للطلاب.
ما يجعل هذا مثيرًا للاهتمام هو أن التعليم هو موضوع تم ذكره تحديدًا بواسطة Google ليتأثر بتحديث المحتوى المفيد.
مشاركة مدونة جوجل بقلم داني سوليفان:
“… اكتشف اختبارنا أنه سيحسن بشكل خاص النتائج المتعلقة بالتعليم عبر الإنترنت …”
ثلاث درجات جودة اللغة
تستخدم إرشادات مقيمي الجودة من Google (PDF) أربع نقاط جودة، منخفضة ومتوسطة وعالية وعالية جدًا.
استخدم الباحثون ثلاث درجات جودة لاختبار النظام الجديد، بالإضافة إلى واحدة أخرى غير محددة.
المستندات التي تم تصنيفها على أنها غير محددة هي تلك التي لا يمكن تقييمها لأي سبب من الأسباب، وتمت إزالتها.
تم تصنيف الدرجات 0 و1 و2، مع اعتبار اثنين من أعلى الدرجات.
هذه هي أوصاف درجات جودة اللغة (LQ):
“0: LQ منخفض. النص غير مفهوم أو غير متسق منطقيًا.
1: متوسط LQ. النص مفهوم ولكنه مكتوب بشكل سيئ (أخطاء نحوية / نحوية متكررة).
2: ارتفاع LQ. النص سهل الفهم ومكتوب بشكل معقول (أخطاء نحوية / نحوية نادرة).
فيما يلي تعريفات إرشادات مصنعي الجودة للجودة المنخفضة:
أدنى جودة:
“تم إنشاء MC بدون جهد كافٍ أو أصالة أو موهبة أو مهارة ضرورية لتحقيق الغرض من الصفحة بطريقة مرضية.
… القليل من الاهتمام بالجوانب المهمة مثل الوضوح أو التنظيم.
… يتم إنشاء بعض المحتويات منخفضة الجودة بجهد ضئيل من أجل الحصول على محتوى يدعم تحقيق الدخل بدلاً من إنشاء محتوى أصلي أو مجهود لمساعدة المستخدمين.
يمكن أيضًا إضافة محتوى Filler “، خاصة في الجزء العلوي من الصفحة، مما يجبر المستخدمين على التمرير لأسفل للوصول إلى MC.
… كتابة هذه المقالة غير مهنية، بما في ذلك العديد من الأخطاء النحوية وعلامات الترقيم. “
تحتوي إرشادات مقيمي الجودة على وصف أكثر تفصيلاً للجودة المنخفضة من الخوارزمية.
الأمر المثير للاهتمام هو كيف تعتمد الخوارزمية على الأخطاء النحوية والنحوية.
بناء الجملة هو إشارة إلى ترتيب الكلمات.
تبدو الكلمات ذات الترتيب الخاطئ غير صحيحة، على غرار الطريقة التي تتحدث بها شخصية Yoda في Star Wars (“من المستحيل رؤية المستقبل”).
هل تعتمد خوارزمية المحتوى المفيد على إشارات نحوية ونحوية؟ إذا كانت هذه هي الخوارزمية، فربما يلعب ذلك دورًا (ولكن ليس الدور الوحيد).
لكني أود أن أعتقد أن الخوارزمية قد تم تحسينها مع بعض ما هو موجود في إرشادات مقيمي الجودة بين نشر البحث في عام 2021 وإطلاق إشارة المحتوى المفيدة في عام 2022.
الخوارزمية “قوية”
من الممارسات الجيدة قراءة الاستنتاجات للحصول على فكرة إذا كانت الخوارزمية جيدة بما يكفي لاستخدامها في نتائج البحث.
تنتهي العديد من الأوراق البحثية بالقول إنه يجب إجراء المزيد من الأبحاث أو استنتاج أن التحسينات هامشية.
الأوراق الأكثر إثارة للاهتمام هي تلك التي تدعي أحدث النتائج.
لاحظ الباحثون أن هذه الخوارزمية قوية وتتفوق على خطوط الأساس.
ما يجعل هذا مرشحًا جيدًا لإشارة نوع محتوى مفيدة هو أنها خوارزمية منخفضة الموارد على نطاق الويب.
وفي الختام يؤكدون على النتائج الإيجابية:
“تفترض هذه الورقة أن أجهزة الكشف المدربة على التمييز بين النص المكتوب بالبشر والآلة هي منبئات فعالة لجودة لغة صفحات الويب، وتتفوق في أدائها على مصنف البريد العشوائي الخاضع للإشراف”.
وجاءت خاتمة الورقة البحثية إيجابية بشأن الاختراق معربًا عن أمله في أن يستخدم البحث الآخرون.
لا يوجد ذكر لضرورة إجراء مزيد من البحث.
تصف هذه الورقة البحثية اختراقًا في اكتشاف صفحات الويب منخفضة الجودة.
يشير الاستنتاج، في رأيي، إلى أنه من المحتمل أن يتم إدخاله في خوارزمية Google.
نظرًا لأنه يتم وصفها على أنها خوارزمية “على نطاق الويب” يمكن نشرها في “إعداد منخفض الموارد”، فهذا يعني أن هذا هو نوع الخوارزمية التي يمكن تشغيلها وتشغيلها بشكل مستمر، تمامًا مثل إشارة المحتوى المفيدة. لكي يفعل.
لا نعرف ما إذا كان هذا مرتبطًا بتحديث المحتوى المفيد، لكنه بالتأكيد اختراق في علم اكتشاف المحتوى منخفض الجودة.
المصدر: searchenginejournal
قد يهمك: