تجربة التعلم الآلي لاستهداف الرسائل داخل التطبيق

في Spotify ، نستخدم المراسلة للتواصل مع مستمعينا في جميع أنحاء العالم. يقوم فريق المراسلة لدينا بالقوة ويخلق اتصالات مبهجة في المقدمة والخلفية عبر تجربة Spotify ، ويختبر ويصمم الرحلة المثالية لكل مستخدم عبر نظامنا الأساسي. 

اليوم نحن قادرون على إرسال الرسائل من خلال WhatsApp وSMS والبريد الإلكتروني وإشعارات الدفع والتنسيقات المضمنة السياقية وتنسيقات المراسلة الأخرى داخل التطبيق، مثل الوسائط وعمليات الاستحواذ على ملء الشاشة.

المراسلة داخل التطبيق في Spotify

ما نشير إليه بالرسائل داخل التطبيق يغطي مجموعة من تنسيقات الرسائل المختلفة، مع السمة الموحدة التي تظهر جميعها عندما يستخدم المستخدم التطبيق. انظر أدناه للحصول على بعض الأمثلة على الرسائل داخل التطبيق.

المراسلة داخل التطبيق في Spotify

ربما تكون هذه هي الطريقة الأكثر مباشرة لدينا للتواصل مع مستخدمينا، مما يعني أيضًا أننا بحاجة إلى توخي الحذر حتى لا نقطع تجارب الاستماع الخاصة بهم دون داع. 

نحن نحجب عن عمد الرسائل داخل التطبيق لبعض المستخدمين حتى نتمكن من قياس فعاليتها بشكل عام. 

تُظهر هذه الموانع أن الرسائل داخل التطبيق لها تأثير مختلط على سلوك المستخدم عند النظر إلى السكان بالكامل، مما يدل على أننا سنستفيد من استهداف المستخدمين بشكل أكثر انتقائية للرسائل داخل التطبيق.

كنا نعتقد أنه يمكننا استخدام ML لتحديد أهلية المراسلة داخل التطبيق وأنه من خلال القيام بذلك يمكننا تحسين تجربة المستخدم دون الإضرار بمقاييس العمل. 

ناقشنا عددًا من الحلول الممكنة لهذه المشكلة، لكننا قررنا التركيز على النمذجة المتطورة، حيث نحاول أن نصمم بشكل مباشر تأثير الرسائل داخل التطبيق على سلوك المستخدم.

تأثير العلاج غير المتجانس والنمذجة المرتفعة

من الواضح أن الرسائل داخل التطبيق لها تأثير مختلف على المستخدمين المختلفين، وهو ما يُعرف باسم تأثير العلاج غير المتجانس. 

لدينا بعض المستخدمين الذين قد يستمتعون بـ Spotify Premium وسيستفيدون من تلقي رسالة تطالبهم بالاشتراك. 

لدينا أيضًا مستخدمون سعداء بعروض منتجاتهم الحالية، حيث لن تفيد المراسلة المستخدم أو Spotify. مهمتنا إذن هي التنبؤ بتأثير الرسائل داخل التطبيق على المستخدمين. على وجه الخصوص، أردنا فهم التأثير السببي لإرسال الرسائل داخل التطبيق.

تأثير العلاج غير المتجانس والنمذجة المرتفعة

الأدبيات الحالية حول الاستدلال السببي واسعة النطاق، ولكن في حالتنا، يكون هذا التعلم بسيطًا نسبيًا لأن لدينا بالفعل المجموعة المقيدة العشوائية التي تمت مناقشتها مسبقًا. 

بلغة الاستدلال السببي، تمكنا من استخدام هذا التعليق لقياس متوسط ​​تأثير العلاج – أي التأثير على سلوك المستخدم المتوسط ​​عبر مجموعة المستخدمين بأكملها.

نظرًا لتأثير العلاج غير المتجانس لدينا، نريد أن نستهدف على وجه التحديد هؤلاء المستخدمين الذين سيستفيدون من الرسائل داخل التطبيق، مما يعني أننا بحاجة إلى أن نكون قادرين على التنبؤ بتأثير العلاج المتوسط ​​الشرطي (CATE) ، المعطى في شكل معادلة على النحو التالي:

CATE(x)=E [Y (1) - Y(0) | X=x]

في هذه المعادلة، Y(t)تمثل النتيجة المعطاة للعلاج t Xوتمثل الميزات المستخدمة لتحديد مجموعات فرعية مختلفة من المستخدمين.

 وبالتالي، فإن CATE هي القيمة المتوقعة لحجم التأثير المشروط بميزات المستخدم. كمشكلة في التعلم الآلي (ML)، نريد تدريب نموذج يقترب من هذه الوظيفة، والتي يمكننا استخدامها بعد ذلك لتحديد المستخدمين الذين نستهدفهم في الرسائل داخل التطبيق.

الجزء الصعب هنا هو أنه لا يمكننا مراقبة CATE مباشرة، لأنه لا توجد طريقة لإعطاء أو عدم إعطاء المستخدم معاملة.

 لحسن الحظ، يمكننا استخدام نفس بيانات الانتظار التي استخدمناها لتقدير متوسط ​​تأثير العلاج لتدريب هذا النموذج. يمكننا مراقبة ميزات المستخدم، وتعيين العلاج، والنتائج واستخدامها لمعرفة درجة الصعود باستخدام ما يسمى بـ metalearner.

أبسط شكلين لمتعلم المعادن هما S-learner وT-learner. في كلتا الصيغتين لدينا ميزات المستخدم uوقيم العلاج t. في S-learner ، نتعلم نموذجًا ŷ(u, t) ونحسب الارتفاع على النحو التالي:

ŷ(u) = ŷ (u, 1) - ŷ(u, 0)

يتناقض هذا مع T-learner ، حيث نتعلم نموذجين، ونحسب الارتفاع على النحو التالي: ŷ0(u) ŷ1(u)

ŷ(u) = ŷ1(u) - ŷ0(u)

نموذجنا

نموذجنا مستوحى من كل من S-learner وT-learner ، بالإضافة إلى Dragonnet متعددة الرؤوس، من حيث أننا لا نقوم بتضمين العلاج كميزة للنموذج، ولكننا نتعلم أيضًا نموذجًا واحدًا فقط. 

لدينا جزء مشترك من النموذج، وهو نفس الشيء لكل من العلاج والتحكم، حيث يتم تغذية مخرجاته في رؤوس تنبؤ مختلفة لكل علاج.

يتم تحفيز هذا العمل من خلال التأثيرات المتنافسة للرسائل داخل التطبيق على مقاييس الأعمال المختلفة، لذلك فنحن لا نهتم فقط بعلاجين مختلفين ولكن أيضًا نتيجتين مختلفتين. لذلك ننتهي بأربعة مخرجات مختلفة من النموذج:

نموذجنا

كما يوضح الشكل 3 أعلاه، لكل إدخال مستخدم، نقوم بحساب الارتفاع لمقياسين مهمين لدينا ثم نأخذ متوسطًا مرجحًا لهذين المخرجين لإنتاج درجة رفع نهائية، ŷ.

 إذا ŷ>0، يعتبر المستخدم مؤهلاً للمراسلة داخل التطبيق. يتم اختيار القيمة عن طريق ضبط المعلمة الفائقة وبعض منطق الأعمال.

للحصول على مثال تدريبي معين، نعرف العلاج المختار وبالتالي المخرجات المتوقعة لاثنين من الرؤوس بالضبط. 

من خلال تكييف وظيفة الخسارة على الإجراء المختار، يمكننا تدريب نموذج على جميع المخرجات الأربعة في وقت واحد، مع مساهمة كل مثال في تحديث رأسين بالضبط بالإضافة إلى الجزء المشترك من النموذج.

التقييم دون اتصال بالإنترنت

قبل إجراء اختبار A / B، نحتاج إلى تكوين فكرة أفضل عن كيفية أداء النموذج. 

يمكننا أن نلاحظ خسارة متناقصة في مجموعة الاختبار الخاصة بنا، لكن هذا لن يخبرنا عن كيفية قيام النموذج بالمهمة التي نريد بالفعل استخدامها من أجلها. على وجه الخصوص، نود أن نعرف ما إذا كان استخدام النموذج سيكون له تأثير كبير على مقاييس الأعمال.

لفهم تقييمنا، من الضروري أولاً فهم بعض المفاهيم المتعلقة بقطاع الطرق السياقي. دون الخوض في التفاصيل، في مساحة مشكلة قطاع الطرق لدينا وكيل يختار من الإجراءات المتاحة وفقًا لبعض السياسات من أجل تعظيم بعض المكافآت.

 تعد الماكينة السياقية في الأساس نموذجًا لاختيار واحد من بين مجموعة من الإجراءات الممكنة. بعبارة أخرى، تعد الماكينة السياقية نموذجًا يأخذ الميزات ويخرج إجراءً أو توزيعًا على الإجراءات. ليس من المبالغة التفكير في نموذجنا كقطاع طرق سياقي؛ يعتبر اتخاذ قرار بالسماح بالمراسلة إذا كان المتوسط ​​المرجح لدرجات الارتفاع أعلى من بعض العتبة بمثابة سياسة.

باستخدام نفس البيانات المعلقة التي تم جمعها عشوائيًا والمستخدمة للتدريب، يمكننا استخدام تقييم السياسة دون اتصال بالإنترنت لتقييم السياسة دون تشغيلها على المستخدمين الفعليين. 

السياسات الثلاث التي نهتم بها هي: الإرسال إلى الكل، والإرسال إلى لا شيء، والنموذج المرتفع. من خلال إجراء هذا التقييم دون اتصال بالإنترنت، كان لدينا على الأقل بعض الأدلة على أننا لن نضر أعمال Spotify من خلال إجراء هذا الاختبار على قناة مهمة من هذه الرسائل. 

الاختبار والخطوات التالية

لقد اختبرنا نموذجنا A / B وشهدنا تحسنًا كبيرًا في الاحتفاظ بالمستخدمين، لذلك طرحنا النموذج، وبدأ الإنتاج منذ ذلك الحين.

 القيمة التجارية للنموذج واضحة بسبب التأثير المستمر على الاحتفاظ بالمستخدمين (كما هو موضح في الرسم البياني أدناه)؛ ومع ذلك، نعتقد أنه لا يزال هناك المزيد من الفوائد التي يمكن اكتسابها من هذا العمل.

الاختبار والخطوات التالية

لقد رأينا في هذا المنشور على المدونة تطبيق المبادئ من الاستدلال السببي لاستهداف أهلية المراسلة داخل التطبيق.

 لقد استلهمنا من بنية نموذجية متطورة حالية للقيام بتعلم متعدد المهام لموازنة التأثيرات المختلفة للرسائل داخل التطبيق على سلوك المستخدم، وطرحنا هذا النهج بنجاح ونعمل بنشاط على تحسين النموذج من خلال السماح باتباع نظام غذائي أكثر ديناميكية للرسائل، والتي نعتقد أنها ستجلب قيمة أكبر لكل من Spotify ومستخدمينا. 

المصدر: engineering

قد يهمك:

قالب ووردبريس adforest

قالب ووردبريس Digital Agency

ترجمة عربي سويدي

أفضل شركات إنشاء مواقع الويب

إنشاء حساب انستقرام جديد

أفضل 10 محركات بحث

ترجمة عربي هولندي

شراء قالب جنة

أنت تستخدم إضافة Adblock

يعتمد موقع انشاء على الاعلانات كمصدر لدعم الموقع، يجب عليك ايقاف تشغيل حاجب الاعلانات لمشاهدة المحتوي