كشف فريق Qwen في Alibaba النقاب عن QwQ-32B ، وهو نموذج الذكاء الاصطناعي بمعدل 32 مليار معلمة يوضح الأداء الذي ينافس DeepSeek-R1 الأكبر بكثير. يسلط هذا الاختراق الضوء على إمكانات توسيع نطاق التعلم المعزز (RL) على نماذج الأساس القوية.
نجح فريق Qwen في دمج قدرات الوكيل في نموذج التفكير ، مما مكنه من التفكير النقدي ، واستخدام الأدوات ، وتكييف تفكيره بناء على التعليقات البيئية.
وذكر الفريق: “إن توسيع نطاق RL لديه القدرة على تعزيز أداء النموذج بما يتجاوز الأساليب التقليدية قبل التدريب وما بعد التدريب”. “أظهرت الدراسات الحديثة أن RL يمكن أن يحسن بشكل كبير من قدرات التفكير في النماذج.”
يحقق QwQ-32B أداء مشابها ل DeepSeek-R1 ، الذي يضم 671 مليار معلمة (مع تنشيط 37 مليارا) ، وهو دليل على فعالية RL عند تطبيقه على نماذج الأساس القوية المدربة مسبقا على المعرفة العالمية الواسعة. تؤكد هذه النتيجة الرائعة على قدرة RL على سد الفجوة بين حجم النموذج والأداء.
تم تقييم النموذج عبر مجموعة من المعايير ، بما في ذلك AIME24 و LiveCodeBench و LiveBench و IFEval و BFCL ، المصممة لتقييم التفكير الرياضي ، وكفاءة الترميز ، وقدراتها العامة في حل المشكلات.
تسلط النتائج الضوء على أداء QwQ-32B مقارنة بالموديلات الرائدة الأخرى ، بما في ذلك DeepSeek-R1-Distilled-Qwen-32B و DeepSeek-R1-Distilled-Llama-70B و o1-mini و DeepSeek-R1 الأصلي.
النتائج المعيارية:
- AIME24: حقق QwQ-32B 79.5 ، خلف DeepSeek-R1-6718 بقليل 79.8 ، ولكنه متقدم بشكل كبير على OpenAl-o1-mini 63.6 والنماذج المقطرة.
- LiveCodeBench: سجل QwQ-32B 63.4 ، وهو مرة أخرى يطابقه بشكل وثيق 65.9 ل DeepSeek-R1-6718 ، وتجاوز النماذج المقطرة و OpenAl-o1-mini 53.8.
- لايف بينش: حقق QwQ-32B 73.1 ، مع تسجيل DeepSeek-R1-6718 71.6 ، وتفوق على النماذج المقطرة و OpenAl-o1-mini 57.5.
- IFEval: سجل QwQ-32B 83.9 ، وهو قريب جدا من 83.3 ل DeepSeek-R1-6718 ، وقاد النماذج المقطرة و OpenAl-o1-mini 59.1.
- BFCL: حقق QwQ-32B 66.4 ، مع تسجيل DeepSeek-R1-6718 62.8 ، مما يدل على تقدمه على الطرازات المقطرة و OpenAl-o1-mini 49.3.
تضمن نهج فريق Qwen نقطة تفتيش للبدء البارد وعملية RL متعددة المراحل مدفوعة بالمكافآت القائمة على النتائج. ركزت المرحلة الأولية على توسيع نطاق RL لمهام الرياضيات والترميز ، باستخدام أدوات التحقق من الدقة وخوادم تنفيذ التعليمات البرمجية.
توسعت المرحلة الثانية لتشمل القدرات العامة ، حيث تضمنت المكافآت من نماذج المكافآت العامة والمدققين المستندين إلى القواعد.
وأوضح الفريق: “وجدنا أن هذه المرحلة من تدريب RL مع كمية صغيرة من الخطوات يمكن أن تزيد من أداء القدرات العامة الأخرى ، مثل اتباع التعليمات ، والتوافق مع التفضيلات البشرية ، وأداء الوكيل ، دون انخفاض كبير في الأداء في الرياضيات والترميز”.
QwQ-32B مفتوح الوزن ومتوفر على Hugging Face و ModelScope بموجب ترخيص Apache 2.0 ، ويمكن الوصول إليه أيضا عبر Qwen Chat. ينظر فريق Qwen إلى هذا على أنه خطوة أولية في توسيع نطاق RL لتعزيز قدرات التفكير ويهدف إلى استكشاف تكامل الوكلاء مع RL للتفكير في الأفق الطويل.
وذكر الفريق: “بينما نعمل على تطوير الجيل القادم من Qwen ، نحن على ثقة من أن الجمع بين نماذج الأساس الأقوى مع RL المدعوم بموارد حسابية متدرجة سيدفعنا إلى الاقتراب من تحقيق الذكاء الاصطناعي العام (AGI)”.
المصدر: artificialintelligence