يطور الفريق طريقة أسرع وأرخص لتدريب نماذج اللغات الكبيرة

قام فريق من جامعة ستانفورد بتطوير Sophia ، وهي طريقة جديدة لتحسين التدريب المسبق لنماذج اللغات الكبيرة التي تكون أسرع بمرتين من الأساليب الحالية.
تكتسب ChatGPT والتطبيقات الأخرى التي تعتمد على نماذج اللغات الكبيرة (LLMs) استخدامًا واسعًا وتلفت انتباه وسائل الإعلام بشكل كبير.
لكن حفنة من شركات التكنولوجيا الكبيرة تهيمن على مساحة LLM لأن التدريب المسبق على هذه النماذج مكلف للغاية، مع تقديرات التكلفة التي تبدأ من 10 ملايين دولار وربما تصل إلى عشرات أو مئات المرات.
يقول هونغ ليو، طالب دراسات عليا في علوم الكمبيوتر بجامعة ستانفورد: “لا يمكن الوصول إلى نماذج اللغات الكبيرة بسهولة من قبل المنظمات الصغيرة أو المجموعات الأكاديمية”.
لتغيير ذلك، شرع ليو وزملاؤه في تحسين طرق تحسين LLM الحالية. النتيجة: أسلوب يسمى صوفيا يختصر وقت التدريب المسبق إلى النصف. يتم نشر تفاصيل هذا الأسلوب على خادم ما قبل الطباعة في arXiv .
التحسين الأمثل
لتحسين التدريب المسبق على ماجستير في القانون، استخدم ليو وزملاؤه، بمن فيهم زميل ما بعد الدكتوراه في جامعة ستانفورد تشيوان لي، ومهندس الأبحاث في جامعة ستانفورد ديفيد هول، والأستاذ المساعد في علوم الكمبيوتر تينغيو ما، والأستاذ المساعد بيرسي ليانغ، حيلتين.
الأول، المعروف باسم تقدير الانحناء، ليس جديدًا، لكن فريق ستانفورد وجد طريقة لجعله أكثر كفاءة.
لفهم نهجهم، ضع في اعتبارك خط تجميع المصنع.
للعمل بكفاءة، يحتاج مدير المصنع إلى تحسين عدد الخطوات التي يتخذها لتحويل المواد الخام إلى منتج نهائي ويحتاج إلى فهم عبء العمل وتوظيفه بشكل مناسب في كل خطوة على طول الخط.
وينطبق الشيء نفسه على ما قبل تدريب ماجستير. تحتوي هذه النماذج على ملايين أو حتى مليارات من المعلمات التي يشبهها ليو بعمال المصانع الذين يسعون لتحقيق نفس الأهداف.
تتمثل إحدى خصائص هذه المعلمات في انحناءها، والذي يعتقد ليو أنه أقصى سرعة يمكن تحقيقها تصل إليها أثناء تقدمها نحو الهدف النهائي لـ LLM مسبق التدريب. في استعارة المصنع، يشبه الانحناء عبء عمل عامل المصنع.
إذا كان بإمكان برنامج التحسين تقدير هذا الانحناء (عبء العمل)، فيمكنه جعل التدريب المسبق في LLM أكثر كفاءة. المشكلة هي: تقدير الانحناء بالطرق الحالية صعب ومكلف بشكل ملحوظ
. يقول ليو: “في الحقيقة، إنها أغلى من القيام بالعمل الفعلي دون عمل تنبؤات بالانحناء”. هذا جزئيًا هو السبب في أن أحدث الأساليب الحالية لتحسين تدريب LLM (آدم ومتغيراته) تتخلى عن خطوة تقدير الانحناء.
ومع ذلك، لاحظ ليو وزملاؤه عدم كفاءة محتملة في الطرق السابقة التي استخدمت تقدير الانحناء البارامتري: قام الباحثون السابقون بتحديث تقديرات الانحناء في كل خطوة من خطوات التحسين.
تساءل فريق ستانفورد عما إذا كان بإمكانهم جعل العملية أكثر كفاءة من خلال تقليل عدد التحديثات.
لاختبار هذه الفكرة، صمم فريق ستانفورد صوفيا لتقدير انحناء المعلمات فقط كل 10 خطوات. يقول ليو: “اتضح أن ذلك كان فوزًا كبيرًا”.
تعالج خدعة التحسين الثانية للفريق، والتي تسمى القطع، مشكلة ذات صلة: مشكلة تقدير الانحناء غير الدقيق. “إذا كان التقدير خاطئًا، فإنه يشبه إعطاء الأشخاص الذين لديهم وظائف شاقة المزيد من العمل للقيام به.
فهو يجعل الأمور أسوأ مما لو لم يكن هناك تقدير على الإطلاق.”
يمنع “القص” ذلك عن طريق تعيين حد أو أقصى تقدير للانحناء. يقول ليو: “في استعارة مصنعنا، يشبه الأمر وضع قيود على عبء العمل لجميع الموظفين”
. استعارة أخرى غالبًا ما يتم تطبيقها على التحسين هي منظر طبيعي للتلال والوديان حيث يكون الهدف هو الوصول إلى أدنى واد.
يقول ليو إنه بدون تقليم، من الممكن الهبوط على سرج بين جبلين. يقول: “في التحسين، ليس هذا هو المكان الذي تريد أن تكون فيه”.
اختبار صوفيا وتوسيع نطاقها
استخدم Liu وزملاؤه Sophia لإجراء اختبار مسبق لـ LLM صغير نسبيًا باستخدام نفس حجم النموذج والتكوين الذي تم استخدامه لإنشاء OpenAI’s GPT-2.
سمح الجمع بين صوفيا لتقدير الانحناء والقص لـ LLM بالتحسين المسبق للمضي قدمًا بسلاسة إلى أدنى واد في نصف عدد الخطوات ونصف الوقت الذي يتطلبه آدم.
يقول ليو: “إن قدرة صوفيا على التكيف تميزها عن آدم”. “يصعب على آدم التعامل مع المعلمات بانحناءات غير متجانسة لأنه لا يمكنه التنبؤ بها مسبقًا.”
يقول ليو إنها أيضًا المرة الأولى منذ تسع سنوات التي يظهر فيها أي شخص أي تحسن جوهري على آدم في التدريب المسبق لنموذج اللغة.
“قد يعني هذا انخفاضًا كبيرًا في تكلفة تدريب النماذج الكبيرة في العالم الحقيقي.” ويقول إنه مع زيادة حجم النماذج، يجب أن تزداد مزايا صوفيا فقط.
بعد ذلك، يأمل ليو وزملاؤه في تطوير ماجستير أكبر باستخدام صوفيا. إنه يأمل أيضًا أن يرى Sophia مطبقة في مجالات أخرى من التعلم الآلي مثل نماذج رؤية الكمبيوتر أو النماذج متعددة الوسائط. “
سيستغرق نقل صوفيا إلى مجال جديد بعض الوقت والموارد، ولكن نظرًا لأنه مفتوح المصدر، يمكن للمجتمع بالتأكيد القيام بذلك
شاهد ايضا: