لا تتوقع أن يتم إضفاء الطابع الديمقراطي على نماذج اللغة الكبيرة مثل GPT التالية

في أوائل شهر مايو، أصدرت Meta Open Pretrained Transformer (OPT-175B)، وهو نموذج لغة كبير (LLM) يمكنه أداء مهام مختلفة.
أصبحت النماذج اللغوية الكبيرة واحدة من أهم مجالات البحث في الذكاء الاصطناعي في السنوات القليلة الماضية.
OPT-175B هو أحدث مشارك في سباق التسلح LLM الذي أطلقته OpenAI’s GPT-3، وهي شبكة عصبية عميقة تحتوي على 175 مليار معلمة.
أظهر GPT-3 أن LLMs يمكنها أداء العديد من المهام دون الخضوع لتدريب إضافي ورؤية بعض الأمثلة فقط (التعلم بدون لقطات أو بضع طلقات).
قامت Microsoft لاحقًا بدمج GPT-3 في العديد من منتجاتها، ولم تُظهِر الوعود العلمية فحسب بل أيضًا الوعود التجارية لـ LLMs.
ما يجعل OPT-175B فريدًا هو التزام Meta بـ “الانفتاح”، كما يوحي اسم النموذج. جعلت Meta النموذج متاحًا للجمهور (مع بعض المحاذير).
كما أصدرت الكثير من التفاصيل حول عملية التدريب والتطوير. في منشور نُشر على مدونة Meta AI، وصفت الشركة إطلاقها لـ OPT-175B بأنه “إضفاء الطابع الديمقراطي على الوصول إلى نماذج اللغة واسعة النطاق”.
تحرك ميتا نحو الشفافية جدير بالثناء. ومع ذلك، فقد وصلت المنافسة على النماذج اللغوية الكبيرة إلى نقطة لم يعد من الممكن فيها إضفاء الطابع الديمقراطي عليها.
النظر داخل نماذج اللغات الكبيرة

يحتوي إصدار Meta لـ OPT-175B على بعض الميزات الرئيسية. يتضمن كلاً من النماذج التي تم اختبارها مسبقًا بالإضافة إلى الكود اللازم لتدريب واستخدام LLM.
تعد النماذج المحددة مسبقًا مفيدة بشكل خاص للمؤسسات التي لا تمتلك الموارد الحسابية لتدريب النموذج (تدريب الشبكات العصبية يتطلب موارد أكثر بكثير من تشغيلها).
سيساعد أيضًا في تقليل البصمة الكربونية الهائلة التي تسببها الموارد الحسابية اللازمة لتدريب الشبكات العصبية الكبيرة.
مثل GPT-3، تأتي OPT بأحجام مختلفة، تتراوح من 125 مليون إلى 175 مليار معلمة (النماذج ذات المعلمات الأكثر لديها قدرة أكبر على التعلم).
في وقت كتابة هذا التقرير، يمكن تنزيل جميع الطرز حتى OPT-30B. سيتم توفير النموذج الكامل المكون من 175 مليار متغير لاختيار الباحثين والمؤسسات التي تملأ استمارة الطلب.
وفقًا لمدونة Meta AI، “للحفاظ على النزاهة ومنع إساءة الاستخدام، نطلق نموذجنا بموجب ترخيص غير تجاري للتركيز على حالات استخدام البحث.
سيتم منح الوصول إلى النموذج للباحثين الأكاديميين؛ المنتسبون إلى منظمات في الحكومة والمجتمع المدني والأوساط الأكاديمية؛ جنبًا إلى جنب مع مختبرات أبحاث الصناعة حول العالم “.
بالإضافة إلى النماذج، أصدرت Meta سجلًا كاملاً يوفر جدولًا زمنيًا تقنيًا مفصلاً لعملية التطوير والتدريب لنماذج اللغة الكبيرة.
عادة ما تتضمن الأوراق المنشورة معلومات حول النموذج النهائي فقط. يعطي السجل رؤى قيمة حول “مقدار الحوسبة التي تم استخدامها لتدريب OPT-175B والنفقات البشرية المطلوبة عندما تصبح البنية التحتية الأساسية أو عملية التدريب نفسها غير مستقرة على نطاق واسع”، وفقًا لميتا.
على النقيض من GPT-3

تنص Meta في منشورها على المدونة على أن نماذج اللغات الكبيرة يمكن الوصول إليها في الغالب من خلال “واجهات برمجة التطبيقات المدفوعة” وأن تقييد الوصول إلى LLM قد “حد من قدرة الباحثين على فهم كيف ولماذا تعمل هذه النماذج اللغوية الكبيرة، مما يعيق التقدم في الجهود المبذولة لتحسين قوتها وتخفيف المشكلات المعروفة مثل التحيز والسمية “.
هذه خطوة في OpenAI (وامتدادًا Microsoft )، التي أصدرت GPT-3 كخدمة API للصندوق الأسود بدلاً من إتاحة أوزان النموذج وكود المصدر للجمهور.
من بين الأسباب التي ذكرتها شركة OpenAI لعدم نشر GPT-3 هي التحكم في إساءة استخدام التطبيقات الضارة وتطويرها.
تعتقد Meta أنه من خلال إتاحة النماذج لجمهور أوسع، ستكون في وضع أفضل للدراسة ومنع أي ضرر يمكن أن تسببه.
إليك كيفية وصف Meta للجهد: “نأمل أن يجلب OPT-175B المزيد من الأصوات إلى حدود إنشاء نماذج اللغة الكبيرة، ويساعد المجتمع بشكل جماعي على تصميم استراتيجيات إصدار مسؤولة، وإضافة مستوى غير مسبوق من الشفافية والانفتاح إلى تطوير نماذج اللغة في هذا المجال. “
تكاليف النماذج اللغوية الكبيرة
ومع ذلك، تجدر الإشارة إلى أن “الشفافية والانفتاح” لا تعادل “إضفاء الطابع الديمقراطي على نماذج اللغة الكبيرة”. تظل تكاليف تدريب النماذج اللغوية الكبيرة وتكوينها وتشغيلها باهظة ومن المرجح أن تزداد في المستقبل.
وفقًا لمدونة Meta، تمكن باحثوها من تقليل تكاليف تدريب النماذج اللغوية الكبيرة بشكل كبير.
تقول الشركة إن البصمة الكربونية للنموذج قد تم تخفيضها إلى سابع GPT-3. الخبراء الذين تحدثت إليهم سابقًا لتكاليف تدريب GPT-3 المقدرة تصل إلى 27.6 مليون دولار .
هذا يعني أن التدريب OPT-175B سيظل يكلف عدة ملايين من الدولارات. لحسن الحظ، فإن النموذج الذي تم اختباره مسبقًا سوف يغني عن الحاجة إلى تدريب النموذج، وتقول Meta إنه سيوفر قاعدة التعليمات البرمجية المستخدمة لتدريب النموذج الكامل ونشره “باستخدام 16 وحدة معالجة رسومات NVIDIA V100 فقط”.
هذا يعادل Nvidia DGX-2، الذي يكلف حوالي 400000 دولار، وليس مبلغًا صغيرًا لمختبر أبحاث محدود النقد أو باحث فردي. (وفقًا لورقة تقدم مزيدًا من التفاصيل حول OPT-175B، قامت Meta بتدريب طرازها الخاص باستخدام وحدات معالجة الرسومات 992 80 جيجا بايت A100، والتي تعد أسرع بكثير من V100.)
يؤكد سجل Meta AI كذلك أن تدريب النماذج اللغوية الكبيرة مهمة معقدة للغاية. يمتلئ الجدول الزمني لـ OPT-175B بأعطال الخادم، وتعطل الأجهزة، وغيرها من التعقيدات التي تتطلب طاقمًا عالي التقنية.
كان على الباحثين أيضًا إعادة بدء عملية التدريب عدة مرات، وتعديل المعلمات الفائقة، وتغيير وظائف الخسارة. كل هذه التكاليف الإضافية لا تستطيع المعامل الصغيرة تحملها.
المستقبل (غير الديمقراطي) لنماذج اللغة الكبيرة

تعتمد نماذج اللغة مثل OPT وGPT على بنية المحولات. تتمثل إحدى السمات الرئيسية للمحولات في قدرتها على معالجة البيانات المتسلسلة الكبيرة (على سبيل المثال، النص) بالتوازي وعلى نطاق واسع.
في السنوات الأخيرة، أظهر الباحثون أنه من خلال إضافة المزيد من الطبقات والمعلمات إلى نماذج المحولات، يمكنهم تحسين أدائهم في المهام اللغوية.
يعتقد بعض الباحثين أن الوصول إلى مستويات أعلى من الذكاء ليس سوى مشكلة مقياس.
وفقًا لذلك، تتجه مختبرات الأبحاث الغنية بالنقود مثل Meta AI وDeepMind (المملوكة لشركة Alphabet) وOpenAI (المدعومة من Microsoft) نحو إنشاء شبكات عصبية أكبر وأكبر.
في العام الماضي، أنشأت Microsoft وNvidia نموذجًا بلغة معلمة بقيمة 530 مليارًا يسمى Megatron-Turing (MT-NLG).
في الشهر الماضي، قدمت Google نموذج لغة Pathways (PaLM)، وهو LLM مع 540 مليار معلمة. وهناك شائعات بأن شركة OpenAI ستصدر GPT-4 في الأشهر القليلة المقبلة.
ومع ذلك، تتطلب الشبكات العصبية الكبيرة أيضًا موارد مالية وتقنية أكبر.
على الرغم من أن النماذج اللغوية الأكبر سيكون لها أجراس وصفارات جديدة (وإخفاقات جديدة)، فإنها ستعمل حتمًا على تركيز السلطة في أيدي عدد قليل من الشركات الغنية عن طريق جعل الأمر أكثر صعوبة بالنسبة لمختبرات الأبحاث الصغيرة والباحثين المستقلين للعمل على نماذج لغوية كبيرة.
على الجانب التجاري، ستتمتع شركات التكنولوجيا الكبرى بميزة أكبر. يعد تشغيل نماذج لغات كبيرة أمرًا مكلفًا للغاية وصعبًا.
تمتلك شركات مثل Google وMicrosoft خوادم ومعالجات خاصة تسمح لها بتشغيل هذه النماذج على نطاق واسع وبطريقة مربحة.
بالنسبة للشركات الأصغر، فإن النفقات العامة لتشغيل نسختها الخاصة من LLM مثل GPT-3 باهظة للغاية.
مثلما تستخدم معظم الشركات خدمات الاستضافة السحابية بدلاً من إعداد الخوادم ومراكز البيانات الخاصة بها، فإن الأنظمة الجاهزة مثل GPT-3 API ستكتسب المزيد من الجذب مع زيادة شعبية نماذج اللغات الكبيرة.
سيؤدي هذا بدوره إلى زيادة مركزية الذكاء الاصطناعي في أيدي شركات التكنولوجيا الكبرى.
سيتعين على المزيد من مختبرات أبحاث الذكاء الاصطناعي الدخول في شراكات مع شركات التكنولوجيا الكبرى لتمويل أبحاثهم.
هذا سيمنح التكنولوجيا الكبيرة مزيدًا من القوة لتحديد الاتجاهات المستقبلية لأبحاث الذكاء الاصطناعي (والتي من المحتمل أن تتماشى مع مصالحها المالية).
يمكن أن يأتي هذا على حساب مجالات البحث التي ليس لها عائد قصير الأجل على الاستثمار.
خلاصة القول هي أنه بينما نحتفل بخطوة Meta لإضفاء الشفافية على LLMs، دعونا لا ننسى أن طبيعة نماذج اللغة الكبيرة ذاتها غير ديمقراطية لصالح الشركات ذاتها التي تنشرها.
المصدر: thenextweb
قد يهمك: