أصبح الذكاء الاصطناعي متعدد اللغات مع Hugging Face’s BLOOM

مع كل الإثارة والابتكارات التي أحاطت بالذكاء الاصطناعي (AI) في السنوات الأخيرة، غالبًا ما تم التخلي عن شيء رئيسي واحد – دعم لغات متعددة، بخلاف اللغة الإنجليزية فقط.

سيتغير ذلك الآن، ويرجع الفضل في ذلك جزئيًا إلى إطلاق BLOOM (وهو اختصار لـ BigScience Large Open-access Open-access Multilingual Language Model). 

بدأ BLOOM بدايته في عام 2021، مع التطوير بقيادة شركة Hugging Face الناشئة للتعلم الآلي، والتي جمعت 100 مليون دولار في مايو. 

تستفيد جهود BigScience أيضًا من مجموعة واسعة من المساهمين بما في ذلك Megatron من Nvidia وفريق Microsoft DeepSpeed ​​، بالإضافة إلى تلقي الدعم من CNRS، وكالة الأبحاث الوطنية الفرنسية. 

تم بناء نموذج BLOOM وتدريبه باستخدام الكمبيوتر الفائق Jean Zay الموجود في فرنسا. 

يمتلك BLOOM بنية مشابهة لنموذج اللغة الكبيرة GPT-3 الخاص بـ OpenAI ، ولكن مع الاختلاف الأساسي الرئيسي هو أن BLOOM متعدد اللغات.

قال Teven Le Scao، مهندس الأبحاث في Hugging Face، لـ VentureBeat: “إن GPT-3 أحادية اللغة وقد تم تصميم BLOOM منذ البداية ليكون متعدد اللغات، لذلك تم تدريبه على عدة لغات، وأيضًا لدمج قدر كبير من بيانات لغة البرمجة”. 

“يدعم BLOOM 46 لغة بشرية و13 لغة برمجة – وهذا فرق كبير جدًا.”

كيف تم تدريب BLOOM على نماذج التعلم الآلي مفتوحة المصدر

اشتملت جهود BLOOM على مكونات متعددة بما في ذلك جمع مجموعة بيانات كبيرة ثم بناء نموذج تدريبي.

أوضح Le Scao أن Hugging Face استفادت من مشاريع Megatron’s Megatron من Nvidia و DeepSpeed ​​من Microsoft، وهما جهود مصممة لتمكين علماء البيانات من تدريب نماذج لغوية كبيرة. 

يعتمد كل من Megatron و DeepSpeed ​​على إطار عمل تعلم الآلة PyTorch مفتوح المصدر. بالنسبة لـ BLOOM، طور الباحثون تفرعًا لمشروعي Megatron و DeepSpeed ​​مما مكن النموذج من النظر إلى جميع اللغات المختلفة.

فيما يتعلق بـ BLOOM نفسه، تم تطوير المشروع في العلن ويستفيد من الترخيص المفتوح الخاص به المصمم على غرار ترخيص الذكاء الاصطناعي المسؤول.

قال Le Scao: “نحاول تحديد ما تعنيه المصادر المفتوحة في سياق نماذج الذكاء الاصطناعي الكبيرة، لأنها لا تعمل حقًا مثل البرامج”.

وأوضح أن الهدف من ترخيص BLOOM هو جعل النموذج مفتوحًا قدر الإمكان، مع الاحتفاظ بدرجة من التحكم في حالات الاستخدام التي تمتلكها المؤسسات للنموذج.

كيف تتناسب النماذج اللغوية الكبيرة مع معالجة اللغة الطبيعية

نماذج اللغات الكبيرة (LLM) هي مجموعة فرعية من المجال العام لمعالجة اللغة الطبيعية (NLP).

قال Le Scao إن نموذج اللغة يشبه “الوحدة الذرية” في البرمجة اللغوية العصبية، حيث يوفر مكونات اللبنات التي يمكن أن تُبنى عليها تفاعلات وتطبيقات الذكاء الاصطناعي المعقدة.

على سبيل المثال، أشار إلى أنه ليس من المنطقي أن يتعلم نموذج البرمجة اللغوية العصبية كيفية إجراء التلخيص وكذلك التحدث بلغة في نفس الوقت. 

قال Le Scao إن الإنسان لا يتعلم كيفية التحدث باللغة الإنجليزية ثم يكتب تقرير بحثي كامل في نفس الوقت. عادةً ما يكون من المنطقي أن يتعلم الإنسان كيفية التحدث باللغة أولاً.

حالات الاستخدام لنماذج متعددة اللغات مثل BLOOM

حتى الآن، استخدمت معظم نماذج لغات الذكاء الاصطناعي إما الإنجليزية أو الصينية. سيعمل BLOOM الآن على تمديد حالات الاستخدام، لا سيما للناطقين بالفرنسية والإسبانية والعربية، حيث لم يكن هناك LLM مفتوحًا من قبل.

بالإضافة إلى توفير أساس جديد للغات بشرية متعددة منطوقة، يمكن لـ BLOOM تمكين حقبة جديدة لتطوير الكود أيضًا.

يعد استخدام الذكاء الاصطناعي لتطوير الكود مساحة وليدة نسبيًا، حيث أصبح برنامج Copilot التابع لشركة GitHub، والذي أصبح متاحًا بشكل عام في نهاية شهر يونيو، من بين القادة الأوائل. 

يتوقع Le Scao أنه نظرًا لتنوع لغات البرمجة التي يفهمها BLOOM، فإنه سيساعد في تمكين تطبيقات جديدة للمطورين.

قال Le Scao: “سيكون BLOOM منصة قوية لتطبيقات الترميز”.

الآن وقد أصبح BLOOM جاهزًا للاستخدام، يتوقع Le Scao أيضًا ظهور حالات استخدام جديدة وغير متوقعة.

قال: “هذا هو الجزء الممتع، لأننا قمنا بكل العمل الشاق لجعل BLOOM يعمل، والآن يمكن للجميع إجراء أي تجربة مجنونة يريدونها من نموذج لغوي قوي”.

المصدر: venturebeat

شاهد المزيد:

شركة سيو

قالب ووردبريس صحيفة Sahifa

قالب ووردبريس استرا Astra

افضل قالب متجر إلكتروني ووردبريس

إنشاء متجر الكتروني

أنت تستخدم إضافة Adblock

يعتمد موقع انشاء على الاعلانات كمصدر لدعم الموقع، يجب عليك ايقاف تشغيل حاجب الاعلانات لمشاهدة المحتوي