كيف يغير الذكاء الاصطناعي الطريقة التي نتعلم بها اللغات

عندما نفكر في الذكاء الاصطناعي والتعرف على الصوت، فإننا عادة ما نفكر في واحد من اثنين من السيناريوهين دون المستوى الأمثل.
الأول هو جهاز Amazon Alexa الذي يجلس في المنزل، وربما يتنصت على محادثاتك اليومية ويغذي خوارزميات الإعلانات حتى تشتري النوع المناسب من جزازة العشب.
السيناريو الثاني هو برنامج النسخ عالي الجودة، والذي يقوم بترجمة مقاطع الفيديو والبرامج التلفزيونية تلقائيًا، غالبًا إلى تأثير غير دقيق (وروح الدعابة).
في الواقع، على الرغم من ذلك، هناك بعض التطورات المثيرة للغاية التي تحدث في مجال التعرف على الصوت بالذكاء الاصطناعي في الوقت الحالي.
يعني التقدم في الذكاء الاصطناعي أنه من الممكن الآن إنشاء برامج ونماذج معقدة يمكنها تحليل الكلام وتسجيله. يمكنهم الآن القيام بذلك عبر عدد من المعايير؛ من الدقة النحوية إلى المفردات ومن النطق إلى الوضوح.
هذه القدرة على تسجيل الكلام بشكل فعال لها قوة تحويلية في فضاءات تعلم اللغة والتعليم.
تخيل عالماً لا يحتاج فيه المعلم البشري إلى تصحيح النطق السيئ. تخيل لو لم يكن ذلك ممكنًا فحسب، بل كان ممكنًا في الوقت الفعلي. إن التكاليف التي يوفرها هذا النوع من التطور التكنولوجي ستكون هائلة.
بالنظر إلى أحدث الأنظمة، يبدو أنه باستخدام تقنيات ونماذج الذكاء الاصطناعي الصحيحة، يمكن لأي طالب لغة أن يتلقى نظريًا ملاحظات في الوقت الفعلي حول كيفية تحدثه – سواء كان نطقه باللغة الإنجليزية صحيحًا، وكيف أو أين يمكن تحسينه.
هذا مشابه، ولكن ليس مثل تطبيقات الكلام الأخرى لمنظمة العفو الدولية، مثل التعرف التلقائي على الكلام حيث يتلقى الذكاء الاصطناعي إشارة صوتية ويخرج النص المقابل.
يتطلب النظام الأمثل لهذا النوع من نماذج الذكاء الاصطناعي المكونات الخمسة الرئيسية التالية:
- المعالجة الصوتية المسبقة التي تتعامل مع الإشارات الصوتية الأولية القادمة من منصات مختلفة
- شبكة عصبية اصطناعية (ANN) تستقبل إشارة صوتية مُعالجة وتنتج تمثيلات مضمنة للكلام
- طبقة ما بعد المعالجة التي تبني تقييمًا يمكن قراءته من قبل الإنسان
- طبقة مؤلف تطبيق تقوم بتعيين التقييم لاحتياجات ميزات المنتج
- نظام احتكاري يراقب جودة وأداء نظام الإنتاج
من أجل أن يوفر النظام ملاحظات في الوقت الفعلي، من المستحسن على الأرجح أن يكون زمن انتقال من طرف إلى طرف أقل من ثانية واحدة.
هذا يعني أن أي شبكة عصبية اصطناعية أساسية لديها بضعة أجزاء من الألف من الثانية للاستجابة، مما يمثل تحديًا في حد ذاته لأن هذا نموذج يحتوي على مئات الملايين من المعلمات، ويعالج إشارة صوتية طويلة بشكل عشوائي.
تتمثل إحدى طرق مواجهة ذلك في استخدام الصوتيات (وحدات صوت مميزة بلغة تميز كلمة عن أخرى)، كإخراج متوقع، بدلاً من حروف الكتابة، أو وحدات لغة أكبر.
تحتوي اللغة الإنجليزية على 44 صوتًا: تتكون من 20 صوتًا متحركًا و24 صوتًا ساكنًا.
يمكّن ذلك نظام الذكاء الاصطناعي من تسجيل الأصوات وإبداء الملاحظات حول مدى جودة أصوات المستخدم، أو مدى قربها من الأصوات غير الصحيحة.
على سبيل المثال، عندما يقول المتعلم “زميل”، يمكن للنظام أن يعطي درجات، تتراوح من 0 إلى 100، على الأصوات الأربعة المقابلة: / f /، / ɛ /، / l /، / /.
بناءً على ذلك، يمكن للمنصة تسجيل المقطعين: / fɛ / و / ləʊ /. وبالمثل، يمكن أن يسجل الكلمة، ثم الجملة الكاملة. في حالة النطق غير الكامل، يكون قادرًا على مطابقة ما يشبهه مثل “صوتك / ɛ / يبدو مثل / أ /”.
تزداد شعبية هذه الأنواع من الأنظمة. بالنظر إلى فضاء الذكاء الاصطناعي لتعلم اللغة، تستطيع الشركات الاستفادة من النماذج المدربة مسبقًا والاستثمار بكثافة في عمليات الضبط الدقيق.
يمكن القول إن مفتاح عملية الضبط الدقيق واختيار النموذج يكمن في: 1) مجموعات البيانات المنسقة بشكل فريد، 2) استخدام المعرفة الداخلية حول تعلم اللغة الإنجليزية المنطوقة، و3) القدرات الهندسية والمعرفة العميقة بنقاط القوة والقيود الخاصة بالنماذج.
من خلال الجمع بين التجربة الحية والأوساط الأكاديمية والخبرة الفنية، يمكن تطوير تقنية الذكاء الاصطناعي التي توفر للمستخدمين ملاحظات فورية، في أي وقت يريدون، حول كيفية تحدثهم باللغة الإنجليزية.
فيما يتعلق بالنشر والإنتاج، يمكن أن تساعد الخدمات الجاهزة على GCP (Google Cloud Platform) في تقليل تكاليف التشغيل، مع ضمان قابلية التوسع والاستقرار.
لمواجهة زمن الانتقال من طرف إلى طرف، فإن الضبط الدقيق للبنية التحتية التقنية، بالإضافة إلى اختيار النموذج، يسمح لهذه الأنواع من التقنيات بإعطاء المتعلمين ملاحظات في الوقت الفعلي عندما يتحدثون.
لأسباب واضحة، قد يكون لهذه الأنواع من التطورات التكنولوجية قوة تحويلية في مجال التعليم.
كما هو الحال مع العديد من القطاعات الأخرى، تتمثل إحدى الفوائد الرئيسية لبرامج الذكاء الاصطناعي السلس في خفض التكاليف.
في العصر الحديث للعمل عن بعد والهجين، تعد إجادة اللغة الإنجليزية هي العائق الرئيسي أمام الحصول على وظيفة في شركة دولية، وليس موقعًا جغرافيًا.
إذا كان بإمكان البرامج أن تساعد شخصًا ما على إتقان اللغة الإنجليزية بمعدل معقول أكثر من الرسوم الدراسية من إنسان إلى إنسان، فحينئذٍ يفتح الباب أمام القوى العاملة العالمية.
ليس من قبيل المبالغة أن نقول إن الذكاء الاصطناعي للتعرف على الكلام وإمكانات تعلم اللغة التي يفتحها، يمكن أن يكونا بمثابة المستوي النهائي لسوق المواهب الدولية. الأمر متروك لنا الآن لبنائه.
المصدر: venturebeat
قد يهمك: