تعلن Meta عن Voicebox ، وهو نموذج تكويني لمهام تركيب الصوت المتعددة

في الأسبوع الماضي، قدم ذراع أبحاث الذكاء الاصطناعي في Meta Platforms نظام Voicebox ، وهو نموذج للتعلم الآلي يمكنه توليد الكلام من النص.
ما يميز Voicebox عن نماذج تحويل النص إلى كلام الأخرى هو قدرته على أداء العديد من المهام التي لم يتم تدريبه عليها، بما في ذلك التحرير وإزالة الضوضاء ونقل النمط.
تم تدريب النموذج باستخدام طريقة خاصة طورها باحثو ميتا. على الرغم من أن Meta لم تصدر Voicebox بسبب مخاوف أخلاقية بشأن إساءة الاستخدام، فإن النتائج الأولية واعدة ويمكن أن تشغل العديد من التطبيقات في المستقبل.
“مطابقة التدفق”
Voicebox هو نموذج تكويني يمكنه تجميع الكلام عبر ست لغات: الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية.
مثل نماذج اللغات الكبيرة (LLMs)، فقد تم تدريبها على مهمة عامة جدًا يمكن استخدامها للعديد من التطبيقات.
ولكن بينما تحاول LLM تعلم الانتظام الإحصائي للكلمات وتسلسلات النص، تم تدريب Voicebox على تعلم الأنماط التي تحدد عينات الصوت الصوتية إلى نصوصها.
يمكن بعد ذلك تطبيق هذا النموذج على العديد من المهام النهائية مع القليل من الضبط الدقيق أو بدونه.
كتب باحثو Meta في ورقتهم (PDF) يصفون التفاصيل الفنية لـ Voicebox: “الهدف هو بناء نموذج واحد يمكنه أداء العديد من مهام إنشاء الكلام الموجهة بالنص من خلال التعلم في السياق”.
تم تدريب النموذج من خلال تقنية ” مطابقة التدفق ” الخاصة بـ Meta، والتي تعد أكثر كفاءة وقابلية للتعميم من طرق التعلم القائمة على الانتشار المستخدمة في النماذج التوليدية الأخرى.
تتيح هذه التقنية لـ Voicebox “التعلم من بيانات الكلام المتنوعة دون الحاجة إلى تصنيف هذه الاختلافات بعناية.” دون الحاجة إلى وضع العلامات اليدوية، تمكن الباحثون من تدريب Voicebox على 50000 ساعة من الكلام والنصوص من الكتب الصوتية.
يستخدم النموذج “ملء الكلام الموجه بالنص” كهدف تدريبي له، مما يعني أنه يجب أن يتنبأ بجزء من الكلام بالنظر إلى الصوت المحيط به ونسخة النص الكاملة. في الأساس، هذا يعني أنه أثناء التدريب، يتم تزويد النموذج بعينة صوتية والنص المقابل لها.
يتم بعد ذلك إخفاء أجزاء من الصوت ويحاول النموذج إنشاء الجزء المقنع باستخدام الصوت المحيط والنسخة كسياق. من خلال القيام بذلك مرارًا وتكرارًا، يتعلم النموذج إنشاء كلام طبيعي من النص بطريقة قابلة للتعميم.
تكرار الأصوات عبر اللغات وتعديل الأخطاء في الكلام والمزيد
على عكس النماذج التوليدية التي تم تدريبها لتطبيق معين، يمكن لـ Voicebox أداء العديد من المهام التي لم يتم تدريبها عليها. على سبيل المثال، يمكن للنموذج استخدام عينة صوتية مدتها ثانيتان لتوليد الكلام لنص جديد.
تقول Meta إن هذه الإمكانية يمكن استخدامها لإيصال الكلام إلى الأشخاص غير القادرين على التحدث، أو تخصيص أصوات شخصيات اللعبة غير القابلة للعب والمساعدين الافتراضيين.
ينفذ Voicebox أيضًا نقل النمط بطرق مختلفة. على سبيل المثال، يمكنك تقديم النموذج مع عينتين صوتيتين ونصيتين.
سيستخدم العينة الصوتية الأولى كمرجع نمط وتعديل العينة الثانية لتتناسب مع صوت ونبرة المرجع.
ومن المثير للاهتمام، أن النموذج يمكنه فعل الشيء نفسه عبر لغات مختلفة، والذي يمكن استخدامه “لمساعدة الأشخاص على التواصل بطريقة طبيعية وأصيلة – حتى لو لم يتحدثوا نفس اللغات”.
يمكن للنموذج أيضًا القيام بمجموعة متنوعة من مهام التحرير. على سبيل المثال، إذا كان كلب ينبح في الخلفية أثناء قيامك بتسجيل صوتك، فيمكنك توفير الصوت والنسخة إلى Voicebox وإخفاء المقطع بضوضاء الخلفية.
سيستخدم النموذج النص لتوليد الجزء المفقود من الصوت بدون ضوضاء الخلفية.
يمكن استخدام نفس الأسلوب لتحرير الكلام. على سبيل المثال، إذا أخطأت في نطق كلمة، فيمكنك إخفاء ذلك الجزء من عينة الصوت وتمريرها إلى Voicebox مع نسخة من النص المحرر.
سيولد النموذج الجزء المفقود بالنص الجديد بطريقة تتطابق مع الصوت والنبرة المحيطة.
أحد تطبيقات Voicebox المثيرة للاهتمام هو أخذ العينات الصوتية. يمكن للنموذج إنشاء عينات كلام مختلفة من تسلسل نصي واحد.
يمكن استخدام هذه الإمكانية لإنشاء بيانات تركيبية لتدريب نماذج معالجة الكلام الأخرى. “تُظهر نتائجنا أن نماذج التعرف على الكلام المدربة على الكلام الاصطناعي الذي تم إنشاؤه بواسطة Voicebox تعمل تقريبًا بنفس أداء النماذج المدربة على الكلام الحقيقي، مع انخفاض معدل الخطأ بنسبة 1 في المائة مقابل تدهور بنسبة 45 إلى 70 في المائة مع الكلام التركيبي من تحويل النص إلى كلام السابق النماذج، “يكتب ميتا.
Voicebox له حدود أيضًا. نظرًا لأنه تم تدريبه على بيانات الكتب الصوتية، فإنه لا ينتقل بشكل جيد إلى خطاب المحادثة غير الرسمي ويحتوي على أصوات غير لفظية.
كما أنه لا يوفر تحكمًا كاملاً في السمات المختلفة للكلام الذي تم إنشاؤه، مثل أسلوب الصوت والنغمة والعاطفة والحالة الصوتية. يستكشف فريق البحث Meta تقنيات للتغلب على هذه القيود في المستقبل.
لم يتم إصدار النموذج
هناك قلق متزايد بشأن تهديدات المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي. على سبيل المثال، حاول مجرمو الإنترنت مؤخرًا خداع امرأة عن طريق الاتصال بها واستخدام صوت تم إنشاؤه بواسطة الذكاء الاصطناعي لانتحال شخصية حفيدها.
يمكن استخدام أنظمة تركيب الكلام المتقدمة مثل Voicebox لأغراض مماثلة أو لأفعال شائنة أخرى، مثل إنشاء أدلة مزيفة أو التلاعب بالصوت الحقيقي.
وكتبت Meta في مدونة الذكاء الاصطناعي الخاصة بها: “كما هو الحال مع ابتكارات الذكاء الاصطناعي الجديدة القوية الأخرى، ندرك أن هذه التكنولوجيا تجلب احتمالية إساءة الاستخدام والضرر غير المقصود”.
بسبب هذه المخاوف، لم تطلق Meta النموذج ولكنها قدمت تفاصيل فنية حول الهندسة المعمارية وعملية التدريب في الورقة الفنية.
تحتوي الورقة أيضًا على تفاصيل حول نموذج المصنف الذي يمكنه اكتشاف الكلام والصوت الناتج عن Voicebox، للتخفيف من مخاطر استخدام النموذج.
المصدر: venturebeat
إقراء ايضا: