يمكن للذكاء الاصطناعي الجديد من Microsoft محاكاة صوت أي شخص من عينة مدتها 3 ثوانٍ

أعلن باحثو مايكروسوفت تطبيقًا جديدًا يستخدم الذكاء الاصطناعي لتقليد صوت الشخص في ثوانٍ فقط من التدريب. يمكن بعد ذلك استخدام نموذج الصوت لتطبيقات تحويل النص إلى كلام.
يمكن استخدام التطبيق المسمى VALL-E لتجميع كلام شخصي عالي الجودة مع تسجيل تسجيل مدته ثلاث ثوانٍ فقط لمتحدث كموجه صوتي، كما كتب الباحثون في ورقة نُشرت على الإنترنت على arXiv ، وهي خدمة توزيع مجانية ومفتوحة. -أرشيف الوصول للمقالات العلمية.
توجد الآن برامج يمكنها قص الكلام ولصقه في دفق صوتي، ويتم تحويل هذا الكلام إلى صوت المتحدث من نص مكتوب. ومع ذلك، يجب تدريب البرنامج على محاكاة صوت الشخص، الأمر الذي قد يستغرق ساعة أو أكثر.
“أحد الأشياء البارزة في هذا النموذج هو أنه يفعل ذلك في غضون ثوان. قال روس روبين، المحلل الرئيسي في شركة Reticle Research ، وهي شركة استشارية لتكنولوجيا المستهلك في مدينة نيويورك، لموقع TechNewsWorld ، إنه أمر مثير للإعجاب للغاية.
وفقًا للباحثين، يتفوق VALL-E بشكل كبير على أنظمة تحويل النص إلى كلام (TTS) الحديثة في كل من طبيعية الكلام وتشابه المتحدث.
علاوة على ذلك، يمكن لـ VALL-E الحفاظ على مشاعر المتحدث والبيئة الصوتية. لذلك إذا تم تسجيل عينة الكلام عبر الهاتف، على سبيل المثال، فإن النص الذي يستخدم هذا الصوت سيبدو وكأنه يُقرأ عبر الهاتف.
“سوبر مثير للإعجاب”
قال جياكومو ميشيلي ، عالم الكمبيوتر ومُنشئ موقع على شبكة الإنترنت مع مناقشة لا تنتهي أبدًا تم إنشاؤها بواسطة الذكاء الاصطناعي، إن VALL-E هو تحسن ملحوظ عن أحدث الأنظمة السابقة، مثل YourTTS ، الذي تم إصداره في أوائل عام 2022. الخطاب التركيبي لفيرنر هيرزوغ وسلافوي جيجيك.
قال Miceli لموقع TechNewsWorld: “الشيء المثير للاهتمام في VALL-E ليس فقط حقيقة أنه يحتاج إلى ثلاث ثوانٍ فقط من الصوت لاستنساخ الصوت، ولكن أيضًا إلى أي مدى يمكن أن يتطابق مع هذا الصوت، والجرس العاطفي، وأي ضوضاء في الخلفية”. وصفت ريتو جيوتي ، نائب رئيس المجموعة للذكاء الاصطناعي والأتمتة في IDC، شركة أبحاث السوق العالمية، VALL-E بأنها “مهمة ومثيرة للإعجاب للغاية”.
قال جيوتي لموقع TechNewsWorld: “هذا تحسن كبير مقارنة بالنماذج السابقة، والتي تتطلب فترة تدريب أطول بكثير لتوليد صوت جديد”.
وأضافت: “ما زالت الأيام الأولى لهذه التكنولوجيا، ومن المتوقع أن تجعلها تبدو أكثر شبهاً بالبشر” بمزيد من التحسينات.
مضاهاة العاطفة شكك
على عكس OpenAI ، صانع ChatGPT ، لم تفتح Microsoft VALL-E للجمهور، لذلك تظل هناك أسئلة حول أدائها. على سبيل المثال، هل هناك عوامل يمكن أن تتسبب في تدهور الكلام الناتج عن التطبيق؟
لاحظت Miceli أنه “كلما طالت مدة إنشاء المقتطف الصوتي، زادت فرص سماع الإنسان للأشياء التي تبدو غير جيدة قليلاً”. “قد تكون الكلمات غير واضحة أو مفقودة أو مكررة في تركيب الكلام.”
وأضاف: “من الممكن أيضًا أن يبدو التبديل بين السجلات العاطفية أمرًا غير طبيعي”.
كما أن قدرة التطبيق على محاكاة مشاعر المتحدث لديها متشككون أيضًا. قال مارك إن فينا ، الرئيس والمحلل الرئيسي في SmartTech Research في سان خوسيه، كاليفورنيا: “سيكون من المثير للاهتمام أن نرى مدى قوة هذه القدرة.
وتابع قائلاً: “من الصعب تصديق حقيقة أنهم يدّعون أنه بإمكانهم فعل ذلك ببضع ثوانٍ من الصوت، نظرًا للقيود الحالية لخوارزميات الذكاء الاصطناعي، والتي تتطلب عينات صوتية أطول بكثير”.
مخاوف أخلاقية
يرى الخبراء تطبيقات مفيدة لـ VALL-E، بالإضافة إلى بعض التطبيقات غير المفيدة. استشهد جيوتي بتحرير الكلام واستبدال الممثلين الصوتيين. وأشار Miceli إلى أنه يمكن استخدام التكنولوجيا لإنشاء أدوات تحرير لمنشئي البث، وتخصيص صوت مكبرات الصوت الذكية، بالإضافة إلى دمجها في أنظمة المراسلة وغرف الدردشة وألعاب الفيديو وحتى أنظمة الملاحة.
وأضاف ميشيلي: “الجانب الآخر للعملة هو أن المستخدم الخبيث يمكنه استنساخ صوت سياسي، على سبيل المثال، وجعله يقول أشياء تبدو غير معقولة أو تحريضية، أو بشكل عام لنشر معلومات أو دعاية كاذبة”.
يرى Vena إمكانية إساءة استخدام هائلة في التكنولوجيا إذا كانت جيدة كما تدعي Microsoft. وقال: “على مستوى الخدمات المالية والأمن، ليس من الصعب استحضار حالات استخدام من قبل جهات شائنة يمكن أن تلحق أضرارًا فعلية”.
يرى جيوتي أيضًا أن المخاوف الأخلاقية تتزايد حول VALL-E. وأوضحت: “مع تقدم التكنولوجيا، ستصبح الأصوات الناتجة عن VALL-E والتقنيات المماثلة أكثر إقناعًا”. “سيفتح ذلك الباب أمام مكالمات بريد عشوائي واقعية تكرر أصوات أناس حقيقيين يعرفهم الضحية المحتملة.”
وأضافت: “يمكن أيضًا انتحال شخصيات سياسية وشخصيات عامة أخرى”.
وتابعت قائلة: “قد تكون هناك مخاوف أمنية محتملة”. على سبيل المثال، تسمح بعض البنوك بكلمات المرور الصوتية، مما يثير مخاوف بشأن إساءة الاستخدام. يمكننا أن نتوقع تصعيدًا في سباق التسلح بين المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي وبرمجيات الكشف عن الذكاء الاصطناعي لإيقاف إساءة الاستخدام “.
وأضاف جيوتي: “من المهم ملاحظة أن VALL-E غير متاح حاليًا”. “بشكل عام، يعد تنظيم الذكاء الاصطناعي أمرًا بالغ الأهمية. سيتعين علينا أن نرى الإجراءات التي تضعها Microsoft لتنظيم استخدام VALL-E “.
أدخل المحامين
قد تنشأ أيضًا مشكلات قانونية حول التكنولوجيا. قال مايكل ل. رئيسي في Harness IIP،شركة محاماة وطنية للملكية الفكرية.
وتابع: “على سبيل المثال، قد ينتج عن استنساخ الصوت تزييف عميق لصوت شخص حقيقي يمكن استخدامه لخداع المستمع للخضوع لعملية احتيال أو قد يستخدم لتقليد صوت مرشح انتخابي. في حين أن مثل هذه الانتهاكات من المرجح أن تثير قضايا قانونية في مجالات الاحتيال أو التشهير أو قوانين التضليل الانتخابي، إلا أن هناك نقصًا في قوانين منظمة العفو الدولية المحددة التي من شأنها معالجة استخدام التكنولوجيا نفسها “.
وأضاف: “علاوة على ذلك، اعتمادًا على كيفية الحصول على عينة الصوت الأولية، قد تكون هناك تداعيات بموجب قانون التنصت الفيدرالي وقوانين التنصت على المكالمات الهاتفية الحكومية إذا تم الحصول على عينة الصوت عبر، على سبيل المثال، خط هاتف”.
“أخيرًا،” لاحظ تيش ، “في ظروف محدودة، قد تكون هناك مخاوف من التعديل الأول إذا كان سيتم استخدام مثل هذا الاستنساخ الصوتي من قبل جهة فاعلة حكومية لإسكات الأصوات المشروعة أو نزع الشرعية عنها أو إضعافها من ممارسة حقوقها في حرية التعبير.”
وقال: “مع نضوج هذه التقنيات، قد تكون هناك حاجة لقوانين محددة لمعالجة التكنولوجيا بشكل مباشر ومنع إساءة استخدامها مع تقدم التكنولوجيا وتصبح أكثر سهولة”.
جعل الاستثمارات الذكية
في الأسابيع الأخيرة، تصدرت Microsoft عناوين أخبار الذكاء الاصطناعي. من المتوقع أن تدمج تقنية ChatGPT في محرك بحث Bing الخاص بها هذا العام وربما في تطبيقات Office الخاصة بها. يقال أيضًا أنها تخطط لاستثمار 10 ملايين دولار في OpenAI – والآن، VALL-E.
قال بوب أودونيل ، مؤسس ورئيس محللي شركة Technalysis Research، وهي شركة استشارات وأبحاث سوق التكنولوجيا في مدينة فوستر بولاية كاليفورنيا: “أعتقد أنهم يقومون بالكثير من الاستثمارات الذكية”.
“لقد قفزوا في عربة OpenAI منذ عدة سنوات، لذلك كانوا وراء الكواليس في هذا الأمر لفترة طويلة. قال أودونيل لموقع TechNewsWorld إنه الآن يخرج بشكل كبير.
وتابع: “كان عليهم أن يلعبوا لعبة اللحاق بالركب مع Google ، التي تشتهر بالذكاء الاصطناعي، لكن Microsoft تقوم ببعض التحركات العدوانية لتحتل الصدارة”. “إنهم يقفزون على الشعبية والتغطية المذهلة التي حصلت عليها كل هذه الأشياء.”
وأضاف روبن، “مايكروسوفت، التي كانت رائدة في الإنتاجية خلال الثلاثين عامًا الماضية أو نحو ذلك، تريد الحفاظ على هذا الريادة وتوسيعه. يمكن أن يكون الذكاء الاصطناعي مفتاح ذلك “.
المصدر: technewsworld
قد يهمك: