في مسعى لإصلاح المشكلة، قام الفريق بتطوير شبكة عصبونية من تصميم ديب مايند يمكنها توليد كلام واقعي انطلاقاً من النص.

2020-04-07 13:00:13

07 أبريل 2020
Article image
مصدر الصورة: فليكر

يقول الخبر

مع اعتماد الكثيرين منا على المكالمات المرئية من أجل التفاعل وجهاً لوجه، أصبح انقطاع الاتصال أكثر إحباطاً من أي وقت مضى. لكن يمكن أن يساعد الذكاء الاصطناعي الذي يحاكي طريقة تكلم الشخص المتحدث في التخفيف من سوء الانقطاعات، عن طريق توليد مقتطفات من الكلام لتغطي لحظات الانقطاع. وقد قام فريق من جوجل بتطوير هذه التكنولوجيا، ويتم استخدامها الآن في تطبيق جوجل للمكالمات المرئية ديو Duo.

ما سبب مشكلة انقطاع الاتصال؟

عندما تجري مكالمة عبر الإنترنت، يتم تقطيع صوتك إلى عدد كبير من القطع الصغيرة التي يتم ضغطها وإرسالها عبر الإنترنت على هيئة كتل بيانات تعرف باسم الرزم. وغالباً ما تصل الرزم إلى الطرف الآخر مبعثرة، وتتولى البرمجيات إعادة ترتيبها. لكن في بعض الأحيان، لا تصل هذه الرزم إلى وجهتها على الإطلاق، وهذا ما يسبب الخلل والانقطاع أثناء المكالمات. وتحدث هذه المشكلة حتى في أفضل ظروف الاتصال؛ فوفقاً لجوجل، فإن 99% من مكالمات ديو تتعامل مع مشاكل الرزم المفقودة أو المشوشة، كما أن عُشر تلك المكالمات تفقد أكثر من 8% من الصوت المرافق لها.

توليد الكلام

في مسعى لإصلاح المشكلة، قام الفريق بتطوير شبكة عصبونية من تصميم ديب مايند يمكنها توليد كلام واقعي انطلاقاً من النص.

ثم تم تدريب الشبكة العصبونية الجديدة التي تسمى ويف نت إي كيو (WaveNetEQ) على مجموعة بيانات كبيرة تتضمن 100 صوت بشري مسجل بـ 48 لغة مختلفة. وتستمر عملية التدريب حتى تتمكن الشبكة من إكمال مقاطع قصيرة من الكلام بشكل تلقائي، بالاستناد إلى الأنماط الشائعة للطريقة التي يتحدث بها الناس. ويتم تشغيل نظام الذكاء الاصطناعي هذا على الجهاز وليس على السحابة؛ نظراً لكون تطبيق ديو مُشفَّر من طرف إلى طرف. وفي أثناء المكالمة، تستطيع شبكة WaveNetEQ أن تتعلم الخصائص المميزة لصوت المتحدث ثم تقوم بتوليد مقاطع صوتية تتطابق مع أسلوب ومحتوى ما يقوله الشخص المتحدث. وعند فقدان إحدى الرزم، يتم إدخال الصوت المُولَّد بالذكاء الاصطناعي ليحل محلها.

في الوقت الحالي، تنحصر قدرة الذكاء الاصطناعي في توليد مقاطع من الكلمات أكثر من قدرته على توليد كلمات أو عبارات كاملة. لكن عينات قصيرة نشرتها جوجل على الإنترنت تُظهر أن النتائج قد تكون واقعية للغاية، وتبدو كأنها حقيقية. وفي إحدى هذه العينات، يقوم نظام الذكاء الاصطناعي باستبدال المقطع الثاني من كلمة “مشكلة” “trouble” بصوت يحاكي تماماً صوت الرجل المتحدث.