نظام ذكاء اصطناعي من جوجل يولد تتمة أغنية بمجرد الاستماع لمقطع منها

يستطيع النظام الجديد إنشاء كلام وموسيقى بأصوات تبدو طبيعية بعد أن يتم تلقيمه ببضع ثوانٍ من الصوت.

تم تطوير هذه التكنولوجيا من قبل باحثي جوجل (Google)، وتقوم بتوليد صوت متوافق مع أسلوب الدخل، بما فيها الأصوات المعقدة مثل موسيقى البيانو، أو الكلام البشري، بطريقة تكاد تكون غير قابلة للتمييز عن التسجيل الأصلي. وتعد هذه التقنية بتسريع عملية تدريب الذكاء الاصطناعي على توليد الصوت، ويمكن أن تُستخدم في نهاية المطاف لتوليد الصوت المرافق لمقاطع الفيديو.

أوديو إي إم

إن الصوت المولد بالذكاء الاصطناعي ليس شيئاً نادراً، فأصوات المساعدات المنزلية (الذكية)، مثل أليكسا، تعتمد على معالجة اللغات الطبيعية. كما أن أنظمة الموسيقى التي تعتمد على الذكاء الاصطناعي، مثل نظام جيوكبوكس (Jukebox) من أوبن أيه آي (OpenAI)، حققت نتائج ممتازة، ولكن معظم التقنيات الحالية تحتاج إلى البشر لتحضير النصوص وتصنيف بيانات التدريب النصية، ما يتطلب الكثير من الوقت والجهد البشري. وعلى سبيل المثال، يعتمد جيوكبوكس على البيانات النصية لتوليد كلمات الأغاني.

ولكن طريقة أوديو إل إم، والتي وصفها الباحثون في ورقة بحثية لم تخضع للتحكيم العلمي، مختلفة، فهي لا تحتاج إلى نصوص أو تصنيف. وبدلاً من ذلك، يتم تلقيم قواعد بيانات صوتية إلى البرنامج، ويُستخدم التعلم الآلي لضغط ملفات الصوت إلى مقاطع صوتية صغيرة تسمى "كتلاً رمزية" دون إضاعة الكثير من المعلومات. وبعد ذلك، يتم تلقيم قاعدة البيانات التدريبية هذه المؤلفة من كتل رمزية إلى نموذج التعلم الآلي الذي يعتمد على معالجة اللغات الطبيعية لتعلم أنماط الصوت.

ولتوليد الصوت، يتم تلقيم بضع ثوانٍ من الصوت في أوديو إل إم، والذي يتولى بعد ذلك التنبؤ بالبقية. وتشبه هذه العملية الطريقة التي تتبعها النماذج اللغوية مثل جي بي تي 3 (GPT-3) للتنبؤ بالجمل والكلمات التي ترد على نحو متعاقب في العادة.

وعند الاستماع إلى مقاطع الصوت التي نشرها الفريق، تبدو طبيعية للغاية. وعلى وجه الخصوص، فإن موسيقى البيانو التي تم توليدها باستخدام أوديو إل إم تبدو أكثر سلاسة من موسيقى البيانو التي تم توليدها باستخدام التقنيات الحالية الأخرى في الذكاء الاصطناعي، التي تميل إلى أن تبدو أكثر فوضوية.

ما الذي يميز أوديو إل إم؟

يقول الباحث المختص بالموسيقى المولدة حاسوبياً في جامعة كارنيغي ميلون، روجر دانينبيرغ، إن أوديو إل إم يتميز بجودة صوت أفضل من الجيل السابق من برامج التوليد. وعلى وجه الخصوص، كما يقول، فإن أوديو إل إم يجيد إعادة تشكيل بعض الأنماط المتكررة الموجودة في الموسيقى التي يؤلفها البشر على نحو مثير للدهشة. ولتوليد موسيقى بيانو واقعية، يجب على أوديو إل إم التقاط الكثير من الاهتزازات الخفيفة الموجودة ضمن كل نغمة تصدر عند النقر على مفاتيح البيانو. كما يجب على الموسيقى أن تحافظ على إيقاعها وتناغمها على مدى فترة من الوقت.

يقول دانينبيرغ: "إنه إنجاز رائع، ويعود هذا جزئياً إلى أنه يشير إلى أن هذه الأنظمة تتعلم نوعاً من التراكيب البنيوية على مستويات متعددة".

ولكن عمل أوديو إل إم لا يقتصر على الموسيقى فقط. فبما أنه خضع للتدريب باستخدام مكتبة من تسجيلات الجمل البشرية المنطوقة، يستطيع النظام أيضاً توليد الكلام الذي يستمر وفق لهجة المتحدث الأصلي وأسلوبه، على الرغم من أن هذه الجمل حالياً تبدو مفككة ولا تحمل أي معنى. لقد تم تدريب أوديو إل إم على تعلم أنواع المقاطع الصوتية القصيرة التي ترد بشكل متتالٍ بصورة متكررة، ويعتمد على هذه العملية لمحاكاة توليد الجمل. كما يتمتع بأفضلية القدرة على تعلم الوقفات القصيرة (لحظات الصمت) ونبرة التعجب الموجودة في اللغة المحكية، والتي لا يمكن نقلها بسهولة إلى النص.

وتقول الباحثة في مجال المعلومات وعلوم الكلام في جامعة نورث ويسترن، روبال باتيل، إن الأنظمة السابقة لاستخدام الذكاء الاصطناعي في توليد الصوت قادرة على التقاط هذه الفروق الدقيقة فقط إذا كانت مصنفة بشكل صريح ضمن بيانات التدريب. في المقابل، فإن أوديو إل إم يتعلم هذه التفاصيل المميزة من بيانات الدخل آلياً، ما يضفي المزيد من التأثير الواقعي.

توليد أصوات تبدو طبيعية

يقول نيل زيغيدور، الذي شارك في تصميم أوديو إل إم: "هناك الكثير مما يمكن تسميته بالمعلومات اللغوية، التي لا تكمن في الكلمات التي ننطقها، بل في طريقة تواصل أخرى مبنية على طريقة الكلام للتعبير عن نية أو إحساس معينة". وعلى سبيل المثال، فقد يضحك أحدهم بعد قوله شيئاً ما حتى يشير إلى أن ما قاله كان مجرد نكتة. ويقول: "وهو ما يجعل الكلام طبيعياً".

وفي المحصلة، يمكن استخدام الموسيقى المولدة بالذكاء الاصطناعي لتوفير موسيقى تصويرية تبدو طبيعية أكثر في مقاطع الفيديو والعروض التقديمية. تقول باتيل إنه يمكن لتكنولوجيا توليد الأصوات التي تعطي نتائج تبدو طبيعية أكثر أن تساعد في تحسين أدوات الوصول إلى الإنترنت والبوتات المستخدمة في بيئات الرعاية الصحية. كما يأمل الفريق بتركيب أصوات أكثر تعقيداً، مثل فرقة موسيقية تعزف على آلات مختلفة، أو أصوات تحاكي تسجيلاً في غابة مطيرة استوائية.

ولكن، وكما تقول باتيل، يجب أن ندرس الاعتبارات الأخلاقية لهذه التكنولوجيا. ومن المهم على وجه الخصوص تحديد ما إذا كان الموسيقيون الذين أنتجوا المقاطع الصوتية المستخدمة في بيانات التدريب سيحصلون على اعتراف بالمشاركة أو جزء من أرباح المنتج النهائي، وهي مسألة تم طرحها أيضاً بالنسبة لأنظمة الذكاء الاصطناعي التي تحول النصوص إلى صور. كما يمكن أن يصل الكلام المولد بالذكاء الاصطناعي إلى مرحلة عالية من الجودة بحيث يصبح من الممكن استخدامه لنشر المعلومات المزيفة بسهولة.

وفي الورقة البحثية، كتب الباحثون أنهم بدؤوا دراسة هذه المشكلات ومحاولة التخفيف منها، وذلك بتطوير تقنيات لتمييز الأصوات الطبيعية من الأصوات المنتَجة باستخدام أوديو إل إم على سبيل المثال. كما تقترح باتيل أيضاً إدماج علامات صوتية خفية في المنتجات التي تم توليدها باستخدام الذكاء الاصطناعي لتمييزها عن الصوت الطبيعي بسهولة أكبر.