Article image
مصدر الصورة: إم إس تك | عبر صور جيتي



بدأت موجة جديدة من الشركات الناشئة باستخدام التعلم العميق لبناء ممثلين صوتيين اصطناعيين.

2021-08-18 00:11:37

17 أغسطس 2021

يزخر هذا المنشور في مدونة الشركة بحماسة إعلانات التسعينيات الأميركية. وتعدد مختبرات ويل سيد (WellSaid Labs) ما يستطيع العملاء توقعه من “ممثليها الصوتيين الرقميين الثمانية الجدد!”؛ حيث إن توبين “يفيض طاقة ومعرفة”، في حين أن بيج “متزنة ومعبرة”. أما أفا فهي “راقية وواثقة من نفسها واحترافية”.

وقد بُني كلٌّ من هذه البرامج على ممثل صوتي حقيقي تم الاحتفاظ بصورته باستخدام الذكاء الاصطناعي (بموافقة الشخص نفسه). وتستطيع الشركات الآن ترخيص هذه الأصوات لقول أي شيء تريد. ويكفي ببساطة تلقيم محرك الصوت بنص مكتوب، وسيعطي مقطعاً صوتياً صافياً وواضحاً بأداء صوتي طبيعي الإيحاء.

مختبرات ويل سيد هي شركة ناشئة في سياتل، نشأت عن المنظمة البحثية اللاربحية معهد آلن للذكاء الاصطناعي، وهي أحدث شركة تقدم أصواتاً تعتمد على الذكاء الاصطناعي لعملائها. وحالياً، تتخصص الشركة بالأصوات في مقاطع الفيديو للتعليم الإلكتروني للشركات. وقد قامت شركات أخرى بتصميم أصوات للمساعدات الرقمية، وبرامج تشغيل مراكز الاتصالات، بل حتى شخصيات ألعاب الفيديو.

ممثلة صوتية تعتمد على الذكاء الاصطناعي من ويل سيد بشكل ترويجي بصوت كارين هاو.

منذ فترة قريبة، كانت هذه الأصوات عميقة التزييف قد حازت على سمعة سيئة بسبب استخدامها في عمليات نصب بالاتصالات الهاتفية وعمليات الاحتيال على الإنترنت. ولكن تحسن نوعيتها أثار اهتمام عدد متزايد من الشركات؛ فقد أصبح من الممكن محاكاة الكثير من الصفات الخفية في الكلام البشري بفضل التطورات الأخيرة في التعلم الآلي. فهذه الأصوات تتوقف وتتنفس في جميع اللحظات الصحيحة. وتستطيع تغيير أسلوبها وعاطفتها. وعلى الرغم من أن كشفها ممكن عند التحدث لفترة طويلة، فقد أصبح من المستحيل تمييزها عن الأصوات البشرية الحقيقية في المقاطع الصوتية القصيرة.

إضافة إلى ذلك، فإن أصوات الذكاء الاصطناعي زهيدة التكاليف، ويمكن تضخيم استخدامها، ويمكن العمل معها بسهولة. وعلى عكس تسجيل صوت الممثل البشري، فإن الأصوات الاصطناعية قادرة أيضاً على تغيير النص في الزمن الحقيقي، ما يفتح فرصاً جديدة أمام الإعلانات الموجهة شخصياً.

غير أن صعود الأصوات عميقة التزييف عالية الواقية ليس خالياً من المشاكل. وعلى وجه الخصوص، فإن الممثلين الصوتيين البشريين قد يتساءلون عما سيحدث لمصدر عيشهم.

كيفية تزييف صوت

ليست الأصوات الاصطناعية بالشيء الجديد. غير أن الأصوات القديمة -بما فيها الأصوات الأصلية لسيري وأليكسا– كانت مجرد كلمات متراصفة تعطي صوتاً أخرقَ وآليَّ الطابع. وقد تطلب تحويلها إلى شكل أقرب إلى الطبيعة عملاً يدوياً مجهداً.

غير أن التعلم الآلي غيَّر من هذا الأمر. فلم يعد مطورو الصوت يحتاجون إلى تحديد السرعة واللفظ والنبرة للصوت المولد بدقة. وبدلاً من ذلك، يكفي تلقيم إحدى الخوارزميات ببضع ساعات من الصوت حتى تتمكن من تعلم تلك الأنماط بمفردها.

“إذا كنت أتحدث كسلسلة مطاعم بيتزا هت، فمن المؤكد أنه يجب أن يكون صوتي مختلفاً عن صوت سلسلة مطاعم دومينوز أو بابا جونز”.

– روبال باتيل، المؤسسة والرئيسة التنفيذية لشركة فوكال آي دي

على مدى عدة سنوات، استخدم الباحثون هذه الفكرة الأساسية لبناء محركات صوتية أكثر تعقيداً وتطوراً. وعلى سبيل المثال، فإن المحرك الصوتي الذي بنته مختبرات ويل سيد، يعتمد على نموذجين أساسيين للتعلم الآلي؛ حيث يقوم الأول بتوقع الملامح العريضة من الكلام، مثل اللهجة والطبقة والنبرة، اعتماداً على المقطع النصي، أما الآخر فيركز على التفاصيل، مثل لحظات التنفس ورنين الصوت ضمن البيئة المحيطة.

غير أن بناء صوت اصطناعي مقنع يتجاوز مجرد ضغطة زر؛ فالصوت البشري يتميز بعدم الانتظام، والقدرة التعبيرية، وإمكانية نطق نفس الجمل بأساليب مختلفة تماماً وفق السياق.

وبالتالي، فإن التقاط هذه التفاصيل يتطلب العثور على الممثلين الصوتيين المناسبين لتأمين بيانات التدريب الصحيحة للحصول على معايرة دقيقة لنماذج التعلم العميق. تقول ويل سيد إن عملية تطوير نسخة صوتية اصطناعية واقعية تتطلب على الأقل ساعة أو ساعتين من الصوت، وبضعة أسابيع من العمل.

موظفة مختصة بخدمة العملاء في Resemble.ai بصوت كارين هاو.

ممثلة صوتية بأسلوب حواري بصوت كارين هاو.

حققت أصوات الذكاء الاصطناعي شعبية خاصة مع العلامات التجارية التي تحاول الحفاظ على نفس الصوت في الملايين من التفاعلات مع عملائها. ومع الانتشار الواسع لمكبرات الصوت الذكية، ونهضة برامج خدمة العملاء المؤتمتة والمساعدات الصوتية المدمجة في السيارات والأجهزة الذكية، قد تحتاج العلامات التجارية إلى إنتاج ما يصل إلى مئات الساعات من الصوت شهرياً. غير أنها لم تعد أيضاً راغبة في استخدام الأصوات العامة التي تقدمها التكنولوجيا التقليدية لتحويل النص إلى كلام، وهو نمط أخذ بالتسارع خلال الوباء مع تخلي المزيد من العملاء عن التفاعل المباشر ضمن المقرات أو المتاجر، واللجوء بدلاً منه إلى التواصل الافتراضي مع الشركات.

تقول روبال باتيل، وهي أستاذة في جامعة نورث ويسترن والمؤسسة والرئيسة التنفيذية لشركة فوكال آي دي، التي تَعِد ببناء أصوات مخصصة تتوافق مع هوية العلامة التجارية للشركات: “إذا كنت أتحدث كسلسلة مطاعم بيتزا هت، فمن المؤكد أنه يجب أن يكون صوتي مختلفاً عن صوت سلسلة مطاعم دومينوز أو بابا جونز. لقد أجرت هذه العلامات التجارية دراسات معمقة لاختيار ألوانها”، وفكرت ملياً في الخطوط التي ستستخدمها في الكتابة، “والآن، أصبحت جاهزة للتفكير في الصوت الخاص بها أيضاً”.

إعلان وعينة صوتية لفوكال آي دي بصوت ذكوري بالاعتماد على صوت كارين هاو من إم آي تي تكنولوجي ريفيو.

إعلان وعينة صوتية لفوكال آي دي بصوت أنثوي بالاعتماد على صوت كارين هاو من إم آي تي تكنولوجي ريفيو.

وفي حين أن الشركات كانت مضطرة لاستئجار ممثلين صوتيين مختلفين لمراعاة الاختلاف بين الأسواق -مثل الاختلاف بين سوق شمال شرق الولايات المتحدة وسوق جنوبها، أو السوق الفرنسية وسوق المكسيك- فإن بعض شركات أصوات الذكاء الاصطناعي تستطيع التلاعب بلهجة صوت واحد أو تبديل لغته بعدة طرق مختلفة. وهذا ما يفتح المجال أمام تكييف الإعلانات على المنصات المختلفة حتى تتوافق مع المستمعين، بحيث لا يقتصر التغير على خصائص الصوت وحسب، بل يمتد إلى الكلمات المنطوقة أيضاً. وعلى سبيل المثال، يمكن لإعلان حول المشروبات أن يقترح على المستمع زيارة مكان معين يتغير اعتماداً على موقع المستمع، سواء أكان في نيويورك أو تورونتو على سبيل المثال. وتقول شركة ريزيمبل إيه آي (Resemble.ai)، التي تقوم بتصميم الأصوات للإعلانات والمساعدات الذكية، إنها قد بدأت العمل مع عملائها لإطلاق إعلانات صوتية مخصصة على سبوتيفاي وباندورا.

وقد بدأت صناعتا الألعاب والترفيه برؤية الفوائد المحتملة أيضاً. وعلى سبيل المثال، تختص شركة سونانتيك بالأصوات المعبرة القادرة على الضحك والبكاء والهمس والصراخ، وهي تعمل مع صانعي ألعاب الفيديو واستوديوهات الرسوم المتحركة على تأمين أصوات شخصياتهم. ويستخدم الكثير من عملائها الأصوات الاصطناعية فقط في مرحلة ما قبل الإنتاج، ويستبدلونها بأصوات ممثلين حقيقيين في المنتجات النهائية. غير أن سونانتيك تقول إن بضعة عملاء بدؤوا يعتمدون عليها بصورة كاملة، ربما للشخصيات ذات الحوارات المحدودة. وقد عملت ريزيمبل إيه آي وغيرها أيضاً مع منتجي الأفلام والمسلسلات التلفزيونية على إصلاح أداء الممثلين عندما تتشوش الكلمات أو تُلفظ بصورة خاطئة.

غير أن الذكاء الاصطناعي ما زال محدوداً؛ فما زال من الصعب الحفاظ على واقعية الصوت على امتداد فترة زمنية طويلة، وهو ما قد يكون مطلوباً في حالة الكتب الصوتية أو المدونات الصوتية. كما أن التحكم في أداء صوت الذكاء الاصطناعي بنفس طريقة توجيه المخرج للممثل البشري ما زال صعباً للغاية. يقول صهيب أحمد، وهو مؤسس ريزيمبل إيه آي ورئيسها التنفيذي: “ما زلنا في بدايات الكلام الاصطناعي”، وذلك في مقارنة واضحة مع بدايات تكنولوجيا الصور الحاسوبية، التي كانت تُستخدم بشكل أساسي لوضع التعديلات بدلاً من بناء عوالم جديدة كاملة انطلاقاً من شاشات خضراء.

لمسة بشرية

يعني ما سبق أن الممثلين الصوتيين البشريين لن يفقدوا وظائفهم قريباً. فما زالت المشاريع التي تعتمد على أداء تعبيري وإبداعي لفترات طويلة تعتمد على البشر للحصول على أفضل أداء ممكن. كما أن كل صوت اصطناعي تقدمه هذه الشركات ما زال يحتاج إلى ممثل صوتي بشري لتوفير بيانات التدريب الأصلية.

غير أن الممثلين بدؤوا يشعرون بمخاوف متزايدة حول مصدر دخلهم، وذلك وفقاً لناطق رسمي باسم اتحاد (SAG-AFTRA) الذي يمثل الممثلين الصوتيين في الولايات المتحدة. وفي حال لم تشكل مسألة التخلي عنهم لصالح أدوات مؤتمتة مصدر قلق مباشر، فإنهم يشعرون بالتأكيد بالقلق حول تراجع أجورهم أو فقدان السيطرة على أصواتهم، التي تمثل علامتهم التجارية وسمعتهم.

وقد تحولت هذه المسألة إلى محور دعوى قضائية رفعتها الممثلة الصوتية الكندية ديف ستاندينج على تيك توك، حيث تزعم أن ميزة الصوت المدمجة في التطبيق تعتمد على نسخة اصطناعية من صوتها دون إذن منها. وتعكس تجربة ستاندينج أيضاً تجربة سوزان بينيت، وهي الصوت الأصلي لسيري الأميركية، التي أخذت أجراً لقاء تسجيلاتها الأولية، ولكنها لم تحصل على أي شيء لقاء الاستخدام المتواصل للنسخ المصطنعة من صوتها على ملايين الأجهزة من أبل.

ومن ناحية أخرى، تحاول بعض الشركات أن تتحلى بقدر أكبر من المسؤولية إزاء التعامل مع صناعة التمثيل الصوتي. ويقول ممثل اتحاد (SAG-AFTRA) إن أفضل هذه الشركات تواصلت مع الاتحاد لتحديد أفضل طريقة لتعويض الممثلين الصوتيين واحترامهم لقاء عملهم.

وحالياً، تعتمد عدة شركات نظاماً لتقاسم الأرباح لدفع مبلغ مالي للممثل لقاء كل مرة يقوم أحد العملاء بالحصول على ترخيص لاستخدام صوته تحديداً، ما فتح المجال أمام تيار جديد من الدخل السلبي. وتقوم شركات أخرى بإشراك الممثل في عملية تصميم نسخة الذكاء الاصطناعي الخاصة بصوته، وتمنحه سلطة رفض استخدام هذه النسخة في المشاريع التي لا تعجبه. ويعمل اتحاد SAG-AFTRA أيضاً على الدفع نحو إصدار قوانين لحماية الممثلين من استخدام نسخ أصواتهم بشكل غير شرعي.

ولكن بالنسبة إلى باتيل التي تدير فوكال آي دي، فإن الهدف النهائي من أصوات الذكاء الاصطناعي ليس استنساخ الأداء البشري أو أتمتة عملية التمثيل الصوتي. وبدلاً من ذلك، فهذه التكنولوجيا تعد بفتح مجالات جديدة تماماً. ووفقاً لباتيل، يمكن مثلاً استخدام الأصوات الاصطناعية لتكييف المواد التعليمية على الإنترنت حتى تتوافق مع المتابعين. وتقول: “إذا فرضنا مثلاً أننا نحاول الوصول إلى مجموعة من الأطفال من سكان المناطق الداخلية في المدن، فسوف يكون من الرائع أن يكون الصوت المستخدم أقرب إلى مجتمعهم الفعلي”.


شارك



مراسلة الذكاء الاصطناعي، إم آي تي تكنولوجي ريفيو