كيف تغير تكنولوجيا الصوت حياتنا دون أن نشعر؟

4 دقائق
تكنولوجيا الصوت
حقوق الصورة: أندريه بوبوف/ شترستوك.
استمع الى المقالة الآن هذه الخدمة تجريبية
Play Audio Pause Audio

من تغيير أساليب الرعاية الصحية، مروراً بتسهيل حياة الأشخاص الذين يعانون من صعوبات في الكلام، وحتى تدريب نماذج الذكاء الاصطناعي بطريقة أقرب لطريقة تعلم البشر،لعبت تكنولوجيا الصوت (Voice Technology) أدواراً هامة في تغيير شكل عالمنا المعاصر. وقد استعرضت أحدث حلقات بودكاست "في الآلات نثق" (In Machines We Trust)، الذي تنشره إم آي تي تكنولوجي ريفيو، بعضاً من هذه الأدوار التي ربما نجهل عنها الكثير.

التعرف على الكلام يغير شكل الرعاية الصحية

تبدو الرعاية الصحية في وقتنا الحالي مختلفة عما كانت عليه منذ وقت ليس ببعيد، عندما كان الأطباء يكتبون تفاصيل الحالة الصحية لمرضاهم بالقلم ويحتفظون بها في سجلات ورقية. غيرت التطورات التكنولوجية الحديثة كل شيء، بدءاً من السجلات الرقمية، وخدمات الرعاية الصحية عن بعد، وصولاً إلى الذكاء الاصطناعي الذي يمكنه قراءة الأشعة السينية بشكل أفضل من المتخصصين، وهي تطورات كانت تبدو أقرب للخيال العلمي حتى وقت قريب للغاية.

تكنولوجيا الصوت
حقوق الصورة: سيرغري/ شترستوك

لكن في خضم المعركة المندلعة بين شركات التكنولوجيا الكبرى للفوز بحصة في سوق الرعاية الصحية، تبرز تكنولوجيا الصوت، وبشكل أكثر تحديداً تقنية "التعرف التلقائي على الكلام" (Automatic Speech Recognition)، باعتبارها أحد أهم الاتجاهات الحالية في مجال الرعاية الصحية. وتُمكن هذه التقنية الأجهزة الإلكترونية والأنظمة الحاسوبية من فهم الكلمات المنطوقة والاستجابة إلى الأوامر الصوتية؛ وبالتالي تسمح للبشر بالتفاعل مع تلك الأنظمة باستخدام أصواتهم. وتعتمد الإصدارات المتقدمة من التقنية على حقل فرعي من الذكاء الاصطناعي يعرف باسم معالجة اللغات الطبيعية، حيث يتم تحويل الكلام إلى نص ثمّ معالجته وتحليله لفهم الغرض منه.

يقول كينيث هاربر، نائب رئيس شركة التعرف على الصوت "نوانس" (Nuance)، ورئيس قسم مساعدي الرعاية الصحية الافتراضيين والذكاء السريري المحيط بالشركة، إن تبني الأنظمة الصحية الإلكترونية على مدار العقد الماضي كلف مقدمي الرعاية الكثير من الوقت في عملية التوثيق والرقمنة، وقد مررنا جميعاً بسيناريو الذهاب إلى الطبيب لشرح مشكلة طبية. وبدلاً من أن ينظر إلينا أثناء الحديث، يظل مشغولاً عنا بالكتابة على جهاز الحاسوب الخاص به. ما يفعله في الواقع هو كتابة ملاحظات سريرية حول سبب وجودك في هذا اليوم: ما هو تشخيصه؟ ما هو تقييمه؟ وهو ما يخلق تجربة تشعرك بعدم التواصل وبأنه لا يركز على ما تقوله.

اقرأ أيضاً: تطور برامج التمثيل الصوتي المعتمدة على الذكاء الاصطناعي يثير قلق الممثلين الصوتيين

داكس يتولى العمل الإداري

يشير هاربر إلى أن أحد الحلول الهامة التي قدمتها شركته هو "دراجون أمبينت إكسبرينس" (Dragon Ambient Experience)، أو ما يعرف اختصاراً باسم داكس (DAX). أوضح أن داكس هي "قدرة محيطة" تستمع إلى المحادثة الطبيعية التي تُجرى بين مقدم الخدمة والمريض. ولا يقف الأمر على مجرد التعرف على الكلام، بل يعتمد النظام على فهمه للغة الطبيعية ومعرفته بما هو مهم من الناحية الطبية وما هو غير مهم، إضافة إلى المعلومات المتعلقة بالمريض وتاريخه المرضي، ثم يقوم بتحويل نص المحادثة إلى ملاحظات سريرية عالية الجودة نيابة عن الطبيب. كما يمكن للنظام تقديم الدعم القائم على الأدلة لفريق الرعاية الطبية بشأن أمر ما ربما يجب أن يفكروا في القيام به، أو سؤال عن شيء آخر من الضروري طرحه.

كنا قد نشرنا في أبريل الماضي خبر استحواذ مايكروسوفت على شركة نوانس كوميونيكيشنز (Nuance Communications)، في صفقة نقدية بالكامل بلغت قيمتها نحو 16 مليار دولار، أو نحو 19.7 مليار دولار إذا احتسبنا قيمة ديون نوانس، وهي ثاني أغلى عملية استحواذ في تاريخ مايكروسوفت بعد استحواذها على موقع لينكدإن عام 2016 مقابل 26 مليار دولار.

وتوضح جينيفر سترونج، مقدمة البودكاست ومنتجته التنفيذية، أن هدف داكس هو نقل العمل الإداري إلى آلة، حيث يقوم النظام بتسجيل المحادثة، وتحويلها إلى نص، ووضع وسوم عليه، ثم يستخدم التعلم العميق الذي يعتمد بشكل كبير على البيانات. والهدف النهائي، بحسب هاربر، هو الوصول إلى نموذج ذكاء اصطناعي يفهم ما الذي يجب أو لا يجب توثيقه.

اقرأ أيضاً: هل ما زالت أنظمة الذكاء الاصطناعي عاجزة عن استيعاب اللغة؟

مشروع يوفون

لسوء الحظ، لا تعمل التقنيات الممكّنة بالصوت دائماً بشكل جيد مع الأشخاص الذين يعانون من إعاقات في الكلام. لذا، تسعى شركة جوجل لسد هذه الفجوة عبر "مشروع يوفون" (Project Euphonia)، وهي مبادرة بحثية أطلقتها جوجل منذ ثلاث سنوات، تركز على تحسين فهم كلام الأشخاص الذين يعانون من صعوبات في النطق، لمساعدتهم على أن يكونوا أكثر استقلالية في حياتهم اليومية.

وفي حديثها خلال البودكاست، تقول جولي كاتيو، مديرة المشروع، إن يوفون يقوم بإضفاء الطابع الشخصي على نماذج التعرف على الكلام للأفراد الذين يعانون من إعاقات في الكلام. ولكن لكي تعمل هذه التقنية، تحتاج الشركة إلى أفراد يواجهون صعوبات في أن يكون كلامهم مفهوماً لتسجيل عدد من العبارات، ثم تستخدم جوجل هذه العينات كأمثلة لتدريب أحد نماذج التعلم الآلي لديها على فهم الطريقة التي يتحدثون بها بشكل أفضل.

وتوضح كاتيو أن جوجل تعمل مع منظمة غير ربحية لتسجيل الكثير من البيانات من الأشخاص المصابين بمرض التصلب الجانبي الضموري (ALS)، وهو مرض يصيب الجهاز العصبي تدريجيّاً ويؤثر على الخلايا العصبية في الدماغ والنخاع الشوكي، وغالباً ما يؤدي إلى إعاقة في الكلام بمرور الوقت. ومنذ عام 2019، سجل حوالي ألف شخص يعانون من إعاقة في النطق أكثر من مليون كلمة لصالح هذه المبادرة البحثية.

تكنولوجيا الصوت
حقوق الصورة: درازن زيجيك/ شترستوك.

كما استضاف البودكاست أندريا بييت، وهي مريضة تم تشخيص إصابتها بالتصلب الجانبي الضموري عام 2014. وهي تدير منظمة غير ربحية للقضاء على المرض من خلال الابتكارات البحثية. وتوضح بييت أن الناس يمكنهم أن يفهموا كلامها حتى الآن في معظم الأوقات. لكن عندما تكون متعبة أو في مكان صاخب يصعب عليهم ذلك. وتقول إنها تستخدم مشروع يوفون على هاتفها حتى يتمكن الناس من قراءة ما تقوله. ويشير زوجها ديفيد بييت إلى أن امتلاك تقنية تمكنها -وتمكن غيرها من المرضى- من أداء المهام باستخدام صوتها فقط هو أمر ضروري حقاً يمنحها مزيداً من الحرية والاستقلالية والشعور بإنسانيتها.

اقرأ أيضاً: الذكاء الاصطناعي لتوليد اللغة هو كابوس لحرية التعبير

تدريب الذكاء الاصطناعي بالصوت

في الجزء الأخير من البودكاست، يشرح هود ليبسون، أستاذ الهندسة وعلوم البيانات في جامعة كولومبيا بنيويورك، كيفية استخدام تقنيات الصوت في تعليم الحاسوب بطريقة مبتكرة تشبه الطريقة التي يتعلم بها الأطفال. وأوضح أن العلماء عادة ما يعطون الأشياء وسوماً مقتضبة للغاية ثم يقومون بتدريب ذكاء اصطناعي للتنبؤ، فمثلاً واحد تشير للقط واثنين تشير للكلب.

هذه هي الطريقة التي يتم بها تدريب جميع شبكات التعلم العميق اليوم. وهي طريقة تبدو وكأننا "لا نزال عالقين في سبعينيات القرن الماضي"، بحسب ليبسون. وفي المقابل، يتعلم البشر بطريقة مختلفة تماماً، فعندما نعرض على الأطفال صوراً للكلاب، أو نريهم كلباً، فنحن لا نعطيهم جزءاً واحداً من المعلومات، وإنما نعبر عما تعنيه كلمة "كلب" ونعطيهم الكثير من المعلومات عنه.

لتغيير هذا الأسلوب، جرب ليبسون وفريقه تدريب الحاسوب للتعرف على القطط والكلاب وغيرها من الأشياء، لكن ليس عن طريق وسمها بالواحد والصفر، وإنما بملف صوتي كامل. بعبارة أخرى، يقول ليبسون إن الحاسوب ينبغي أن يكون قادراً على نطق كلمة "كلب" والتعبير عنها. وقد نجحت هذه الطريقة بالفعل، وتمكن الحاسوب من التعرف على الصور تماماً مثل استخدام الصفر والواحد. لكن الأهم أنه عندما تعلم التمييز بين القطة والكلب تعلم بطريقة أكثر مرونة. وبالتالي، لم يكن من السهل خداعه بالطرق التي يستخدمها العلماء عادة لتعديل الصور وجعل الكلب يبدو أشبه بقطة وما إلى ذلك.