تقنية للاتصال اللاسلكي من نظير لنظير تقوم بتحذير السيارات حول العوائق التي لا يمكن للكاميرات والرادارات التقاطها، وتصلها بوسطها المحيط بطريقة يمكن أن تساعدها في نهاية المطاف على القيادة الذاتية.
تقوم إميرجينغ تكنولوجي من arXiv بتغطية آخر الأفكار والحلول التكنولوجية التي تظهر على المخدم فيزيكس أركايف لمرحلة ما قبل الطباعة. وهي جزء من مدونة فيزيكس … المزيد أركايف.
كما هو معروف، فإن وضع السوائل في أكياس خاصة وإخراج الأجهزة الإلكترونية مثل الحواسيب والأجهزة اللوحية من الحقائب لفحصها بشكل منفصل، أصبحت ممارسة قياسية موجودة في جميع المطارات منذ أن كشفت الشرطة البريطانية في مطار هيثرو عن محاولة لمهاجمة الرحلات الجوية باستخدام المتفجرات السائلة في العام 2006.
وصلت المخلفات البلاستيكية في كوكبنا إلى مستويات مقلقة، ومازالت الأبحاث مستمرة لإيجاد طرق للتخلص من البلاستيك أو إعادة تدويره دون التسبب في أضرار طويلة المدى على
لطالما كان توليد الكلام آلياً تقنية مخيبة للآمال في بعض نواحيها، فحتى أفضل نُظُم تحويل النصوص إلى كلام تعاني من الطابع الميكانيكي للصوت المُنتَج، وتفتقر إلى العلامات الأساسية للتنغيم (ارتِفاع الصَّوت وانخفاضه) التي يستخدمها البشر عندما يتحدثون. وذلك مثل نظام الكلام الواسع الانتشار الذي استخدمه ستيفن هوكينغ.
وهذا مستغرب إلى حدٍّ ما نظراً للتقدم الهائل الذي أحرزه حقل "التعلم الآلي" في السنوات القليلة الماضية. وسيظن القارئ لأول وهلة أن التقنيات التي برعت تماماً في التعرّف على الوجوه والأغراض ومن ثَم تمكنت من إنتاج صور واقعية لها، قادرة أيضاً على فعل هذا مع الصوت. لكن هذا ليس صحيحاً.
أو بصورة أدقّ: لم يكن ذلك صحيحاً حتى اليوم؛ حيث تمكّن شون فاسكيز ومايك لويس، الباحثان لدى مختبر بحوث الذكاء الاصطناعي التابع لفيسبوك، من اكتشاف طريقةٍ لتجاوز العقبات التي تعترض نُظُم تحويل النصوص إلى كلام، ونجحوا في إنتاج مقاطع صوتية قريبة من الواقع بشكل لافت للنظر، مُولَّدة كلياً بواسطة الآلة.
وهذه الآلة التي طوروها -المسماة مِل نت (MelNet)- لا تكتفي بنسخ التنغيم البشري فحسب، بل تستطيع إنتاجه بشكلٍ يحاكي أصوات الأشخاص الحقيقيين. وهكذا قام فريق البحث بتدريب هذا النظام على التحدث مثل بيل جيتس، وغيره من الشخصيات. وتفتح هذه الدراسة الباب أمام إمكانية حدوث تفاعل أكثر واقعية بين البشر وأجهزة الحاسوب، وفي الوقت ذاته تُثير المخاوف من نشوء طوفان رقميّ من المحتوى الصوتي المزيَّف. ولنبدأ بذكر بعض المعلومات الأساسية.
إن سبب البطء الملاحظ في تقدم تطوير نُظُم واقعية لتحويل النص إلى كلام لا يعود إلى قلة المحاولات البحثية لفعل ذلك؛ بل إن عدداً كبيراً من الفِرَق حاول بالفعل تدريب خوارزميات التعلم العميق على إنتاج كلام واقعيّ مستخدمين قواعد بيانات ضخمة من الملفات الصوتية.
لكن المشكلة في تلك المقاربة -كما يشير الباحثان فاسكيز ولويس- يكمن في نوع البيانات المستخدمة في التدريب؛ حيث إن معظم تلك المحاولات قد ركزت حتى الآن على التسجيلات التي تحفظ الصوت بشكل موجات، وذلك النوع من التسجيلات يُظهر كيف تتغير سعة موجة الصوت بمرور الزمن، حيث تتكون كل ثانية في المقطع الصوتي المسجَّل من عشرات الآلاف من النقاط الزمنية.
وإذا ما درسنا هذه الموجات، على نقاط مختلفة من السلّم الزمني، تُظهر لنا أنماطاً مميزة. على سبيل المثال، نلاحظ خلال الثواني الأولى من المقطع الصوتي، أن شكل الموجات يعكس الأنماط المميزة المتعلقة بتسلسل الكلمات. لكن على مقياس الميكروثانية (جُزء مِن مليون من الثانية)، تُظهر الموجات الخصائصً المميزة المتعلقة بطبقة الصوت وطابعه. أما على مقاييس زمنية أخرى، فتعكس الموجات النغمةً الكلامية للمتحدث، وبنية الفونيم في نطقه وما إلى ذلك.
وهناك طريقة أخرى لمقاربة هذه الأنماط تتمثل في النظر إليها على أنها ارتباطات ما بين الموجة في نقطة زمنية معينة والموجة في النقطة التي تليها. وعلى سبيل المثال -ووفق مقياس زمنيّ محدد- فإن الصوت في بداية إحدى الكلمات يرتبط بالأصوات التي تليه.
المخطط الطيفي للمقاطع الصوتية مقابل الشكل الموجي لها.
وبهذا الصدد، ينبغي على نُظُم التعلم العميق أن تُجيد دراسة هذه الأنواع من الارتباطات، وتُتقن إعادة إنتاجها. لكن المشكلة تكمن في أن هذه الارتباطات توجد على عدة مقاييس زمنية مختلفة، ونُظُم التعلم العميق لا تستطيع دراسة الارتباطات إلا على مقاييس زمنية محدودة، ويتمثل سبب محدوديتها في نوع من "عمليات التعلم" تنتهجه هذه النُظُم يُدعى "الانتشار الخلفي"؛ حيث تقوم هذه الخوارزمية مراراً وتكراراً بتغذية الشبكة العصبية لتحسين أدائها وفق الأمثلة التي تتدرّب عليها.
ومعدّل هذا التكرار هو الذي يحدُّ من المقياس الزمني الذي تتوزع عليه الارتباطات المُراد من الآلة دراستها. وهكذا ندرك أن شبكة التعلم العميق قادرة على دراسة الارتباطات في مقطع صوتي مسجّل بشكل موجات على مقياس زمني طويل أو قصير، لكن ليس الاثنين معاً في ذات الوقت؛ وهذا هو السبب الذي يجعل شبكات التعلم العميق ذات أداء سيئ جداً في إنتاج الكلام المسموع.
غير أن الباحثَين فاسكيز ولويس لديهما مقاربة مختلفة لتحسين الأداء؛ حيث استخدما المخططات الطيفية للمقاطع الصوتية لتدريب شبكتهما للتعلم العميق، بدلاً من المقاطع الصوتية المسجلة بشكل موجات. والمخططات الطيفية تسجّل كامل طيف ترددات الصوت وكيفية تغيرها بمرور الزمن، ولذلك فهي تلتقط التغيرات على نطاق كبير جداً من الترددات المختلفة، في حين لا يلتقط التسجيل الصوتي بشكل موجات إلا تغيُّر أحد البارامترات فقط، وهو "سعة الموجة" على مرّ الزمن.
هذا يعني أن معلومات المقطع الصوتي مُكدَّسة بشكل أكثر كثافة داخل المخططات الطيفية مقارنةً بالنوع الآخر من تمثيل البيانات، وهو: الشكل الموجيّ. وبهذا الصدد يقول الباحثان: "إن المحور الزمني للمخطط الطيفي أكثر تَراصّاً بالنسبة للحجم من المحور الزمني للشكل الموجي، مما يعني أن المتغيرات التابعة التي تتوزع على عشرات الآلاف من النقاط الزمنية في الشكل الموجي لا تمتد إلا على مئات النقاط الزمنية في المخطط الطيفي".
وهذا ما يجعل الارتباطات أسهل تناولاً لنُظُم التعلم العميق. ويشرح الباحثان ذلك بقولهما "إن استخدام المخططات الطيفية للمقاطع الصوتية يتيح لنماذجنا أن تولِّد عينات من الكلام والموسيقى دون ضرورة التقيّد بمقياس زمنيّ محدد".
أما النتائج التي توصلوا إليها فهي لافتة للانتباه حقاً؛ فبعد تدريب النظام على المقاطع الصوتية الطبيعية من محاضرات تيد (TED talks)، تمكّن مِل نت (MelNet) من إعادة إنتاج صوت أحد المتحدثين في تيد بحيث يمكنك إنطاقه بأي شيء تريد لبضعة ثوانٍ. وبهذا أثبت الباحثون التابعون لشركة فيسبوك مرونةَ النظام باستخدام محاضرة بيل جيتس في "تيد" من أجل تدريب مِل نت (MelNet)، ومن ثَم استخدموا الصوت المُنتج لنُطق مجموعة متنوعة من العبارات العشوائية.
إليكم هذا النظام وهو ينطق جملة "We frown when events take a bad turn" (لم يعجبنا الأمر عندما أخذت الأحداث منعطفاً سيئاً)، و"Port is a strong wine with a smoky taste." (بورت مشروب قويّ ذو طعم دخانيّ) بصوت بيل جيتس. وللاستماع إلى أمثلة أخرى، اضغط هنا.
"We frown when events take a bad turn".
"port is a strong wine with a smoky taste".
ومع ذلك فإن هناك بعض القيود التي تُكبّل هذا النظام، منها أن الكلام الطبيعي يحتوي على ارتباطات تمتد على مقاييس زمنية أطولَ مدّة، فمثلاً يغيّر البشر نغماتهم الكلامية للإشارة إلى تغيير الموضوع أو تبدّل المزاج في غضون الحكي المُمتد على عشرات الثواني أو الدقائق، أما النظام الذي طورته فيسبوك فيبدو أنه عاجز عن القيام بذلك، على الأقلّ حتى الآن.
لذلك -ومع أن مِل نت (MelNet) قادر على إنتاج عبارات منطوقة مقاربة جداً للكلام الطبيعي بشكل لافت- فالفريق المطور للنظام لم يتوصل بعد إلى جعله ينتج جملاً أو فقرات أطول أو قصصاً كاملة. وهذا هدف لا يبدو أن العلماء سيتوصلون إليه قريباً.
ومع هذا فمن المرجح أن يكون لهذا الإنجاز تأثير كبير على مجال التفاعل بين الإنسان والحاسوب؛ لأن الكثير من المحادثات لا تتكون إلا من عبارات قصيرة فقط، حيث يمكن لعمّال الهاتف أو مراكز دعم العملاء -مثلاً- إنجاز مهامهم باستخدام مجموعة من الجُمل القصيرة إلى حد ما. وهنا يمكن لهذه التقنية أن "تؤتمت" هذه الجُمل بطريقة تجعلها أقرب كثيراً للكلام الإنساني من النُظم المستخدمة حالياً.
ومن ناحية أخرى، لم يتحدث الباحثان فاسكيز ولويس عن التطبيقات المحتملة للنظام الذي طوراه.
وبطبيعة الحال، هناك عدد من المشاكل المحتملة التي تصاحب الآلات القادرة على إنتاج أصوات طبيعية، لا سيما تلك القادرة على محاكاة البشر بصورة دقيقة؛ إذ ليس هناك حاجة لخيال واسع حتى نتصوّر السيناريوهات المتوقعة إذا استُخدمت مثل هذه التقنية في إلحاق الأذى. ولهذا السبب بالذات، يعدّ هذا النظام تقدماً جديداً يحرزه الذكاء الاصطناعي يُثير المزيد من الأسئلة الأخلاقية أكثرَ مما يحاول الإجابة عنها.
نستخدم ملفات تعريف الارتباط لتحسين تجربتك. استمرار استخدامك للموقع يعني موافقتك على ذلك. موافقسياسة الخصوصية
Privacy & Cookies Policy
Privacy Overview
This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.