اشترك

الاستمرار بالحساب الحالي

شارك
شارك
Article image

مصدر الصورة: سامويل ديكسون – أنسبلاش



حصلنا أخيراً على خوارزمية تعلم آلي قادرة على إنتاج صوت "ببعدين ونصف" عن طريق تحليل المقاطع المرئية.

2021-07-02 17:56:04

31 ديسمبر 2018
إذا أصغيت إلى طير يغرِّد في شجرة قريبة، يمكنك بسرعة نسبية أن تحدِّد مكانه التقريبي من دون أن تنظر، وإذا سمعت هدير محرك سيارة أثناء عبور الشارع، يمكنك أن تميز على الفور ما إذا كانت خلفك أم لا. إن قدرة البشر على تحديد مصدر الصوت ضمن الفضاء ثلاثي الأبعاد مذهلة، وقد تمكن العلماء من تحليل هذه الظاهرة بشكل جيد، وهي تعود إلى الشكل غير المتناظر للأذن البشرية، والبعد ما بين الأذنين. وعلى الرغم من أن الباحثين تمكنوا من تعلم كيفية تشكيل صور ثلاثية الأبعاد قادرة بسهولة على خداع أنظمتنا البصرية، إلا أنه لم يتمكن أحد من التوصل إلى طريقة جيدة لبناء صوت ثلاثي الأبعاد قادر على خداع أنظمتنا السمعية بشكل مقنع. ولكن يبدو أن هذا سيتغير -على الأقل جزئياً- وذلك بفضل عمل روهان جاو في جامعة تكساس وكريستن جراومان في قسم الأبحاث التابع لفيسبوك؛ فقد استخدما حيلة يعتمد عليها البشر أيضاً لتعليم أنظمة الذكاء الاصطناعي تحويلَ الأصوات العادية أحادية القناة "مونو" إلى أصوات ثلاثية الأبعاد من مستوى جيد، وقد أطلقوا عليها اسم 2.5 دي، أي الصوت ذا البعدين والنصف. ولنبدأ أولاً ببعض المعلومات الأولية. حيث يستخدم الدماغ مجموعة من الدلائل لتحديد مصدر الصوت في الفضاء ثلاثي الأبعاد، ومن أهم هذه الدلائل هو فرق توقيت وصول الصوت إلى كل أذن، المسمى: فرق التوقيت السمعي. من الواضح أن الصوت الصادر عن يسارك يصل إلى الأذن اليسرى قبل اليمنى، وعلى الرغم من أنك لا تدرك هذا الفرق بشكل واعٍ، إلا أن دماغك يعتمد عليه

أدخل بريدك الإلكتروني واقرأ المقال مجاناً

أنشئ حساباً مجاناً واقرأ مقالتين مجاناً كل شهر من أوسع تشكيلة محتوى أنتجته ألمع العقول العالمية والعربية.

مصطلح اليوم


HACKATHON

الهاكاثون

عبارة عن حدث إبداعي يجتمع فيه المبرمجون والأشخاص المهتمون بتطوير البرمجيات معاً لفترة زمنية قصيرة تمتد من يوم واحد إلى أسبوع كحد أقصى، وذلك بهدف التدريب أو حل المشكلات أو تطوير برمجيات وعتاد قابل للعمل في نهاية الحدث.