يجب أن تعلم | في صلب الموضوع | للاطلاع | رقم اليوم | شخصية اليوم | مصطلح اليوم
لست جاهزاً لمكالمة فيديو؟ لا عليك الذكاء الاصطناعي من إنفيديا يحل المشكلة
إذا لم تكن مستعداً كما ينبغي لحضور اجتماع عمل عبر أحد تطبيقات مكالمات الفيديو، فكل ما عليك هو أن تستخدم صورة لنفسك وأنت ترتدي ملابس أنيقة، وسيقوم برنامج ذكاء اصطناعي بتحويلها إلى مقطع فيديو تتحرك فيه بشكل طبيعي وتبدو منتبهاً، ولن يشك المشاركون الآخرون في مكالمة الفيديو في أن حديثك على الشاشة هو مجرد تحريك متقن لصورة ثابتة.
هذا هو ما يفعله نموذج الذكاء الاصطناعي ( Vid2Vid Cameo) الذي طورته شركة إنفيديا، والذي يستخدم نوع من الشبكات تُسمى الشبكات التوليدية التنافسية ( Generative Adversarial Networks) المعروفة اختصاراً باسم ( GANs)، لإنشاء مقاطع فيديو واقعية باستخدام صورة واحدة فقط للشخص.
وأعلنت الشركة، في بيان صحفي، أن ( Vid2Vid Cameo) سيكون متاح قريباً عبر حزمتي أدوات تطوير البرمجيات ( Nvidia Video Codec SDK) و( Nvidia Maxine SDK). وأضافت أن البرنامج يحقق أداءً متطوراً بفضل مجموعة بيانات تدريبية تبلغ 180 ألف مقطع فيديو "عالي الجودة".
وأوضحت الشركة أن النظام يحدد 20 نقطة رئيسية لمواقع ملامح الوجه، بما فيها العينين والفم والأنف، ويستخرج هذه النقاط تلقائياً من الصورة المرجعية. وتستخدم الشبكة التوليدية التنافسية هذه المعلومات لإنشاء مقطع فيديو يحاكي حركة الشخص في الوقت الفعلي، ويطبقها على الصورة الأصلية. ومن المفترض أن تساعد هذه التقنية على تقليل معدل نقل البيانات اللازم لإجراء مكالمات الفيديو بما يصل إلى عشرة أضعاف، لتجنب البطء والتأخير في المكالمة.
ولا يقتصر الأمر على أن يبدو الشخص طبيعياً في مكالمة الفيديو، بل سيقوم البرنامج بتعديل الزاوية التي يظهر الشخص من خلالها بحيث يبدو أن المشاركين يواجهون بعضهم البعض أثناء المكالمة، ليكونوا أشبه بمقدمي البرامج أو المراسلين الذين يخاطبون الكاميرا عن قرب على شاشة التلفزيون.
وذكرت الشركة أنه بالإضافة إلى مساعدة الأشخاص في مكالمات الفيديو، يمكن أيضاً استخدام هذه التقنية لمساعدة رسامي الرسوم المتحركة ومحرري الصور ومطوري الألعاب.
الرابط1 (إنجليزي)
الرابط2 (لتجربة العرض التوضيحي للبرنامج)
الذكاء الاصطناعي لتعزيز التواصل غير اللفظي مع الطلاب في قاعات الدراسة الافتراضية
طور فريق من الباحثين في جامعة كاليفورنيا سان دييجو الأمريكية منظومة للذكاء الاصطناعي يمكنها تعقب نظرات أعين المدرسين والطلاب في قاعات الدراسة وتحليلها من أجل تعزيز عملية التعليم الافتراضي في المستقبل.
تقوم المنظومة الجديدة بتتبع أنظار المدرس أثناء الحصة الدراسية، وتحدد الشخص الذي يصوب إليه المدرس أنظاره، وتسمح للطالب بمعرفة أنه محل تركيز المدرس في لحظة معينة أثناء الشرح. وصنع فريق الدراسة نموذجاً أولياً من المنظومة وقاموا بتجربته في قاعة افتراضية لتدريس الموسيقى عبر تطبيق زووم في جامعة كاليفورنيا سان دييجو.
ويقول الباحث روس جرير إن "المنظومة الجديدة تستخدم كاميرا لتصوير تحركات أعين المدرس لمعرفة اتجاهها، ولقد ابتكرنا معادلة خوارزمية لتحديد بدقة الوجهة التي يصوب إليه المدرس نظره، وهو ما يسمح لنا بتحديد الطالب الذي ينظر إليه المدرس أو الذي يوجه إلى الشرح".
وعندما ترصد المنظومة أي تغيير في زاوية نظر المدرس، فإنها تحدد هوية الطالب الجديد الذي ينظر إليه، وتقوم بعرض رسالة على الشاشة لتحديد اسم الشخص الذي ينظر إليه المدرس.
الرابط
هل هذا نفس الشيء أم شيء مختلف؟ سؤال بسيط يخدع الذكاء الاصطناعي
لا يحتاج البشر تدريباً مكثفاً ليتمكنوا من معرفة ما إذا كان شيئان متشابهين أم مختلفين عن بعضهما البعض. كل ما نحتاج لتعلمه هو الفرق بين معنى "نفس الشيء" ومعنى "مختلف". والأمر نفسه ينطبق على الحيوانات والطيور، بل والحشرات كالنحل مثلاً.
غير أن إجابة هذا السؤال -الذي يبدو بسيطاً بالنسبة لنا- أصعب بكثير على الذكاء الاصطناعي. وبالرغم من أن يمكن تدريب إحدى أقوى فئات أنظمة الذكاء الاصطناعي، المعروفة باسم الشبكات العصبونية الالتفافية (Convolutional Neural Networks) أو اختصاراً (CNNs)، على أداء مجموعة من المهام المعقدة بشكل أفضل من البشر، إلا أن الأبحاث الحديثة تظهر أن تلك الشبكات لا يمكنها معرفة ما إذا كان ثمة تطابق بين نموذجين بصريين بسيطين سوى في ظل ظروف محدودة للغاية. وإذا تغيرت تلك الظروف- حتى ولو بشكل طفيف- ينخفض أداء الشبكة.
وقد أثارت هذه النتائج جدلاً بين الباحثين حول ما إذا كانت هندسة شبكات (CNNs) بطريقة أفضل ستجعلها تفهم التشابه والاختلاف بنفس الطريقة التي يتعلمها البشر، أم أن قوى التفكير المجرد لهذه الشبكات محدودة بطبيعتها، بغض النظر عن مدى المهارة في بنائها وتدريبها.
ويقول آدم سانتورو، الباحث في شركة (ديب مايند) المملوكة لجوجل، إنه يمكن اعتبار القدرة على النجاح في هذه المهمة أساساً لجميع أنواع الاستدلالات التي يقوم بها البشر. ويوضح: عندما أطلب من أداة ذكاء اصطناعي التقاط "السيارة اللعبة"، فهذا يعني ضمنياً أنني أتحدث عن نفس السيارة التي كنا نلعب بها، وليس عن سيارة لعبة مختلفة في الغرفة المجاورة.
وتؤكد هذه النقطة أيضاً دراسة استقصائية حديثة -منشورة في شهر فبراير الماضي في دورية (Current Opinion in Behavioral Sciences) حول الاستدلال المعتمد على التشابه والاختلاف. وأوضح المؤلفون أنه: "من دون القدرة على التعرف على التشابه، يبدو أنه لا يوجد أمل كبير في تحقيق حلم تطوير آلات استنتاج بصري ذكية حقاً".
ويرى الباحثون أن جعل الآلات تتعلم التمييز بين التشابه والاختلاف قد يتطلب طفرة في مفهوم التعلم نفسه.
بيد أن هناك خلافاً بين العلماء حول ما تستطيع أنظمة الذكاء الاصطناعي الوصول إليه، حيث يعتقد كل من جييرمو بويبلا وجيفري باورز، عالمي الإدراك بجامعة بريستول، أن نتائج تجارب حديثة أجرياها تقدم دليلاً تجريبياً على أن شبكات (CNNs) الحالية تفتقر إلى القدرات المنطقية الأساسية، ولا يمكن تدعيمها بالمزيد من البيانات أو التدريب الأكثر مهارة. في المقابل، يوصى عدد أخر من الباحثين -ومنهم سانتورو- بتوخي الحذر الشديد عند الادعاء بأن الشبكات العصبونية الالتفافية العميقة بشكل عام لا يمكنها تعلم هذا المفهوم، لاسيما وأن "عدم وجود دليل ليس بالضرورة دليلاً على الغياب".
الرابط (إنجليزي)
|