تقوم ديفبوت ببناء أكبر بيان معرفي على الإطلاق، وذلك بتطبيق التعرف على الصور ومعالجة اللغة الطبيعية على المليارات من صفحات الويب.

2020-09-07 13:21:26

07 سبتمبر 2020
Article image
مصدر الصورة: إم إس تك

في يوليو، أطلقت أوبن إيه آي أحدث نماذجها اللغوية، جي بي تي 3، الذي أذهل الجميع بقدرته على صياغة مقاطع تبدو وكأنها من تأليف البشر. بدأ الناس أيضاً يستعرضون قدرة جي بي تي 3 على استكمال الرماز البرمجي بشكل تلقائي أو ملء الفراغات في الجداول.

وفي أحد الأمثلة، غرد الموظف في تويتر بول كاتسين قائلاً: “هذه أفضل إمكانات البرنامج للتعامل مع الجداول”؛ حيث قام جي بي تي 3 بملء أعمدة الجدول بنفسه، وذلك ببيانات تتعلق بالولايات المتحدة: يبلغ تعداد سكان ميشيغان 10.3 مليون نسمة، وأصبحت ألاسكا ولاية أميركية بشكل رسمي عام 1906، وغير ذلك.

غير أن جي بي تي 3 قد يكون كاذباً في بعض الأحيان؛ حيث إن تعداد ميشيغان لم يبلغ 10.3 مليون نسمة على الإطلاق، كما أن ألاسكا أصبحت ولاية في 1959.

تتسم النماذج اللغوية مثل جي بي تي 3 بقدراتها الهائلة في التقليد والمحاكاة، ولكنها لا تتمتع بأي استيعاب يذكر لما تقوله فعلياً. يقول مايك تونج، الرئيس التنفيذي للشركة الناشئة ديفبوت في ستانفورد: “إنها بارعة للغاية في توليد القصص حول الخرافات، ولكنها ليست مدرَّبة حتى تكون واقعية”.

وهو ما يمثل مشكلة حقيقية إذا ما أردنا للذكاء الاصطناعي أن يكون جديراً بالثقة. ولهذا قررت ديفبوت أن تعتمد مقاربة مختلفة؛ حيث إنها تقوم ببناء ذكاء اصطناعي يقرأ كل صفحة من صفحات الويب العامة على الإنترنت، وبلغات متعددة، ويستخلص كل ما يستطيع استخلاصه من المعلومات الواقعية من هذه الصفحات.

وعلى غرار جي بي تي 3، فإن نظام ديفبوت يتعلم عن طريق ابتلاع كميات هائلة من النصوص التي كتبها البشر على الإنترنت. ولكن بدلاً من استخدام البيانات لتدريب نموذج لغوي، تحول ديفبوت هذه المعلومات إلى سلسلة من الحقائق المؤلفة من ثلاثة أجزاء متصلة: الفاعل، الفعل، المفعول به.

وعلى سبيل المثال، تم تلقيم ديفبوت بسيرتي الذاتية، وقد استنتج منها أن ويل دوجلاس هيفن هو صحافي، وأن ويل دوجلاس هيفن يعمل في إم آي تي تكنولوجي ريفيو، وأن إم آي تي تكنولوجي ريفيو شركة إعلامية، وغير ذلك. تنضم كل من هذه الحقائق البسيطة إلى المليارات من الحقائق الأخرى ضمن شبكة هائلة متصلة من الحقائق. تُعرف هذه الشبكة ببيان (graph) المعرفة.

ليس بيان المعرفة بالمفهوم الجديد؛ فقد كان موجوداً منذ عدة عقود، وكان أحد الأفكار الأساسية المستخدمة في بدايات أبحاث الذكاء الاصطناعي. ولكن بناء وتوسيع هذا البيان عادة ما كان يتم بشكل يدوي، وهو أمر صعب للغاية. وقد أدى هذا أيضاً إلى منع تيم بيرنرز لي من تحقيق ما أطلق عليه اسم الويب الدلالي، الذي يمكن أن يتضمن معلومات من الآلات إضافة إلى المعلومات البشرية، بحيث تستطيع البوتات حجز مقاعد في رحلات الطيران، والقيام بالتسوق، وتقديم إجابات ذكية على أسئلة محركات البحث.

بدأت جوجل تستخدم بيانات المعرفة منذ بضع سنوات أيضاً؛ حيث إن البحث عن “كيتي بيري” سيؤدي إلى ظهور مستطيل إلى جانب النتائج الرئيسية للبحث، ويحوي هذا الصندوق معلومات تقول إن كيتي بيري مغنية وكاتبة أغانٍ أميركية، ويمكن الاستماع إلى أغانيها على يوتيوب وسبوتيفاي وديزر. وبنظرة واحدة، يمكنك أن ترى أنها متزوجة بالممثل أورلاندو بلوم، وأنها تبلغ من العمر 35 سنة، وأن قيمتها المالية تساوي 125 مليون دولار، وغير ذلك. فبدلاً من إعطائك قائمة من الروابط إلى صفحات حول كيتي بيري وحسب، يقدم لك جوجل أيضاً مجموعة من الحقائق المتعلقة بها، التي استجلبها من بيانه المعرفي.

ولكن جوجل لا تنفذ هذه العملية إلا بالنسبة لعمليات البحث الأكثر استخداماً، أما ديفبوت فترغب في استخدامها لكل شيء. وعن طريق أتمتة عملية بناء البيان بشكل كامل، تمكنت ديفبوت من بناء ما قد يكون أضخم بيان معرفي على الإطلاق.

وتعتبر جوجل ومايكروسوفت وديفبوت الشركات الأميركية الوحيدة التي تقوم بمسح صفحات الويب المتاحة للعموم بأكملها. تقول فيكتوريا لين، وهي باحثة علمية في شركة سيلزفورس، وتعمل في مجال معالجة اللغة الطبيعية وتمثيل المعرفة: “إن مسح صفحات الإنترنت بأسرها يبدو منطقياً. ومن دون هذه الطريقة، يتطلب بناء قاعدة معرفية كبيرة جهداً بشرياً ضخماً” ويتفق هايكو بولهايم من جامعة مانهايم في ألمانيا مع هذه الفكرة، حيث يقول: “إن الأتمتة هي الطريقة الوحيدة لبناء بيان معرفي ضخم”.

المتصفح الخارق

حتى يتمكن نظام ديفبوت من جمع الحقائق، فإنه يعمل على قراءة الويب تماماً مثل البشر، ولكن بشكل أسرع بكثير. وباستخدام نسخة معززة من متصفح كروم، يقوم الذكاء الاصطناعي بتصفح البيكسلات الخام لصفحة الويب، ويستخدم خوارزميات التعرف على الصور لتصنيف الصفحة ضمن واحدة من 20 فئة مختلفة، بما فيها الفيديو والصور والمقالات والأحداث وصفحات الحوار. يقوم النظام بعد ذلك بتحديد العناصر الأساسية على الصفحة، مثل العنوان والمؤلف وتوصيف المنتج والسعر، ويستخدم معالجة اللغة الطبيعية لاستخلاص الحقائق من أي نص.

وتُضاف كل حقيقة ثلاثية الأجزاء إلى البيان المعرفي؛ حيث يستخلص ديفبوت الحقائق من الصفحات المكتوبة بأية لغة، ما يعني أنه يستطيع الإجابة عن أسئلة حول كيتي بيري باستخدام حقائق مأخوذة من صفحات بالصينية أو العربية، حتى لو كانت لا تحتوي على الكلمات المفتاحية نفسها.

إن تصفح صفحات الويب مثل البشر يسمح للذكاء الاصطناعي برؤية نفس الحقائق التي نراها. كما يعني أيضاً أنه يجب أن يتعلم تصفح الويب مثلنا. أي أنه يجب أن ينتقل نحو أسفل الصفحة، والتنقل بين التبويبات المختلفة، والنقر لإبعاد النوافذ المنبثقة. يقول تونج: “يجب أن يستخدم الذكاء الاصطناعي الويب وكأنه يمارس لعبة فيديو، فقط حتى يتمكن من التصفح”.

تقوم ديفبوت بمسح الويب من دون توقف، وتعيد بناء بيانها المعرفي كل أربعة أو خمسة أيام. ووفقاً لتونج، يضيف الذكاء الاصطناعي من 100 إلى 150 مليون كيان جديد إلى البيان، وذلك مع ظهور أشخاص جدد على الإنترنت، وتأسيس شركات جديدة، وإطلاق منتجات جديدة. ويستخدم المزيد من خوارزميات التعلم الآلي لدمج الحقائق القديمة مع الجديدة، وبناء روابط جديدة أو استبدال الروابط القديمة. ويتوجب على ديفبوت إضافة المزيد من العتاد الصلب إلى مركز البيانات الخاص بها مع تنامي بيانها المعرفي.

يستطيع الباحثون الوصول إلى البيان المعرفي لديفبوت مجاناً. ولكن يوجد لدى الشركة أيضاً حوالي 400 زبون يدفعون مبالغ مالية لقاء خدماتها؛ حيث إن محرك البحث “داك داك جو” يعتمد على هذا البيان لتوليد كتل معلومات مكثفة مشابهة لما يعرضه جوجل. كما أن سناب تشات يستخدم هذا البيان لاستخلاص أهم النقاط من الصفحات الجديدة. أما تطبيق تخطيط حفلات الزفاف ذائع الصيت، زولا، فيعتمد على هذا البيان لمساعدة الناس على اتخاذ القرارات حول الحفل، وذلك بتزويدهم بالصور والأسعار. ويعتمد مؤشر ناسداك، الذي يقدم معلومات حول الأسواق المالية، على هذا البيان من أجل الأبحاث المالية.

أحذية مزيفة

بل إن شركتي أديداس ونايكي تعتمدان على هذه الخدمة للبحث في مواقع الإنترنت عن الأحذية المقلدة؛ حيث يقدم محرك البحث قائمة طويلة من المواقع التي تذكر أحذية نايكي الرياضية. ولكن ديفبوت تسمح لهذه الشركات بالبحث عن المواقع التي تبيع هذه الأحذية فعلياً، بدلاً من الحديث عنها وحسب.

حالياً، يتعين على هذه الشركات استخدام التعليمات البرمجية للتفاعل مع ديفبوت، ولكن تونج يخطط لإضافة واجهة تعتمد على اللغة الطبيعية. وفي نهاية المطاف، يرغب تونج في بناء ما أطلق عليه اسم “نظام شامل للإجابة عن الأسئلة المتعلقة بالحقائق”، وهو نظام ذكاء اصطناعي يجيب عن أي سؤال تقريباً، ويقدم المصادر التي تدعم إجابته.

يتفق تونج ولين على أن ذكاء اصطناعياً كهذا لا يمكن بناؤه باستخدام النماذج اللغوية وحسب. ولكن الجمع بين هذه التكنولوجيات سيقدم نماذج أفضل، وذلك باستخدام نموذج لغوي مثل جي بي تي 3، من أجل تشكيل واجهة تخاطبية بشرية الطابع لهذا البوت الذي يعرف كل شيء.

ولكن، علينا ألا ننسى أن البوت الذي يعرف كل المعلومات الصحيحة ليس ذكياً بالضرورة. يقول تونج: “نحن لا نحاول تعريف الذكاء، أو ما يشبه ذلك، بل نحاول بناء شيء مفيد وحسب”.