بايدو تبتكر حيلة جديدة لتعليم الذكاء الاصطناعي معنى اللغة

مصدر الصورة: ميس تك/ أنسبلاش

استمع الى المقالة الآن هذه الخدمة تجريبية

في أوائل ديسمبر من العام المنصرم، تمكنت إحدى الشركات الصينية العملاقة، وبهدوء، من التفوق على مايكروسوفت وجوجل في إحدى منافسات الذكاء الاصطناعي. هذه الشركة هي بايدو، وهي أقرب ما يكون إلى نسخة صينية من جوجل، أما المنافسة فهي تقييم فهم اللغة العامة، التي يشار إليها اختصاراً بكلمة جلو GLUE؛ حيث تُعتبر جلو معياراً مقبولاً على نطاق واسع لتقييم مدى فهم نظام الذكاء الاصطناعي للغة البشرية.

وهي تتألف من 9 اختبارات مختلفة في مهام مثل تحديد أسماء الأشخاص والمنظمات في جملة، وتحديد الاسم المرجعي الذي يشير إليه أحد الضمائر في حال وجود عدة احتمالات ممكنة. وبالتالي، فإن النموذج اللغوي الذي يحقق نتيجة عالية على جلو، يستطيع التعامل مع مهام شاملة ومتنوعة للقراءة. تبلغ العلامة الكاملة 100، ويستطيع الشخص العادي تحقيق حوالي 87 نقطة. وقد أصبح نموذج إيرني ERNIE من بايدو أول نموذج يتخطى 90 نقطة.

تتقلب النتائج على اللوحة العامة للمتصدرين في جلو بشكل مستمر، ومن المرجح أن يتفوق فريق آخر على بايدو قريباً. ولكن ما يميز إنجاز بايدو هو أنه يبين كيف يمكن أن تستفيد أبحاث الذكاء الاصطناعي من تنوع المساهمين فيها؛ فقد اضطر باحثو بايدو إلى تطوير أسلوب خاص باللغة الصينية لبناء إيرني (وهذا الاسم اختصار لعبارة إنجليزية تعني: التمثيل المعزز عبر تكامل المعرفة). وقد شاءت الصدف أن هذه الطريقة تسمح له بفهم اللغة الإنجليزية بشكل أفضل أيضاً.

سلف إيرني
حتى نعطي إيرني حقه، يجب أن ننظر أولاً إلى النموذج الذي استُوحي منه: نموذج بيرت BERT من جوجل. (ويمكن أن تلاحظ أن النموذجين يحمل اسم شخصية من مسلسل سيسامي ستريت).

قبل تصميم بيرت (وهذا الاسم اختصار لعبارة إنجليزية تعني: تمثيلات المرمز ثنائي الاتجاه من المحولات) في أواخر 2018، لم تكن نماذج اللغة الطبيعية ممتازة. كانت جيدة في توقع الكلمة التالية في الجمل -أي أنها مناسبة لتطبيقات مثل الإكمال التلقائي- ولكنها لم تستطع أن تحافظ على تماسك فكرة واحدة حتى ضمن مقطع صغير؛ لأنها لم تكن قادرة على استيعاب المعاني، مثل الأسماء المرجعية التي تشير إليها الضمائر في الجمل.

ولكن الوضع تغير مع بيرت. فقد كانت النماذج السابقة تتعلم توقع وتفسير معنى الكلمة بدراسة سياق النص قبلها أو بعدها، ولكن ليس الاثنين في نفس الوقت، أي أنها كانت أحادية الاتجاه.

أما بيرت، فهو يأخذ بعين الاعتبار السياق قبل الكلمة وبعدها في نفس الوقت، مما يجعله ثنائي الاتجاه، ويقوم بذلك باستخدام تقنية تسمى “التقنيع”. فضمن المقطع النصي، يقوم بيرت بإخفاء 15% من الكلمات عشوائياً، ويحاول توقعها باستخدام الكلمات الباقية، وهو ما يسمح بتوقعات أكثر دقة بسبب الاعتماد على ضعف عدد الأدلة. وعلى سبيل المثال، فإن الجملة “ذهب الرجل إلى ___ لشراء الحليب” تتضمن دلالات على الكلمة المفقودة في بداية ونهاية الجملة؛ حيث إنها مكان يمكن الذهاب إليه ومكان يمكن شراء الحليب منه.

ويُعتبر التقنيع من الابتكارات الأساسية التي أدت إلى تحقيق قفزات كبيرة في مهام اللغة الطبيعية، وهو أحد العوامل التي سمحت لنماذج مثل نموذج جي بي تي 2 الشهير من أوبن إيه آي بكتابة مقاطع نثرية مقنعة للغاية دون الانحراف عن الموضوع الأساسي.

من الإنجليزية إلى الصينية وبالعكس
عندما بدأ باحثو بايدو بتطوير نموذجهم اللغوي الخاص، أرادوا الاعتماد على تقنية التقنيع. ولكنهم أدركوا أنها في حاجة إلى تعديل حتى تناسب اللغة الصينية.

ففي اللغة الإنجليزية، تلعب الكلمة دور واحدة دلالية، أي أن الكلمة تحتوي على المعنى حتى لو كانت خارج السياق تماماً، غير أن هذا لا ينطبق على محارف اللغة الصينية. وعلى الرغم من أن بعض المحارف تحمل معنى خاصاً بها، مثل النار (هو، 火) والماء (شوي، 水) والخشب (مو، 木)، فإن معظمها لا تكتسب المعنى إلى أن ترتبط مع محارف أخرى. وعلى سبيل المثال، فإن المحرف لينج (灵) يمكن أن يحمل معنى ذكي (جيلينج، 机灵) أو روح (لينجهون، 灵魂)، وذلك وفقاً لترابطه. كما أن المحارف في أسماء العلم مثل بوسطن (بوشيدون، 波士顿) أو الولايات المتحدة (ميجوو، 美国) لا تحمل نفس المعنى ما أن يتم فصلها عن بعضها البعض.

لهذا، قام الباحثون بتدريب إيرني على نسخة جديدة من التقنيع تقوم بإخفاء سلاسل كاملة من المحارف بدلاً من محارف منفردة، كما دربوه على التمييز بين السلاسل ذات المعنى والسلاسل العشوائية، بحيث يقوم بتقنيع التراكيب الصحيحة من المحارف. ولهذا يتمتع إيرني بقدرة أكبر على فهم ترميز المعلومات في اللغة الصينية، ودقة أكبر في توقع الأجزاء المفقودة، وهو ما أثبت فائدته في تطبيقات مثل الترجمة واستخلاص المعلومات من الملفات النصية.

اكتشف الباحثون بسرعة أن هذه الطريقة تعمل بشكل أفضل في اللغة الإنجليزية أيضاً؛ لأن اللغة الإنجليزية تحوي أيضاً سلاسل كلمات تعبر عن معنى مختلف من مجموع معاني الكلمات المنفردة كما في اللغة الصينية، ولكن بشكل أقل تكراراً؛ حيث إن أسماء العلم مثل “هاري بوتر” والتعابير مثل “هذا الشبل من ذاك الأسد” لا يُمكن فهمها بالكامل بتقسيمها إلى كلمات منفردة.

لنأخذ الجملة التالية مثالاً:

هاري بوتر هي سلسلة من الروايات الخيالية من تأليف ج. ك. رولينج.

قد يقوم بيرت بتقنيع الجملة كما يلي:

(قناع) بوتر هي سلسلة (قناع) الروايات الخيالية من (قناع) ج. (قناع). رولينج.

غير أن إيرني سيقنّعها بالأسلوب التالي:

هاري بوتر (قناع) (قناع) (قناع) الروايات الخيالية من تأليف (قناع) (قناع) (قناع).

ولهذا، يتمكن إيرني من الحصول على تنبؤات أكثر دقة بناء على المعنى بدلاً من الأنماط الإحصائية لاستخدام الكلمات.

أفكار متنوعة
تعتمد أحدث نسخة من إيرني على عدة تقنيات أخرى للتدريب أيضاً. وعلى سبيل المثال، تتفحص هذه النسخة ترتيب الجمل والمسافات الفاصلة بينها لفهم التسلسل المنطقي للمقطع، غير أن الأمر الأكثر أهمية هو أنها تعتمد على طريقة تسمى بالتدريب المتواصل، التي تسمح لها بالتدرب على بيانات ومهام جديدة دون أن تنسى ما تعلمته من قبل، وهو ما يسمح لها التحسن المتواصل في أداء نطاق واسع من المهام مع مرور الوقت، مع الحد الأدنى من التدخل البشري.

وتستخدم بايدو إيرني بشكل فعال لزيادة فائدة نتائج البحث للمستخدمين، وإزالة القصص المتكررة في صفحاتها الإخبارية، وتحسين قدرة مساعدها الرقمي شياو دو على الاستجابة للطلبات بدقة. وقد قامت بايدو أيضاً بتوصيف أحدث هيكلية لإيرني في بحث سيُقدم في مؤتمر اتحاد تطوير الذكاء الاصطناعي لهذه السنة. وكما اعتمد الباحثون على عمل جوجل في نموذج بيرت، فإنهم يأملون أن يستفيد الآخرون من عملهم في نموذج إيرني.

يقول هاو تيان، المهندس الرئيسي في قسم الأبحاث في بايدو: “عندما بدأنا بهذا العمل، كنا نفكر بالتحديد في خصائص معينة للغة الصينية، ولكننا اكتشفنا بسرعة أنها قابلة للتطبيق على نطاق أوسع”.