اشترك

الاستمرار بالحساب الحالي

Article image
حقوق الصورة: معهد الابتكار التكنولوجي. تعديل الصورة: إم آي تي تكنولوجي ريفيو العربية.



طور باحثون من معهد الابتكار التكنولوجي في أبوظبي النموذج "نور"، وهو أكبر نموذج قادر على فهم اللغة العربية الطبيعية بدقة كبيرة.

2022-04-25 13:03:00

25 أبريل 2022

أعلن معهد الابتكار التكنولوجي، وهو مركز الأبحاث وذراع الأبحاث التطبيقية في مجلس أبحاث التكنولوجيا المتطورة، عن إطلاق النموذج "نور" (Noor)، والذي يعتبر أكبر نموذج مدرب مسبقاً على معالجة اللغة العربية الطبيعية.

يكمن الهدف من تطوير هذا النموذج في إحداث نقلة نوعية في القدرة على فهم ومعالجة اللغة العربية الطبيعية التي ينطقها مختلف العرب في حياتهم اليومية، الأمر الذي يمكنه أن يعزز بشكلٍ كبير التقنيات المتطورة التي يمكن التحكم فيها عن طريق الأوامر الصوتية.

وخلال الاختبارات التي أجراها خبراء المعهد، تبين أن النموذج "نور" قادر على فهم جميع التعليمات الصوتية المنطوقة باللغة العربية الطبيعية.

اسم المشروع

تم اختيار اسم "نور" للمشروع لترسيخ الارتباط بين نموذج اللغة العربية وتنوير العقول، حيث يمثل مشروع "نور" المساهمة العالمية للإمارات العربية المتحدة في مجالي التكنولوجيا المتقدمة والذكاء الاصطناعي.

ما المقصود بمعالجة اللغة الطبيعية؟

تعني معالجة اللغة الطبيعية قدرة الحواسيب على فهم اللغة التي ينطقها أو يكتبها البشر، ما يجعلنا قادرين على التحكم بالحواسيب والآلات بشكلٍ أفضل عن طريق التعليمات الصوتية أو المكتوبة.

وتتم معالجة اللغة الطبيعية باستخدام الذكاء الاصطناعي، وذلك بواسطة كميات كبيرة من البيانات المأخوذة من العالم الحقيقي وترتيبها بطريقة يمكن للذكاء الاصطناعي فهمها والتعلم منها.

تعد معالجة اللغة الطبيعية إحدى أهم مجالات الذكاء الاصطناعي وتعلم الآلة حالياً. وبحسب التقديرات، فمن المتوقع أن تصل قيمة قطاع معالجة اللغة الطبيعية حول العالم إلى 42.04 مليار دولار أميركي بحلول عام 2026، بمعدل نمو سنوي يبلغ 21.5%.

اقرأ أيضاً: تحتاج الأهداف التي يسعى مجال معالجة اللغة الطبيعية إلى تحقيقها

مشكلة معالجة اللغة العربية

فرضت اللغة العربية تحديات كبيرة على الباحثين ومطوري تطبيقات معالجة اللغة الطبيعية (NLP)، سواء من حيث النص المكتوب أو الكلام المنطوق باللغة العربية.

وتختلف الأسباب الكامنة وراء هذه التحديات كثيراً، فمنها السمات العامة للغة التي تتضمن الكثير من القواعد والحالات الخاصة، ووجود عدد كبير من الكلمات العربية التي تشير لأكثر من معنى، ولا يمكن تحديد معناها المقصود إلا من خلال فهم الجملة أو النص كاملاً، بالإضافة إلى تعدد اللهجات العربية، وعدم وجود موارد وبيانات كافية لتدريب أنظمة الذكاء الاصطناعي. وحتى الآن، لم يتم التغلب على هذه التحديات. لهذا السبب، لا يستطيع العرب التفاعل بشكلٍ جيد مع المساعد الشخصي كما يفعل المتحدثون بلغات أخرى، كما أننا لا نجد خدمة جيدة يمكن الاعتماد عليها لتحويل الكلام إلى نص.

اقرأ أيضاً: الذكاء الاصطناعي واللغة العربية: أهم التحديات وتقنيات معالجتها

لماذا يعد النموذج "نور" مهماً؟

  • عمل المعهد على إحداث ثورة في مجال المعالجة الطبيعية للغة العربية عبر نموذج "نور". فبصفته أكبر نموذج لمعالجة اللغة الطبيعية في العالم، يمتلك "نور" القدرة على تنفيذ مهام متنوعة ضمن مجالات متعددة تعتمد على استخدام آليات متقدمة من الذكاء الاصطناعي لتعزيز فهم الآلات للغة العربية.

  • أحدثت نماذج اللغات الكبيرة ثورة في عالم معالجة اللغة الطبيعية. ونحن فخورون بأن نعلن اليوم عن نتائج نموذج نور الذي يتضمن 10 مليار عامل متغيّر، وهو أكبر نموذج في العالم للمعالجة الطبيعية للغة العربية. "نور" هو حصيلة العمل المتواصل والجهود الدؤوبة التي قام بها الفريق في الأشهر الماضية لجمع مجموعة بيانات عربية كبيرة وفريدة لتدريب البرنامج. سيصبح "نور" نموذجاً متقدماً لمعالجة اللغة العربية في كل أنحاء العالم.

  • يعتمد نموذج "نور" على هندسة المحولات الشهيرة التي تشبه في هيكليتها GPT-3 وتستخدم نموذج لوحدة فك الترميز "Decoder" فقط. تمت برمجة نموذج "نور" لمعالجة المهام المتقدمة بما يعكس أحدث التطورات في عالم تعلم الآلة، ويشمل ذلك مساعدة الآلات على فهم اللغة العربية وتطبيقها في عدة مجالات متقدمة تعتمد على تحليل النصوص العربية واستخراج المعلومات منها، والتلخيص الآلي والتصحيح التلقائي للغة، بالإضافة إلى روبوتات المحادثة والمساعدين الافتراضيين باللغة العربية. ولضمان تعزيز جودة بيانات "نور" على نطاق واسع، صمم فريق المعهد أدوات فلترة آلية تعتمد على تكنولوجيا علم الآلة وتحدد مراجع لكفاءة وجودة النموذج وتحميه من المحتوى العشوائي غير المرغوب به.

  • يتم استخدام الكثير من النماذج ضمن مجال معالجة اللغة الطبيعية ويشرفنا تقديم هذا النموذج المتطور الذي يضم 10 مليار عامل متغيّر، ويشكل أكبر نموذج معالجة طبيعية للغة العربية حول العالم. تعد مجموعة البيانات العربية الضخمة والمتميزة التي جُمعت لتدريب النموذج حصيلة العمل المتواصل والجهود الدؤوبة التي قام بها الفريق في الأشهر الماضية. "نور" هو النموذج المتقدم لمعالجة اللغة العربية في جميع أنحاء العالم.

  • يحظى مجال معالجة اللغة الطبيعية بأهمية متزايدة في ظل استمرار التقدم التكنولوجي، إذ يعتمد عالمنا بشكل متزايد على الخدمات الرقمية المؤتمتة وتكنولوجيا الذكاء الاصطناعي. تساعد نماذج معالجة اللغة الطبيعية، المتوفرة عادة باللغة الإنجليزية، على تمكين التحول الرقمي وتطبيقات التكنولوجيا المتقدمة.

  • تجمع معالجة اللغة الطبيعية بين علوم اللغويات والحوسبة والذكاء الاصطناعي لدعم فهم الآلات للغة البشرية. وتُعتبر اللغات البشرية معقدة وتعتمد على قواعد يصعب على الآلات فهمها بالكامل، ويأتي هنا دور معالجة اللغة الطبيعية التي تُمكّن الآلات من فهم السياق والتعلم بدلاً من الاعتماد على فك الترميز، وذلك للتكيف مع مختلف اللهجات أو التعابير الجديدة أو الأسئلة والنصوص التي لم يتوقعها المبرمجون.

  • تعد مجموعة البيانات التدريبية المستخدمة لإنشاء "نور" أكبر مجموعة بيانات عربية عالية الجودة في العالم، حيث تجمع بين بيانات الويب والكتب والشعر والمقالات الإخبارية والمعلومات التقنية لتوسيع نطاق تطبيق النموذج إلى حد كبير.

اقرأ أيضاً: تعرف على الأساليب الغريبة لباحثي الذكاء الاصطناعي في جمع البيانات اللازمة لخوارزمياتهم

ما هو نموذج معالجة اللغة الطبيعية الذي يعتمد عليه "نور"؟

  • تم تدريب نموذج "نور" باستخدام حاسوب عالي الأداء يحتوي على 128 وحدة معالجة رسوميات من طراز A100، مستفيداً من نهج التوازي ثلاثي الأبعاد المتطور، ما يسمح بتوزيع العمليات الحسابية وضمان الاستخدام الفعال لموارد الأجهزة المتاحة.
  • تم تصميم نموذج "نور" لمعالجة اللغة الطبيعية على بنية المحولات "ترانسفومر" واسعة الانتشار، ويحتوي على وحدة فك ترميز مبرمجة لمعالجة المهام المتقدمة مشابهة في بنيتها لنموذج GPT-3.
  • مثل GPT-3، يمكن لـ "نور" معالجة مجموعة واسعة من المهام عبر تقنية التعميم الفوري.

مجالات التطبيق المحتملة لمنصة "نور" للمعالجة الطبيعية للغة العربية

  • عبر تطوير نموذج "نور" للمعالجة الطبيعية للغة العربية، يأمل المعهد في امتلاك الأفضلية كونه المبتكر الأول لنموذج من هذا النوع وتحقيق الريادة في هذا المجال المستقبلي وتحويل "نور" إلى نموذج رائد لمعالجة اللغة العربية في العالم.

  • أتحنا واجهة برمجة التطبيقات الخاصة بنموذج "نور" للجمهور، بحيث يمكن للمجتمع ككل الاستفادة منه.

مثل أي نموذج لمعالجة اللغة الطبيعية، نهدف إلى تطبيق "نور" عبر عدة مجالات، منها:

  • تحليل المواقف (رصد وسائل التواصل الاجتماعي والبحث عن الاستجابات).
  • تصنيف النصوص.
  • روبوتات المحادثة والمساعدين الافتراضيين.
  • استخراج النصوص.
  • الترجمة الآلية.
  • تلخيص النصوص.
  • الذكاء التسويقي.
  • التصحيح التلقائي.

اقرأ أيضاً: ما زال الذكاء الاصطناعي يفتقر إلى المنطق السليم اللازم لفهم اللغة البشرية

"نور" في تطور مستمر

لا يعني إطلاق نموذج "نور" أن عملية التطوير قد انتهت، فالنموذج يتعلم دائماً من البيانات الجديدة المدخلة إليه والتي يعالجها من أجل تطوير قدراته أكثر على فهم اللغة العربية الطبيعية.