شركة ميتا تطور نماذج ذكاء اصطناعي جديدة تتحدث أكثر من ألف لغة

نماذج شركة ميتا الجديدة تستطيع التعرّف على أكثر من ألف لغة والحديث بها

مصدر الصورة: ستيفاني أرنيت. إم آي تي تي آر. إنفاتو

استمع الى المقالة الآن هذه الخدمة تجريبية

صمم الخبراء في شركة ميتا نماذج ذكاء اصطناعي يمكنها التعرف على الكلام وتوليده في أكثر من ألف لغة، وهو عدد يساوي 10 أضعاف عدد اللغات المتوفرة في النماذج الحالية. تقول الشركة إن هذه الخطوة هي خطوة مهمة نحو الحفاظ على اللغات المعرضة لخطر الاختفاء.

تطلق شركة ميتا نماذجها عبر خدمة استضافة الرموز البرمجية غيت هاب (GitHub)، وتدّعي أن جعل هذه النماذج مفتوحة المصدر سيساعد المطورين الذين يعملون بلغات مختلفة على تصميم تطبيقات كلام جديدة مثل خدمات المراسلة التي تفهم اللغات جميعها، أو أنظمة الواقع الافتراضي التي يمكن استخدامها بأي لغة.

نماذج للحفاظ على اللغات المهددة بالانقراض

ثمة نحو 7 آلاف لغة في العالم؛ لكن نماذج التعرف على الكلام الحالية تعمل باستخدام نحو 100 لغة فقط على نحو شامل. يعود ذلك إلى أن هذه النماذج تتطلب كميات هائلة من بيانات التدريب الموسومة التي لا تتوفر إلا بعدد قليل من اللغات مثل الإنجليزية والإسبانية والصينية.

نجح باحثو شركة ميتا في حل هذه المشكلة من خلال إعادة تدريب أحد نماذج الذكاء الاصطناعي الحالية الذي طورته الشركة في عام 2020، وهو نموذج قادر على تعلّم أنماط الكلام من التسجيلات الصوتية من دون الحاجة إلى استخدام كميات كبيرة من البيانات الموسومة مثل النصوص المنقولة.

درب خبراء الشركة هذا النموذج باستخدام مجموعتين جديدتين من البيانات، تحتوي الأولى على تسجيلات صوتية لكتاب العهد الجديد والنصوص المقابلة للتسجيلات المأخوذ من الإنترنت والمكتوبة بـ 1107 لغات، بينما تحتوي الثانية على تسجيلات صوتية غير موسومة للكتاب نفسه بـ 3,809 لغات. عالج الفريق التسجيلات الصوتية والبيانات النصية لتحسين جودتها ثم شغّل خوارزمية مصممة لتوافق بين التسجيلات الصوتية والنصوص المرافقة لها، ثم كرروا العملية باستخدام خوارزمية أخرى تدرّبت على البيانات المتوافقة الجديدة. تمكن الباحثون بتطبيق هذه الطريقة من تدريب الخوارزمية على تعلم لغة جديدة بسهولة أكبر حتى من دون استخدام النص المرافق.

تدريب النماذج بكميات قليلة من البيانات

ويقول عالم الأبحاث في شركة ميتا، مايكل أولي (Michael Auli) الذي عمل في المشروع: “يمكننا استخدام ما تعلمه هذا النموذج لتصميم أنظمة الكلام بسرعة باستخدام كمية قليلة جداً من البيانات. لدينا الكثير من مجموعات البيانات العالية الجودة باللغة الإنجليزية، وكذلك الأمر بالنسبة إلى عدد قليل من اللغات الأخرى؛ ولكن ليست لدينا مجموعات بيانات عالية الجودة باللغات التي يتحدث بها عدد قليل من البشر (ألف شخص مثلاً)”.

يقول الباحثون إن نماذجهم يمكن أن تتحدث بأكثر من ألف لغة ولكنها تتعرف على أكثر من 4 آلاف لغة. قارن الباحثون النماذج الجديدة مع تلك التي طورتها الشركات المنافسة؛ مثل نموذج ويسبر (Whisper) الذي طورته شركة أوبن أيه آي، وهم يزعمون أن معدل الأخطاء في نماذجهم يساوي نصف معدل الأخطاء في النماذج الأخرى، على الرغم من أنها تعمل بعدد من اللغات يبلغ 11 ضعفاً من عدد لغات هذه النماذج المنافسة.

مع ذلك، يحذّر الفريق من أن نموذجه ما يزال معرضاً لاحتمال ارتكاب الأخطاء في نقل كلمات أو عبارات معينة؛ ما قد يؤدي إلى توليد تسميات غير دقيقة أو أخرى قد تكون مسيئة. يعترف الباحثون أيضاً بأن نماذج التعرف على الكلام التي طوروها ولّدت عدداً من الكلمات المتحيزة أكبر من النماذج الأخرى بنسبة 0.7% فقط.

وعلى الرغم من أن نطاق هذا المجال البحثي مثير للإعجاب، يقول الباحث في منظمة ماساكانيه (Masakhane) التي تعمل في مجال معالجة اللغات الطبيعية للغات الإفريقية، كريس إيميزويه الذي لم يشارك في البحث الجديد، إن استخدام النصوص الدينية لتدريب نماذج الذكاء الاصطناعي يمكن أن يكون مثيراً للجدل.