ميوزك إل إم MusicLM

1 دقيقة

ما هي ميوزك إل إم؟

هي نوع من النمذجة التوليدية مبنية على الذكاء الاصطناعي تم بناؤها على شبكة عصبونية اصطناعية بواسطة جوجل، وتدربت على مجموعة بيانات موسيقية كبيرة تزيد على 280 ألف ساعة من الموسيقى، ما يجعل النموذج قادراً على توليد مقاطع موسيقية جديدة بناء على النص الوصفي الذي يدخله المستخدم.

بنية ميوزك إل إم

تتكون بنية ميوزك إل إم من عدة مكونات وهي كالتالي:

  • يعتبر المكون الأساسي لهذا النموذج هو مكتبة مفتوحة المصدر تسمى مولان (MuLan) والتي تتعلم من مجموعات البيانات غير الموسومة. 
  •  يتم استخدام هذا النموذج لبناء تضمين مشترك بين الموسيقى والنص المدخل، ويتكون من نموذجين مضمنين أحدهما للإدخال النصي والآخر للإدخال الموسيقي. 
    •  نموذج بيرت المدرب مسبقاً للإدخال النصي.
    •  نموذج ريزنت- 50(ResNeT-50) للصوت.

كيف تعمل ميوزك إل إم ببساطة؟

  • أثناء التدريب: يتعلم النموذج تحويل الخرائط الرمزية التي تنتجها مولان إلى رموز دلالية بواسطة بيرت، ثم تتم مطابقة الرمز الصوتي لكل من رموز مولان الصوتية والرموز الدلالية على ساوند ستريم (SoundStream).
  • أثناء الاستدلال: يجب أن يقدم المستخدم وصفاً نصياً لمولان التي تحوله بدورها إلى إشارات مشروطة، ويتم تحويلها  بدورها إلى رمز صوتي بواسطة بيرت ليتم تحويله إلى أشكال موجية بواسطة فك تشفير ساوند ستريم (SoundStream).

تحديات ميوزك إل إم

على الرغم من التقدم الملحوظ الذي أبداه النموذج، فإنه ليس مثالياً مثل أي تقنية جديدة، ولكن من وجهة نظر مبتكري التقنية ستكون قابلة للتحسين في المستقبل.

  • أدى نقص البيانات الموسومة إلى انخفاض جودة مخرجات التدريب، بحيث يسهل إيجاد صور تحتوي على نص بديل لوصف مكوناتها، إلا أنه من الصعب للغاية إيجاد موسيقى تحتوي على نص بديل لوصفها.
  • يستطيع نموذج ميوزك إل إم توليد أصوات جوقات وأشخاص يغنون، ولكن غالباً لا تكون كلمات الأغاني باللغة الإنجليزية، ويبدو الصوت أشبه بمزيج من المطربين أكثر من كونه صوتاً بشرياً متماسكاً.
  • يعكس النموذج التحيزات الموجودة في نموذج التدريب والذي صرحت عنه شركة جوجل، وهذا السبب الرئيسي الذي منعها من طرحهِ حتى الآن، لأنه يثير أسئلة وشكوكاً حول الاستيلاء الثقافي والتحيزات.