كيف يتعلم الذكاء الاصطناعي لغة الأحياء؟

حقوق الصورة: shutterstock.com/Iurii Motov

استمع الى المقالة الآن هذه الخدمة تجريبية

مثل لغة البشر، تمتلك الحياة لغة خاصة بها، مشفرة في الحمض النووي للأحياء. أدّى فهم العلماء هذه اللغة إلى تطوير علاجات جديدة وهندسة الخلايا لإنتاج الوقود الحيوي والمواد والأدوية وغيرها من المنتجات، كما أسهم تعلّم الذكاء الاصطناعي هذه اللغة في تسريع عمليات التطوير تلك.

لغة الحياة: الحموض النووية والبروتينات

يعتمد تصنيع معظم الجزيئات على فهم آلية تركيب البروتينات في الخلايا. وعند إجراء هندسة عكسية للخلايا يصبح بالإمكان تصميم بروتينات جديدة وتحسين الجزيئات الموجودة في الطبيعة، وذلك بمساعدة الأدوات الحاسوبية ومنها التعلم الآلي.

قبل تطوير الأدوات الحاسوبية وحتى الآن، يبحث العلماء بين الكائنات عن مُركّبات تصنعها البكتيريا والفطريات والنباتات والكائنات الحية الأخرى يمكن أن تكون مفيدة لأغراض معينة ولكن لم تُكتشف بعد.

اليوم، يبحث العلماء عن طرقٍ جديدة تسهم في تطوير خوارزميات التعلم الآلي ونماذج الذكاء الاصطناعي التوليدية، وتعليمها لغة الحياة المشفرة في الحمض النووي والحمض النووي الريبوزي وقواعدها لبناء هياكل بروتينية تتمتع بخصائص مرغوبة، يمكن إنتاجها على نطاقٍ صناعي والاستفادة منها في مجالات مختلفة.

تترجم الخلايا اللغة (الجينات) المشفرة في الحمض النووي إلى بروتينات، وتمتلك البروتينات أيضاً “أبجدية” خاصة بها، يمكن تشبيهها بلغة البشر.

يتحدث البشر بلغات مختلفة، تتكون من عدد محدد من الأحرف، يمكنه تشكيل عدد لا محدود من الكلمات والجمل. وبشكلٍ مماثل، تتكون الحموض النووية من 4 قواعد نيتروجينية (يمكن تشبيهها بالأحرف)، يؤدي ترتيب كل 3 منها بترتيب محدد إلى تشكيل كودون (ويمكن تشبيه الكودونات بالكلمات)، ويؤدي ترتيب هذه الكودونات إلى تشكيل تسلسلات الجينات (والتي يمكن تشبيهها بالجمل). ويترجم كل كودون حمض أميني، وبالتالي يُترجم الجين إلى بروتينات. وللبروتينات لغة مكونة من نحو 20 حمضاً أمينياً، يؤدي ترتيبها بتسلسلات مختلفة وهائلة العدد إلى تشكيل عدد لا نهائي من البروتينات مختلفة الطول والحجم والخصائص.

حُدِّد أكثر من 200 مليون بروتين معروف، والملايين منها لم تُكتشف بعد، لكن يمكن تحديدها نظرياً، ما يترك مساحة واسعة للاستكشاف للعلماء، فكيف يمكن ذلك؟

إن تحديد تسلسل محدد من الحموض الأمينية المكونة لبروتين ما، وطوله وحجمه، وخصائصه الفيزيائية والكيميائية، يؤدي إلى تشكيل بروتين مرغوب، قد يكون دواءً أو بروتيناً مفككاً للبلاستيك مثلاً، أو أي بروتين آخر.

تبقى العقبة هي معرفة تسلسل الحموض الأمينية اللازمة التي تؤدي إلى الحصول على هذا البروتين، وهذه العقبة يمكن حلها بالذكاء الاصطناعي عند تعليمه لغة الأحياء (الحموض النووية والبروتينات).

كيف يتعلم الذكاء الاصطناعي لغة الحياة؟

في الذكاء الاصطناعي، يُقدَّم لنموذج الذكاء الاصطناعي التوليدي نصٌ يُقسَّم بعد ذلك إلى أحرف أو كلمات أو كلمات فرعية تُعرف باسم الرموز المميزة، ثم يحدد نموذج الذكاء الاصطناعي العلاقات بين هذه الرموز المميزة ويستخدم تلك المعلومات لإنشاء نص أصلي.

وبالآلية نفسها، يُقدَّم لنموذج الذكاء الاصطناعي التوليدي الخاص بلغة الأحياء الملايين من تسلسلات الجزيئات التي لها خصائص مشابهة لتلك المراد اكتشافها، ثم يحدد نموذج الذكاء الاصطناعي العلاقات بين رموز هذه التسلسلات، ويستخدم تلك المعلومات لإنشاء بروتين جديد.

لكن آلية اكتشاف الجزيئات والتحديات المتمثلة في تحديد صفات ملايين الهياكل الجزيئية يدوياً أمر مكلف وتتطلب جهداً كبيراً، لذلك يصعب الحصول على مجموعات بيانات تدريب كبيرة، ما يحد من فاعلية أساليب التعلم الآلي.

عوائق تعلم لغة الحياة التي يواجهها الذكاء الاصطناعي

تواجه هذه العملية عدة عقبات:

اكتشاف أفضل طريقة لتقسيم لغة علم الأحياء إلى رموز مميزة يمكن لنماذج الذكاء الاصطناعي التوليدي التعامل معها.
التأكد من أن نموذج الذكاء الاصطناعي قادر على تحديد العلاقات بين الجينات والعناصر التي تؤثّر فيها.
تحديد نقطة البداية للجين الذي يُشفر بروتيناً محدداً، لأن الخطأ في تحديد بداية الجين يؤدي إلى تشكيل بروتين مختلف.

نماذج ذكاء اصطناعي تتحدث لغة الحياة

يستمر العلماء في محاولات عديدة لتعليم الذكاء الاصطناعي لغة الحياة، ومنها نموذج طوّره باحثون من جامعة ستانفورد يُسمَّى هينا دي إن أيه (HyenaDNA)، وهو “نموذج الأساس الجينومي” الذي يتعلم كيفية توزيع تسلسلات الحمض النووي، وترميز الجينات، وكيف تنظم المناطق الواقعة بين تلك التي ترمز للأحماض الأمينية تعبير الجين.

طوّر أيضاً باحثون من إم آي تي إطاراً موحداً يستخدم التعلم الآلي للتنبؤ بالخصائص الجزيئية وإنشاء جزيئات جديدة باستخدام كمية صغيرة فقط من البيانات للتدريب، ويركّز هذا النموذج على فهم قواعد البناء لإنتاج جزيئات صالحة. تلتقط هذه القواعد أوجه التشابه بين الهياكل الجزيئية، ما يساعد النظام على إنشاء جزيئات جديدة والتنبؤ بخصائصها بطريقة فعّالة مقارنة بحجم البيانات الصغير.

وبالمثل، طوّرت شركة التكنولوجيا الحيوية “بروتينا” في مصر نموذج ذكاء اصطناعي يفهم لغة البروتينات، ويسهم في تسريع اكتشاف الأدوية، واكتشاف كيف يمكن أن تؤدي الطفرات في البروتينات إلى أمراض.

تجدر الإشارة إلى أن الجزيئات البروتينية المكتشفة من قِبل الذكاء الاصطناعي يجب أن تمر بعدة اختبارات تجريبية للتأكد من إمكانية تركيبها معملياً، والتحقق من صحة الخصائص الفيزيائية والكيميائية التي تمتلكها، بالإضافة إلى التأكد من فاعليتها وثباتها وغيرها من الخواص الأخرى.

عموماً، ما زالت نماذج الذكاء الاصطناعي التي تتعلم لغة الأحياء قيد التطوير، لكن النتائج التي يتوصل إليها الباحثون باستمرار مبشّرة بالخير، وستساعد بالتأكيد على تطوير الأدوية والمواد الحيوية المختلفة.