Article image
مصدر الصورة: توني ويبستر عبر فليكر



استُخدم التعلم المعزز في تدريب أنظمة الذكاء الاصطناعي للتغلب على البشر في ألعاب معقدة. فهل سيتمكن أيضاً من التفوق عليهم في إدارة الاقتصاد؟

2020-05-07 15:03:09

07 مايو 2020

أصبح التفاوت في توزيع الدخل أحد أهم المشاكل الكبرى التي تواجه الاقتصادات. وتعتبر الضرائب إحدى أهم الأدوات التي يستخدمها صناع السياسات لمعالجة هذه المشكلة؛ حيث تجبي الحكومات الأموال من الناس وفقاً لمكاسبهم، وتعيد توزيع الأموال إما بشكل مباشر، عبر أنظمة الرعاية الاجتماعية، أو بشكل غير مباشر، عبر استخدامها لتمويل المشاريع العامة. وعلى الرغم من أن الضرائب يمكن أن تعزز من المساواة، فإن فرض الكثير منها يمكن أن يثبط من رغبتهم في العمل، أو يؤدي إلى تحفيزهم للبحث عن وسائل للتهرب من الدفع، مما يؤدي إلى تخفيض العائدات الكلية.

ليس من السهل تحقيق التوازن الصحيح. وعادة ما يعتمد الاقتصاديون على فرضيات لا يمكن إثبات صحتها بسهولة. يتصف السلوك الاقتصادي للناس بالتعقيد، وليس من السهل جمع البيانات حول هذا السلوك. وقد أمضى الباحثون عقوداً كاملة من الأبحاث في محاولة لتصميم أفضل السياسات الضريبية، ولكنها ما تزال مشكلة مفتوحة.

يعتقد العلماء في شركة الأعمال التكنولوجية الأميركية سيلزفورس أن بإمكان الذكاء الاصطناعي أن يساعد على تحقيق هذه المهمة. قام الفريق، بقيادة ريتشارد سوتشر، بتطوير نظام يحمل اسم إيه آي إيكونوميست، الذي يعتمد على التعلم المعزز –وهو نفس الأسلوب المستخدم في نظامي ألفا جو وألفا زيرو من ديب مايند- لتحديد أفضل السياسات الضريبية لاقتصاد افتراضي يحاكي الواقع. ما زالت الأداة بسيطة نسبياً، حيث يستحيل أن تكون قادرة على استيعاب جميع تعقيدات العالم الحقيقي أو السلوك البشري، ولكنها خطوة أولى واعدة نحو تقييم هذه السياسات بطريقة مختلفة تماماً. يقول أليكس تروت، أحد أعضاء الفريق: “سيكون من المذهل أن تصبح السياسة الضريبية أقل تأثراً بالتجاذبات السياسية وأكثر اعتماداً على البيانات”.

في إحدى النتائج الأولى، وجد الذكاء الاصطناعي سياسة حققت مساواة أكثر بنسبة 16% -من حيث رفع الإنتاجية وزيادة عدالة توزيع الدخل- من أحدث هيكليات الضرائب التصاعدية التي درسها الاقتصاديون الأكاديميون. وقد تمكن النظام حتى من تحقيق زيادة أكبر مقارنة مع السياسة الأميركية الحالية. يقول بليك ليبرون في جامعة برانديس في ماساتشوستس، الذي استخدم الشبكات العصبونية لمحاكاة الأسواق المالية: “أعتقد أنها فكرة مثيرة للاهتمام إلى حد كبير”.

في هذه المحاكاة، يتم التحكم في 4 عاملين افتراضيين من قِبل نماذج تعلم معزز خاصة بهم. يتفاعل العاملون مع عالم ثنائي الأبعاد، حيث يجمعون الخشب والحجارة، ويتاجر كل منهم في هذه المصادر مع الآخرين، أو يستخدمها لبناء المنازل وكسب الأموال. يتمتع العاملون بمستويات مختلفة من المهارة، وهو ما يؤدي إلى التخصص. يتعلم العاملون الأقل مهارة أنهم سيحققون نتائج أفضل إذا قاموا بجمع الموارد، أما الأكثر مهارة فيتعلمون أنهم سيحققون نتائج أفضل إذا قاموا بشراء الموارد لبناء المنازل. في نهاية كل سنة افتراضية، يتم فرض الضرائب على العاملين جميعاً بنسبة يحددها صانع سياسات يتحكم فيه الذكاء الاصطناعي، الذي يعتمد على خوارزمية تعلم معزز خاصة به. يهدف صانع السياسات إلى تعزيز كل من الإنتاجية والدخل لكل من العاملين. تتقارب هذه الأنظمة الافتراضية نحو السلوك الأمثلي بعد تكرار المحاكاة لملايين المرات.

يبدأ نموذجا التعلم المعزز من الصفر، من دون أية معرفة سابقة بأي نظرية اقتصادية، ويتعلمان كيفية التصرف بناء على التجربة والخطأ، بشكل مشابه لأنظمة ديب مايند، التي تعلمت كيفية لعب جو وستاركرافت بمستوى خارق المهارة من دون أي توجيه بشري. 

هل يمكنك أن تتعلم الكثير بالاعتماد فقط على أربعة عاملين افتراضيين؟ من الناحية النظرية: نعم؛ لأن التفاعلات البسيطة بين عدد قليل من الأطراف تتحول بسرعة إلى سلوكيات معقدة للغاية. وعلى سبيل المثال، فإن لعبة جو بكل تعقيداتها تتضمن لاعبين اثنين وحسب. وعلى الرغم من هذا، فإن المشاركين في هذا المشروع يُجمعون على أن زيادة عدد العاملين في المحاكاة سيكون أمراً هاماً إذا أرادوا استخدام هذه الأداة لنمذجة أوضاع واقعية.

التلاعب على النظام

إن الاستخدام المزدوج للذكاء الاصطناعي أمر هام. لقد استُخدمت الشبكات العصبونية للتحكم في عناصر اقتصادات افتراضية من قبل، ولكن تحديد السياسات باستخدام الذكاء الاصطناعي أيضاً يؤدي إلى نموذج يتكيف فيه العاملون وصانع السياسات بشكل مستمر مع بعضهم البعض. كانت البيئة المتغيرة تحدياً بالنسبة لأنظمة التعلم المعزز، بما أن الإستراتيجية التي يتم تعلمها ضمن سياسة ضريبية قد لا تنجح ضمن سياسة ضريبية أخرى. ولكنها أيضاً كانت تعني أن أنظمة الذكاء الاصطناعي وجدت طريقة للتلاعب على النظام. وعلى سبيل المثال، تعلم بعض العاملين تجنب الضريبة عن طريق تخفيض إنتاجيتهم لدفع ضريبة أقل، ومن ثم زيادتها ثانية. يقول فريق سيلزفورس إن هذا التجاذب والتفاعل المتبادل بين العاملين وصانع السياسات أدى إلى محاكاة أكثر واقعية من أي شيء حققته النماذج السابقة، التي تعتمد في أغلب الأحيان على سياسات ثابتة.

توصل إيه آي إيكونوميست إلى سياسة ضريبية غريبة بعض الشيء. وخلافاً لمعظم السياسات الموجودة، التي إما أن تكون تصاعدية (أي تزداد الضريبة مع زيادة الكسب) أو تنازلية (أي تتناقص الضريبة مع زيادة الكسب)، فإن السياسة التي توصل إليها الذكاء الاصطناعي تحمل مفاهيم من كلتا الطريقتين، حيث تقوم على تطبيق المعدلات الضريبية العالية على الفقراء والأغنياء، والمعدلات المنخفضة على العاملين من الطبقة المتوسطة. وعلى غرار الكثير من الحلول التي تتوصل إليها أنظمة الذكاء الاصطناعي -مثل بعض الحركات التي أدت إلى فوز ألفا زيرو- تبدو النتيجة مناقضة للمنطق السليم، وأبعد ما تكون عن شيء من ابتكار البشر. ولكن تأثيرها على الاقتصاد أدى إلى تضييق الهوة ما بين الأغنياء والفقراء.

ولدراسة ما إذا كانت السياسة الضريبية التي ولدها الذكاء الاصطناعي ستؤثر على السلوك البشري بطريقة مماثلة، قام الفريق باختبارها على أكثر من 100 عامل مؤقت على منصة ميكانيكال تورك على أمازون، الذين طلب منهم أن يتحكموا في العاملين ضمن عملية المحاكاة. وجد الفريق أن هذه السياسة دفعت البشر إلى التصرف بشكل مماثل لسلوك الذكاء الاصطناعي، مما يشير -على الأقل من ناحية المبدأ- إلى إمكانية استخدام إيه آي إيكونوميست للتأثير على النشاط الاقتصادي الفعلي.

تعديلات متواصلة بلا توقف

من الفوائد الأخرى التي تتمتع بها المحاكاة باستخدام الذكاء الاصطناعي إمكانية تعديل المعامِلات الوسيطة لدراسة سيناريوهات مختلفة. وعلى سبيل المثال، يمكن تعديل النموذج لدراسة أثر الوباء، وذلك بإضافة عوائق تحد من النشاط الاقتصادي، مثل الابتعاد الاجتماعي وتقييد الوصول إلى الموارد، أو بإخراج الناس من عِداد القوى العاملة. يقول سوتشر: “من الصعب أن نتوصل إلى نظريات أمثلة للضرائب بناء على الماضي إذا كان المستقبل يبدو مختلفاً للغاية”.

ويرى ليبرون أن قدرة المحاكاة على نمذجة التغيرات تعد ميزة هامة للغاية، حيث يقول: “من المثير للاهتمام أن نرى كيف يغير العاملون من سلوكهم مع تغير السياسة الضريبية”، ويضيف أن هذه الميزة تتيح التغلب على إحدى أكبر المشاكل التي كانت تثير الانتقادات حول النماذج الضريبية الموجودة سابقاً، والتي كانت تتمحور حول تثبيت النمط السلوكي فيها. 

غير أن التحفظ الأساسي لليبرون إزاء هذه الأداة هو العدد القليل للأطراف الافتراضية فيه حالياً.  ويقول: “هناك من يقول بإمكانية الحصول على معلومات عميقة باستخدام عدد محدود من الأطراف الافتراضية. غير أن هذه ليست وجهة نظري” يرغب ليبرون بمحاكاة حوالي 100 عامل، وهو أيضاً الرقم الذي يطمح فريق سيلزفورس إلى محاكاته.

ولكن ليبرون يعتقد أن الأداة يمكن أن تستخدم منذ الآن لتدقيق النماذج الاقتصادية الحالية، ويقول: “لو كنتُ من صناع السياسات، لقمت بتشغيل هذا البرنامج على الفور لأرى ما يقول لي”. ويقول إنه إذا كان إيه آي إيكونوميست يتعارض في النتائج مع نماذج أخرى، فقد يكون هذا دلالة على أن تلك النماذج قد تجاهلت بعض العوامل.

يعمل ديفيد باركيس عالمَ حاسوب واقتصادياَ في جامعة هارفارد، وقد عمل مع فريق سيلزفورس، ويشعر بالتفاؤل إزاء هذا العمل. كما يتفق مع وجهة النظر القائلة بوجوب زيادة عدد الأطراف الفاعلة ضمن المحاكاة إلى حد كبير. ولكن ما أن يتحقق هذا الأمر، وتُضاف بعض الميزات الإضافية إلى عملية المحاكاة، مثل الشركات، يتوقع باركيس أن النموذج سيتمكن من تكرار النتائج النظرية الحالية. ويضيف: “عندها سيصبح على الفور صالحاً للاستخدام بشكل مجدٍ”.

غير أن دوين فارمر، وهو اقتصادي في جامعة أوكسفورد، لم يقتنع تماماً بجدوى هذا البرنامج. وعلى الرغم من ترحيبه بنقل التعلم المعزز من الألعاب إلى الاقتصاد، “فإن هذا يثير التساؤل حول إمكانية دراسة السياسات بنفس الطريقة التي يلعب بها ألفا زيرو لعبة جو”، وهو يعتقد أن هذه الأداة ستحتاج إلى بعض الوقت قبل أن تصبح مفيدة بالفعل. ويضيف: “العالم الحقيقي أكثر تعقيداً بكثير”.

يعترف الفريق بضرورة تقديم المزيد من الإثباتات لإقناع الاقتصاديين؛ ولهذا قرروا نشر الرماز البرمجي ودعوة الآخرين إلى تشغيل نماذجهم باستخدامه. ووفقاً لسوتشر، فإن هذه التشاركية ستكون أيضاً على المدى الطويل جزءاً هاماً من زيادة وثوقية هذه الأدوات. ويقول: “إذا كنت تستخدم الذكاء الاصطناعي حتى تنصح بوجوب رفع أو خفض الضرائب لفئة محددة من الناس، فمن الأفضل أن يكون لديك مبرر واضح”.