تلعب منطقة صغيرة من
الدماغ، تُعرف باسم المنطقة
السقيفية البطنية (VTA)، دورا
رئيسيا في كيفية تعاملنا مع المكافآت، فهي تُنتج الدوبامين، وهو مُعدّل عصبي
يُساعد على التنبؤ بالمكافآت المستقبلية بناء على الإشارات السياقية.
وقد أظهر
فريق من جامعات جنيف (UNIGE) وهارفارد وماكغيل أن المنطقة السقيفية البطنية تتجاوز
ذلك بكثير: فهي لا تُشفر المكافأة المتوقعة فحسب، بل تُشفر أيضا اللحظة
المُتوقعة، بحسب تقرير في
موقع ميديكال إكسبرس من جامعة جنيف.
ويُسلّط هذا الاكتشاف، الذي أصبح ممكنا بفضل خوارزمية
تعلم آلي، الضوء على أهمية دمج
الذكاء الاصطناعي مع علم
الأعصاب.
وتلعب المنطقة السقيفية البطنية (VTA) دورا رئيسيا في التحفيز ودائرة المكافأة في الدماغ، حيث تُرسل هذه المجموعة الصغيرة من الخلايا العصبية، وهي المصدر الرئيسي للدوبامين،
هذا المُعدِل العصبي إلى مناطق أخرى من الدماغ لتحفيز فعل استجابة لمحفز إيجابي.
ويوضح ألكسندر بوجيه، الأستاذ في قسم علوم الأعصاب
الأساسية بكلية الطب بجامعة جنيف: "في البداية، كان يُعتقد أن المنطقة
السقيفية البطنية هي مجرد مركز المكافأة في الدماغ. ولكن في التسعينيات، اكتشف
العلماء أنها لا تُشفِّر المكافأة نفسها، بل التنبؤ بها".
وأظهرت التجارب على الحيوانات أنه عندما تتبع المكافأة
إشارة ضوئية مثلا بشكل متسق، على سبيل المثال، فإن المنطقة السقيفية البطنية تُطلق
الدوبامين في النهاية، ليس لحظة المكافأة، بل بمجرد ظهور الإشارة. وبالتالي،
تُشفِر هذه الاستجابة التنبؤ بالمكافأة - المرتبط بالإشارة - بدلا من المكافأة
نفسها.
ويُعد "التعلم التعزيزي"، الذي يتطلب الحد
الأدنى من الإشراف، جوهر التعلم البشري. وهو أيضا المبدأ الذي تقوم عليه العديد من
خوارزميات الذكاء الاصطناعي التي تُحسّن الأداء من خلال التدريب، مثل AlphaGo، أول
خوارزمية تهزم بطلا عالميا في لعبة Go.
وفي الدراسة الحديثة، أظهر فريق بوجيه، بالتعاون مع
ناوشيغي أوشيدا من جامعة هارفارد وبول ماسيه من جامعة ماكغيل، أن برمجة المنطقة
البطنية (VTA) أكثر تعقيدا مما كان يُعتقد سابقا.
ويوضح الباحث من
جامعة جنيف، الذي قاد هذا العمل، قائلا: "بدلا من التنبؤ بمجموع مرجح
للمكافآت المستقبلية، تتنبأ المنطقة البطنية (VTA) بتطورها الزمني. بمعنى آخر، يتم تمثيل كل مكسب على
حدة، مع تحديد اللحظة الدقيقة التي يُتوقع فيها".
وقال: "بينما كنا نعلم أن الخلايا العصبية في
منطقة البطن البطنية تُعطي الأولوية للمكافآت القريبة زمنيا على تلك الأبعد في
المستقبل - على مبدأ عصفور في اليد خير من عشرة على الشجرة - اكتشفنا أن الخلايا
العصبية المختلفة تفعل ذلك على نطاقات زمنية مختلفة، مع تركيز بعضها على المكافأة
الممكنة في غضون ثوانٍ قليلة، والبعض الآخر على المكافأة المتوقعة في غضون دقيقة
واحدة، والبعض الآخر على آفاق أبعد".
وأضاف: "هذا التنوع هو ما يسمح بتشفير توقيت
المكافأة. يمنح هذا التمثيل الدقيق نظام التعلم مرونة كبيرة، مما يسمح له بالتكيف
لتحقيق أقصى قدر من المكافآت الفورية أو المؤجلة، اعتمادا على أهداف الفرد
وأولوياته".
وتنبع هذه النتائج من حوار مثمر بين علم الأعصاب
والذكاء الاصطناعي، حبث طور بوجيه خوارزمية رياضية بحتة تتضمن توقيت معالجة المكافآت.
في غضون ذلك، جمع باحثو هارفارد بيانات فسيولوجية عصبية واسعة النطاق حول نشاط
المنطقة البطنية لدى الحيوانات التي تختبر المكافآت. "ثم طبّقوا خوارزميتنا
على بياناتهم ووجدوا أن النتائج تتطابق تماما مع نتائجهم التجريبية".
في حين أن الدماغ يُلهم تقنيات الذكاء الاصطناعي
والتعلم الآلي، تُظهر هذه النتائج أن الخوارزميات يمكن أن تكون أيضا أدوات قوية
للكشف عن آلياتنا الفيزيولوجية العصبية، وفقا للدراسة.