كيف تدربت الحواسيب في ملاعب الكلاب؟

تخيل جرواً صغيراً اسمه "رعد" في مركز تدريب مشمس. أمامه منحدر خشبي بسيط، وهو يرى كل شيء بوضوح من خط البداية. هذا يشبه تماماً بدايات تعليم الحواسيب، حيث كانت الألعاب مثل الشطرنج واضحة القواعد، وكل قطعة مكشوفة تماماً على الرقعة، فلا توجد مفاجآت.

فجأة، ينقل المدرب الجرو إلى غابة ضبابية وعرة. لم يعد يرى الطريق كاملاً، وعليه أن يشم ويخمن خطواته بحذر. هنا انتقلت الحواسيب إلى ألعاب الفيديو المعقدة، حيث لا ترى الخريطة كاملة، بل يجب أن تتفاعل مع عالم غامض وتتخذ قرارات سريعة بناءً على ما تراه لحظة بلحظة.

حتى لا يحفظ "رعد" الطريق عن ظهر قلب، تقوم آلة بتغيير أماكن الأشجار والحفر كل صباح. هذا يجبره على تعلم مهارة البحث بذكاء بدلاً من التكرار. وبالمثل، تصمم الحواسيب الآن مراحل اللعب لنفسها، لتضمن أنها تفهم أصول اللعبة ولا تحفظ خريطة واحدة فقط.

التحدي يكبر حين ينضم "رعد" لمجموعة كلاب يجب أن تتعاون لسحب جذع شجرة ثقيل دون نباح. عليهم فهم إشارات بعضهم الصامتة. هذا يماثل تعليم الشخصيات الرقمية كيف تعمل كفريق، فتنسق حركاتها معاً لإنجاز مهمة لا يستطيع فرد واحد القيام بها بمفرده.

أخيراً، تختفي الأسوار ويجد الجرو نفسه في برية مفتوحة بلا خط نهاية ولا مكافأة محددة. الأمر الوحيد هو "ابنِ مأوى". هنا تتعلم الأنظمة الذكية في عوالم مفتوحة تشبه لعبة "ماينكرافت"، حيث لا يوجد فوز وخسارة، بل محاولة للتصرف وفهم أهداف عامة غير محددة بدقة.

يخرج الجرو المدرب الآن من المحاكي إلى منطقة كوارث حقيقية، ويتحرك بثقة تامة وسط الحطام. تلك الألعاب والساحات الرقمية لم تكن مجرد تسلية، بل كانت حقول تجارب آمنة لتدريب العقول الآلية قبل أن نطلقها لتساعدنا في حل مشكلات العالم الواقعي.