كيف تعلّمت عين الآلة من كواليس المسرح
تحت ضوء عمل قاسٍ في ورشة مسرح مزدحمة، مرّ عامل جديد قرب درج نصف مفتوح، وكوب فوق علامة، ومنشفة على كرسي، وقناع ينتظر صندوقه. لم يعمل في هذا العرض من قبل، لكن مشاهدة لقطات كثيرة من مستوى العين جعلته يعرف ما الذي يتحرك، وأين يعود، وما الذي لا يُلمس.
الآلة كانت أضعف من هذا العامل. أحيانًا تُدرَّب على كل مهمة من الصفر، وأحيانًا ترى صورًا ثابتة للأشياء فقط. هذا يشبه عامل مسرح يحفظ صور الأدوات، ثم يُطلب منه ترتيب الكواليس في عتمة وفوضى. ما ينقصه هو سير الحركة: ماذا يأتي الآن، وما الذي تغيّر، وما الخلفية التي لا تهم.
الجديد هنا أنهم درّبوا عين الآلة على كم كبير من فيديوهات بشرية من منظور الشخص نفسه، ومع كل مقطع كلمات قصيرة تلمّح لما يحدث. اللقطات القريبة في الفعل عوملت كأنها من المشهد نفسه، والكلمات شدّت الانتباه إلى التغيّر المهم: قناع يدخل درجًا، أو منشفة تُطوى. كأن عامل المسرح يحمل ورقة إشارات صغيرة لا تذكر كل شيء، فقط ما يفيد.
بعد هذا، لم يعودوا يعلّمون عين الآلة من جديد كل مرة. أبقوا هذه العين كما هي، ثم علّموها الحركة في كل مهمة جديدة من أمثلة قليلة، مع إحساسها بوضع أذرعها ومفاصلها. مثل عامل المسرح نفسه: العين المدرّبة تبقى، والذي يتبدل فقط هو تسلسل الليلة.
وعندما جرى الفحص، ظهر أهم جزء بوضوح. حين أزيلت الكلمات القصيرة، هبط الأداء أكثر من أي حذف آخر. كأن العامل صار سريعًا في الحركة، لكنه لم يعد يعرف أي غرض يحمل معنى المشهد، فتذهب يده إلى الكوب الخطأ أو ينسى الدرج الذي يجب أن يُغلق. إذن الفائدة لم تأت من كثرة الفيديو وحدها، بل من الوقت والمعنى والاختصار معًا.
ثم خرج الأثر من ساحات التدريب إلى غرفة تشبه البيت، فيها فوضى عادية. مع أمثلة موجهة قليلة لكل مهمة، صارت الآلة أفضل في إغلاق الأدراج، ووضع الأشياء في مكانها، ودفع كوب، وطي منشفة، خاصة حين يكون الهدف مختبئًا وسط الزحمة. الفكرة الجديدة بسيطة: فيديو البشر صار عينًا قابلة لإعادة الاستخدام، فاحتاجت الآلة إلى تدريب أقل على كل مهمة جديدة.