لماذا لا يرى الذكاء الاصطناعي الحروف؟

تخيل بناءً خارقاً يركب ناطحات السحاب في ثوانٍ. السر أنه لا يضع طوبة فوق طوبة، بل يستخدم جدرانًا جاهزة ضخمة. يمسك لوحاً مكتوباً عليه "مطبخ" ويركبه فوراً. هكذا يعمل الذكاء الاصطناعي الحديث: لا يقرأ النصوص حرفاً بحرف، بل يلتقط كلمات أو عبارات كاملة ككتل واحدة نسميها "الرموز" (Tokens).

تقع الورطة حين يطلب المهندس تعديلاً دقيقاً: "غير الطوبة الثالثة في هذا الجدار". يتجمد البناء مكانه. لأنه يتعامل مع ألواح مصبوبة ومغلقة، هو لا يرى الطوب الصغير بداخلها ولا يستطيع لمسه. هذا يفسر لماذا يفهم الذكاء الاصطناعي المعنى العام للكلمة، لكنه يبدو "أعمى" تماماً عن الحروف التي تتكون منها.

لاختبار هذا "العمى"، طلبنا منه عد الطوب في الجدار. خمن الرقم بناءً على حجم اللوح وأخطأ في العد. لكن عندما طلبنا منه تبديل أماكن الغرف لتصميم شكل جديد، أدى المهمة ببراعة لأنه يحفظ آلاف المخططات. هذا يشبه فشل الذكاء الاصطناعي في عد الحروف بدقة، بينما ينجح ببراعة في تأليف الجمل.

تختلف النتيجة حسب نوع المشروع. في لغات مثل الصينية، قد يمثل اللوح الواحد كلمة كاملة بوضوح فتقل الأخطاء. أما في لغات أخرى ذات تراكيب معقدة، تكون الألواح مجرد قشور تخفي هيكلاً داخلياً دقيقاً لا يراه البناء. طريقة "الكتل الجاهزة" تمنحنا السرعة، لكنها قد تظلم اللغات التي تعتمد على تفاصيل دقيقة داخل الكلمة.

الدرس هنا أن السرعة الهائلة جاءت على حساب الدقة في التفاصيل. لإصلاح هذا العيب، لا نحتاج لرافعات أكبر، بل لأدوات جديدة تعمل مثل "الأشعة السينية" لتكشف ما بداخل الألواح. التطور القادم هو أن نجمع بين نقل المعاني الكبيرة ورؤية "الطوب" الصغير الذي يمسك البناء ببعضه.