العودة لنسخة الموبايل
النسخة الكاملة

ثورة في الذكاء الاصطناعي: ترميز دلالي جديد يعيد تعريف كفاءة النماذج اللغوية

ثورة في الذكاء الاصطناعي: ترميز دلالي جديد يعيد تعريف كفاءة النماذج اللغوية

بينما تتسارع وتيرة الاستثمار في مراكز البيانات والقدرات الحوسبية الضخمة، يتبادر إلى الأذهان سؤال أساسي في أوساط البحث العلمي، وهو: هل يكمن الحل في زيادة حجم النماذج اللغوية أم في تحسين طريقة قراءتها للكلمات؟

فخلف هذا التطور الكبير في الذكاء الاصطناعي، تكمن عملية تقنية تعرف بـ "الترميز"، والتي تمثل البوابة التي تحول لغة البشر إلى لغة تفهمها الآلة، واليوم، يظهر مشروع بحثي طموح يحمل اسم "الترميز الدلالي السياقي" (سي إس تي/CST) بمقاربة جديدة تعتمد على بنية اللغة العربية لتحسين كفاءة النماذج اللغوية على مستوى العالم.

ويركز المشروع على أنظمة الترميز الحالية التي غالبا ما تعتمد على أساليب إحصائية قد لا تراعي البنية العميقة للغة، مما يؤدي إلى تمثيلات أطول وأقل وضوحا.

فهم عميق للكلمة العربية

لا يقرأ الذكاء الاصطناعي النصوص بالطريقة التي نقرأها بها، بل يقوم بتجزئتها إلى وحدات صغيرة تسمى "رموزا"، وفي الأنظمة الشائعة اليوم، يتم ذلك غالبا بأساليب إحصائية صرفة، تبني المفردات على أساس الأنماط الحرفية الأكثر تكرارا، ورغم فعالية هذه المقاربة في الضغط الإحصائي، إلا أنها لا تضمن توافق الوحدات الناتجة مع حدود المعنى أو الصرف.

وبالنسبة للغة العربية، يصبح الأمر أكثر تعقيدا، فالكلمة العربية تحمل في طياتها معلومات مكثفة حول الجذر، والوزن، والزمن، والضمائر، وعندما تتعامل أدوات الترميز الإحصائية مع هذه البنية كمتتالية من الحروف، فإنها تنتج تسلسلات أطول وتمثيلات أقل وضوحا من الناحية اللغوية، مما يتطلب من النموذج جهدا أكبر "لفهم" المقروء.

وعليه، يهدف مشروع "سي إس تي" إلى معالجة هذه المشكلة من خلال تقديم طريقة ترميز تأخذ في الاعتبار البنية الصرفية الغنية للغة العربية، مما يتيح للنماذج اللغوية فهم النصوص العربية بكفاءة أكبر.

نحو ترميز دلالي سياقي فعال

انطلقت فكرة مشروع "سي إس تي" من ملاحظة دقيقة في الصرف العربي، حيث يسمح نظام الجذر والوزن بتمثيل العلاقة بين البنية والمعنى بشكل مباشر، فالجذر "ك-ت-ب" يشير إلى حقل الكتابة، ومنه تتولد كلمات مثل "كاتب"، و"كتاب"، و"مكتبة"، و"مكتوب"، وينطلق المشروع من هذه الملاحظة ليعممها في إطار عمل عالمي يهدف إلى تحويل الكلمات في لغات مختلفة إلى وحدات دلالية أكثر انتظاما.

وفي هذا السياق، لا تصبح الكلمة مجرد شظية حرفية، بل يتم تمثيلها كمفهوم دلالي مرتبط بدور صرفي أو نحوي، فالفكرة ليست استبدال اللغة بقاموس مصطنع، بل تقديم مدخلات أكثر انتظاما للنموذج، بحيث يصبح جزء من العمل اللغوي منظما قبل بدء التدريب، بدلا من تركه كله للاستنتاج الإحصائي اللاحق.

واضاف الباحثون ان هذه المقاربة تهدف إلى تزويد النماذج اللغوية بمدخلات أكثر دقة وتنظيما، مما يقلل من الجهد الذي تبذله في فهم النصوص.

نتائج مذهلة في تحسين الكفاءة

أظهرت التجارب التي أجريت على نماذج من طراز "جي بي تي-2" (GPT-2) أن هذه المقاربة ليست مجرد نظرية لغوية، بل تفوق تقني ملموس، ففي اختبارات مضبوطة على اللغة الإنجليزية، خفّض "سي إس تي" مقدار المعلومات اللازمة لتمثيل النص، أو مقياس "البتات لكل حرف" (BPC) بنسبة وصلت إلى 35.5%، كما قلّص طول الجملة بنسبة 30%، مما أدى إلى تسريع زمن التدريب بنسبة 36%.

وبينت النتائج أنه في الاختبارات العربية، كانت النتائج أكثر إذهالا، حيث سجل "سي إس تي" تحسنا في كفاءة التمثيل بنسبة وصلت إلى 46% مقارنة بالمرمزات التقليدية، وتقترح هذه النتائج قراءة عملية واضحة: كلما أصبحت وحدة الإدخال أكثر قربا من البنية اللغوية، أمكن للنموذج تمثيل الجملة بعدد خطوات أقل وكلفة أقل.

واكد الباحثون ان هذه النتائج تؤكد أن تحسين طريقة الترميز يمكن أن يؤدي إلى تحسينات كبيرة في كفاءة النماذج اللغوية.

أهمية الترميز الدلالي للمنطقة العربية

تتجاوز الأهمية هنا الأروقة الأكاديمية لتصبح مسألة مالية وتشغيلية، ففي بيئة تستثمر بكثافة في الذكاء الاصطناعي، يعني تقليل طول التسلسل ورفع جودة التمثيل خفض تكلفة التدريب وزيادة سرعة الاستدلال، وهذا الأمر حيوي لقطاعات مثل الخدمات الحكومية، والتعليم، والرعاية الصحية، حيث لا تكون الأولوية دائما لأكبر نموذج ممكن، بل للنموذج الأكثر دقة وامتثالا لغويا وأقل كلفة.

كما ينسجم بناء أدوات تأسيسية تنطلق من العربية والإنجليزية مع التوجه الإقليمي نحو تطوير قدرات محلية أصيلة في الذكاء الاصطناعي، بدلا من الاكتفاء باستهلاك النماذج الجاهزة التي قد لا تراعي خصوصية لغاتنا.

وشدد الباحثون على أن تطوير أدوات ذكاء اصطناعي محلية يعزز من استقلالية المنطقة في هذا المجال الحيوي.

نحو تطبيقات عملية للذكاء الاصطناعي

يعمل المشروع حاليا على تحويل "سي إس تي" من فكرة بحثية إلى أداة عملية، مع التركيز على تشغيل النماذج على الأجهزة المحلية أو داخل المتصفح، والفكرة هي أنه مع تقنيات الضغط والتحسين، قد يساعد مشروع "سي إس تي" على جعل النماذج اللغوية أخف وأكثر قابلية للاستخدام اليومي دون الحاجة لبنية سحابية ثقيلة.

فهذا المشروع يطرح مسارا مختلفا، فبدلا من النظر إلى الأداء بوصفه نتيجة للتوسع في الحوسبة وحده، يركز هذا المسار على جودة التمثيل منذ الخطوة الأولى، وإذا استمرت النتائج في هذا الاتجاه، فقد يصبح هذا التصميم عاملا حاسما في بناء نماذج أكثر كفاءة، وقابلية للتطبيق، واستدامة في منطقتنا والعالم.

وبين الباحثون ان تطوير أدوات تنطلق من خصوصية اللغة العربية، مع قابلية التوسع إلى لغات أخرى، ينسجم مع توجه أوسع نحو بناء قدرات محلية في هذا المجال، بدل الاعتماد الكامل على نماذج مستوردة.

ومع ذلك، لا يزال من المبكر اعتبار "سي إس تي" بديلا نهائيا لأساليب الترميز الحالية، لكنه يقدم مؤشرا قويا على أن تحسين "مدخلات" النموذج قد يكون بنفس أهمية تحسين بنيته أو زيادة حجمه، ومع استمرار التجارب وتوسيع نطاق التطبيق، قد يتحول هذا النهج إلى أحد المسارات الرئيسية في تطوير النماذج اللغوية.

في النهاية، يطرح المشروع سؤالا بسيطا لكنه عميق: ماذا لو لم يكن مفتاح الذكاء الاصطناعي في المزيد من الحوسبة فقط، بل في فهم أفضل للكلمة منذ البداية؟

بعد جدل "فنجان القهوة".. هل يعتبر وضع المكياج أثناء القيادة مخالفة في الأردن اصابة 12 شخصا اثر تدهور باص نقل واصطدامه بعمود انارة على طريق وادي العرب باربد "72 ساعة حاسمة".. ترامب يلمح لمفاوضات وشيكة مع طهران أمانة عمان: هدف كاميرات المخالفات حماية الارواح وليست للتضييق على المواطنين لكل التربويين والأهالي.. تعرفوا على ملامح المنصة التعليمية الجديدة في الأردن طلاب ام الخير بالخليل ينتفضون رفضا لاغلاق طريق مدرستهم للراغبين بالبيع.. ارتفاع كبير على أسعار الذهب في الأردن اليونسكو تتبنى قرارا بشأن الاوضاع المتدهورة في غزة هل يهدد الذكاء الاصطناعي وظائف مصممي المواقع؟ قلق يسيطر على 76% منهم من الملاعب الى العالمية.. الدويري يثمن "الدفعة المعنوية" التي قدمها الحسين بن عبدالله للكرة الاردنية ترامب يكشف: ايران تتراجع عن اعدام 8 نساء بعد تدخلي بروكسل تدعو لفتح ممر بحري لغزة ومقاطعة اسرائيل وداع مهيب في جرش.. مديرية الامن العام تشيع جثمان الشرطي لؤي الزعبي الى مثواه الاخير تنويه هام من ضريبة الدخل حول صرف الرديادت للمكلفين توقعات بارتفاع أسعار الغذاء في مصر بسبب تكاليف الزراعة تهدئة لبنان في خطر حراس المستقبل: كيف يحمي الذكاء الاصطناعي عالمنا الرقمي والمادي؟ اقمار الطوفان: القسام يكشف مشاهد بطولية لمقاتل في غزة الأحكام القطعية لا تعني النهاية.. متى تعود القضايا للحياة من جديد في الأردن؟