"آراجين ليدر بورد" لتقييم نماذج الذكاء الاصطناعي باللغة العربية
أعلنت شركة "إنسبشن" (Inception)، وهي شركة تابعة لمجموعة "جي 42" (G42) بالتعاون مع جامعة محمد بن زايد للذكاء الاصطناعي، عن إطلاق "آراجين ليدر بورد" (AraGen Leaderboard)، وهو إطار عمل مصمم لإعادة تعريف تقييم نماذج اللغة العربية الكبيرة (LLMs).
ويقدم "آراجين ليدر بورد" مقياساً مبتكراً تم تطويره ليُلبي احتياجات اللغة العربية، وهو "3 سي 3 اتش" (3C3H)، والذي يُقيّم نماذج الذكاء الاصطناعي عبر ستة أبعاد رئيسية: الصواب، والاكتمال، والإيجاز، والفائدة، والصدق، وعدم الإضرار. ويهدف إلى تقديم منصة مفتوحة تُقيّم هذه النماذج بموضوعية، وتُوازن بين الدقة وسهولة الاستخدام، وتضع معياراً جديداً لنماذج معالجة اللغة الطبيعية العربية (NLP). ومع التوجه المتزايد نحو اعتماد المنتجات التي تعتمد على تقنيات الذكاء الاصطناعي في المؤسسات والشركات، تبرز أهمية وجود آلية مناسبة لقياس جودة نماذج الذكاء الاصطناعي ووضع معايير واضحة لها. وقد أدركنا في "آراجين ليدر بورد" هذه الحاجة وسعينا إلى المساهمة في سد هذه الثغرة.
وقال "أندرو جاكسون"، الرئيس التنفيذي لشركة "إنسبشن": "إن شراكتنا الاستراتيجية مع جامعة محمد بن زايد للذكاء الاصطناعي تركز دائماً على تطوير حلول الذكاء الاصطناعي التي تخدم المجتمعات المهمشة، وقد بدأنا بتطوير نظام "جيس" (JAIS) وغيره من نماذج اللغة الكبيرة التي لا تحظى بالدعم الكافي. واليوم، تتوسع هذه الشراكة لتشمل إنشاء "آراجين ليدر بورد"، وهو إطار عمل رائد يهدف إلى تقييم نماذج اللغة العربية الكبيرة".
وأضاف "جاكسون": يعتبر "آراجين ليدر بورد" خطوة جديدة نحو تعزيز ريادة دولة الإمارات العربية المتحدة في مجال الذكاء الاصطناعي، ودعم جهود الباحثين والمطورين والمؤسسات في ابتكار حلول ذكاء اصطناعي فعّالة تُلبي الاحتياجات الثقافية واللغوية للمنطقة".
مقتطفات من المقابلة
هل يمكنك توضيح التحديات التي تواجه تقييم نماذج اللغة العربية الكبيرة التي تتناولها "آراجين"؟
تُعد عملية تقييم نماذج اللغة العربية مُعقدة بطبيعتها، وتعتمد بشكل أساسي على نهجين رئيسيين: معايير التقييم الآلية ومعايير التقييم القائمة على التفضيلات. وبالرغم من فعالية معايير التقييم الآلية، إلا أنها غالباً ما تخفق في تقييم النتائج في العالم الحقيقي، كما يمكن التلاعب بها بسهولة، سواء عن قصد أو عن غير قصد. أما المعايير القائمة على التفضيلات، فتواجه صعوبات في إعادة إنتاج نفس النتائج، وهو أمر ضروري في أي عملية علمية، كما أنها تتأثر بالتحيزات، سواء كانت ناتجة عن تفضيلات البشر أو تفضيلات الذكاء الاصطناعي.
يضيف التقييم في السياق العربي طبقة إضافية من التعقيد بسبب الفروق اللغوية والثقافية الفريدة التي تتميز بها اللغة العربية. وقد واجهنا هذه التحديات عند تطوير "جيس" (JAIS)، وهو نموذج لغة عربية كبير، حيث أدركنا الاختلافات الجذرية بين اللغة العربية واللغة الإنجليزية عند تدريب نماذج الذكاء الاصطناعي. وتُفاقم هذه التحديات من قيود مقاييس التقييم التقليدية، والتي غالباً ما تكون مصممة لحالات استخدام محددة تركز على اللغة الإنجليزية وتتجاهل الخصائص الأساسية للغات الأخرى.
يُعالج "آراجين ليدر بورد" هذه التحديات من خلال توفير إطار عمل فعال يتجنب تسريب المعايير، ويضمن إمكانية إعادة إنتاج النتائج، ويدمج مجموعة شاملة من مقاييس التقييم. فهو لا يُقيّم المعرفة الأساسية فحسب، بل يقيس أيضاً الفائدة العملية، مما يساهم في دفع عجلة الابتكار في مجال تطوير نماذج اللغة العربية الكبيرة.
كيف تعمل الطبيعة الديناميكية لـ "آراجين" على منع تسرب المعايير وضمان إمكانية إعادة إنتاج النتائج؟
يُعدّ التوفيق بين الشفافية والانفتاح من جهة، وحماية مساهماتك من جهة أخرى، في مجال تقييم الذكاء الاصطناعي، تحدياً حقيقياً. فغالباً ما تتسرب المعايير المستخدمة في التقييم إلى مجموعات البيانات المستخدمة في تدريب هذه النماذج، سواءً عن قصد أو نتيجة لجمع البيانات. وهذا يؤدي بدوره إلى نتائج تقييم متحيزة أو قديمة، حيث تصبح النماذج مُدرّبة مسبقاً على تلك المعايير.
وللتصدي لهذه المشكلة، اعتمدنا إطار عمل ديناميكي يتطور بالتوازي مع تطور قدرات نماذج اللغة. وسنقوم بصورة دورية بتحديث مجموعة المعايير، وإصدار مجموعات اختبار أقدم للتحقق منها وإعادة إنتاجها. ويضمن هذا النهج موثوقية الإطار مع تعزيز الشفافية.
علاوة على ذلك، تعمل الطبيعة الديناميكية لـ "آراجين" على تخفيف مشكلات مثل تشبع أداء النموذج الناجم عن محاولة التلاعب بالمعايير أو التأثير عليها. ومن خلال التكيف مع النظام البيئي المتطور لنماذج اللغة، لا يقوم "آراجين" بتقييم النماذج بفعالية فحسب، بل يحفز المطورين أيضاً على ابتكار حلول أكثر قوة وتطوراً مع مرور الوقت. ويضمن هذا التركيز المزدوج على ضمان العدالة وتحفيز الابتكار أن يظل "آراجين" محفزاً للتقدم في مجال معالجة اللغة الطبيعية باللغة العربية وأن تمهد الطريق لتطوير لوحات تصنيف أخرى تخدم مختلف اللغات والمهام.
ويتماشى هذا الجهد مع رؤيتنا في "إنسبشن" و"جي 42" والتي تركز على الذكاء الاصطناعي المسؤول. ونحن فخورون بمساهمتنا في هذا المشروع الهام الذي يعزز الشمولية ويحافظ على التنوع اللغوي.
هل هناك خطط لتوسيع نطاق نهج "آراجين" ليشمل اللغات الأخرى المهمشة في المستقبل؟
نحن ملتزمون بتسخير الذكاء الاصطناعي لخدمة جميع المجتمعات، دون استثناء، وذلك من خلال توفير حلول ذكية تُلبي احتياجات مختلف الشرائح حول العالم. ويتماشى هذا الالتزام مع خارطة طريق "شبكة الذكاء" الخاصة بمجموعة "جي 42" والتي تركز على الشمولية والتطوير المسؤول للذكاء الاصطناعي.
ورغم أن "آراجين" يركز في المقام الأول على اللغة العربية، إلا أن إطار عمله الأساسي متعدد الاستخدامات ويمكن تكييفه مع لغات أو مهام أخرى. ونحن نعتزم التعاون مع المطورين من مختلف أنحاء العالم، وتكييف الإطار مع احتياجاتهم اللغوية والثقافية. ومع ذلك، يتطلب تنفيذ مثل هذه الأطر موارد كبيرة، وهذا هو السبب في ندرتها على المستوى العالمي.
ولضمان استمرارية هذه المبادرة وتحقيق أهدافها الطموحة، فإننا نحرص على وجود التزام راسخ وطويل الأمد من المجتمعات التي نتعاون معها للحفاظ على منظومة لغتهم ودعمها. ويُعدّ هذا التعاون المشترك أساسياً لبناء أطر عمل متينة وقابلة للتطور بحيث تُلبي الاحتياجات المتغيرة لبيئاتها اللغوية والثقافية.
تتركز جهودنا على تمكين المجتمعات المهمشة من خلال توفير حلول ذكية تُلبي احتياجاتها اللغوية الفريدة بمسؤولية. واستناداً إلى نجاح "آراجين" و"جيس" و"ناندا" (Nanda) وهو نموذج لغة هندية كبير حصلنا عليه مؤخراً، فإننا نسعى إلى بناء نظام بيئي عالمي شامل للذكاء الاصطناعي يدعم مختلف اللغات والثقافات.
هل يمكنك مشاركة أمثلة لحالات الاستخدام المحتملة أو الصناعات التي ستستفيد أكثر "آراجين ليدر بورد"؟
تم تصميم "آراجين ليدر بورد" كإطار تقييم مرن لا يرتبط بقطاعات أو حالات استخدام محددة، فهو يُرشد المطورين لاختيار النماذج التي تناسب احتياجات تطبيقاتهم ومواردها. فعلى سبيل المثال، إذا أعطى المطور الأولوية للصدق على الإيجاز، يمكنه اختيار النموذج الأفضل أداءً في هذا البُعد، مما يقلل من توليد معلومات خاطئة ويعزز موثوقية النتائج.
بالإضافة إلى ذلك، يوفر "آراجين" عوامل تصفية متعددة مثل حجم النموذج ودقته، مما يساعد المطورين على اختيار النماذج التي تتوافق مع موارد التطبيق وأهداف النشر. كما تعمل رؤى المهام المحددة في لوحات التصنيف على تمكين المؤسسات من تحديد النماذج المحسنة لتطبيقاتها المستهدفة، مثل الذكاء الاصطناعي المخصص للأمان أو المحادثة.
ومن خلال توحيد جهود التقييم، يساهم "آراجين" في تخفيف عبء إجراء عمليات تقييم مكلفة على المنظمات، حيث يوفر منصة مركزية وموثوقة لتقييم نماذج اللغة العربية. ويعزز هذا التعاون بين الجهات المختلفة ويسرّع من وتيرة التقدم في بناء حلول ذكاء اصطناعي فعالة ومتوافقة ثقافياً للمجتمعات الناطقة باللغة العربية.