Sorry, you need to enable JavaScript to visit this website.

اللغة العربية ولهجاتها عصية على الذكاء الاصطناعي

على رغم أهميتها العالمية فإنها لا تزال غير ممثلة تمثيلاً كافياً في مجموعات بيانات التدريب وعمليات التقييم

تتميز كتابة الحروف العربية بخصائص، أبرزها اختلاف الحروف العربية في الاشتقاق والنحو والصرف، إضافة إلى مسار كتابتها من اليمين إلى اليسار (بيكسلز)

ملخص

تتميز كتابة الحروف العربية بخصائص، أبرزها اختلاف الحروف العربية في الاشتقاق والنحو والصرف، إضافة إلى مسار كتابتها من اليمين إلى اليسار. ويعتمد شكل الحرف العربي على ارتباطه بما حوله، فبعض الحروف تتشابه، ولا يوجد بينها اختلاف إلا في بعض المواضع، لذا يعد التعرف الضوئي على الحروف العربية المكتوبة من أكثر مجالات الذكاء الاصطناعي رواجاً في تصميم خوارزميات اللغة العربية.

في عالم يعتمد بصورة متزايدة على الذكاء الاصطناعي في كل جوانب الحياة، يعد تدريب نماذج الذكاء الاصطناعي بلغات محددة أمراً أساساً ليس فقط للوصول إلى جمهور أكبر وتحسين الأعمال والاتصالات، ولكن أيضاً للوصول إلى فئة من الناس لا تتحدث اللغة الإنجليزية دائماً. لذا يعد تمكين الآلة من التعرف على خصائص اللغات بصورة نموذجية من أهم الوسائل المستخدمة في المعالجات التحليلية وتحويل الرموز إلى تعبيرات مفهومة، وذلك على رغم العقبات التي تواجه تطوير أنظمة الحاسوب.

ويعتقد الباحثون في مجال الذكاء الاصطناعي التوليدي أنه من الضروري تطوير نماذج لغوية كبيرة للغات أخرى غير الإنجليزية لضمان إمكانية وصول الجميع إلى الابتكار، وعن هذا يقول المتخصص في التحول الرقمي وخبير الذكاء الاصطناعي جيف شوباك، ومقره سان فرانسيسكو، "إن جعل الذكاء الاصطناعي متاحاً لأكبر عدد ممكن من المستخدمين في جميع أنحاء العالم من شأنه أن يعمل على تسوية قواعد اللعبة لأداة ناشئة تتيح للجميع الوصول إليها من وجهة نظر حاجز اللغة، إلى واحدة من أكثر الأدوات ثورية التي اخترعها البشر". ويضيف قائلاً "إن جعلها متاحة في قواعد اللغة المحلية واللهجات المحلية واللغات المحلية يجعل المنافسة متساوية".

 

تقنيات لغوية

تتميز كتابة الحروف العربية بخصائص، أبرزها اختلاف الحروف العربية في الاشتقاق والنحو والصرف، إضافة إلى مسار كتابتها من اليمين إلى اليسار. ويعتمد شكل الحرف العربي على ارتباطه بما حوله، فبعض الحروف تتشابه، ولا يوجد بينها اختلاف إلا في بعض المواضع، لذا يعد التعرف الضوئي على الحروف العربية المكتوبة من أكثر مجالات الذكاء الاصطناعي رواجاً في تصميم خوارزميات اللغة العربية.

وتتطلب آلية معالجة اللغة الطبيعية قاعدة بيانات لمعرفات اللغة القياسية، والتي تشمل قاعدة بيانات للحروف والضمائر ورموزها، وكذلك إنشاء معرفات لأجزاء الكلام من الأسماء والأفعال ومشتقاتها، إضافة إلى إنشاء معرفات خاصة للجمل الاسمية والفعلية ومشتقاتها، وأدوات للظروف والصفات والروابط بهدف تحليل القواعد النحوية، وهناك أربع خطوات لمعالجة اللغة، فهي أولاً تحتاج إلى بحث عن جذر الكلمة، وبخاصة الأفعال المكونة من ثلاثة أحرف، وثانياً إلى إرجاع الكلمة إلى حالتها الأصلية بعد حذف البادئات واللواحق، بينما ثالثاً فهو إرجاع الفعل إلى صيغة الماضي أو الاسم المفرد إلى صيغته الأصلية، أما رابعاً فيكون بتحديد اللاحقة في بداية الكلمة أو نهايتها واستخدامها في التحليل.

وعلى رغم الصعوبات التقنية التي تواجه الذكاء الاصطناعي في خصائص الحروف العربية، فقد استخدم الباحث شوقي بوفنار الشبكات العصبية التلافيفية العميقة للتعرف على صور الحروف العربية المكتوبة، وأظهرت نتائج البحث دقة بلغت 32.97 في المئة، وقدم البحث مجموعات بيانات تحوي أنواعاً مختلفة من النصوص المكتوبة من خلال تطبيق شبكات الذاكرة قصيرة المدى، وطويلة المدى، ومتعددة الاتجاهات.

 

مجمع الملك سلمان العالمي

وخلال أعمال المؤتمر السنوي الدولي الرابع لمجمع الملك سلمان العالمي للغة العربية، حول "الصناعة المعجمية العالمية: التجارب، والجهود، والآفاق" التي نظمت مطلع الشهر الجاري، كشف المجمع "أن المرحلة الأولى من مشروع "مدونة أصوات" ستوثق 40 لهجة محلية من مختلف مناطق السعودية، مع إمكانية دمج البيانات في تطبيقات الذكاء الاصطناعي".

وأوضح المجمع أن "المدونة لا تزال تخضع للعمل على أدواتها، كما أنها باقية في إطار "التطوير والاختبار"، وبحسب المجمع ستحافظ المدونة على اللهجات السعودية، إذ يمتد أثر المشروع إلى إمكانية دمج البيانات في تطبيقات الذكاء الاصطناعي مثل التعرف على الصوت والترجمة الآنية، مما يسهل التواصل ويعزز فهم اللهجات المستعملة في الحياة اليومية.

فضلاً عن تزويد الباحثين بقاعدة بيانات صوتية رصينة لدراسة تطور اللهجات وأثر العوامل الاجتماعية والاقتصادية عليها. وتسعى المدونة إلى رفع الوعي الشعبي بالتنوع اللهجي وتعزيز ارتباط الأجيال الجديدة بلهجاتها المحلية إلى جانب العربية الفصحى.

ووفقاً للمجمع، تحافظ المدونة على التنوع اللهجي السعودي وتمكين الباحثين من دراسته عبر حزمة أدوات تحليلية، أبرزها الكشاف الصوتي وخريطة أصوات والتصاحب اللفظي قائمة الشيوع، إضافة إلى أداة لإثراء المدونة والتحقق من اللهجات، والمتاحة للاستعمال العام.

وقال الأمين العام لمجمع الملك سلمان العالمي للغة العربية الدكتور عبداالله الوشمي، إن "اللغة التي تراهن على التقنية والذكاء الاصطناعي هي اللغة التي ستقود الأجيال القادمة"، مشيراً إلى أن المجمع "أطلق مدونة لغوية ضخمة، توثق اللهجات العربية الفصيحة في المملكة من 50 نقطة ميدانية وبأكثر من 40 لهجة، تحوي 5 ملايين كلمة، إضافة إلى مجموعة من المعاجم الثنائية بين العربية وعدد من اللغات العالمية، وبرنامج ترجمة لأكثر من 5 آلاف كلمة شائعة إلى 22 لغة".

وكشف الوشمي عن إنجاز أكثر من 380 إصداراً علمياً و1500 بحث محكم، ضمن مسارات المجمع البحثية والعلمية، مشيراً إلى أن هذه الجهود "تأتي ضمن رؤية المملكة 2030 التي تجعل من الثقافة واللغة ركيزة أساس في التنمية المستدامة".

عوائق

يتحدث اللغة العربية أكثر من 422 مليون شخص داخل 22 دولة، مما يجعلها خامس أكثر اللغات تحدثاً في العالم، ومع ذلك لا تزال أنظمة الذكاء الاصطناعي اليوم تعجز عن فهم وخدمة المستخدمين الناطقين باللغة العربية.

وعلى رغم الأهمية العالمية للغة العربية، فإنها لا تزال غير ممثلة تمثيلاً كافياً في مجموعات بيانات التدريب وعمليات التقييم، فهذا التفاوت بين حجم السكان والشمول التكنولوجي يحدث تفاوتات رقمية خطرة، لذا وبحسب باحثين فإن سد فجوة الذكاء الاصطناعي في اللغة العربية أمر ضروري لبناء أنظمة ذكية تعكس التنوع الكامل للغة والخبرة البشرية.

ومن أهم العوائق أمام تقدم الذكاء الاصطناعي العربي هو نقص البيانات الواضحة والمتنوعة والتمثيلية، كما ورد في مراجعة لمجموعات البيانات العربية لعام 2025، إذ يتكون جزء كبير من البيانات العربية المتاحة اليوم من محتوى مترجم إلى الإنجليزية، وغالباً ما يفتقد الفروق الثقافية الدقيقة، ولا يعكس بدقة استخدام اللغة في العالم الحقيقي.

ومن التحديات كذلك وجود ثلاث لهجات رئيسة للغة العربية، وهي القرآنية أو الفصحى، والفصحى المعاصرة والعامية التي تضم 20 لهجة أو أكثر. وبينما لا يزال العدد الفعلي للهجات محل خلاف إلا أن بعضها متشابه، بينما يصعب فهم بعضها الآخر، حتى بالنسبة إلى متحدثي العربية الفصحى المعاصرة. وتشمل المجموعات الأكثر شيوعاً اللهجات الشمال أفريقية (المغاربية)، والشامية (سوريا ولبنان)، والمصرية، والعربية الخليجية.

إضافة إلى ذلك قد تختلف تهجئة أو صياغة كلمة في اللهجة المصرية أو الخليجية، فعلى سبيل المثال فإن كلمة now في الإنجليزية هي "دلوقتي" في اللهجة المصرية، و"الحين" في اللهجة الخليجية، و"هسا" في اللهجة العراقية، و"هون" في اللهجة الشامية، لذا فهذا التناقض يجعل من الصعب على أنظمة معالجة اللغة الطبيعية (NLP) تعلم الأنماط ذات المعنى أو التعميم بصورة فعالة عبر اللهجات.

اقرأ المزيد

يحتوي هذا القسم على المقلات ذات صلة, الموضوعة في (Related Nodes field)

إخفاقات أم محاولات نجاح؟

وغالباً ما تخفق أدوات الذكاء الاصطناعي الشائعة، مثل "تشات جي بي تي" (ChatGPT) و"غوغل ترانسلايت" (Google Translate) والمساعدات الصوتية في التعامل مع اللغة العربية. وأظهرت الدراسات أن هذه الأنظمة تخطئ في ترجمة النصوص العربية، وبخاصة عند التعامل مع اللهجات أو العبارات المرتبطة بسياقات محددة. على سبيل المثال وجدت دراسة أجريت عام 2025 أن ChatGPT وGoogle Translate أنتجا أخطاء كبيرة عند ترجمة النصوص العلمية العربية، إذ غالباً ما تفتقد كلتا الأداتين الفوارق الثقافية الدقيقة أو تفسران المصطلحات الدينية والاجتماعية بصورة خاطئة.
إذ قد يُساء فهم العبارات غير الرسمية في العربية الشامية أو تترجم بصورة خاطئة عند تشغيلها عبر منصات مدربة بصورة أساس على العربية الفصحى الحديثة، وسلط الضوء على هذه المشكلة في معيار ترجمات لعام 2023، الذي أظهر أن أدوات مثل ChatGPT وBard غالباً ما تسيء تفسير العربية العامية، مما يؤدي إلى إجابات غير دقيقة.

ويعتقد مستشار الذكاء الاصطناعي وصانع الأفلام المقيم في سيدني روبرت تشيسمان، الذي سافر إلى المنطقة العربية مرات عدة، أن "التعلم الآلي والترجمة يمكن أن يبدآ بفهم الطبيعة المتعددة الأوجه للغة العربية". ويتابع "إن إحدى طرق استيعاب تعقيد اللغة العربية تتمثل في توثيق جميع الأفلام والبرامج التلفزيونية العربية مع فهم اللغة العربية كلغة ذات صرف ولهجات مختلفة، ومن الطرق استخدام ’غوغل جيميناي‘، وهو نموذج ذكاء اصطناعي جديد لا يفهم النصوص فحسب، مثل برامج ماجستير القانون الأخرى، بل يفهم أيضاً مقاطع الفيديو والصور". وضمن هذا السياق أوضح تشيسمان ملاحظته بمثال عن عرض "غوغل" عينة من فيلم "شيرلوك جونيور" للمخرج باستر كيتون، فأوضح كيف قام "جيميناي" بتحليل الفيلم الذي تبلغ مدته 44 دقيقة في ثوانٍ، وفهم الرؤية والفروق الدقيقة وبعض الفكاهة.

وعلق بعدها "تخيل لو أن ’جيميناي‘ شاهد أفلاماً مصرية، أو تلفزيوناً سعودياً، أو كتباً في المغرب، لكان قادراً على بناء معرفة راسخة بطبيعة اللغة العربية والثقافة العربية المتشعبة، وفهم ليس فقط الفوارق اللغوية الدقيقة، بل وأهمية الفوارق الثقافية أيضاً". ويضيف "ربما تكون هذه فرصة لفهم أن اللغة العربية ليست لغة عصرية حديثة تماماً".

اقرأ المزيد

المزيد من علوم