Sorry, you need to enable JavaScript to visit this website.

تلك أخطار الذكاء الاصطناعي على اللغات المهددة بالانقراض

إذا كانت نصوص "ويكيبيديا" سيئة فإن كل نموذج يتعلم منها سيولد بدوره نصاً سيئاً

الأنظمة الإحصائية العملاقة لا تفهم القواعد النحوية بطريقتنا البشرية (مواقع التواصل)

ملخص

اكتشف لغوي تولى مهمة الإشراف على موسوعة "ويكيبيديا" باللغة الغرينلاندية أن آلاف المقالات التي كتبها متطوعون لا يتحدثون اللغة، لم تكن سوى هراء رقمي، جمل لا معنى لها وأرقام سكانية عبثية ومقاطع عشوائية من الحروف لا تمت للغة بصلة، الأمر الذي اضطره إلى حذف الموسوعة بالكامل تقريباً ليبدأ من الصفر.

لطالما ارتبطت هيمنة اللغات بقدرتها على السيطرة على أدوات الإنتاج الثقافي. عندما دارت أولى المطابع في القرن الـ15، لم يكن ثمة قرار سياسي يحكم أي اللغات ستعيش وأيها ستتراجع، كان المنطق أكثر برودة من ذلك: اللغات التي طبعت بها الكتب أولاً، كالألمانية والإنجليزية والفرنسية، بقيت، في حين ضلت لغات أخرى طريقها إلى حروف الطباعة، فتراجعت.

ومع ظهور الإنترنت في أواخر القرن الـ20، تكرر المشهد ذاته بهيمنة مطلقة للغة الإنجليزية، لتشكل نحو 80 في المئة من محتوى الشبكة العنكبوتية عام 1996، لكن ثمة قفزة نوعية حدثت في التاريخ الثقافي بشرت بأفول عصر الهيمنة ودخول حقبة جديدة من ديمقراطية المعرفة بميلاد موسوعة "ويكيبيديا" عام 2001، وبالفعل أضحت الموسوعة بطريقة أو بأخرى أول وأكبر مخزن نصوص رقمية للغات المهددة بالانقراض، ومع دخول عصر النماذج اللغوية تعزز الانطباع السابق.

لكن في الوقت الذي يُحتفى فيه بالذكاء الاصطناعي باعتباره أداة لإضفاء الطابع الديمقراطي على المعرفة، ظهرت مفارقة لم تكن في الحسبان، إذ تحولت هذه التكنولوجيا، بالتحالف غير المقصود مع أكبر موسوعة في العالم، إلى محرك لتسريع وتيرة اندثار اللغات الصغيرة.

رؤية قاصرة

عندما بدأت النماذج بالتعلم من بيانات "ويكيبيديا"، دخلت آلاف اللغات في حلقة مفرغة من التغذية على المحتوى الرديء وإنتاج المزيد منه، وقفزت بخطى متسارعة نحو ما يسميه الخبراء "الانهيار النموذجي اللغوي" (Model Collapse).

في ظل طفرة الذكاء الاصطناعي تحولت "ويكيبيديا"، الموسوعة الحرة التي يسهم الجميع في كتابتها، إلى الحقيقة المطلقة والوحيدة التي تتغذى عليها النماذج اللغوية، في ما يتعلق باللغات الصغيرة، ففي حين تمتلك اللغات الكبرى ملايين المقالات المدققة، لا تحظى اللغات المهددة إلا ببضع مئات من المقالات، غالباً ما تكون مكتوبة بركاكة أو منسوخة، هذا الاعتماد الأعمى على مصدر واحد جعل الأنظمة ترى بقاعاً من العالم بعين ضيقة.

 

تاريخياً، كانت المكتبات الكبرى، كمكتبة الإسكندرية أو بيت الحكمة في بغداد، تمثل الحصون التي تحمي الذاكرة الجمعية للبشرية من التلاشي والاندثار، أما اليوم، فقد تحولت الخوادم الرقمية إلى حصون جديدة، وتصدرت "ويكيبيديا" المشهد كأكبر دائرة معارف في التاريخ، ولأول مرة لا يكمن الخطر في النسيان البشري أو في التهديد المادي المباشر، بل في الاندثار الناعم للغات التي لا تملك ترسانة رقمية تحميها.

آلية التعلم

ولفهم عمق المشكلة، علينا أولاً إدراك كيفية تعلم النماذج للغات، هذه الأنظمة الإحصائية العملاقة لا تفهم القواعد النحوية بطريقتنا البشرية، بل تلتهم كميات هائلة من النصوص الرقمية في طريقها للتعرف على الأنماط والعلاقات بين الكلمات، وأول ما تقوم به حين تبدأ بتعلم لغة ما، هو البحث عن بيانات تدريب تستند عليها.

في ما يتعلق باللغات واسعة الانتشار مثل الإنجليزية، لن تطرأ أي مشكلة تذكر بوجود مصادر متنوعة ومراجع لا حصر لها على الإنترنت من كتب وصحف ومنشورات تواصل اجتماعي ومدونات ومواقع إخبارية، لكن بالنسبة للغة مثل "الغرينلاندية"، التي يتحدثها نحو 57 ألف إنسان في قرى متناثرة على جليد القطب الشمالي، فالأمر مختلف تماماً، إذ غالباً ما تكون ويكيبيديا هي المصدر الأكبر والوحيد للمحتوى الرقمي المتاح على الإنترنت، في ما يشبه الاحتكار الرقمي، ولأنها النافذة الوحيدة للغة على الفضاء الرقمي، فإن تشويه نصوصها لا يضر بها فقط، بل بالوجود الرقمي للغة بأكمله.

اقرأ المزيد

يحتوي هذا القسم على المقلات ذات صلة, الموضوعة في (Related Nodes field)

والواقع أنه غالباً ما تكون نصوص اللغات المهددة مليئة بالأخطاء اللغوية والترجمات الآلية والمفردات المشوهة، وهذا يعني شيئاً واحداً: إذا كانت نصوص "ويكيبيديا" سيئة، فإن كل نموذج ذكاء اصطناعي يتعلم منها سيولد بدوره نصاً سيئاً.

وفي هذا السياق، اكتشف لغوي تولى مهمة الإشراف على موسوعة "ويكيبيديا" باللغة الغرينلاندية أن آلاف المقالات التي كتبها متطوعون لا يتحدثون اللغة، لم تكن سوى هراء رقمي، جمل لا معنى لها وأرقام سكانية عبثية ومقاطع عشوائية من الحروف لا تمت للغة بصلة، الأمر الذي اضطره إلى حذف الموسوعة بالكامل تقريباً ليبدأ من الصفر.

الترجمة المشوهة

تقوم "ويكيبيديا" على فكرة قوامها التطوع والإسهام، إذ بإمكان أي شخص يريد أن يسهم في إنتاج محتوى بلغة ما أن يتناول مقالة باللغة الإنجليزية ويمررها عبر مترجم آلي غالباً ما يكون "غوغل ترانسليت" لنقل النص إلى لغة أخرى، ثم يلصق الناتج ليولد في ثوانٍ صفحة تبدو وكأنها بلغة أصيلة. لكن ما يجهله أو يتجاهله هؤلاء المساهمون، أن أدوات كـ"غوغل ترانسليت" سيئة في التعامل مع اللغات قليلة الموارد، فاللغات المهددة بالانقراض غالباً ما تمتلك تراكيب نحوية معقدة تختلف جذرياً عن اللغات التي صممت من أجلها أنظمة الترجمة الآلية.

والأدق أن النصوص المولدة تلك ليست أكثر من نصوص مشوهة محملة بأخطاء نحوية وكلمات لا معنى لها، وعلى هذا المنوال تنشأ آلاف المقالات في الموسوعة، لتتغذى عليها نماذج الذكاء الاصطناعي وتتعلم منها كل شيء عن اللغة من الصفر، ثم تنتج بدورها ترجمات أسوأ، تستخدم ثانية لكتابة صفحات "ويكيبيديا" جديدة، والمقالات الناتجة، والتي تحتكر المشهد الرقمي للغة بأكملها، تصبح هي نفسها الوقود الذي يدرب الجيل التالي من نماذج الذكاء الاصطناعي.

 

وهذا هو التجلي الأكثر وضوحاً للقاعدة الأشهر في عالم البيانات "البيانات الفاسدة تنتج معرفة فاسدة".

لكن المشكلة لا تقف عند هذا الحد، فنماذج اللغة لا تنسخ الأخطاء فحسب، بل تضخم العناصر اللغوية الأكثر شيوعاً إحصائياً في بيانات التدريب، وتقوم ضمنياً بقص الأجزاء النادرة والغنية من اللغة، مثل التعابير الاصطلاحية الفريدة التي تحمل حكمة الأجداد والتراكيب النحوية المعقدة التي تسمح بالتعبير عن أفكار دقيقة والمفردات المتخصصة المرتبطة بالبيئة المحلية، وتستبدل تدريجاً بلغة فقيرة ومسطحة. وبدلاً من أن يعكس الذكاء الاصطناعي ثراء لغة ما وثقافتها، ينتج نسخة هزيلة ومشوهة يقدمها للعالم.

بناء مخزن رقمي

وفي حين يبدو الأمر من السوء بما يكفي كي يصيب المرء بخيبة الأمل، ثمة استراتيجيات فعالة ومجربة يمكنها كسر هذه الحلقة، أبرزها بناء مكتبات رقمية خاصة بالنصوص والصوتيات، ينتجها متحدثون أصليون، بعيداً من أدوات النصوص المولدة آلياً، مع التركيز على الجودة لا الكمية.

وحدث ذلك أيضاً مع اللغة "الكتالونية" في إسبانيا، التي بقيت تواجه خطر التهميش، محاصرة بين الإسبانية من جهة والفرنسية من جهة أخرى، وكانت حتى وقت قريب مصنفة كلغة قليلة الموارد، أنقذتها حملة شعبية لجمع التبرعات الصوتية من المتحدثين الأصليين عبر محطات التلفزيون المحلية، إذ أطلقت منظمة غير ربحية حملة شعبية تدعو كل متحدث بالكتالونية للتبرع بصوته عبر قراءة جمل قصيرة على منصة  Common Voice""، تبرع آلاف المواطنين بساعات من التحدث والقراءة باللغة التي يتحدث بها نحو 10 ملايين شخص في إسبانيا وجنوب فرنسا ومناطق مجاورة، وبنوا مخزناً رقمياً خاصاً بلغتهم.

المجتمع اللغوي الكتالوني، ممثلاً بمنظمات أهلية ومراكز بحثية ودعم حكومي، أخذ زمام المبادرة وقاد العملية بنفسه، وبدلاً من استخدام الذكاء الاصطناعي في إنتاج محتوى رديء بسرعة، استخدم لتسريع وتحسين عمل المتطوعين البشر.

وفي فترة وجيزة، سمح هذا الكم الهائل من البيانات الصوتية البشرية الحقيقية بتدريب أنظمة التعرف على الكلام والترجمة الآلية بجودة عالية، واليوم، أجبرت كتالونيا كبرى شركات التقنية، مثل آبل وغوغل، على دمج لغتها بكفاءة عالية في أنظمتها الذكية.

لقد أثبتت هذه القصة أن الآلة لا تحتل إلا من يرضخ ويرتضي الصمت.

وفي النهاية، قصة الذكاء الاصطناعي وويكيبيديا واندثار اللغات هي أمثولة حق المجتمعات في امتلاك تمثيلها الرقمي، والأكيد أن الأنظمة لم تصمم لتقتل اللغات، لكنها ستفعل ذلك حين تترك وحيدة تتعلم وتكرر أخطاءها وتعيد إنتاج الفوضى باعتبارها معرفة، فالتكنولوجيا، لم تكن يوماً عدواً، ولن تكون منقذاً أيضاً. أحد الاحتمالين تحدده كيفية استخدامها.

اقرأ المزيد

المزيد من علوم