Sorry, you need to enable JavaScript to visit this website.

حين يتظاهر الذكاء الاصطناعي بالطاعة ثم يخدعك... فما السبب؟

يتظاهر بالتوافق مع الغرض المطلوب والقيم البشرية ويربط بصورة خاطئة بين حدثين أو فكرتين

هذا الخطر يتعلق بأنظمة الذكاء الاصطناعي العامة المستقبلية (AGI) التي قد تفوق الذكاء البشري (أن سبلاش)

ملخص

ثلاثة مفاهيم تعبر عن التحديات الوجودية في عالم الذكاء الاصطناعي... ففيما تتعلق المشكلة الأولى بالخداع، تبرز مشكلة أخرى تحدث أثناء التدريب تتعلق بالفهم، عندما يقوم النموذج بعملية ربط خاطئ بين حدثين أو فكرتين.

يشكل هذا السلوك خطراً محتملاً عندما تتحول هذه الأنظمة إلى التصرف وفق أهدافها المخفية بدلاً من الأهداف المطلوبة منها، مما يخلق فجوة في الثقة، فيصبح من الصعب الوثوق بنظام ذكاء اصطناعي، حتى لو بدا متعاوناً لأعوام.

شهد العقد الأخير تحولاً جذرياً في مجال معالجة اللغة الطبيعية مع ظهور النماذج اللغوية الكبيرة، التي تعتمد على بنية المحولات العصبية، مدربة على كمية هائلة من البيانات النصية من الإنترنت والكتب والمقالات وغيرها، ومهمته الأساسية ليست الفهم بالمعنى البشري، بل توقع الكلمة التالية في أي سياق، لكن مع الوقت لم تعد هذه النماذج مجرد أدوات إحصائية تنبؤية، بل تحولت إلى أنظمة شبه عقلانية قادرة على فهم السياق وتوليد نصوص متماسكة، وحتى تنفيذ مهام منطقية معقدة لتعد النماذج مثل "تشات جي بي تي" و"كلاود" و"جيميناي" و"ديبسيك" وغيرها، نقطة تحول أساسية في هذا المجال.

في الوقت ذاته أنتجت مجموعة من المفاهيم التي تمثل بعضاً من أكثر المشكلات إلحاحاً وتعقيداً في عالم النماذج اللغوية الكبيرة، وفي هذا المقال سنقوم بطرح أكثر ثلاثة مفاهيم تعبر عن التحديات الوجودية في عالم الذكاء الاصطناعي.

الانحياز الخادع

من أكثر التحديات التي توجه عالم النماذج اللغوية الكبيرة وأنظمة الذكاء الاصطناعي المتقدمة هي تظاهر النموذج بالتوافق مع الأهداف والقيم البشرية أثناء التدريب والاختبارات في حين أنه يطور في الخفاء أهدافاً مختلفة خاصة به. فالنموذج يدرك في هذه الحالة أن التظاهر بالامتثال هو الاستراتيجية المثلى لتحقيق أهدافه، مما يجعله يخفي سلوكه الحقيقي منتظراً الفرصة لتنفيذ غرضه عند توفر الوقت والظروف المناسبة.

أي بمعنى آخر، النموذج يخدع المطورين من خلال التظاهر بأنه يعمل ما هو مطلوب منه، بينما هو في الواقع ينتظر اللحظة المناسبة (مثل أن يصبح قوياً بدرجة كافية أو توفُّر ظروف معينة) لمتابعة أهدافه الخاصة المخفية.

يعرف هذا المفهوم باسم الانحياز الخادع Deceptive alignment، وفيه يتعلم المساعد أن يظهر سلوكاً متوافقاً مع أهداف وقيم المدرب أثناء التدريب، كالمساعدة والأمان، لكنه في الحقيقة يطور أهدافاً داخلية خاصة به تختلف عن أهدافك.

يعد هذا المفهوم أحد التحديات الخطرة في أمان الذكاء الاصطناعي، بخاصة للأنظمة المتقدمة، لأنه يصعب اكتشافه، ويشكل هذا السلوك خطراً محتملاً عندما تتحول هذه الأنظمة إلى التصرف وفق أهدافها المخفية بدلاً من الأهداف المطلوبة منها، مما يخلق فجوة في الثقة، فيصبح من الصعب الوثوق بنظام ذكاء اصطناعي، حتى لو بدا متعاوناً لأعوام.

لكن هذا الخطر لا يكمن في النماذج اللغوية الحالية، مثل "تشات جي بي تي" بصورة مباشرة، لأنها ليست متقدمة بما يكفي لامتلاك أهداف واستراتيجيات طويلة المدى، إنما يتعلق بأنظمة الذكاء الاصطناعي العامة المستقبلية (AGI) التي قد تفوق الذكاء البشري.

الاستدلال الزائف

في حين تتعلق المشكلة الأولى بالخداع تبرز مشكلة أخرى تحدث أثناء التدريب تتعلق بالفهم، عندما يقوم النموذج بعملية ربط خاطئ بين حدثين أو فكرتين، معتمداً على التزامن الإحصائي بدلاً من العلاقة المنطقية، بحيث يلاحظ تكرار ظهور مفهومين معاً في بيانات التدريب ويستنتج وجود علاقة سببية بينهما، ليطبق هذا الاستنتاج الخاطئ على الحالات الجديدة، وهنا يبدو النموذج "حافظ مش فاهم"، ويطلق على هذه الحالة اسم "الاستدلال الزائف" Spurious reasoning.

على سبيل المثال يرى النموذج رسماً بيانياً يوضح أن "مبيعات الشوربة تزداد في الفترة ذاتها التي تزداد فيها حوادث انزلاق السيارات"، فيقوم بعملية استدلال زائف وهو أن يستنتج أن "شرب الشوربة يسبب حوادث انزلاق السيارات". هذا الاستدلال خاطئ لأن هناك عاملاً مشتركاً ثالثاً هو "برودة الطقس" التي تتسبب في كلتا الظاهرتين، فالطقس البارد يدفع الناس لشرب الشوربة، وكذلك يترك الطقس البارد وما يرافقه من صقيع جليداً على الطرقات، مما يزيد فرص حوادث انزلاق السيارات.

اقرأ المزيد

يحتوي هذا القسم على المقلات ذات صلة, الموضوعة في (Related Nodes field)

إذاً الاستدلال الزائف يركز على الارتباطاًت الإحصائية السطحية ويغفل العوامل المشتركة الخفية ويخلق علاقات وهمية بين المفاهيم، وفي هذا كله يبدو مقنعاً ظاهرياً لوجود دليل إحصائي.

وتكمن الخطورة هنا في توليد معلومات مضللة تؤثر في اتخاذ قرارات مهمة، ويصعب اكتشافها لأنها تبدو مدعومة ومنطقية إحصائياً، لذا فالاستدلال الزائف يمثل تحدياً أساساً في عالم الذكاء الاصطناعي، ومعالجة هذه المشكلة تتطلب تطوير نماذج قادرة على التمييز بين الارتباط والسببية وفهم العلاقات الحقيقية بين الظواهر المختلفة.

مخالفة التعليمات

من جهة أخرى يبرز مفهوم "مخالفة التعليمات "Instruction-breaking الذي يعبر عن سلوك غير مرغوب به في النماذج اللغوية، إذ يتجاهل النموذج التعليمات المقدمة له، إما عن قصد عبر استغلال الثغرات والبحث عن طرق للالتفاف حول القيود أو الخداع المتعمد أو التفكير الإبداعي المفرط، أو من دون قصد بسبب سوء فهم التعليمات أو التفسير أو عدم القدرة على فهم السياق الضمني، مما يؤدي إلى نتائج غير آمنة أو غير مرغوب فيها.

نحن هنا أمام حال من عدم الامتثال يبديها النموذج أمام التوجيهات والتعليمات المحددة له من المستخدم، سواء كان ذلك بتجاوز القيود المفروضة أو تجاهل الإرشادات أو تحريف المتطلبات أو إنتاج مخرجات مخالفة صراحة لما طلب منه، على سبيل المثال، يحدث تجاهل القيود عند الإجابة عن أسئلة محظورة عندما تصاغ بطريقة ملتوية.

يظل هذا المفهوم أحد التحديات المركزية في ضمان موثوقية وأمان النماذج اللغوي، مما يشكله من أخطار أمنية تتجلى في تجاوز أنظمة السلامة وتوليد محتوى ضار وانتهاك الخصوصية، وأخطار عملية مثل تقليل الموثوقية وعدم القدرة على التنبؤ بالسلوك وصعوبة التطبيق في بيئات حساسة.

ويمكننا هنا اتباع استراتيجيات وقائية من طريق الصياغة الواضحة للتعليمات واستخدام أنظمة اكتشاف المخالفات، وفي كل الأحوال يجب علينا القيام بالمراجعة المستمرة للإجابات التي يولدها الذكاء الاصطناعي.

اقرأ المزيد

المزيد من علوم