ملخص
يعد تقطير المعرفة (KN) واحداً من أهم المفاهيم الموجودة في عالم الذكاء الاصطناعي اليوم، في ما يخص تعلم الآلة والتعلم العميق بصورة عامة، ويتكون نظام "تقطير المعرفة" من ثلاثة مكونات رئيسة هي المعرفة وخوارزمية التقطير وبنية المعلم والطالب.
اتهمت شركة" أوبن إيه آي" المالكة لتطبيق "تشات جي بي تي"، منافساتها من الشركات، بخاصة الصينية، بمحاولة نسخ نموذجها للذكاء الاصطناعي باستخدام عملية "تقطير المعرفة"، ذاهبة إلى أن النموذج لم يكن مصاغاً بجهود شخصية، إنما هو مجرد إعادة صياغة لنماذج مطورة في الولايات المتحدة. فما هذه التقنية وما مجالات استخدامها، وكيف بإمكانها حل مشكلة أساسية في إنتاج النماذج اللغوية؟
حل لتحد
مع ظهور التعلم العميق في العقد الماضي ونجاحه في مجالات متنوعة بما في ذلك التعرف على الكلام والصور ومعالجة اللغة الطبيعية، اكتسبت تقنيات "تقطير المعرفة" أهمية للتطبيقات العملية على أرض الواقع، إذ تعتمد تطبيقات "التعلم العميق" الحديثة على شبكات عصبية ضخمة ذات سعة كبيرة ومساحة ذاكرة وزمن استدلال بطيء، ويعد نشر مثل هذه النماذج في الإنتاج تحدياً هائلاً.
وإن التحدي المتمثل في نشر نماذج الشبكات العصبية العميقة الكبيرة وثيق الصلة خصوصاً بالأجهزة الطرفية ذات الذاكرة المحدودة والقدرة الحسابية، ونظراً إلى المتطلبات التي تحتاج إليها هذه النماذج، غالباً ما تفشل في تلبية معايير الأداء والزمن الكامن والإنتاجية في وقت الاستدلال. وهنا يأتي "تقطير المعرفة" ليساعد في التغلب على هذه التحديات من خلال التقاط المعرفة الكامنة في نموذج تعلم آلي معقد أو مجموعة من النماذج وتقطيرها في نموذج واحد أصغر حجماً من دون أية خسارة كبيرة في الأداء.
استخلاص المعرفة
وتقطير المعرفة (KN) واحد من أهم المفاهيم الموجودة في عالم الذكاء الاصطناعي اليوم، في ما يخص تعلم الآلة والتعلم العميق بصورة عامة، ويتكون نظام "تقطير المعرفة" من ثلاثة مكونات رئيسة هي المعرفة وخوارزمية التقطير وبنية المعلم والطالب، وهو تقنية تعتمد استخراج خلاصة المعرفة الموجودة لدى نموذج تعلم آلي ضخم ومعقد لديه قدرة معرفية كبيرة، مثل الشبكات العصبية العميقة (DNN) أو مجموعات التعلم الجماعي، نسميه "معلم" (teacher)، ونقلها إلى نماذج أصغر وأخف وأكثر كفاءة وأسرع تسمى "التلميذ" (Student)، باستخدام كل الإمكانات الكبيرة المتوفرة، وهذا يشبه في عالم البشر نقل خبرة يمتلكها رجل حكيم إلى طالب علم مستجد.
وبذلك نحصل على نموذج أقل كلفة من الناحية الحسابية وأسرع استدلالاً وأفضل دقة وكفاءة، يمكن نشرها على أجهزة أقل قوة كالأجهزة المحمولة.
ضغط النموذج
ولا ينبغي الخلط بين تقطير النموذج وضغط النموذج، فالضغط مصطلح، طبق للمرة الأولى في أوكرانيا في عام 1965، يصف طرق تقليل حجم النموذج الكبير نفسه، من دون تدريب نموذج جديد. ويحافظ ضغط النموذج بصورة عامة على البنية وعدد المعلمات الاسمية للنموذج مع تقليل البتات لكل معلمة.
لكن إذا تم تدريب كلا النموذجين على البيانات نفسها، قد لا يكون لدى النموذج الأصغر سعة كافية لتعلم تمثيل المعرفة والمحاكمة بإيجاز مقارنة بالنموذج الكبير، لذا في تقطير المعرفة، يتعلم نموذج "الطالب" الصغير تقليد نموذج "المعلم" الكبير والاستفادة من معرفة المعلم للحصول على دقة مماثلة أو أعلى.
اقرأ المزيد
يحتوي هذا القسم على المقلات ذات صلة, الموضوعة في (Related Nodes field)
الرؤية الحاسوبية
استخدم التقطير بنجاح في عدد من تطبيقات التعلم الآلي مثل اكتشاف الأشياء والنماذج الصوتية ومعالجة اللغة الطبيعية (NLP)، ولتقطير المعرفة في مجال الرؤية الحاسوبية تطبيقات كثيرة، إذ تعتمد نماذج الرؤية الحاسوبية الحديثة بشكل متزايد على الشبكات العصبية العميقة التي يمكن أن تستفيد من ضغط النموذج، وهنا استخدام تقطير المعرفة بنجاح في حالات مثل، تصنيف الصور، والتعرف على الوجوه، وتجزئة الصور، والتعرف على الحركة، واكتشاف الكائنات، واكتشاف المشاة، واكتشاف معالم الوجه، وترجمة الفيديو، واسترجاع الصور، وتحويل النص إلى صورة، وتصنيف الفيديو.
معالجة اللغة الطبيعية
من جهة أخرى تأتي أهمية تطبيق تقطير المعرفة في تطبيقات معالجة اللغة الطبيعية (NLP) نظراً إلى انتشار الشبكات العصبية العميقة ذات السعة الكبيرة مثل نماذج اللغة أو نماذج الترجمة، وباستخدام تقطير المعرفة، يمكن الحصول على نماذج معالجة اللغة الطبيعية فعالة يمكن نشرها مع ذاكرة ومتطلبات حسابية أقل، إذ تحتوي نماذج اللغة الحديثة على مليارات المعلمات، على سبيل المثال، يحتوي GPT-3 على 175 مليار معلمة، لذا فإن تقطير المعرفة شائع للغاية في معالجة اللغة الطبيعية للحصول على نماذج سريعة وخفيفة الوزن وأسهل وأرخص حسابياً لأغراض التدريب، وبخلاف نمذجة اللغة، ويستخدم تقطير المعرفة لحالات مثل الترجمة الآلية العصبية وتوليد النص والإجابة على الأسئلة واسترجاع المستندات والتعرف على النص.
التعرف على الكلام
كما تعتمد نماذج التعرف على الكلام الحديثة أيضاً على الشبكات العصبية العميقة، إذ يتم تدريب نماذج التعرف على الكلام الحديثة من البداية إلى النهاية، وللتعرف على الكلام في الوقت الفعلي على الجهاز، يصبح من الأهمية بمكان الحصول على نماذج أصغر وأسرع للأداء الفعال. وتتلخص حالات استخدام تقطير المعرفة في التعرف على الكلام والكشف عن اللغة المنطوقة والتعرف على الصوت وتصنيفه والتعرف على المتكلم وتركيب الكلام وتحسين الكلام واكتشاف اللهجة.