مقارنة بين نماذج اللغة الكبيرة: GPT3 مقابل Falm

صاحب المنشور: أنيسة بوزرارة

ملخص النقاش:
تُعتبر نماذج اللغة الكبيرة مثل GPT-3 وFalm ثورة حقيقية في مجال التعلم الآلي والنظم الذكية. هذه النماذج قادرة على توليد نصوص طويلة ومفصلة تتماشى مع السياق الذي تم تدريبها عليه، مما يجعل منها أدوات قيمة في مجالات متعددة بدءًا من chatbot حتى الترجمة الآلية. سنقارن هنا اثنين من أشهر الأمثلة لهذه النماذج، GPT-3 من OpenAI وFalm من Google.

البناء والتنظيم:

* GPT-3: يتميز هذا النموذج بحجم كبير جدًا - يتضمن ثلاثين مليار معلمة، وهو أكبر بكثير من سابقه، GBT-2. تم تطويره باستخدام تقنية "التدريب التبادلي" self-supervised learning حيث يتم تعليم النموذج على مجموعة واسعة من البيانات بدون أي تصنيف محدد مسبقا. وهذا يعني أنه يمكن للنظام تعلم الأنماط والقواعد العامة للغة الطبيعية ومن ثم تطبيق ذلك على مهام مختلفة. ولكن، قد يعاني أيضًا بسبب حجم بيانات التدريب الضخم والذي يستلزم طاقة كمبيوتر كبيرة وأوقات حسابية مطولة لتدريبه وصيانته.

* Falm: طور جوجل نموذجه الخاص تحت اسم Falam تحت مظلة بحثهم حول فهم اللغة自然语言理解技术(NLU). عادةً، لم يكشفوا عن تفاصيل حول بنيته الداخلية أو عدد المعلمات فيه؛ لكن يُعتقد أنها مشابهة لنموذج BERT الشهير لديهم، والتي تعتمد أيضاً على المفاهيم المتعلقة بتعليم الند بالند mutual information maximization أثناء عملية التدرب. ومع ذلك، فإن التركيز الرئيسي لفلام كان أكثر نحو تحسين دقة الاستجابات المرتبطة بموضوع معين خاص بالمستخدم وبالتالي فهو ليس قادر تماما كما هو حال GPT-3 فيما يتعلق باكتسابه العام للمفاهيم اللغوية المختلفة.

الأداء والميزات الفريدة:

* GPT-3: يتمتع بأداء ملفت للنظر خاصة عند إجراء مهمات تحتاج إلى قدر كبير من المعلومات والمعرفة الواسعة كترجمة اللغة والإجابة عن الأسئلة المعقدة وغيرها الكثير... إلا انه يفشل غالباً عندما تواجه مشاكل غير مسبوقة بالنسبة له ولم تكن جزءاً أساسياً ضمن مجموعاته التدريبية الأصلية وذلك نتيجة لقصر فترة زمنية قصيرة نسبيا منذ آخر تحديث رئيسي للتكوين الأولي الخاصة به قبل طرح نسخة التجربة الحرّة للعامّة مؤخراً . علاوة على ذالك ربما وجدت بعض حالات سوء استخدام لهذا البرنامج الجبار سواء كانت ذات طبيعة سياسية أم أخلاقية مما يحتم وجود رقابة مستقبلية عليه لحماية سلامة الحقائق والأمان المجتمعي ككل .

* Falm: يركز بدرجة عالية جدا علي تقديم ردود مصنفة تنظيماً جيداً حسب طلب المستخدم وتكرار ذلك عدة مرات بناءً علي توصيات مميزة داخل ذاكرة داخلية صغيرة نسبيآ تساعدانه علي اتخاذ قرار آلي بشأن أفضل طريقة لإستخلاص المعلومة المُرجوَة منه وضَمْنْها ضمن الإخراج الأخيري لها بصورة موحدة ومختصة بالأمر المطروح أمامه مباشرة . فلام أيضا يشترك بنفس خط سير عمل شبكات أعصاب عميقة تشمل طبقات تمركزية لامركزية للحفاظ علي تسلسل منطقي واضح لسلسلات الحوار الطويل دون فقدان تركيبتها الأصليه رغم اختلاف طول الفترة الزمنيـَّة المحصورة بين فقرتيه السابق والثانية التالي لها بينما مازالت نقط ضعف تلك التقنية تتردد صدائهما خاصة حين يرغب شخص ما بإجراء تغييرات جوهرية مفاجأة خلال الحديث مما يؤدي إلي ارتباك شدید برمجيا وانقطاع الشعر عنه وفقدان خيط الموضوع الأصلي لفترة بسيطه قبل الرجوع