قبل عام 2022، إذا كنت تريد أن تتذكر بسرعة مقطعًا معينًا من كتابك المفضل أو اقتباسًا من فيلم شاهدته للتو دون أن يكون العمل نفسه أمامك، فمن المحتمل أن تلجأ إلى محرك بحث. ستطلب ذلك باستخدام مدخلات بحث جيدة الصياغة، وتحليل النتائج التي تم إرجاعها، وزيارة رابط SparkNotes أو IMDB الذي يبدو أنه يحتوي على إجابتك، والعثور على النص الذي تبحث عنه على الصفحة في غضون بضع دقائق. الآن، ما عليك سوى فتح ChatGPT، واكتب "ما هو أشهر اقتباس لـ Terminator؟" أو "اكتب المقطع الافتتاحي لقصة مدينتين" واحصل على إجابتك الحرفية في ثوانٍ.
أحد أبسط الاستخدامات لنموذج اللغة الكبير (LLM) هو استخدامه كقاعدة بيانات للمعرفة. لقد تم تدريب حاملي شهادات الماجستير في إدارة الأعمال على مجموعات كبيرة من البيانات الغنية بالمعلومات، والتي سهلت واجهات مثل ChatGPT استرجاعها. عندما تطلب من ChatGPT إرجاع محتوى من فيلم أو كتاب، على سبيل المثال، فإنك ببساطة تستفيد من قدرة النموذج على تذكر المعلومات التي تعرض لها أثناء التدريب. لكن ماذا لو لم يتم تدريبها على نص "المدمر"، أو إذا كانت أوزانها لا تعطي أهمية لأعمال ديكنز؟ من أجل تقديم النتائج الأكثر دقة وملاءمة حتى لأبسط حالات الاستخدام، مثل استرجاع المعلومات الأساسية، تحتاج LLMs إلى آليات فهرسة واسترجاع متطورة يمكنها الوصول إلى مجموعة واسعة من المعلومات بدقة.
فهم إنشاء محتوى LLM والتدريب يتم إنشاء محتوى LLM من خلال عملية تعرف باسم التنبؤ بالرمز التالي، والتي تضمن أن تكون الاستجابات مناسبة للسياق ومتنوعة وتعكس إلى حد ما الفهم الشبيه بالإنسان. إليك كيفية عمل التنبؤ بالرمز المميز التالي، خطوة بخطوة:
معالجة الإدخال: عندما تكتب مطالبة أو سؤالاً، يتم تحويل هذا الإدخال إلى رموز مميزة: كلمات أو أجزاء من الكلمات. فهم السياق: ينظر النموذج إلى الرموز المميزة التي قدمتها له، ويحاول، بناءً على تدريبه، فهم السياق، الذي يتضمن كل شيء بدءًا من الموضوع المطروح وحتى النغمة التي قد تستخدمها. التنبؤ بالرمز التالي: باستخدام السياق المفهوم، يتنبأ النموذج بعد ذلك بالرمز المميز التالي الأكثر احتمالاً. إنه ليس مجرد تخمين بناءً على الكلمة السابقة مباشرة؛ إنها تأخذ في الاعتبار السياق الكامل للمحادثة حتى تلك اللحظة. اختيار الرمز المميز: بمجرد التنبؤ بمجموعة من الرموز المميزة التالية المحتملة، فإنه يختار واحدًا. يعتمد هذا التحديد على الاحتمالية - الرمز المميز الذي من المرجح أن يأتي بعد ذلك بناءً على البيانات التي تم تدريب النموذج عليها. ومع ذلك، تجدر الإشارة إلى أن هناك بعض العشوائية هنا أيضًا، مما يساعد في توليد استجابات أكثر تنوعًا وطبيعية. إنشاء المخرجات: يتم بعد ذلك تحويل الرمز المميز المحدد مرة أخرى إلى نص يمكن قراءته بواسطة الإنسان. إذا لم تكن الاستجابة كاملة (وهو ما لا يحدث غالبًا بعد رمز مميز واحد فقط)، فسيتم تكرار العملية. تتم إضافة الرمز المميز الجديد إلى التسلسل، ويتنبأ النموذج بالرمز المميز التالي بناءً على هذا السياق المحدث. التحسين التكراري: تتكرر عملية التنبؤ بالرمز التالي وإضافته إلى التسلسل حتى يصل النموذج إلى نقطة التوقف. يمكن أن يحدث هذا عندما تصل الاستجابة إلى طول معين، ويتنبأ النموذج برمز يشير إلى نهاية الجملة أو المقطع، أو عندما يفي بالتعليمات المضمنة في الموجه. حدود الضغط في تدريب LLM عندما تتنبأ LLM برمز مميز، فإنها تسترد بشكل فعال وتستخدم المعرفة المضغوطة المضمنة في أوزانها لإنتاج مخرجات مناسبة للسياق. بهذه الطريقة، يعكس تدريب LLM ضغط قاعدة البيانات. مثلما تم تحسين قاعدة البيانات لاستدعاء البيانات التي يتم الوصول إليها بشكل متكرر بسرعة، تم تصميم LLM لاسترداد المعلومات - ذكريات محرفة محددة - من أوزانها. تسمح هذه الإمكانية له بإنتاج استجابات دقيقة للاستفسارات حول المواد المألوفة التي واجهها أثناء تدريبه، تمامًا مثل الاستعلام عن قاعدة بيانات للحصول على معلومات مفهرسة جيدًا. ومع ذلك، تنشأ القيود عندما يواجه النموذج محتوى أقل شهرة أو غموضًا. على سبيل المثال، عندما تطلب من ماجستير الحقوق فقرات محددة في الكتاب المقدس، فإنها تقتبسها كلمة بكلمة، لكنها لا تستطيع أن تقتبس كلمة بكلمة لأي مفهوم لم "تشهده" بشكل متكرر أثناء التدريب، حيث أن الأوزان المرتبطة بهذا المفهوم كثيرة جدًا تافهة. وبهذا المعنى أيضًا، فإن LLM يشبه قاعدة البيانات. مثلما قد تقوم قاعدة البيانات بإرجاع البيانات التي تم تخزينها بشكل صريح داخلها فقط، يمكن أن تواجه ماجستير إدارة الأعمال صعوبة في إنشاء محتوى حول موضوعات لم تطلع عليها على نطاق واسع أثناء التدريب.
وبطبيعة الحال، فإن حاملي شهادات الماجستير خارج نطاق هذا القياس، حيث أن لديهم نموذجًا عالميًا داخليًا يسمح لهم "بفهم" الأشياء بشكل يتجاوز مجرد عمليات البحث. ومع ذلك، فإن هذا التبسيط المفرط يساعدنا على فهم بعض القيود الرئيسية في الطريقة التي يتم بها تدريب حاملي شهادة الماجستير في القانون على إنشاء المحتوى.
مزيد من القيود على تدريب LLM علاوة على ذلك، فإن نظام التنبؤ بالرمز التالي له قيود متأصلة أخرى تنبع من نهجه الأساسي في إنشاء النص:
حجم نافذة السياق: أحد العناصر الأساسية
Raints هو حجم نافذة سياق النموذج — الحد الأقصى لمقدار النص (بالرموز المميزة) الذي يمكن للنموذج مراعاته عند إجراء التنبؤ. بالنسبة للعديد من النماذج، بما في ذلك الإصدارات السابقة من GPT، فإن هذه النافذة ليست كبيرة بما يكفي للحفاظ على السياق خلال المحادثات أو المستندات الطويلة، مما قد يؤدي إلى فقدان التماسك في النصوص الأطول أو المناقشات المعقدة التي تتطلب الحفاظ على السياق بما يتجاوز الرموز المميزة السابقة المباشرة. التعميم مقابل الخصوصية: في حين يتم تدريب هذه النماذج على مجموعات بيانات واسعة، فإن قدرتها على التعميم من هذا التدريب يمكن أن تؤدي في بعض الأحيان إلى إنتاج محتوى عام أو غامض ذي صلة. وقد يخطئون في توليد استجابات محددة للغاية أو دقيقة تتطلب فهمًا تفصيليًا أو معرفة حديثة خارج بيانات التدريب الخاصة بهم. الافتقار إلى الوصول إلى المعرفة الخارجية: تقتصر نماذج التنبؤ بالرموز المميزة التالية على المعلومات الواردة في مجموعات بيانات التدريب الخاصة بها. لا يمكنهم الوصول إلى معلومات جديدة أو دمجها بعد التدريب، مما يعني أنها يمكن أن تصبح قديمة بسرعة أو تفتقر إلى السياق الحالي، مثل الأحداث الأخيرة أو الاكتشافات أو المواضيع الشائعة. التكرار والقدرة على التنبؤ: قد تؤدي الطبيعة الخوارزمية للتنبؤ بالرمز التالي في بعض الأحيان إلى إنشاء نص متكرر أو يمكن التنبؤ به. نظرًا لأن النموذج غالبًا ما يفضل الرموز المميزة التي من المرجح أن تتبعها إحصائيًا في ضوء السياق، فإنه يمكن أن يقع في حلقات أو يفضل العبارات الشائعة، مما يقلل من تباين المخرجات. شرح الجيل المعزز للاسترجاع (RAG). كما ذكرنا سابقًا، يقوم طلاب LLM بإنشاء استجابات بناءً على الأوزان التي خصصوها لجوانب مختلفة من البيانات أثناء التدريب. تعكس هذه الأوزان مدى أهمية أو أهمية العناصر المختلفة لبيانات الإدخال بواسطة النموذج. إذا تضمنت مطالبة المستخدم عناصر لم يتم تمثيلها بشكل ملحوظ في بيانات التدريب، فقد يفشل النموذج في إنشاء استجابة دقيقة أو ذات صلة.
عندما تتجاوز المحادثة نافذة سياق LLM، أو عندما يتجاوز الموجه حد الأوزان المهمة في مجموعة بيانات التدريب الخاصة بـ LLM (بمعنى أنه لا يمكنه تذكر الإجابة التي يبحث عنها المستخدم بالضبط)، يعتمد النموذج عادةً على قاعدة بيانات بحث متجهة خارجية ، والذي يسمح له بالبحث عن السياق ذي الصلة أو البيانات الجديدة التي يمكن إلحاقها بمطالبة من المستخدم. تُعرف هذه العملية باسم الجيل المعزز للاسترجاع (RAG).
"البحث عن المتجهات لتحقيق النجاح" أصبحت عملية RAG ممكنة من خلال قاعدة بيانات بحث المتجهات: نوع متقدم من قواعد البيانات يقوم بتخزين البيانات وإدارتها كمتجهات. تمثل هذه المتجهات البيانات في مساحة عالية الأبعاد، حيث يلتقط كل بُعد بعض جوانب معنى البيانات، مما يسمح بتمثيل العلاقات والسمات المعقدة. في سياق النص واللغة، تستخدم قواعد بيانات بحث المتجهات تقنيات مثل التضمين لتحويل النص إلى متجهات رقمية. يمكّن هذا التحويل النظام من قياس أوجه التشابه الدلالية بين أجزاء مختلفة من النص عن طريق حساب المسافات بين المتجهات المقابلة لها في هذا الفضاء متعدد الأبعاد.
أثناء RAG، يتم تحويل كل من الاستعلام (أي إدخال المستخدم إلى LLM) والبيانات المخزنة (مثل المقالات أو المستندات أو الجمل) إلى متجهات باستخدام تضمينات النص. تقوم هذه التضمينات بتحويل البيانات النصية إلى متجهات رقمية حيث يتم تعيين معاني مماثلة لنقاط تقريبية في الفضاء المتجه. تقوم قاعدة البيانات بعد ذلك بحساب المسافات بين متجه الاستعلام ومتجهات البيانات المخزنة لتحديد مدى ارتباط معاني النصوص. تقوم قاعدة البيانات باسترداد نقاط البيانات (المحتوى النصي) التي تكون متجهاتها الأقرب إلى متجه الاستعلام، أي تلك الأكثر تشابهًا مع المدخلات من الناحية الدلالية. تعتبر نقاط البيانات هذه "أقرب الجيران" من حيث السياق والمعنى.
يوفر هؤلاء الجيران الأقرب معلومات إضافية ذات صلة بالسياق ربما لم تتمكن LLM الأساسية من الوصول إليها ضمن بيانات التدريب الخاصة بها، والتي يمكن أن تحسن بشكل كبير دقة مخرجات LLM وملاءمتها وثرائها وتنوعها. وقد دعا سام ألتمان، من بين آخرين، إلى نهج "البحث عن المتجهات لتحقيق النجاح" - الاعتماد على RAG لتطوير الوكلاء، بدلاً من الضبط الدقيق للنموذج وحده.
RAG كبديل للضبط الدقيق يتضمن الضبط الدقيق لـ LLM ضبط أوزان النموذج بناءً على تدريب إضافي على مجموعة بيانات محددة لتعزيز الأداء لمهام معينة أو تحسين الفهم في مجالات معينة. هذه العملية ليست فقط أبطأ من وتيرة الابتكار، مما يعني أن النماذج المضبوطة بدقة تصبح قديمة بنفس سرعة تحديثها تقريبًا، كما أنها لا تعالج مشكلة البيانات الجديدة.
في المقابل، يمكّن RAG النموذج من الوصول إلى قواعد البيانات الخارجية في الوقت الفعلي لاسترداد أحدث المعلومات ذات الصلة بالاستعلام المطروح. حتى لو لم يتم تحديث النموذج الأساسي أو تحسينه مؤخرًا، فلا يزال بإمكانه إنشاء استجابات تتضمن أحدث البيانات. تظل النماذج ذات صلة لفترة أطول لأنها يمكن أن تتكيف مع البيانات الجديدة والتغيرات
