يكشف المنطق طويل الأفق عن نقطة ضعف أساسية في عملاء الذكاء الاصطناعي: حيث تمتلئ نوافذ السياق بسرعة، وتعيد خطوط أنابيب الاسترجاع الضوضاء بدلاً من الإشارة.
ولحل هذه المشكلة، قام الباحثون في جامعة سنغافورة الوطنية بتطوير MRAgent، وهو إطار عمل يتخلى عن الثبات "استرجاع ثم السبب" يقترب. وبدلاً من ذلك، فهو يستخدم آلية تسمح للوكيل بتطوير ذاكرته ديناميكيًا بناءً على الأدلة المتراكمة.
تم دمج عملية إعادة بناء الذاكرة متعددة الخطوات هذه في عملية التفكير الخاصة بنموذج اللغة الكبير (LLM). على الرغم من أنه ليس الإطار الوحيد في هذا المجال، إلا أن MRAgent يقلل بشكل كبير من استهلاك الرمز المميز وتكاليف وقت التشغيل مقارنة بأساليب إدارة الذاكرة الوكيلة الأخرى.
حدود الاسترجاع السلبي في المهام طويلة الأفق
في مسارات الاسترجاع الكلاسيكية، يتم استرداد المستندات من خلال البحث المتجه أو اجتياز الرسم البياني وتمريرها إلى ماجستير في القانون للاستدلال. يفشل هذا النهج السلبي لأنه لا يستطيع الجمع بين التفكير والوصول إلى الذاكرة، مما يخلق ثلاث اختناقات رئيسية:
-
ولا تستطيع هذه الأنظمة مراجعة استراتيجية الاسترجاع الخاصة بها في منتصف المنطق. إذا قام الوكيل بإحضار مستند واكتشف إشارة مفقودة مهمة – تاريخ أو شخص محدد – فليس لديه طريقة لإصدار استعلام جديد بناءً على تلك النتيجة.
-
تعمل نتائج التشابه الثابتة وتوسعات الرسم البياني المحددة مسبقًا على إرجاع مطابقات على مستوى السطح والتي تغمر نافذة سياق LLM بضوضاء غير ذات صلة، مما يؤدي إلى تدهور المنطق.
-
تعتمد الأنظمة الحالية بشكل كبير على الهياكل التي تم إنشاؤها مسبقًا مثل نتائج top-k والوظائف ذات الصلة الثابتة، مما يحد من المرونة المطلوبة للتوسع عبر تفاعلات المستخدم طويلة المدى وغير المتوقعة.
ويرى الباحثون أنه للتغلب على هذه القيود، يجب على المطورين التحول نحو “عملية إعادة البناء النشطة والترابطية”، وهو مفهوم مستوحى من علم الأعصاب الإدراكي.
في ظل هذا النموذج، يتم استدعاء الذاكرة بشكل تسلسلي بدلاً من العمل كقراءة سلبية لقاعدة بيانات ثابتة. يبدأ النظام بمحفزات صغيرة ومحددة من مطالبة المستخدم، مثل اسم الشخص أو الإجراء أو المكان. تشير هذه التلميحات الأولية إلى ربط المفاهيم أو الفئات بدلاً من الكتل النصية الضخمة.
ومن خلال اتباع نقاط انطلاق البيانات الوصفية هذه، يقوم الوكيل بجمع أجزاء صغيرة من الأدلة واحدة تلو الأخرى. فهو يستخدم كل معلومة جديدة لتوجيه خطوته التالية حتى ينجح في تجميع القصة الكاملة والدقيقة.
كيف يقوم MRAgent بتنفيذ عملية إعادة بناء الذاكرة النشطة
بدلاً من عرض الذاكرة كقاعدة بيانات ثابتة، يتعامل معها MRAgent (هندسة استدلال الذاكرة لوكلاء LLM) كبيئة تفاعلية. عند معالجة استعلام معقد، يستخدم الوكيل القدرات المنطقية الأساسية لـ LLM لاستكشاف مسارات متعددة لاسترجاع المرشحين عبر رسم بياني للذاكرة المنظمة.
في كل خطوة، تقوم LLM بتقييم الأدلة الوسيطة التي جمعتها وتستخدمها لتحسين بحثها بشكل متكرر. فهو يستنتج قيود بحث جديدة، ويتبع المسارات التي تحتوي على أفضل المعلومات، ويزيل الفروع غير ذات الصلة. يسمح هذا لـ MRAgent بتجميع المعلومات المدفونة بعمق دون ملء سياق LLM بالضوضاء.
ولجعل هذا الاستكشاف النشط فعالاً وقابلاً للتطوير من الناحية الحسابية، ينظم إطار العمل قاعدة البيانات الخاصة به باستخدام آلية “Cue-Tag-Content”. يعمل هذا كرسم بياني ارتباطي متعدد الطبقات مع ثلاثة أنواع من العقد:
-
العظة: الكلمات الرئيسية الدقيقة، مثل الكيانات أو السمات السياقية المستخرجة من تفاعلات المستخدم.
-
محتوى: وحدات الذاكرة المخزنة الفعلية. وتنقسم هذه إلى طبقات متعددة الحبيبات، مثل الذاكرة العرضية للأحداث الملموسة والذاكرة الدلالية للحقائق الثابتة وتفضيلات المستخدم.
-
العلامات: الجسور الدلالية التي تلخص الارتباطات العلائقية بين إشارات ومحتوى محددين.
يتيح هذا الهيكل عملية استرجاع عالية الكفاءة على مرحلتين. ينتقل LLM أولاً من الإشارات إلى العلامات المرشحة. نظرًا لأن العلامات تكشف بوضوح العلاقات الدلالية والارتباطات الهيكلية للبيانات، يقوم الوكيل بتقييم هذه الملخصات القصيرة للحكم على مدى ملاءمتها. يحدد LLM مسارات الاجتياز الواعدة ويتجاهل الفروع غير ذات الصلة قبل إنفاق الرموز المميزة للحوسبة والمطالبة للوصول إلى محتويات الذاكرة التفصيلية الثقيلة.
على سبيل المثال، قد يسأل المستخدم وكيل الذكاء الاصطناعي، "كيف استخدم نيت الجائزة المالية عندما فاز ببطولة ألعاب الفيديو الثالثة له؟"
-
يقوم MRAgent أولاً باستخراج إشارات البداية الدقيقة من الموجه، مثل "نيت،" "بطولة ألعاب الفيديو," و "يفوز."
-
يقوم الوكيل بتعيين هذه الإشارات الأولية إلى الرسم البياني للذاكرة وينظر إلى العلامات الترابطية المتاحة المرتبطة بها. يرى الوكيل علامات مثل "فوز البطولة" و "المشاركة في البطولة.” نظرًا لأنه يهتم فقط بما فعله الشخص بعد فوزه بالبطولة، فإن MRAgent يسقط علامة المشاركة في البطولة ويسعى للحصول على علامة النصر.
-
يسترد الوكيل المحتوى العرضي المرتبط بزوج Cue-Tag المختار، ويستعيد ثلاث حلقات ذاكرة مميزة حيث فاز Nate بدورة.
-
ينظر MRAgent إلى الذكريات الثلاث، ويقرر أن إحداها على وجه الخصوص ذات صلة بالاستعلام، ويتجاهل الاثنتين الأخريين.
-
باستخدام هذه المعلومات، يقوم بتحديث إشاراته ويبدأ جولة أخرى من الاكتشاف والتشذيب. من الذاكرة العرضية الجديدة التي استعادها، يضيف العميل “أرباح البطولة” إلى إشاراته ويستخدم ذلك لاجتياز العلامات الجديدة والحصول على ذكريات جديدة. ويكرر هذه العملية حتى يجمع ما يكفي من المعلومات للإجابة على الاستعلام، والذي قد يكون شيئًا مثل “لقد وفر Nate المال”.
أداء MRAgent وفقًا لمعايير الصناعة
يعمل MRAgent جنبًا إلى جنب مع العديد من أطر العمل الأخرى التي تتناول بناء الذاكرة الوكيلة. تشمل البدائل A-MEM، وهو إطار عمل للذاكرة الوكيلة يعتمد على الرسم البياني، وMemoryOS، وهو إطار عمل للذاكرة الهرمية. تتضمن أطر الذاكرة الدائمة الأخرى LangMem وMem0.
اختبر الباحثون MRAgent على معايير الصناعة LoCoMo وLongMemEval. تختبر هذه الاختبارات قدرات الوكلاء على حل الاستفسارات المتعلقة بالمهام والمحادثات طويلة المدى عبر عشرات الجلسات ومئات من دورات الحوار. النماذج الأساسية المستخدمة هي Gemini 2.5 Flash وClaude Sonnet 4.5. تم اختبار النظام وفقًا لمعايير RAG وA-MEM وMemoryOS وLangMem وMem0.
لقد تفوق MRAgent باستمرار على كل الخطوط الأساسية عبر كلا النموذجين وجميع أنواع الأسئلة بهامش كبير.
ومع ذلك، بالنسبة لمطوري المؤسسات، غالبًا ما يكون المقياس الأكثر أهمية هو التكلفة الحسابية. في اختبارات LongMemEval، خفض MRAgent استهلاك الرمز المميز الفوري إلى 118 ألفًا فقط لكل عينة. بالمقارنة، استهلكت A-Mem 632 ألف رمز مميز، بينما استهلكت LangMem 3.26 مليون رمز مميز لكل استعلام. كما نجح MRAgent أيضًا في خفض وقت التشغيل إلى النصف مقارنةً بـ A-Mem، حيث انخفض من 1,122 ثانية إلى 586 ثانية.
ما يجعل MRAgent فعالاً في الممارسة العملية هو سلوكه عند الطلب. يؤدي تقييم العلامات وتشذيب المسارات غير ذات الصلة قبل استرجاعها إلى توفير المال ومساحة السياق. علاوة على ذلك، يقوم النظام بشكل مستقل بتقييم سياقه المتراكم ويعرف بطبيعته متى يتوقف عن البحث، ويتجنب تمامًا استكشاف البيانات الزائدة عن الحاجة.
صيد التنفيذ والتطوير
في حين أن MRAgent فعال للغاية، إلا أن بنية Cue-Tag-Content تحتاج إلى الاستعداد قبل أن يتمكن الوكيل من الاستعلام عنها. يجب على المطورين معرفة كيفية تصميم قاعدة بيانات الذاكرة الأساسية لتمكين LLM من التنقل بكفاءة بين العناصر الترابطية وتقليص المسارات غير ذات الصلة دون زيادة تكاليف الحوسبة.
ولحسن الحظ، لا يتعين على المطورين تصنيف هذه البيانات أو هيكلتها يدويًا. صمم المؤلفون MRAgent بخط أنابيب تقطير آلي يستخدم LLMs لمعالجة تواريخ التفاعل الخام وملء الرسم البياني للذاكرة تلقائيًا. بالنسبة للمطور، تتمثل المهمة في تنفيذ وتنسيق مسار الإدخال الآلي هذا، بدلاً من وضع علامة على البيانات يدويًا.
تحتاج إلى إعداد مهمة خلفية أو خط أنابيب دفق يمرر تفاعلات المستخدم الأولية من خلال قوالب سريعة لاستخراج هذه البيانات التعريفية قبل تخزينها في قاعدة بيانات الرسم البياني الخاصة بك.
ومع ذلك، يؤكد المؤلفون على أن هذه مرحلة بناء خفيفة الوزن وأن MRAgent يتعمد إبقاء عملية الابتلاع بسيطة.
أصدر المؤلفون الكود على GitHub.
