نظرًا لأن وكلاء الذكاء الاصطناعي في المؤسسات يتولىون مهام معقدة وطويلة الأفق بشكل متزايد، فإن أدائهم غالبًا ما يكون مقيدًا من خلال تسخيرهم، وهو السقالات البرمجية التي تربط العمود الفقري لـ LLM ببيئته.

حاليًا، تعتبر الأحزمة ثابتة إلى حد كبير ومصنوعة يدويًا. يتم تحسينها يدويًا إلى حد كبير ولا يتم تحسينها تلقائيًا بناءً على بيانات التنفيذ التي تجمعها من بيئتها.

ولمعالجة هذا الاختناق الهندسي، قدم الباحثون في Xiaomi HarnessX، وهو إطار عمل يتعامل مع أداة الذكاء الاصطناعي ككائن قابل للتركيب ويطبق تحسينات بشكل مستقل على الكود الخاص به.

في تطبيقات المؤسسات في العالم الحقيقي، يمكّن هذا التكيف الآلي أنظمة الذكاء الاصطناعي من التكيف ديناميكيًا مع المتطلبات الخاصة بالتطبيقات. أظهرت الاختبارات العملية أن HarnessX يحقق مكاسب كبيرة في الأداء عبر مجالات مثل هندسة البرمجيات والتفاعل على الويب.

توضح النتائج أن توسيع نطاق النموذج الأساسي ليس هو الطريق الوحيد نحو ذكاء اصطناعي أكثر قدرة – وبالنسبة للنماذج الأصغر، قد لا يكون هو الأفضل. أدى تطور أدوات HarnessX إلى متوسط ​​زيادة في الأداء بنسبة +14.5% عبر 15 مجموعة نموذجية؛ بالنسبة للوزن المفتوح Qwen3.5-9B، وصلت المكاسب إلى +44% في مهام التخطيط المجسدة.

تحديات هندسة الحزام

في تطبيقات الذكاء الاصطناعي، تعتمد قدرة النموذج الأساسي بشكل كبير على الحزام المحيط به. يعمل الحزام كطبقة تشغيلية تحول مخرجات النموذج الأولي إلى سلوكيات وكيل منظمة وقابلة للتنفيذ. وهي تشتمل على المطالبات، وتكاملات الأدوات الخارجية، وإدارة الذاكرة، وتدفقات التحكم التي تملي كيفية مراقبة نظام الذكاء الاصطناعي لبيئته، والتفكير في المشكلة، واتخاذ الإجراء.

نظرًا لأن وكلاء المؤسسات يتولى مهام سير عمل أكثر تعقيدًا وطويلة الأفق، فقد أصبحت هندسة التسخير جزءًا أساسيًا من تطوير الذكاء الاصطناعي. على الرغم من أهميته، يظل تطوير الحزام بعيدًا عن التخصص الهندسي الناضج ويطرح ثلاثة تحديات رئيسية.

أولاً، تكون السروج ثابتة ومصممة يدويًا. يتطلب أي تحول في النموذج الأساسي الأساسي، أو إدخال أدوات جديدة، أو التحول إلى مجال تشغيلي مختلف، إعادة كتابة تعليمات برمجية يدوية مخصصة. تفتقر الأدوات التقليدية إلى آليات للتعلم والتحسين بشكل مستقل من تجارب التنفيذ السابقة.

ثانياً، تعاني معظم الأحزمة الموجودة من التشابك المعماري. إنهم يربطون بإحكام بين القوالب وأغلفة الأدوات وسياسات إعادة المحاولة وإدارة الذاكرة ضمن نفس مسارات التعليمات البرمجية. ويعني هذا التشابك أن التغيير والتبديل في أحد المكونات يمكن أن يؤدي إلى كسر المكونات الأخرى بصمت. غالبًا ما تؤدي محاولة إعادة استخدام مجموعة أدوات عبر مجالات عمل مختلفة إلى نسخ التعليمات البرمجية الأولية بدلاً من التركيب المعياري النظيف.

ثالثًا، تم تحسين نموذج الحزام والأساس بشكل منفصل. عندما يقوم المهندسون بإجراء اختبارات لتحسين الحزام، عادةً ما يتم تجاهل آثار التنفيذ الناتجة بدلاً من استخدامها كبيانات تدريب لتحسين النموذج. وبالتالي، لا تؤدي ترقيات النماذج بطبيعة الحال إلى تحسينات في الأدوات، مما يخلق عنق الزجاجة حيث تفشل الفرق في الحصول على القيمة الكاملة للبيانات التشغيلية الخاصة بوكلاءهم.

HarnessX: مسبك مستقل لعملاء الذكاء الاصطناعي

تعمل شركة HarnessX على حل الاختناقات الهندسية لتطوير الأدوات اليدوية من خلال ما يسميه الباحثون “مسبك الأدوات الموحد”.

الابتكار الأساسي لـ HarnessX هو التعامل مع الحزام باعتباره "كائن من الدرجة الأولى". في مصطلحات هندسة البرمجيات، هذا يعني أن الحزام عبارة عن كيان قابل للتسلسل وقابل للاستبدال وقابل للتسلسل بشكل مستقل. من خلال فصل تكوين النموذج (أي نموذج الذكاء الاصطناعي الذي يعمل) عن تكوين الحزام، يمكن للمهندسين تبديل السقالات وتكييفها وتطويرها بسلاسة دون لمس النموذج الأساسي.

يقوم HarnessX بتقسيم سلوك الوكيل إلى مكونات مختلفة، مثل تجميع السياق، وإدارة الذاكرة، والأنظمة البيئية للأدوات، وتدفق التحكم، وإمكانية المراقبة. يتم تنفيذ كل سلوك محدد باعتباره "المعالج" التي يتم توصيلها بخطافات دورة الحياة الدقيقة للحزام. يسمح هذا الهيكل المعياري للنظام بتبديل هذه المعالجات أو إضافتها أو إزالتها دون كسر خط الأنابيب المحيط.

لأتمتة عملية تحسين هذا الهيكل المعياري، تقدم HarnessX نظام AEGIS، وهو محرك تطور يعتمد على التتبع. تعمل إطارات AEGIS على تسخير التكيف كمشكلة تعلم معزز (RL) على المكونات الرمزية المختلفة للتسخير.

إن تأطير تحسين الحزام كمشكلة تعلم معزز يقدم ثلاثة أمراض كان على الباحثين أن يصمموها بشكل واضح ضد:

  • قرصنة المكافأة: قد يستغل النظام اختصارات الحل بدلاً من حل المهمة بشكل حقيقي.

  • النسيان الكارثي: قد يؤدي التعديل الذي يعمل على إصلاح نمط الفشل في أحد المجالات إلى تعطيل سير عمل تم حله مسبقًا في مجال آخر بصمت.

  • قيد الاستكشاف: قد يكرر النظام إجراء تعديلات طفيفة سريعة بدلاً من استكشاف تكوينات جديدة ومتفوقة من الناحية الهيكلية للأداة.

ولمنع هذه المشاكل، تعتمد AEGIS على إمكانية مراقبة التتبع الكامل وخط أنابيب من أربع مراحل:

  1. الهاضم: يضغط آثار التنفيذ في ملخصات منظمة لتحديد مكان فشل الوكيل.

  2. مخطط: يحلل هذه الملخصات لتمكين النظام من استكشاف التغييرات الهيكلية بدلاً من مجرد التعديلات المحلية السريعة.

  3. متطور: يُنشئ تعديلات واختبارات تسخير على مستوى التعليمات البرمجية للتأكد من أنها تعمل بشكل صحيح قبل النشر.

  4. الناقد والبوابة: يقوم الناقد بتقييم التعديلات للكشف عن اختراق المكافأة، بينما ترفض البوابة الحتمية أي تحديث يؤدي إلى تراجع مهمة تم حلها مسبقًا لمنع النسيان الكارثي.

تدخل HarnessX مجالًا متناميًا لأبحاث أدوات التحسين الذاتي – ولكن ما يفرقها هو التطور المشترك لنماذج الأدوات.

يسلط الباحثون الضوء على أن تحسين أي مكون على حدة يصل في النهاية إلى طريق مسدود. إن تطوير الحزام فقط يصل إلى سقف السقالات إذا كان النموذج الأساسي يفتقر إلى القدرة على التفكير لاستخدام الأدوات الجديدة. يصل تدريب النموذج فقط إلى سقف إشارة التدريب إذا لم يقم الحزام أبدًا بمطالبة النموذج باستخدام قدراته المتقدمة.

يقوم HarnessX بدمج تطور الحزام مع التدريب النموذجي. يتم تحويل آثار التنفيذ التي تم إنشاؤها أثناء محاولات الحزام للتكيف مع المهام إلى إشارات تعلم معززة للنموذج الأساسي. في كل مرة يقوم فيها الحزام بتحسين استراتيجيته، يتعلم النموذج في الوقت نفسه كيفية استغلال تلك الإستراتيجية الجديدة بشكل أفضل، مما يكسر أسقف القدرة لتطوير وكيل الذكاء الاصطناعي التقليدي.

تجعل HarnessX هذا التطور المشترك ممكنًا من خلال GRPO (تحسين السياسة النسبية للمجموعة). GRPO هي خوارزمية RL الشائعة المستخدمة لتدريب نماذج الاستدلال مثل DeepSeek-R1.

عند ضبط النموذج، تقوم GRPO المتقاطعة بتجميع مسارات تنفيذ الوكيل لنفس المهمة عبر إصدارات مختلفة تمامًا من أدوات التطبيق. يسمح هذا للنموذج الأساسي باستيعاب التحولات الإستراتيجية عالية المستوى، مثل استخدام نقطة نهاية جديدة لواجهة برمجة التطبيقات (API) أو إدارة ميزانية التنفيذ، بدلاً من مجرد تعلم الاختلافات البسيطة في الصياغة السريعة.

تعمل HarnessX على معايير الصناعة

للتحقق من صحة الفائدة العملية لـ HarnessX، اختبرها الباحثون عبر خمسة معايير تشمل هندسة البرمجيات، وحوار خدمة العملاء متعدد المنعطفات، والتنقل عبر الويب، والتفكير المفتوح متعدد الخطوات، والتخطيط المتجسد.

قاموا بفصل الذكاء الاصطناعي إلى دورين. قام “الوكيل الوصفي”، المدعوم من Claude Opus 4.6، بتحليل السجلات وكتب التعليمات البرمجية لتطوير الأدوات. قام “وكلاء المهام” بتشغيل سير العمل الفعلي. لإثبات أن الإطار لا يعتمد على النموذج، قاموا باختباره على ثلاثة نماذج عاملة مختلفة: Claude Sonnet 4.6، وGPT-5.4، وQwen3.5-9B ذو الوزن المفتوح.

تمت مقارنة HarnessX مع خطي أساس أساسيين. الأول كان عبارة عن أداة ثابتة، تمثل كيفية نشر معظم المؤسسات للذكاء الاصطناعي اليوم، باستخدام إعدادات مجمدة مصنوعة يدويًا مع مطالبات وأدوات محددة المعيار. والثاني هو Claude Code SDK، وهو خط أساسي يمثل مطورًا بعامل واحد لاختبار ما إذا كان خط أنابيب AEGIS المعقد المكون من أربع مراحل قد تفوق في الأداء عندما طلب نموذج لغة واحدة للتكرار على الكود.

يؤدي تطوير الحزام ديناميكيًا إلى تحقيق مكاسب كبيرة على نفس النموذج الأساسي. قام HarnessX بتحسين الأداء في 14 من أصل 15 مجموعة من النماذج المعيارية. في جميع الاختبارات، أدى تطوير الحزام إلى زيادة متوسط ​​الأداء المطلق بنسبة +14.5%.

استفادت النماذج الأضعف كثيرًا من تحسين الحزام الديناميكي. شهد Qwen3.5-9B ذو الوزن المفتوح قفزة في الأداء بنسبة +44.0% على معيار التخطيط المتجسد ALFWorld، وقفزة بنسبة +18.2% على معيار SWE الذي تم التحقق منه لهندسة البرمجيات.

كما أثبت التطور المشترك فعاليته العالية. عندما قام الباحثون بتدريب النموذج الأساسي باستخدام البيانات التي تم إنشاؤها أثناء تطوير الحزام، لاحظوا زيادة إضافية في متوسط ​​الأداء بنسبة +4.7%. يؤدي تحسين الحزام والنموذج في نفس الوقت إلى تحقيق أعلى سقف. ينطبق مكسب التطور المشترك فقط على النماذج ذات الوزن المفتوح.

تُظهر الأدلة القصصية من التجارب كيف يقوم HarnessX بحل المشكلات الضارة عند إنشاء أدوات مساعدة لمهام العالم الحقيقي. على سبيل المثال، في معيار الاستدلال متعدد الخطوات GAIA، فشل وكيل المهمة باستمرار لأن أداة المتصفح مقطوعة الرأس التي استخدمها لاستخراج ويكيبيديا انتهت مهلةها على الواجهة الأمامية المثقلة بجافا سكريبت للموقع. قام HarnessX بتحليل آثار التنفيذ، وتشخيص الخطأ، وكتب أداة جديدة تجاوزت المتصفح بالكامل واستفسرت عن واجهة برمجة تطبيقات MediaWiki مباشرة للحصول على نص عادي. لقد قامت بتبديل هذه الأداة في الحزام وفتح المهام الفاشلة على الفور.

أثناء اختبارات التجارة الإلكترونية لـ WebShop، غالبًا ما يعلق وكيل الذكاء الاصطناعي في حلقات ترقيم الصفحات، وينقر بلا نهاية "الصفحة التالية" وإعادة صياغة عمليات البحث دون الالتزام بشراء منتج على الإطلاق. بدلاً من مجرد تعديل الموجه، قامت HarnessX ببناء معالج استشاري يكتشف متى كان الوكيل يكرر إجراءات التنقل. لقد أدخل تحذيرًا في السياق لفرض القرار وعلاج سلوك التكرار ورفع الأداء.

حدود هندسة التسخير الآلي

أحد التحذيرات المهمة هو أن النظام يعتمد حاليًا على نماذج قوية لتكون بمثابة الوكيل الفوقي الذي يعيد كتابة كود الحزام. اعتمد الباحثون في تجاربهم على نماذج الحدود المغلقة مثل كلود أوبوس. تتحسن نماذج الوزن المفتوح بسرعة، لكن قدرتها على العمل كعامل فوقي لا تزال دون اختبار.

هناك قيد آخر يستحق النظر فيه وهو القدرات الجوهرية للنماذج المستخدمة. إذا كان نموذج المهمة الأساسي ضعيفًا جدًا بشكل أساسي بحيث لا يمكنه تنفيذ سير العمل المعقد الذي يقترحه الحزام الجديد، فلن تتمكن HarnessX من تحسين القدرات الإجمالية للوكيل (لاحظ الباحثون ذلك باستخدام نموذج Qwen3.5-9B في اختبارات الترميز SWE-bench).

على الرغم من هذه القيود، تقدم HarnessX حجة ملموسة مفادها أن هندسة الأدوات – وليس مجرد قياس النماذج – هي أداة يمكن للممارسين الاستفادة منها الآن. بالنسبة للفرق التي تستخدم نماذج أصغر ذات وزن مفتوح في مسارات عمل معقدة، فإن المكاسب هنا كبيرة بما يكفي لتبرير تقييم تطور الحزام كخطوة أولى قبل الوصول إلى نموذج حدودي أكثر تكلفة. يخطط الباحثون لإصدار الكود في التحديث المستقبلي.

شاركها.
اترك تعليقاً