لم يتم تدريب نموذج علي بابا مطلقًا كوكيل - وقام بتحسين أداء الوكيل عبر سبعة معايير

أصدر فريق Qwen التابع لشركة Alibaba Qwen-AgentWorld يوم الثلاثاء – وهما نموذجان تم تدريبهما على عدم العمل داخل بيئات العملاء، ولكن للتنبؤ بما ستعود به تلك البيئات. يغطي الإصدار سبعة مجالات ضمن بنية واحدة: MCP، وSearch، وTerminal، وهندسة البرمجيات، وAndroid، وWeb، وOS.

يمتد هذا الإصدار إلى دفعة علي بابا الأخيرة نحو وكلاء مستقلين. تم تصميم Qwen3.7-Max، الذي تم إصداره في شهر مايو، حول إمكانية التنفيذ الذاتي لمدة 35 ساعة.

يستهدف هذا التحول سقف تدريب وكلاء الفرق على نطاق واسع بشكل مباشر. تظهر محركات البحث الحقيقية أي نتائج موجودة، دون وجود آلية لإدخال شروط خاضعة للرقابة. لا تسمح المحطات الطرفية المباشرة بإدخال حالة انخفاض مساحة القرص عند الطلب. يقتصر تدريب الوكلاء على ما ستظهره بيئات الإنتاج، مع عدم وجود طريقة منهجية لكشف الحالات المتطورة التي سيحتاج الوكلاء إلى التعامل معها ولكن نادرًا ما يواجهونها أثناء التدريب.

وقام فريق البحث بتدريب العملاء داخل جهاز المحاكاة الناتج، ووجدوا مكاسب في الأداء تجاوزت ما حققه التدريب في البيئات الحقيقية وحدها. وفي اختبار منفصل، أدى استخدام التدريب على النموذج العالمي كإحماء قبل الضبط الدقيق إلى تحسين الأداء عبر سبعة معايير، بما في ذلك ثلاثة معايير لم يسبق للنموذج رؤيتها أثناء التدريب.

حددت الورقة المصاحبة للإصدار ثغرة في أبحاث الوكيل السابقة. "نحن نرى أن النمذجة العالمية هي قطعة مفقودة حاسمة في الطريق إلى الوكلاء العامين."

يتدرب Qwen-AgentWorld على ما تعوده البيئات، وليس على ما يجب على الوكلاء فعله

يتم تدريب معظم نماذج الوكلاء للإجابة على سؤال واحد: بالنظر إلى ما أظهرته لي البيئة للتو، ما الذي يجب علي فعله بعد ذلك؟ تم تدريب Qwen-AgentWorld على الإجابة على العكس: بالنظر إلى ما فعله الوكيل للتو، ما الذي ستظهره البيئة بعد ذلك؟

هذا الانعكاس هو جوهر ما تسميه الورقة نموذج عالم اللغة: فبدلاً من تحسين اختيار الإجراء، يتعلم النموذج التنبؤ بحالة البيئة التالية عبر جميع المجالات السبعة ضمن هدف تدريبي واحد. كان العمل السابق أضيق: WebWorld، وهو مشروع Qwen سابق من فبراير، يغطي بيئات الويب فقط؛ يقوم نموذج Agent World Model الخاص بـ Snowflake، والذي تم نشره في نفس الشهر، بإنشاء بيئات مدعومة بالرمز SQL تعتمد على التعليمات البرمجية بدلاً من تدريب نموذج للتنبؤ بالحالات. Qwen-AgentWorld هو الأول الذي يشمل سبعة مجالات في نموذج واحد، مع دمج نماذج البيئة من مرحلة ما قبل التدريب الأولى.

قامت شركة علي بابا بتدريب كلا النموذجين على ثلاث مراحل على أكثر من 10 ملايين مسار للتفاعل البيئي من عمليات تشغيل وكيل حقيقي. تعلم المرحلة الأولى النموذج كيف تتصرف البيئات – أنظمة الملفات، والحالات الطرفية، وتغييرات DOM للمتصفح، واستجابات واجهة برمجة التطبيقات (API). تقوم المرحلة الثانية بتدريب النموذج على التفكير فيما سيأتي بعد ذلك قبل التنبؤ به. المرحلة الثالثة، التعلم المعزز، تعمل على تشديد التوقعات باستخدام عمليات التحقق القائمة على القواعد وتسجيل الجودة المفتوحة.

كلا النموذجين عبارة عن تصميمات مختلطة من الخبراء – فقط جزء صغير من المعلمات نشط لكل رمز مميز. يقوم الطراز 35B بتنشيط 3B؛ 397B ينشط 17B. كلاهما يدعم نوافذ السياق 256 كيلو بايت. بالنسبة لنطاقات واجهة المستخدم الرسومية (Android والويب ونظام التشغيل)، تعمل النماذج من أشجار إمكانية الوصول النصية والتسلسلات الهرمية لعرض واجهة المستخدم بدلاً من لقطات الشاشة.

تتوفر أوزان الطراز 35B وAgentWorldBench ضمن Apache 2.0؛ لم يتم إصدار أوزان 397B علنًا.

نتائج التدريب مهمة أكثر من المعايير

تُظهر النتائج المرجعية مدى دقة النماذج في التنبؤ بالبيئات التي ستعود إليها. تُظهر نتائج التدريب القيمة الفعلية لهذه القدرة على التنبؤ بالنسبة لوكلاء بناء الفرق – وهذه هي الأرقام الأكثر أهمية.

ووفقا للباحثين، فإن العملاء الذين تم تدريبهم داخل المحاكاة الخاضعة للرقابة تفوقوا في الأداء على العملاء المدربين في بيئات حقيقية. أدى إدخال الاضطرابات المستهدفة – الاستجابات الجزئية التي تفرض خطوات إضافية للوكيل، وحالات الحافة في البيئات الحقيقية – إلى دفع MCPmark من 24.6 إلى 33.8. في البحث، تم نقل العملاء المدربين في عوالم خيالية تمامًا إلى مهام بحث حقيقية، مما أدى إلى رفع WideSearch F1 Item من 34.02 إلى 50.31 في نموذج 35B المفتوح. أظهر اختبار إحماء منفصل أن التدريب المسبق للنموذج العالمي قد أدى إلى تحسين BFCL v4 من 62.29 إلى 71.25 وClaw-Eval من 53.60 إلى 64.88 بدون ضبط دقيق خاص بالعامل.

يشير الباحثون إلى المعيار ومخاطر التجهيز الزائد

أثارت الدراسة ردود فعل فورية من باحثي الذكاء الاصطناعي بشأن X. والمخاوف التي أثاروها ترسم خريطة لما يحتاج الممارسون إلى التحقق منه قبل التصرف بناءً على النتائج.

فيما يتعلق بهدف التدريب ونتيجة النقل، كان التقييم من أحد الباحثين في الذكاء الاصطناعي/تعلم الآلة مباشرًا. "تم تدريب كل نموذج “وكيل” آخر على التصرف في البيئات،" كتب @drawais_ai، الذي يحمل خلفية دكتوراه ويقوم بانتظام بتحليل أوراق الذكاء الاصطناعي. "قلب كوين السؤال. لقد قاموا بتدريب النموذج على التنبؤ بالبيئة نفسها… ثم تنتقل هذه المعرفة التنبؤية إلى مهام الوكيل حتى بدون أي ضبط دقيق خاص بالوكيل." حدد نتيجة Sim RL القابلة للتحكم على أنها "الإيصال" للادعاء بأن التدريب الاصطناعي يمكن أن يحل محل التعلم الواقعي في البيئة الحقيقية على نطاق واسع، وأشار إلى أن ثلاثة من معايير النقل السبعة كانت خارج المجال تمامًا.

وقد خضع الهامش القياسي للتدقيق الفوري. "AgentWorldBench هو معيار علي بابا تم إنشاؤه ونشره في نفس الورقة،" كتب @TheSignal_Desk، الذي يركز على اللقطات الصادقة والأرقام الرئيسية في أبحاث الذكاء الاصطناعي. "لقد كتبوا الاختبار، ثم تجاوزوه بمقدار 0.46."

منهجية sim-RL هي النتيجة @limalemonnn، الذي يبني عملاء الذكاء الاصطناعي للإنتاج، الذين تم تحديدهم على أنهم الأكثر احتياجًا إلى التدقيق قبل أن يتم اقتباس المطالبة الرئيسية. "العملاء المدربون على أجهزة المحاكاة يتلاءمون بشكل تقليدي مع مراوغات جهاز المحاكاة،" لقد كتبوا. "إذا كان النموذج العالمي نظيفًا للغاية، فسيتعلم الوكيل النموذج، وليس المهمة." وأشاروا إلى الانقسام الرافض في الورقة حيث يجب على ممارسي القسم قراءتها قبل التصرف على الأرقام.

القلق الزائد لديه إجابة جزئية في البيانات. تشير الفجوة بين Sim RL غير المنضبط (MCPMark 24.6) وSim RL الخاضع للتحكم (MCPMark 33.8) إلى أن المكاسب تعتمد بشكل كبير على آلية التحكم، وليس دقة المحاكاة وحدها. إن نتيجة البحث في العالم الخيالي، حيث ينتقل العملاء المدربون على البيئات المخترعة إلى مهام بحث حقيقية، هي أقوى دليل في الورقة ضد القلق من الإفراط في التجهيز.

ماذا يعني هذا بالنسبة للفرق التي تقوم ببناء خطوط أنابيب وكيلة

بالنسبة لفرق هندسة الذكاء الاصطناعي التي تقوم ببناء خطوط أنابيب الوكلاء وتوسيع نطاقها، يشير هذا العمل إلى تحول ملموس في كيفية بناء قدرة الوكلاء. أصبح لدى وكلاء تدريب الفرق على نطاق واسع الآن خيار ثالث بين RL في البيئة الحقيقية والمعايير الثابتة: لن تظهر المحاكاة الخاضعة للرقابة التي تحقن إنتاج الحالات المتطورة.

البيئات الاصطناعية هي طبقة تدريب مشروعة. تعد المحاكاة الخاضعة للرقابة التي تضخ الظروف التي لن تنتجها البيئات الحقيقية مكملاً للبيئة الحقيقية RL، وليست اختصارًا حولها.

إن ما يتعلمه النموذج قبل بدء تدريب الوكلاء له أهمية أكبر مما تمثله معظم خطوط الأنابيب. تشير النتائج التمهيدية – مكاسب الأداء عبر المعايير غير المرئية مع عدم وجود تدريب خاص للوكيل – إلى أن التأريض البيئي ينتمي إلى مرحلة مبكرة من التطوير مقارنة بالممارسة الحالية.

لم يتم تدريب نموذج علي بابا مطلقًا كوكيل – وقام بتحسين أداء الوكيل عبر سبعة معايير

قام كلود كود بتحويل كل مهندس إلى ثلاثة. الآن تحتاج الشركات إلى المزيد من المفكرين في مجال المنتجات

يستخدم إطار عمل الذاكرة الوكيل الجديد 118 ألف رمز مميز لكل استعلام. يحترق LangMem خلال 3.26 م.

يحتاج وكلاء الأمن المستقلون إلى بيانات كاملة. إليك كيفية التحقق مما إذا كان جهازك جاهزًا.

تحتوي خطة الإنترنت غير المحدودة دائمًا على علامة النجمة مما يجعلها محدودة جدًا

قام كلود كود بتحويل كل مهندس إلى ثلاثة. الآن تحتاج الشركات إلى المزيد من المفكرين في مجال المنتجات

يبدو كل كابل USB-C متطابقًا، لكن هذه الشريحة الصغيرة تخبرك أي منها يعمل بالفعل

لم يتم تدريب نموذج علي بابا مطلقًا كوكيل – وقام بتحسين أداء الوكيل عبر سبعة معايير

يتدرب Qwen-AgentWorld على ما تعوده البيئات، وليس على ما يجب على الوكلاء فعله

نتائج التدريب مهمة أكثر من المعايير

يشير الباحثون إلى المعيار ومخاطر التجهيز الزائد

ماذا يعني هذا بالنسبة للفرق التي تقوم ببناء خطوط أنابيب وكيلة

المقالات ذات الصلة

قام كلود كود بتحويل كل مهندس إلى ثلاثة. الآن تحتاج الشركات إلى المزيد من المفكرين في مجال المنتجات

يستخدم إطار عمل الذاكرة الوكيل الجديد 118 ألف رمز مميز لكل استعلام. يحترق LangMem خلال 3.26 م.

يحتاج وكلاء الأمن المستقلون إلى بيانات كاملة. إليك كيفية التحقق مما إذا كان جهازك جاهزًا.

تحتوي خطة الإنترنت غير المحدودة دائمًا على علامة النجمة مما يجعلها محدودة جدًا

قام كلود كود بتحويل كل مهندس إلى ثلاثة. الآن تحتاج الشركات إلى المزيد من المفكرين في مجال المنتجات

يبدو كل كابل USB-C متطابقًا، لكن هذه الشريحة الصغيرة تخبرك أي منها يعمل بالفعل