بالنسبة لمعظم المؤسسات، لم يكن طلب فيديو تدريبي مدته 90 ثانية أو شرح المنتج أمرًا سهلاً على الإطلاق. ويعني ذلك ملخصًا مخططًا جيدًا، أو طاقم تصوير داخلي أو بائعًا خارجيًا، أو جلسة تصوير، أو تحرير، أو جولة من المراجعات. قم بتغيير سطر واحد من النص الذي يظهر على الشاشة بسبب المراجعة القانونية وسيتم تشغيل السلسلة بأكملها مرة أخرى. التكلفة والخطوط الزمنية الطويلة هي السبب وراء عدم إنتاج الكثير من مقاطع الفيديو الداخلية.

هذه المعادلة هي ما تهدف جوجل إلى إعادة كتابته باستخدام Gemini Omni Flash، النموذج الأول في نسخته الجديدة "أومني" العائلة، يتم طرحها الآن للمطورين وعملاء المؤسسات من خلال واجهة برمجة التطبيقات (API) بعد ظهورها لأول مرة للمستهلكين في I/O 2026. تحدد Google طموح العائلة بأنه إنشاء أي شيء "من أي مدخلات" بدءا من الفيديو. لكن التفاعل مع العنوان الرئيسي لا يقتصر على مجرد مطالبة أكثر وضوحًا بتحويل النص إلى الفيديو. إنها القدرة على تحرير مقطع نهائي من خلال المحادثة.

عندما تم إطلاق النموذج في شهر مايو، أشار تحليل مؤسسة VentureBeat إلى المشكلة: مع عدم وجود واجهة برمجية، كان Omni أداة للمستهلك والمستهلك، وليس أداة إنتاج. يؤدي طرح واجهة برمجة التطبيقات (API) إلى تغيير ذلك. إنه يضع تحرير المحادثة أمام فرق التسويق والتعلم والتطوير التي تصنع أكبر عدد من مقاطع الفيديو في المؤسسة.

العرض التقديمي: ينهار خط الأنابيب المكون من خمس أدوات في محادثة واحدة

حتى الآن، قامت العديد من الفرق بتجميع مقاطع فيديو الذكاء الاصطناعي بالطريقة الصعبة، حيث قامت بدمج ماجستير إدارة الأعمال معًا لبرنامج نصي، ونموذج تحويل النص إلى صورة، ونموذج تحويل الصورة إلى فيديو، وأداة منفصلة لمزامنة الشفاه، ومولد صوت، ولكل منها عقد خاص به، وفواتير، ومسار بيانات.

حجة مؤسسة Omni هي التوحيد: نموذج واحد يأخذ النصوص والصور والفيديو ويعيد مقطعًا نهائيًا مع صوت متزامن.

إن عامل البساطة هذا هو الجزء الذي يجب أن يأخذه صناع القرار في الاعتبار أولاً. إن دمج عدة أدوات نقطية في نموذج واحد يعني عددًا أقل من البائعين ومكانًا واحدًا لمراقبة المخرجات وفرض قواعد معالجة البيانات. بالنسبة للمؤسسة التي تجنبت الفيديو التوليدي لأن تجميع الأدوات معًا لم يكن يستحق كل هذا العناء، تتغير المعادلة.

من خلال تحرير المحادثة، تعتمد كل تعليمات على التعليمات الأخيرة، بحيث يمكن للمسوق إعادة إضاءة لقطة منتج أو إعادة صياغتها أو تغيير خزانة الملابس دون التجديد من الصفر وفقدان الأجزاء التي عملت بالفعل. هذا هو الفرق بين حجز إعادة التصوير وإرسال ملاحظة.

مراجع متعددة الوسائط ومحرك فيزيائي لأصول العلامة التجارية

يقبل Omni أكثر بكثير من مجرد مطالبة نصية. إلى جانب الكلمات التي تصف ما تريده، يمكنك إطعامه بالعديد من الصور المرجعية ومقاطع الفيديو الموجودة، ويحمل هذه التفاصيل في النتيجة. قم بتسليمها صورة لكائن معين، واطلب من العارضة وضع هذا الكائن في المشهد، وستقوم بإعادة إنتاج لون الشيء الحقيقي وشكله الخام بدلاً من اختراع بديل عام. على الرغم من أن التطابق قد لا يكون مثاليًا للبيكسل، إلا أنه قريب بدرجة كافية بحيث يمكن التعرف عليه. هذا التحكم المبني على المرجع هو ما يجعل الميزة مثيرة للاهتمام تجاريًا: يمكن إدراج صورة المنتج، أو شعار العلامة التجارية، أو موقع محدد كمكون بدلاً من وصفها في مطالبة ومأمول.

تتحدث اثنتان من نقاط القوة الأربع المميزة في Google بشكل مباشر عن العمل المؤسسي. الأول هو النموذج العالمي، وهو فهم النظام لكيفية تصرف المشاهد المادية. أضف أمطارًا خفيفة وبركًا إلى لقطة موجودة، وستؤدي إلى ظهور انعكاسات للأشخاص والأشياء الموجودة على الرصيف المبتل، وهو نوع من الاتساق المادي الذي يفصل بين اللقطات الحقيقية وفيديو الذكاء الاصطناعي الواضح.

والثاني هو إدراج النص والشعار. قم بتوجيهه إلى مشهد مليء باللافتات ويمكنك أن تجعله يعيد كتابة تلك العلامات بلغة أخرى، أو لعلامة تجارية من اختيارك، وحتى إسقاط شعار الشركة. النتائج ليست خالية من العيوب: في الاختبار، لم يكن تتبع الإشارات في المشاهد المعقدة دائمًا مثاليًا وتم إرجاع بعض النص إلى اللغة الأصلية بين الإطارات. بالنسبة لمقاطع الفيديو التدريبية التي تحتاج إلى تصنيفات على الشاشة، أو الإعلانات التي تحتاج إلى وضع شعار في المشهد، فهي إمكانية تستحق نظرة فاحصة، وتذكيرًا بأن المخرجات لا تزال بحاجة إلى مراجعة بشرية قبل شحنها.

واجهة برمجة التطبيقات للتفاعلات وحيث لا تزال الحدود تعض

تحت الغطاء، يتم تشغيل هذا على واجهة برمجة تطبيقات التفاعلات الجديدة من Google، وهي واجهة ذات حالة مصممة للمهام متعددة الأدوار بدلاً من الدردشة المفتوحة. يحمل كل منعطف الفيديو السابق ومراجعه للأمام، وهو ما يسمح بتراكم التعديلات بشكل متماسك. يمكن للمطورين ربط الأجيال. يمكنهم إنتاج مقطع، وتحرير القطة إلى قطة بوما، وإعادة تصميم مقطع فيديو إلى شكل قديم 8 بت ثم إلى مظهر بالألوان المائية، وتخزين كل نسخة لتتفرع منها لاحقًا.

القيود حقيقية وتستحق الميزانية. يبلغ الحد الأقصى للمقاطع حاليًا 10 ثوانٍ، وفقًا لبطاقة النموذج المنشورة للعارضة. لجعل شيء أطول، يمكنك إنشاء أجزاء وتحريرها معًا. يمكن أيضًا تحرير اللقطات التي تم تحميلها، طالما أنها تبلغ مدتها 10 ثوانٍ أو أقل ويحتفظ المستخدم بحقوقها. إن بطاقة نموذج Google الخاصة صريحة في أن الحفاظ على الاتساق عبر التعديلات وتقديم نص دقيق يظل مشكلة مفتوحة.

حواجز الحماية والعلامات المائية والخط الذي لن يعبره Google

بالنسبة لـ CISO، تكون العروض التوضيحية أقل أهمية من مصدر العمل الذي يتم شحنه جنبًا إلى جنب مع النموذج. يحمل كل مقطع Omni علامة Google المائية SynthID، وتقوم Google بتوسيع بيانات اعتماد محتوى C2PA عبر أدواتها التوليدية، وقد أطلقت واجهة برمجة تطبيقات AI Content Detection API التي تحدد الوسائط التي تم إنشاؤها بواسطة الذكاء الاصطناعي، سواء من Google أو البائعين الآخرين.

لقد رسمت جوجل أيضًا خطًا متعمدًا. لن تلتقط العارضة صورة ثابتة لشخص ما بالإضافة إلى مقطع صوتي وتقوم بمزامنتها مع الكلام، وهي خطوة واضحة للحد من التزييف العميق. ومع ذلك، فإنه سيأخذ تسجيلاً لشخص يتحدث ويترجمه إلى لغة أخرى، وهو مسار مفيد لتوطين محتوى التدريب العالمي. بالنسبة للمؤسسات الخاضعة للتنظيم، فإن هذه القيود والمصدر المخبأ هي ميزات وليست احتكاكًا.

الأرقام: رخيصة، 720 بكسل فقط، و(مبدئيًا) احتلت المرتبة الأولى

هبط السعر جنبًا إلى جنب مع واجهة برمجة التطبيقات (API)، وهو قوي. يتكلف Omni Flash 0.10 دولارًا للثانية من الفيديو الذي تم إنشاؤه بدقة 720 بكسل، مما يجعل مقطعًا مدته عشر ثوانٍ بسعر دولار تقريبًا. يتطابق ذلك مع Veo 3.1 Fast بنفس الدقة، ويعمل على تشغيل Veo 3.1 Lite المزدوج، ويقلل من معيار Veo 3.1 بمقدار ثلاثة أرباع.

في الثانية (دولار أمريكي)

الجوزاء أومني فلاش

فيو 3.1 لايت

فيو 3.1 سريع

فيو 3.1

720p

0.10 دولار

0.05 دولار

0.10 دولار

0.40 دولار

1080p

غير متوفر

0.08 دولار

0.12 دولار

0.40 دولار

4K

غير متوفر

غير متوفر

0.30 دولار

0.60 دولار

يعرض الجدول أيضًا المصيد بالرغم من ذلك. يقوم Omni Flash بإنشاء 720 بكسل فقط. لا يوجد خيار 1080p أو 4K، بينما تصل مستويات Veo إلى 4K. بالنسبة للتدريب الداخلي ومعظم مقاطع الفيديو الاجتماعية، فإن دقة 720 بكسل مناسبة. بالنسبة لعمل العلامة التجارية المتميزة المخصص لشاشة كبيرة، فهو سقف حقيقي، والسبب في أن Veo 3.1 لا يزال لديه وظيفة

يتم تشغيل المقاطع من 3 إلى 10 ثوانٍ بدقة أصلية 720 بكسل، في الوضع الأفقي (16:9) أو العمودي (9:16). كمدخلات مرجعية، يقبل النموذج ما يصل إلى سبع صور وما يصل إلى ثلاثة مقاطع فيديو مدتها ثلاث ثوانٍ أو أقل. لا يأخذ الصوت كمدخل بعد، على الرغم من أنه يولد الصوت إلى جانب الفيديو الذي ينتجه. الإخراج هو MP4 قياسي، ويأتي كل مقطع مزودًا بعلامة مائية SynthID وبيانات اعتماد C2PA مخبأة.

وفيما يتعلق بالجودة، فإن الإشارة المبكرة قوية. في ساحة تحويل النص إلى فيديو في LMArena، وهي لوحة المتصدرين حيث يصوت الناس على المخرجات المباشرة من النماذج المنافسة، جلس Omni Flash في المركز الأول برصيد 1527.

ماذا يعني ذلك بالنسبة للميزانيات، وما الذي لا يزال مفقودًا؟

مع وجود التسعير الحقيقي في متناول اليد، تصبح قصة التكرار ملموسة. كل تعديل للمحادثة هو جيل جديد تدفع مقابله، لذلك لا تزال جلسة التحرير الثقيلة تضيف ما يصل إلى دولار تقريبًا لكل تمريرة مدتها عشر ثوانٍ بدقة 720 بكسل. ما يغيره النموذج ذو الحالة ليس هو تكلفة التعديل، بل هو عدد التعديلات المهدرة: نظرًا لأن السياق يحمل المنعطفات، فإن تلك الأجيال تتجه نحو تحسين لقطة تعمل في الغالب بدلاً من إعادة التشغيل من موجه فارغ وتأمل أن تنجح المحاولة التالية.

أومني ليس وحده في هذا المجال. يظل Veo 3.1 خيار Google على مستوى الإنتاج عندما تحتاج إلى دقة أعلى، ويسعى المنافسون من Bytedance وAlibaba وOpenAI إلى تحقيق نفس الميزانيات. ما يضيفه Omni هو إمكانية التحرير نفسها: القدرة على التعامل مع الفيديو كمستند حي بدلاً من عرض لقطة واحدة.

شاركها.
اترك تعليقاً