تحدد Meta أحدث التطورات في التعرف على الصور
تعمل Meta نحو المرحلة التالية من الذكاء الاصطناعي التوليدي، والتي يمكن أن تمكن في النهاية من إنشاء بيئات VR غامرة عبر توجيهات ومطالبات بسيطة.
أحدث تطور لها على هذا الصعيد هو نموذج التعرف على الصور DINO المحدث، والذي أصبح الآن قادرًا على تحديد الكائنات الفردية بشكل أفضل داخل إطارات الصور والفيديو، بناءً على التعلم تحت الإشراف الذاتي، بدلاً من طلب التعليقات التوضيحية البشرية لكل عنصر.
كما ترى في هذا المثال، DINOv2 قادر على فهم سياق المدخلات المرئية، وفصل العناصر الفردية، مما سيمكّن Meta بشكل أفضل من بناء نماذج جديدة لديها فهم متقدم ليس فقط لما قد يبدو عليه العنصر، ولكن أيضًا حيث يجب وضعها ضمن الإعداد.
نشرت Meta الإصدار الأول من نظام DINO الخاص بها في عام 2021، والذي كان بمثابة تقدم كبير فيما يمكن تحقيقه من خلال التعرف على الصور. الإصدار الجديد يبني على هذا، ويمكن أن يحتوي على مجموعة من حالات الاستخدام المحتملة.
كما أوضح ميتا :
″في السنوات الأخيرة، كان التدريب المسبق على الصورة النصية هو النهج القياسي للعديد من مهام رؤية الكمبيوتر. ولكن نظرًا لأن الطريقة تعتمد على التعليقات المكتوبة بخط اليد لمعرفة المحتوى الدلالي للصورة، فإنها تتجاهل المعلومات المهمة التي لا يتم ذكرها صراحةً في أوصاف النص تلك عادةً. على سبيل المثال، قد يُكتب تعليقًا لصورة كرسي في غرفة أرجوانية شاسعة” كرسي بلوط واحد”. ومع ذلك، يفتقد التعليق إلى معلومات مهمة حول الخلفية، مثل مكان الكرسي مكانيًا في الغرفة البنفسجية”.
DINOv2 قادر على البناء في المزيد من هذا السياق، دون الحاجة إلى تدخل يدوي، والذي يمكن أن يكون له قيمة محددة لتطوير VR.
يمكن أن يسهل أيضًا العناصر التي يمكن الوصول إليها بشكل أسرع، مثل الخلفيات الرقمية المحسنة في محادثات الفيديو، أو وضع علامات على المنتجات داخل محتوى الفيديو. يمكنه أيضًا تمكين جميع الأنواع الجديدة من AR والأدوات المرئية التي يمكن أن تؤدي إلى وظائف Facebook أكثر غامرة.
″ للمضي قدمًا، يخطط الفريق لدمج هذا النموذج، الذي يمكن أن يعمل بمثابة لبنة، في نظام ذكاء اصطناعي أكبر وأكثر تعقيدًا يمكن أن يتفاعل مع نماذج اللغة الكبيرة. سيتيح العمود الفقري المرئي الذي يوفر معلومات غنية عن الصور لأنظمة الذكاء الاصطناعي المعقدة التفكير في الصور بطريقة أعمق من وصفها بجملة نصية واحدة. يتم تقييد النماذج المدربة على الإشراف النصي في نهاية المطاف من خلال التسميات التوضيحية للصور. مع DINOv2، لا يوجد مثل هذا القيد المدمج. ″
هذا، كما لوحظ، يمكن أيضًا أن يمكّن من تطوير عوالم VR التي تم إنشاؤها بواسطة الذكاء الاصطناعي، حتى تتمكن في النهاية من التحدث عن بيئات افتراضية تفاعلية كاملة إلى الوجود.
هذا بعيد المنال، وميتا مترددة في الإشارة إلى العديد من الإشارات إلى metaverse في هذه المرحلة. ولكن هذا هو المكان الذي يمكن أن تأتي فيه هذه التكنولوجيا حقًا بمفردها، عبر أنظمة الذكاء الاصطناعي التي يمكنها فهم المزيد حول ما هو موجود في المشهد، وأين، من حيث السياق، يجب وضع الأشياء.
DINOv2 هي خطوة أخرى في هذا الاتجاه – وبينما تهدأ الكثيرون من احتمالات رؤية Meta metaverse، لا يزال من الممكن أن تصبح الشيء الكبير التالي، بمجرد استعداد Meta لمشاركة المزيد من رؤيتها من المستوى التالي.
من المحتمل أن يكون أكثر حذراً، بالنظر إلى التغطية السلبية التي شهدتها Meta حتى الآن. لكنه قادم، لذلك لا تتفاجأ عندما فازت Meta في النهاية بسباق الذكاء الاصطناعي بتجربة جديدة تمامًا ومختلفة تمامًا.
يمكنك قراءة المزيد عن DINOv2 هنا.
المصدر: socialmediatoday
شاهد المزيد: