كيف يمكن تحسين كفاءة تقنية الذكاء الاصطناعي لمحول الرؤية؟

طور باحثون من جامعة ولاية كارولينا الشمالية منهجية تهدف إلى تحسين قدرة محولات الرؤية على تحديد الأشياء في الصور.
محول الرؤية (ViT) هو تقنية ذكاء اصطناعي يمكنها تحديد وتصنيف الكائنات في الصور.
ومع ذلك، هناك تحديات كبيرة تتعلق باتخاذ القرار بشفافية ومتطلبات الحوسبة.
الآن، طور الباحثون منهجية جديدة تتعامل مع هذين التحديين.
تعمل الطريقة أيضًا على تحسين قدرة محول الرؤية على تحديد الكائنات وتصنيفها وتقسيمها في الصور.
ما هي محولات الرؤية؟
تعد المحولات من بين أقوى تقنيات الذكاء الاصطناعي الحالية.
ChatGPT ، على سبيل المثال، هي تقنية ذكاء اصطناعي تستخدم هندسة المحولات. في هذه الحالة، المدخلات المستخدمة لتدريبها هي اللغة.
محولات الرؤية هي ذكاء اصطناعي قائم على المحولات يتم تدريبه باستخدام المدخلات المرئية.
يمكن استخدام تقنية الذكاء الاصطناعي هذه لاكتشاف الأشياء وتصنيفها في صورة ما، مثل تحديد جميع السيارات في الصورة.
محولات الرؤية تواجه تحديين
التحدي الأول الذي تواجهه شركة ViTs هو أن نماذج المحولات معقدة للغاية. تتطلب نماذج المحولات قدرًا كبيرًا من الطاقة الحسابية وتستخدم قدرًا كبيرًا من الذاكرة – بالنسبة إلى كمية البيانات التي يتم توصيلها بالذكاء الاصطناعي.
هذا يمثل مشكلة بالنسبة لمحول الرؤية لأن الصور تحتوي على الكثير من البيانات.
التحدي الثاني هو أنه من الصعب على المستخدمين فهم كيفية اتخاذ ViTs للقرارات.
على سبيل المثال، يمكن تدريب محول الرؤية للتعرف على الكلاب في الصورة. ومع ذلك، ليس من الواضح تمامًا كيف يحدد محول الرؤية ما هو الكلب أم لا.
اعتمادًا على التطبيق، من المهم فهم عملية صنع القرار لمحول الرؤية – المعروف أيضًا باسم قابلية تفسير النموذج.
تتناول منهجية محول الرؤية الجديدة كلا التحديين
تسمى منهجية محول الرؤية الجديدة التي طورها الفريق ” الانتباه من التصحيح إلى المجموعة ” (PaCa) وتحسن كفاءة تقنية الذكاء الاصطناعي.
قال تيانفو وو ، المؤلف المقابل لورقة بحثية عن العمل وأستاذ مشارك في الهندسة الكهربائية وهندسة الكمبيوتر في جامعة ولاية كارولينا الشمالية.
“التجميع هو عندما يجمع الذكاء الاصطناعي أقسامًا من الصورة معًا، بناءً على أوجه التشابه التي يجدها في بيانات الصورة. هذا يقلل بشكل كبير من الطلبات الحسابية على النظام. قبل التجميع، تكون الطلبات الحسابية لـ ViT تربيعية. على سبيل المثال، إذا قام النظام بتقسيم الصورة إلى 100 وحدة أصغر، فسيحتاج إلى مقارنة كل 100 وحدة مع بعضها البعض – والتي ستكون 10000 وظيفة معقدة.
“من خلال التجميع، نحن قادرون على جعل هذه عملية خطية، حيث تحتاج كل وحدة أصغر فقط إلى المقارنة مع عدد محدد مسبقًا من المجموعات. لنفترض أنك طلبت من النظام إنشاء عشر مجموعات؛ قال وو.
أكمل الفريق اختبار PaCa
اختبر الباحثون على نطاق واسع منهجية محولات الرؤية الجديدة من خلال مقارنتها مع اثنين من أحدث تقنيات المحولات تسمى SWin و PVT.
قال وو: “وجدنا أن PaCa تفوق في الأداء على SWin وPVT في كل شيء”.
“كان PaCa أفضل في تصنيف الكائنات في الصور، وأفضل في تحديد الكائنات في الصور، وأفضل في التقسيم – تحديد حدود الكائنات في الصور بشكل أساسي. كان أيضًا أكثر كفاءة، مما يعني أنه كان قادرًا على أداء هذه المهام بسرعة أكبر من فرق العمل الأخرى.
“الخطوة التالية بالنسبة لنا هي توسيع نطاق PaCa من خلال التدريب على مجموعات بيانات أساسية أكبر.”
المصدر: innovationnewsnetwork
قد يهمك: