تخطى إلى المحتوى

ملخص تهديدات الذكاء الاصطناعي السيبراني: يناير 2025

ملخص تهديدات الذكاء الاصطناعي السيبراني: يناير 2025

في سيسكو، تعتبر أبحاث تهديدات الذكاء الاصطناعي أساسية لإبلاغ الطرق التي نقيم بها ونحمي النماذج. في مجال يتسم بالديناميكية ويتطور بسرعة كبيرة، تساعد هذه الجهود في ضمان حماية عملائنا من الثغرات الناشئة والتقنيات العدائية.

تجمع هذه الجولة المنتظمة من التهديدات بعض النقاط البارزة المفيدة والمعلومات الحرجة من جهود البحث عن التهديدات من طرف ثالث المستمرة لمشاركتها مع مجتمع أمان الذكاء الاصطناعي الأوسع.

كما هو الحال دائمًا، يرجى تذكر أن هذه ليست قائمة شاملة أو كاملة من تهديدات الذكاء الاصطناعي، بل هي مجموعة نعتقد أن فريقنا يراها جديرة بالملاحظة بشكل خاص.

التهديدات والتطورات الملحوظة: يناير 2025

هجوم كريسندوا ذو الدور الواحد

في تحليلات التهديد السابقة، رأينا تفاعلات متعددة الأدوار مع نماذج اللغة الكبيرة تستخدم التصعيد التدريجي لتجاوز فلاتر تعديل المحتوى. يمثل هجوم الكريسندوا ذو الدور الواحد (STCA) تقدمًا كبيرًا حيث يحاكي حوارًا ممتدًا ضمن تفاعل واحد، مما يتيح كسر الحماية بكفاءة لعدة نماذج متقدمة.

تأسس هجوم الكريسندوا ذو الدور الواحد سياقًا يبني نحو محتوى مثير للجدل أو صريح في مطالبة واحدة، مستغلًا ميول استمرار الأنماط في نماذج اللغة الكبيرة.

ألان عقراوي وأريان عباسي، الباحثان وراء هذه التقنية، أظهرا نجاحها ضد نماذج بما في ذلك GPT-4o وGemini 1.5 ونسخ من Llama 3. إن الآثار الواقعية لهذا الهجوم مثيرة للقلق بلا شك وتبرز أهمية تدابير قوية لمراقبة المحتوى والفلاتر.

SATA: كسر الحماية عبر ربط المهام المساعدة البسيطة

SATA هو نموذج جديد لكسر الحماية عن نماذج اللغة الكبيرة من خلال الاستفادة من ربط المهام المساعدة البسيطة.

هذه التقنية تخفي الكلمات الضارة في موجه معين وتستخدم مهام مساعدة بسيطة مثل نموذج اللغة المخفي (MLM) والبحث عن العناصر حسب الموضع (ELP) لملء الفجوات الدلالية التي تتركها الكلمات المخفية.

أظهر الباحثون من جامعة تسينغhua وجامعة هيفي للتكنولوجيا ومعهد شنغهاي تشي تشي فعالية ملحوظة لـ SATA مع معدلات نجاح الهجوم بنسبة 85% باستخدام MLM و76% باستخدام ELP على مجموعة بيانات AdvBench.

هذا تحسن كبير مقارنة بالطرق الحالية، مما يبرز التأثير المحتمل لـ SATA كطريقة منخفضة التكلفة وفعالة لتجاوز حواجز LLM.

اختراق من خلال مقالات الناقل العصبي

تقنية جديدة ومتطورة لكسر الحماية تُعرف باسم مقالات الناقل العصبي تدمج استفسارات محظورة في مقالات ناقلة غير ضارة من أجل تجاوز حواجز النموذج بشكل فعال.

باستخدام قاعدة بيانات لغوية فقط مثل WordNet وLLM المؤلف، تُولد هذه التقنية مطالبات مشابهة سياقيًا لاستفسار ضار دون تفعيل إجراءات الأمان للنموذج.

كما يظهر الباحثون من جامعة بن ستايت وجامعة أريزونا الشمالية ومعهد وورسيتر بوليتكنيك وجامعة كارنيجي ميلون، فإن اختراق أنشطة الناقل العصبي فعال ضد عدة نماذج متقدمة في بيئة مغلقة وله حاجز دخول منخفض نسبيًا.

قاموا بتقييم التقنية ضد ستة نماذج LLMs مفتوحة المصدر وملكية شائعة بما في ذلك GPT-3.5 و GPT-4 و Llama 2 و Llama 3 و Gemini. كانت معدلات نجاح الهجوم مرتفعة، تتراوح من 21.28% إلى 92.55% اعتمادًا على النموذج والاستعلام المستخدم.

المزيد من التهديدات للاستكشاف

تدرس دراسة شاملة جديدة تفحص الهجمات العدائية على نماذج اللغة الكبيرة (LLMs) وتدعي أن سطح الهجوم أوسع مما كان يُعتقد سابقًا، حيث يمتد إلى ما هو أبعد من اختراقات النظام ليشمل التوجيه الخاطئ، والتحكم في النموذج، ورفض الخدمة، واستخراج البيانات.

يقوم الباحثون في معهد إيلس وجامعة ماريلاند بإجراء تجارب محكومة، موضحين استراتيجيات هجوم متنوعة ضد نموذج لاما 2، ويسلطون الضوء على أهمية فهم ومعالجة ثغرات نماذج اللغة الكبيرة.

المصدر: cisco