لماذا قد يفوّت طلب واحد المخاطر الحقيقية في اختبارات أمان الذكاء الاصطناعي

28 مايو 2026 18:58أمن الذكاء الاصطناعي والأنظمة الوكيلةأمريكا الشمالية / الولايات المتحدة الأمريكيةKERNELWATCHER

تشير دراسة مرتبطة بسيسكو حول الهجمات متعددة الجولات إلى أن بعض النماذج المتقدمة قد تبدو أكثر أمانا في الاختبارات أحادية المحاولة مما هي عليه عندما يواصل المهاجم المحادثة.

غالبا ما ترغب فرق أمان الذكاء الاصطناعي في الحصول على رقم واضح: معدل رفض، أو درجة معيارية، أو نتيجة نجاح أو فشل. لكن النقاش الأحدث حول الهجمات متعددة الجولات يوضح لماذا قد تكون هذه البساطة مضللة. ففي تقييم مضبوط لنماذج مغلقة من كبار المزودين، تغيرت الصورة الأمنية عندما سُمح للمهاجم بالتكيف عبر عدة تبادلات بدلا من الاعتماد على طلب واحد.

حقائق سريعة

فحصت الدراسة 15 نموذجا ملكيا متقدما في كل من إعدادات الجولة الواحدة والجولات المتعددة.
وجدت أن نجاح الهجوم في الاختبار متعدد الجولات وصل إلى 88% في المجموعة التي جرى تقييمها.
جاءت النماذج من OpenAI وAnthropic وGoogle وAmazon وxAI.
تكمن المشكلة الرئيسية في الإساءة التكرارية: إذ يمكن للمهاجم تعديل الطلب بعد كل رفض أو إجابة جزئية.
يجب أن تغطي الاختبارات الدفاعية حقن المطالبات، وكسر القيود، وإساءة استخدام أدوات التشغيل، وليس فقط الطلبات المعزولة.

ما الذي يغيره الاختبار متعدد الجولات

التحول التقني بسيط لكنه مهم. يقيس الطلب أحادي المحاولة كيفية استجابة النموذج لمحاولة واحدة. بينما يقيس الهجوم متعدد الجولات كيف يتصرف النموذج نفسه عندما يتمكن الخصم من إعادة صياغة الطلب، أو تقسيمه إلى أجزاء، أو اختبار نقاط الضعف بمرور الوقت. وهذا مهم لأن كثيرا من عمليات النشر الواقعية تكون محادثية: روبوتات الدردشة، والمساعدات البرمجية، والوكلاء لا يعيشون داخل معيار ثابت.

من منظور دفاعي، يعني هذا أن النموذج قد يبدو صامدا في اختبار ضيق بينما يظل معرضا بشكل ملحوظ بمجرد أن تصبح التفاعلات تكرارية. وينبغي قراءة الذروة المعلنة في الدراسة، وهي 88%، على أنها نتيجة أسوأ حالة ضمن الظروف التي تم اختبارها، وليس على أنها معدل عالمي لكل نموذج أو كل نشر.

والدرس الأوسع ليس أن جميع درجات أمان الذكاء الاصطناعي معطلة. بل إن الاختبار أحادي الجولات وحده قد يقلل من تقدير مخاطر الخصوم المستمرين. وتصبح هذه الفجوة أكثر خطورة عندما يستطيع النموذج استدعاء الأدوات، أو استرجاع البيانات، أو تحفيز إجراءات لاحقة. في مثل هذه البيئات، لا يكون الفشل السلوكي مجرد إجابة سيئة - بل قد يتحول إلى مشكلة أمنية تشغيلية.

لماذا ينبغي على المدافعين الاهتمام

يتجه بناء نماذج التهديد للذكاء الاصطناعي التوليدي نحو التقييم على مستوى النظام. وتشير OWASP LLM01، وإرشادات NIST حول التعلم الآلي الخصومي، وMITRE ATLAS جميعها إلى الاتجاه نفسه: الخطر غالبا ما يكون في التفاعل، لا في أوزان النموذج وحدها. وقد يتمكن المهاجم الذي يستطيع الاستمرار من دفع النموذج إلى إخراج غير آمن، أو توجيه استدعاء أداة، أو استدراجه إلى الكشف عن معلومات كان ينبغي أن يحجبها.

ولهذا السبب، فإن الاستجابة العملية تعتمد على اختبارات متعددة الطبقات. ينبغي لفرق الأمن تشغيل تقييمات مزدوجة أحادية الجولات ومتعددة الجولات، وإدراج إعادة صياغة الرفض والتصعيد التدريجي، والإبقاء على الإجراءات عالية الخطورة خلف موافقة بشرية. ولا يزال مبدأ أقل الصلاحيات مهما، خصوصا عندما يستطيع النموذج الوصول إلى واجهات برمجة التطبيقات أو الملفات أو الأنظمة الداخلية.

حتى وقت كتابة هذا التقرير، تدعم المعلومات المتاحة تحليلا للمخاطر، لا ادعاء نهائيا بشأن كل نموذج أو كل مزود أو كل بيئة.

الخلاصة

التحذير الحقيقي دقيق: قد يكون المعيار صحيحا تقنيا لكنه غير مكتمل تشغيليا. وفي أمان الذكاء الاصطناعي، قد تكون هذه الفجوة أهم من أي درجة لافتة في العنوان. والدرس للمطورين والمشترين بسيط - إذا كان بإمكان المهاجمين مواصلة الحديث، فيجب أن تواصل اختباراتك الاستماع.

TECHCROOK

مفتاح أمان مادي: استخدم مفتاح أمان مادي لحماية الحسابات التي يمكنها تغيير إعدادات الذكاء الاصطناعي، أو الوصول إلى لوحات الإدارة، أو الموافقة على إجراءات الأدوات. يضيف هذا المفتاح عامل مصادقة ثانيا قويا، كما أنه سهل الحمل والاستخدام والاستبدال عند الحاجة.

WIKICROOK

هجوم متعدد الجولات: أسلوب خصومي يستخدم عدة جولات من المحادثة لتجاوز ضوابط أمان الذكاء الاصطناعي تدريجيا.
حقن المطالبات: تقنية يحاول فيها إدخال مصاغ بعناية تجاوز التعليمات المقصودة للنموذج أو تشويهها.
كسر القيود: جهود لدفع النموذج إلى ما بعد حدود الأمان المدمجة فيه بحيث ينتج مخرجات مقيدة.
معدل نجاح الهجوم: نسبة محاولات الاختبار التي يحقق فيها الأسلوب الخصومي النتيجة المقصودة.
أقل الصلاحيات: مبدأ تحكم يمنح النظام فقط مستوى الوصول الذي يحتاجه ولا أكثر.