محققان: تنها 250 سند مخرب میتواند مدلهای زبانی بزرگ را در برابر بکدورها آسیبپذیر کند
طبق گزارش انتروپیک، حملهکنندگان میتوانند با تنها 250 سند مخرب در دادههای پیشآموزش، مدلهای زبانی بزرگ را مسموم کنند. این یافته نشان میدهد حملات مسمومیت دادهها عملیتر از تصور قبلی هستند.
آسیبپذیری مدلهای زبانی بزرگ در برابر حملات مسمومیت
طبق گزارش جدید انتروپیک، محققان دریافتند که تنها با استفاده از 250 سند مخرب در دادههای پیشآموزش میتوان مدلهای زبانی بزرگ را مسموم کرد. این مطالعه نشان میدهد که تعداد نسبتاً ثابت و کوچکی از اسناد مخرب میتواند بدون در نظر گرفتن اندازه مدل یا حجم دادههای آموزشی، منجر به آسیبپذیری بکدور شود. این یافتهها حاکی از آن است که حملات مسمومیت دادهها ممکن است عملیتر از آنچه قبلاً تصور میشد باشند.
- حمله مسمومیت: نوعی حمله که در آن مدل بر روی محتوای مخرب پیشآموزش داده میشود
- تعداد کم اسناد: تنها 250 سند مخرب برای مدلهای 600 میلیون تا 13 میلیارد پارامتری کافی است
- همکاری بینالمللی: انتروپیک با موسسه امنیت هوش مصنوعی بریتانیا و موسسه آلن تورینگ همکاری کرده است
- اهداف تحقیقاتی: افزایش آگاهی درباره عملی بودن حملات و تشویق تحقیقات بیشتر برای دفاع
- پیامدهای امنیتی: نیاز به توسعه مکانیزمهای دفاعی قویتر در فرآیند آموزش مدلها
"ما این یافتهها را به اشتراک میگذاریم تا نشان دهیم حملات مسمومیت دادهها ممکن است عملیتر از باورهای قبلی باشند" - انتروپیک
"تشویق تحقیقات بیشتر درباره مسمومیت دادهها و دفاعهای بالقوه در برابر آن" - هدف اصلی مطالعه
این تحقیق بر اهمیت توجه به امنیت دادههای آموزشی در توسعه مدلهای هوش مصنوعی تاکید میکند.
