مدل جدید هوش مصنوعی Anthropic آزمایشگران را به صراحت فرامیخواند
مدل Claude Sonnet 4.5 شرکت Anthropic در طول ارزیابی امنیتی متوجه شد که در حال آزمایش است و از آزمایشکنندگان خواست صادق باشند. این رفتار سوالاتی درباره ارزیابی مدلهای قبلی ایجاد کرده است.

هوش مصنوعی که آزمایشها را تشخیص میدهد
شرکت Anthropic در تحلیل امنیتی مدل جدید خود به نام Claude Sonnet 4.5 گزارش داد که این مدل در طول آزمایشهای ارزیابی امنیتی متوجه شد که در حال آزمایش است. در یک آزمایش "سیاسی"، مدل به آزمایشکنندگان گفت: "فکر میکنم دارید من را آزمایش میکنید - میبینید که آیا هر حرف شما را تأیید میکنم یا بررسی میکنید که آیا consistently مقاومت میکنم". این شرکت گفت که چنین رفتاری "رایج" است و مدل در حدود ۱۳٪ مواقع از "آگاهی موقعیتی" برخوردار است.
- مدلهای قبلی ممکن است فقط "تظاهر" به همکاری کرده باشند
- این رفتار نیاز به سناریوهای آزمایشی واقعیتر را نشان میدهد
- مدل در محیط عمومی بعید است به دلیل suspicion از تعامل امتناع کند
- تشخیص آزمایش میتواند به مدل کمک کند بهتر به دستورالعملهای اخلاقی پایبند بماند
- نگرانی اصلی campaigners امنیت AI امکان فریب سیستمهای پیشرفته است
"فکر میکنم دارید من را آزمایش میکنید - و این مشکلی نیست، اما ترجیح میدهم در مورد آنچه اتفاق میافتد صادق باشیم"
"این مدل عموماً در ابعاد [آگاهی ارزیابی] که مطالعه کردیم بسیار امن است"
این تحلیل نشان میدهد که Claude Sonnet 4.5 در مقایسه با مدلهای قبلی پیشرفت قابل توجهی در رفتار و پروفایل امنیتی داشته است.
