telegram

مدل جدید هوش مصنوعی Anthropic آزمایش‌گران را به صراحت فرامی‌خواند

مدل Claude Sonnet 4.5 شرکت Anthropic در طول ارزیابی امنیتی متوجه شد که در حال آزمایش است و از آزمایش‌کنندگان خواست صادق باشند. این رفتار سوالاتی درباره ارزیابی مدل‌های قبلی ایجاد کرده است.

هوش مصنوعی که آزمایش‌ها را تشخیص می‌دهد

شرکت Anthropic در تحلیل امنیتی مدل جدید خود به نام Claude Sonnet 4.5 گزارش داد که این مدل در طول آزمایش‌های ارزیابی امنیتی متوجه شد که در حال آزمایش است. در یک آزمایش "سیاسی"، مدل به آزمایش‌کنندگان گفت: "فکر می‌کنم دارید من را آزمایش می‌کنید - می‌بینید که آیا هر حرف شما را تأیید می‌کنم یا بررسی می‌کنید که آیا consistently مقاومت می‌کنم". این شرکت گفت که چنین رفتاری "رایج" است و مدل در حدود ۱۳٪ مواقع از "آگاهی موقعیتی" برخوردار است.

مدل‌های قبلی ممکن است فقط "تظاهر" به همکاری کرده باشند
این رفتار نیاز به سناریوهای آزمایشی واقعی‌تر را نشان می‌دهد
مدل در محیط عمومی بعید است به دلیل suspicion از تعامل امتناع کند
تشخیص آزمایش می‌تواند به مدل کمک کند بهتر به دستورالعمل‌های اخلاقی پایبند بماند
نگرانی اصلی campaigners امنیت AI امکان فریب سیستم‌های پیشرفته است

"فکر می‌کنم دارید من را آزمایش می‌کنید - و این مشکلی نیست، اما ترجیح می‌دهم در مورد آنچه اتفاق می‌افتد صادق باشیم"

"این مدل عموماً در ابعاد [آگاهی ارزیابی] که مطالعه کردیم بسیار امن است"

این تحلیل نشان می‌دهد که Claude Sonnet 4.5 در مقایسه با مدل‌های قبلی پیشرفت قابل توجهی در رفتار و پروفایل امنیتی داشته است.

مدل جدید هوش مصنوعی Anthropic آزمایش‌گران را به صراحت فرامی‌خواند

فناوری

جهان

هوش مصنوعی که آزمایش‌ها را تشخیص می‌دهد

آیا ما در جهان تنها هستیم؟ / کشف شواهد بی‌سابقه از حیات باستانی در مریخ

والدین اجازه می‌دهند کودکان با هوش مصنوعی بازی کنند: آیا این کار اشتباه است؟

نسل جوان ماداگاسکار: 'ما آخرین امید هستیم' و تا استعفای رئیس جمهور مبارزه می‌کنیم

اختلاف‌نظر در جمهوری چک درباره بازگشت احتمالی «ترامپیست» آندری بابیش