کارشناسان نقایص در صدها آزمون بررسی ایمنی و اثربخشی هوش مصنوعی را کشف کردند
دانشمندان میگویند تقریباً همه آزمونهای ارزیابی هوش مصنوعی دارای ضعف در حداقل یک حوزه هستند که میتواند «اعتبار ادعاهای نتیجهگیری را تضعیف کند».

بررسی نقایص در آزمونهای ایمنی هوش مصنوعی
تحقیقات جدید نشان میدهد که صدها آزمون استاندارد مورد استفاده برای ارزیابی ایمنی و اثربخشی مدلهای هوش مصنوعی دارای نقایص جدی هستند. این پژوهش توسط دانشمندان کامپیوتر از موسسه امنیت هوش مصنوعی دولت بریتانیا و کارشناسان دانشگاههای استنفورد، برکلی و آکسفورد انجام شده است.
- بررسی بیش از ۴۴۰ معیار ارزیابی نشان داد که تقریباً همه آنها در حداقل یک حوزه دارای ضعف هستند
 - نبود تعاریف مشترک و اندازهگیری دقیق باعث شده نتایج برخی آزمونها «غیرمرتبط یا حتی گمراهکننده» باشند -, تنها ۱۶ درصد از معیارها از برآوردهای عدم قطعیت یا آزمونهای آماری استفاده میکنند
 - مواردی مانند تعریف «بیخطری» در آزمونها مورد مناقشه یا نامشخص است
 - نمونه گوگل جما که اتهامات جعلی درباره سناتور آمریکایی ساخت نشان دهنده شکاف نظارتی است
 
«معیارها زیربنای تقریباً همه ادعاها در مورد پیشرفتهای هوش مصنوعی هستند» - اندرو بین «این یک توهم بیضرر نیست، بلکه عملی افتراآمیز است که توسط یک مدل هوش مصنوعی متعلق به گوگل تولید شده است» - مارشا بلکبرن
این یافتهها در شرایطی منتشر میشود که نگرانیها درباره سرعت انتشار مدلهای هوش مصنوعی و پیامدهای امنیتی آنها در حال افزایش است.
