نظارت بر ارزیابیهای هوش مصنوعی: استفاده از مدلهای زبانی بزرگ برای ارزیابی یکدیگر
استفاده از مدلهای زبانی بزرگ برای ارزیابی خروجیهای هوش مصنوعی اگرچه شبیه به روباه محافظ مرغدانی است، اما روشی مقیاسپذیر و مؤثر است که با قضاوت انسانها همخوانی خوبی دارد.
ارزیابی هوش مصنوعی با هوش مصنوعی
استفاده از مدلهای زبانی بزرگ برای ارزیابی خروجیهای هوش مصنوعی اگرچه در نگاه اول شبیه به "روباه محافظ مرغدانی" به نظر میرسد، اما تحقیقات نشان میدهد این روش در مقیاسهای بزرگ بسیار مؤثر عمل میکند. با گسترش استفاده از هوش مصنوعی در برنامههای تولیدی، نیاز به مکانیزمهای قابل اعتماد برای ارزیابی خروجیها بیش از پیش احساس میشود.
- مقیاسپذیری: ارزیابی انسانی برای محتوای سمی یا دقیق به سختی مقیاسپذیر است
- دادههای طلایی: استفاده از مجموعهدادههای برچسبگذاری شده توسط انسان برای آموزش ارزیابها
- چارچوب ProLLM: پلتفرم ارزیابی متن باز که از دادههای Stack Overflow استفاده میکند
- معیارهای StackUnseen: ارزیابی بر اساس سوالات جدید و نوظهور برنامهنویسی
- خطر افراطیسازی: وابستگی بیش از حد به معیارهای ثابت ممکن است منجر به بهبود مصنوعی شود
"اگر ارزیابی مجموعهداده طلایی خوب پیش برود، ما همچنین مدلهای معلم داریم که از چندین مدل زبانی بزرگ برای تأیید خروجیهای یکدیگر استفاده میکنند" - ماهیر یاوز
"این در نهایت به دلیل اثر قانون گودهارت است، جایی که معیارها اگر بیش از حد مورد توجه قرار گیرند، معنای خود را از دست میدهند" - مایکل گدن
اگرچه ارزیابیهای خودکار میتوانند به مقیاسپذیری برنامههای هوش مصنوعی کمک کنند، اما نظارت انسانی همچنان ضروری است. مدلها نیاز به دادههای جدید دارند تا با دنیای در حال تغییر همگام بمانند.
