گوگل مدل Gemini 2.5 Computer Use را با قابلیت کنترل مرورگر معرفی کرد
گوگل از مدل هوش مصنوعی جدیدی به نام Gemini 2.5 Computer Use رونمایی کرد که میتواند مانند انسان با وبسایتها کار کند و با کلیک، اسکرول و تایپ با رابط کاربری گرافیکی تعامل داشته باشد.

معرفی Gemini 2.5 Computer Use گوگل
گوگل از مدل هوش مصنوعی جدیدی به نام Gemini 2.5 Computer Use رونمایی کرده است که قادر است مانند یک انسان با وبسایتها و رابطهای کاربری گرافیکی تعامل داشته باشد. این مدل با دریافت اسکرینشات از صفحه مرورگر و درخواست کاربر، صفحه را تحلیل کرده و اقدامات مناسب مانند کلیک، تایپ یا اسکرول را انجام میدهد. برخلاف مدلهای سنتی که به API نیاز دارند، این هوش مصنوعی مستقیماً رابط کاربری گرافیکی را درک میکند.
- پشتیبانی از ۱۳ اقدام اصلی شامل بازکردن مرورگر، تایپ، کلیک و Drag and drop
- توانایی خودکارسازی کارهای پیچیده در مرورگر
- عملکرد بهتر در بنچمارکهای کنترل وب نسبت به رقبا
- درحالحاضر فقط برای مرورگرها بهینهسازی شده است
- پاسخ مستقیم گوگل به قابلیتهای مشابه OpenAI و Anthropic
“این مدل میتواند وظایف پیچیدهای مانند پیدا کردن اطلاعات حیوانات خانگی و وارد کردن آنها در سیستم CRM را انجام دهد.”
“Gemini 2.5 Computer Use از امروز به صورت پیشنمایش برای توسعهدهندگان در Google AI Studio و Vertex AI доступ است.”
این رونمایی تنها یک روز پس از رویداد OpenAI انجام شده که نشاندهنده شدت رقابت در حوزه هوش مصنوعی است.
