telegram

مدل زبانی جدید اپل با سرعت ۱۲۸ برابری در تولید متون طولانی

اپل مدل زبان جدیدی مبتنی بر معماری Diffusion معرفی کرده که می‌تواند متن‌های بلند را با سرعت ۱۲۸ برابر سریع‌تر از مدل‌های مشابه تولید کند. این مدل با نام FS-DFM تنها در ۸ مرحله به کیفیت مطلوب می‌رسد.

مدل زبانی جدید اپل با سرعت فوق‌العاده

اپل در مطالعه جدیدی با عنوان «FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models» مدل زبانی مبتنی بر معماری Diffusion معرفی کرده که می‌تواند متن‌های بلند را با سرعتی ۱۲۸ برابر سریع‌تر از مدل‌های مشابه تولید کند. این مدل که Few-Step Discrete Flow-Matching (FS-DFM) نام دارد، تنها با هشت مرحله اصلاح به کیفیت مطلوب می‌رسد، درحالی که مدل‌های Diffusion معمولی به بیش از هزار مرحله نیاز دارند.

مدل‌های Autoregressive مانند ChatGPT متن را به صورت توکن به توکن تولید می‌کنند
مدل‌های Diffusion چند توکن را همزمان تولید و اصلاح می‌کنند
Flow-matching نوع پیشرفته‌ای است که نتیجه نهایی را در یک مرحله به دست می‌آورد
پژوهشگران از سه مرحله آموزش، استفاده از مدل «معلم» و بهینه‌سازی اجرا استفاده کرده‌اند
عملکرد مدل در معیارهای «سردرگمی» و «آنتروپی» قابل توجه بوده است

مدل FS-DFM با پارامترهای ۱.۷ تا ۰.۱۷ میلیارد، در مقایسه با مدل‌های ۷ و ۸ میلیارد پارامتری عملکرد بهتری داشته است.

پژوهشگران قصد دارند کد و چک‌پوینت‌های مدل را منتشر کنند تا امکان تحقیقات بیشتر فراهم شود.

این پیشرفت چشمگیر در سرعت تولید متن‌های بلند می‌تواند تحول بزرگی در حوزه هوش مصنوعی و پردازش زبان طبیعی ایجاد کند.

مدل زبانی جدید اپل با سرعت ۱۲۸ برابری در تولید متون طولانی

فناوری

جهان

مدل زبانی جدید اپل با سرعت فوق‌العاده

مدیر اپل دلیل حذف «پلاس» از نام سرویس Apple TV را توضیح داد

گزارش دیجیاتو از مراسم قرعه‌کشی «میلیاردر شو» بلو بانک

سری مجیک ۸ آنر معرفی شد؛ باتری غول‌پیکر و اسنپدراگون ۸ الیت نسل ۵