مدل زبانی جدید اپل با سرعت ۱۲۸ برابری در تولید متون طولانی
اپل مدل زبان جدیدی مبتنی بر معماری Diffusion معرفی کرده که میتواند متنهای بلند را با سرعت ۱۲۸ برابر سریعتر از مدلهای مشابه تولید کند. این مدل با نام FS-DFM تنها در ۸ مرحله به کیفیت مطلوب میرسد.

مدل زبانی جدید اپل با سرعت فوقالعاده
اپل در مطالعه جدیدی با عنوان «FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Models» مدل زبانی مبتنی بر معماری Diffusion معرفی کرده که میتواند متنهای بلند را با سرعتی ۱۲۸ برابر سریعتر از مدلهای مشابه تولید کند. این مدل که Few-Step Discrete Flow-Matching (FS-DFM) نام دارد، تنها با هشت مرحله اصلاح به کیفیت مطلوب میرسد، درحالی که مدلهای Diffusion معمولی به بیش از هزار مرحله نیاز دارند.
- مدلهای Autoregressive مانند ChatGPT متن را به صورت توکن به توکن تولید میکنند
- مدلهای Diffusion چند توکن را همزمان تولید و اصلاح میکنند
- Flow-matching نوع پیشرفتهای است که نتیجه نهایی را در یک مرحله به دست میآورد
- پژوهشگران از سه مرحله آموزش، استفاده از مدل «معلم» و بهینهسازی اجرا استفاده کردهاند
- عملکرد مدل در معیارهای «سردرگمی» و «آنتروپی» قابل توجه بوده است
مدل FS-DFM با پارامترهای ۱.۷ تا ۰.۱۷ میلیارد، در مقایسه با مدلهای ۷ و ۸ میلیارد پارامتری عملکرد بهتری داشته است.
پژوهشگران قصد دارند کد و چکپوینتهای مدل را منتشر کنند تا امکان تحقیقات بیشتر فراهم شود.
این پیشرفت چشمگیر در سرعت تولید متنهای بلند میتواند تحول بزرگی در حوزه هوش مصنوعی و پردازش زبان طبیعی ایجاد کند.
