
مدل هوش مصنوعی «1 بیت» مایکروسافت تنها بر روی CPU اجرا میشود و با سیستمهای بزرگتر همخوانی دارد
تاریخ انتشار:
معرفی
هنگامی که صحبت از ذخیرهسازی وزنهای عددی که قدرت یک مدل زبانی بزرگ را فراهم میکند به میان میآید، اکثر مدلهای هوش مصنوعی مدرن به دقت اعداد شناور 16 یا 32 بیتی وابسته هستند. اما این سطح از دقت میتواند به قیمت مصرف بالای حافظه (در صدها گیگابایت برای بزرگترین مدلها) و منابع پردازشی قابل توجهی که برای ضرب ماتریسهای پیچیده هنگام پاسخ به درخواستها نیاز است، تمام شود.
مدل جدید مایکروسافت
اکنون، محققان گروه هوش مصنوعی عمومی مایکروسافت یک مدل شبکه عصبی جدید منتشر کردهاند که تنها با سه مقدار وزنی متمایز کار میکند: -1، 0، یا 1. این مدل بر اساس کارهای قبلی که مایکروسافت ریسرچ در سال 2023 منتشر کرده، ساخته شده و معماری «ترنری» جدید آن پیچیدگی کلی را کاهش میدهد و «مزایای قابل توجهی در کارایی محاسباتی» ارائه میدهد، به طوری که میتواند به طور مؤثر بر روی یک CPU دسکتاپ ساده اجرا شود. و با وجود کاهش عظیم در دقت وزنها، محققان ادعا میکنند که این مدل «میتواند عملکردی قابل مقایسه با مدلهای پیشرفته با وزنهای باز و دقت کامل مشابه در طیف وسیعی از وظایف را به دست آورد.

نظارت بر وزنها
ایده سادهسازی وزنهای مدل در تحقیقات هوش مصنوعی کاملاً جدید نیست. برای سالها، محققان در حال آزمایش تکنیکهای کموزنسازی بودهاند که وزنهای شبکه عصبی خود را در بستههای حافظه کوچکتر فشرده میکنند. در سالهای اخیر، تلاشهای کموزنسازی شدید بر روی آنچه به عنوان «BitNets» شناخته میشود، متمرکز شده است که هر وزن را در یک بیت (نمایش +1 یا -1) نشان میدهد.

مدل جدید BitNet b1.58b به این حد نمیرسد - سیستم ترنری به عنوان «1.58 بیت» شناخته میشود، زیرا این میانگین تعداد بیتهای لازم برای نمایش سه مقدار است (log(3)/log(2)). اما این مدل خود را از تحقیقات قبلی متمایز میکند زیرا «اولین LLM بومی با وزن 1 بیت است که در مقیاس بزرگ آموزش دیده است»، که منجر به مدلی با 2 میلیارد توکن بر اساس یک مجموعه داده آموزشی 4 تریلیون توکنی میشود، طبق گفته محققان.
اهمیت بومی بودن

بخش «بومی» در اینجا کلیدی است، زیرا بسیاری از تلاشهای کموزنسازی قبلی تنها سعی در کاهش اندازه پس از آموزش بر روی مدلهای موجود با «دقت کامل» داشتند که از آن مقادیر بزرگ شناور استفاده میکردند. این نوع کموزنسازی پس از آموزش میتواند به «کاهش قابل توجه عملکرد» نسبت به مدلهایی که بر اساس آنها ساخته شدهاند، منجر شود، طبق گفته محققان. در همین حال، سایر مدلهای BitNet که به طور بومی آموزش دیدهاند، در مقیاسهای کوچکتری بودهاند که «ممکن است هنوز با قابلیتهای مدلهای بزرگتر و با دقت کامل مطابقت نداشته باشند»، به گفته آنها.
آیا اندازه مهم است؟

نیازهای حافظه واضحترین مزیت کاهش پیچیدگی وزنهای داخلی یک مدل است. مدل BitNet b1.58 میتواند تنها با 0.4 گیگابایت حافظه اجرا شود، در مقایسه با 2 تا 5 گیگابایت برای سایر مدلهای با وزن باز که تقریباً اندازه پارامتر مشابهی دارند.
اما سیستم وزنگذاری سادهشده همچنین به عملکرد کارآمدتر در زمان استنتاج منجر میشود، با عملیات داخلی که به مراتب بیشتر به دستورالعملهای جمع ساده وابسته است و کمتر به دستورالعملهای ضرب پرهزینه محاسباتی. این بهبودهای کارایی به این معنی است که BitNet b1.58 از 85 تا 96 درصد انرژی کمتری نسبت به مدلهای مشابه با دقت کامل استفاده میکند، طبق برآورد محققان.

با استفاده از یک هسته بهینهسازی شده که به طور خاص برای معماری BitNet طراحی شده است، مدل BitNet b1.58 میتواند چندین برابر سریعتر از مدلهای مشابهی که بر روی یک ترنسفورمر با دقت کامل استاندارد اجرا میشوند، عمل کند. این سیستم به اندازه کافی کارآمد است که به «سرعتهایی قابل مقایسه با خواندن انسان (5-7 توکن در ثانیه)» با استفاده از یک CPU واحد برسد، طبق گفته محققان (شما میتوانید این هستههای بهینهسازی شده را خودتان بر روی تعدادی از CPUهای ARM و x86 دانلود و اجرا کنید، یا میتوانید آن را با استفاده از این دمو وب امتحان کنید).
عملکرد و چالشها
به طور حیاتی، محققان میگویند که این بهبودها به قیمت عملکرد در معیارهای مختلف تست استدلال، ریاضی و قابلیتهای «دانش» نمیآید (اگرچه این ادعا هنوز به طور مستقل تأیید نشده است). با میانگینگیری نتایج در چندین معیار رایج، محققان دریافتند که BitNet «قابلیتهایی تقریباً برابر با مدلهای پیشرو در کلاس اندازه خود را به دست میآورد در حالی که کارایی به طور چشمگیری بهبود یافته است.
با وجود موفقیت ظاهری این مدل BitNet به عنوان «مدل اثبات مفهوم»، محققان مینویسند که آنها به طور کامل درک نمیکنند که چرا این مدل با چنین وزنهای سادهشده به خوبی کار میکند. «کاوش عمیقتر در اصول نظری اینکه چرا آموزش 1 بیت در مقیاس بزرگ مؤثر است، همچنان یک حوزه باز باقی مانده است»، آنها مینویسند. و تحقیقات بیشتری هنوز لازم است تا این مدلهای BitNet را به رقابت با اندازه کلی و «حافظه» پنجره زمینه بزرگترین مدلهای امروزی برساند.
با این حال، این تحقیقات جدید نشاندهنده یک رویکرد جایگزین بالقوه برای مدلهای هوش مصنوعی است که با هزینههای فزاینده سختافزاری و انرژی ناشی از اجرای روی GPUهای گرانقیمت و قدرتمند مواجه هستند. ممکن است مدلهای «دقت کامل» امروزی مانند خودروهای عضلانی باشند که انرژی و تلاش زیادی را هدر میدهند در حالی که معادل یک خودروی جمع و جور خوب میتواند نتایج مشابهی را ارائه دهد.