مدل هوش مصنوعی «1 بیت» مایکروسافت تنها بر روی CPU اجرا می‌شود و با سیستم‌های بزرگ‌تر هم‌خوانی دارد

مدل هوش مصنوعی «1 بیت» مایکروسافت تنها بر روی CPU اجرا می‌شود و با سیستم‌های بزرگ‌تر هم‌خوانی دارد

تاریخ انتشار:

مدل هوش مصنوعی «1 بیت» مایکروسافت تنها بر روی CPU اجرا می‌شود و با سیستم‌های بزرگ‌تر هم‌خوانی دارد

معرفی

هنگامی که صحبت از ذخیره‌سازی وزن‌های عددی که قدرت یک مدل زبانی بزرگ را فراهم می‌کند به میان می‌آید، اکثر مدل‌های هوش مصنوعی مدرن به دقت اعداد شناور 16 یا 32 بیتی وابسته هستند. اما این سطح از دقت می‌تواند به قیمت مصرف بالای حافظه (در صدها گیگابایت برای بزرگ‌ترین مدل‌ها) و منابع پردازشی قابل توجهی که برای ضرب ماتریس‌های پیچیده هنگام پاسخ به درخواست‌ها نیاز است، تمام شود.

مدل جدید مایکروسافت

اکنون، محققان گروه هوش مصنوعی عمومی مایکروسافت یک مدل شبکه عصبی جدید منتشر کرده‌اند که تنها با سه مقدار وزنی متمایز کار می‌کند: -1، 0، یا 1. این مدل بر اساس کارهای قبلی که مایکروسافت ریسرچ در سال 2023 منتشر کرده، ساخته شده و معماری «ترنری» جدید آن پیچیدگی کلی را کاهش می‌دهد و «مزایای قابل توجهی در کارایی محاسباتی» ارائه می‌دهد، به طوری که می‌تواند به طور مؤثر بر روی یک CPU دسکتاپ ساده اجرا شود. و با وجود کاهش عظیم در دقت وزن‌ها، محققان ادعا می‌کنند که این مدل «می‌تواند عملکردی قابل مقایسه با مدل‌های پیشرفته با وزن‌های باز و دقت کامل مشابه در طیف وسیعی از وظایف را به دست آورد.

Can big AI models get by with

نظارت بر وزن‌ها

ایده ساده‌سازی وزن‌های مدل در تحقیقات هوش مصنوعی کاملاً جدید نیست. برای سال‌ها، محققان در حال آزمایش تکنیک‌های کم‌وزن‌سازی بوده‌اند که وزن‌های شبکه عصبی خود را در بسته‌های حافظه کوچکتر فشرده می‌کنند. در سال‌های اخیر، تلاش‌های کم‌وزن‌سازی شدید بر روی آنچه به عنوان «BitNets» شناخته می‌شود، متمرکز شده است که هر وزن را در یک بیت (نمایش +1 یا -1) نشان می‌دهد.

مدل جدید BitNet b1.58b به این حد نمی‌رسد - سیستم ترنری به عنوان «1.58 بیت» شناخته می‌شود، زیرا این میانگین تعداد بیت‌های لازم برای نمایش سه مقدار است (log(3)/log(2)). اما این مدل خود را از تحقیقات قبلی متمایز می‌کند زیرا «اولین LLM بومی با وزن 1 بیت است که در مقیاس بزرگ آموزش دیده است»، که منجر به مدلی با 2 میلیارد توکن بر اساس یک مجموعه داده آموزشی 4 تریلیون توکنی می‌شود، طبق گفته محققان.

اهمیت بومی بودن

بخش «بومی» در اینجا کلیدی است، زیرا بسیاری از تلاش‌های کم‌وزن‌سازی قبلی تنها سعی در کاهش اندازه پس از آموزش بر روی مدل‌های موجود با «دقت کامل» داشتند که از آن مقادیر بزرگ شناور استفاده می‌کردند. این نوع کم‌وزن‌سازی پس از آموزش می‌تواند به «کاهش قابل توجه عملکرد» نسبت به مدل‌هایی که بر اساس آن‌ها ساخته شده‌اند، منجر شود، طبق گفته محققان. در همین حال، سایر مدل‌های BitNet که به طور بومی آموزش دیده‌اند، در مقیاس‌های کوچکتری بوده‌اند که «ممکن است هنوز با قابلیت‌های مدل‌های بزرگ‌تر و با دقت کامل مطابقت نداشته باشند»، به گفته آن‌ها.

آیا اندازه مهم است؟

نیازهای حافظه واضح‌ترین مزیت کاهش پیچیدگی وزن‌های داخلی یک مدل است. مدل BitNet b1.58 می‌تواند تنها با 0.4 گیگابایت حافظه اجرا شود، در مقایسه با 2 تا 5 گیگابایت برای سایر مدل‌های با وزن باز که تقریباً اندازه پارامتر مشابهی دارند.

اما سیستم وزن‌گذاری ساده‌شده همچنین به عملکرد کارآمدتر در زمان استنتاج منجر می‌شود، با عملیات داخلی که به مراتب بیشتر به دستورالعمل‌های جمع ساده وابسته است و کمتر به دستورالعمل‌های ضرب پرهزینه محاسباتی. این بهبودهای کارایی به این معنی است که BitNet b1.58 از 85 تا 96 درصد انرژی کمتری نسبت به مدل‌های مشابه با دقت کامل استفاده می‌کند، طبق برآورد محققان.

Despite its smaller memory footprint, BitNet still performs similarly to

با استفاده از یک هسته بهینه‌سازی شده که به طور خاص برای معماری BitNet طراحی شده است، مدل BitNet b1.58 می‌تواند چندین برابر سریع‌تر از مدل‌های مشابهی که بر روی یک ترنسفورمر با دقت کامل استاندارد اجرا می‌شوند، عمل کند. این سیستم به اندازه کافی کارآمد است که به «سرعت‌هایی قابل مقایسه با خواندن انسان (5-7 توکن در ثانیه)» با استفاده از یک CPU واحد برسد، طبق گفته محققان (شما می‌توانید این هسته‌های بهینه‌سازی شده را خودتان بر روی تعدادی از CPUهای ARM و x86 دانلود و اجرا کنید، یا می‌توانید آن را با استفاده از این دمو وب امتحان کنید).

عملکرد و چالش‌ها

به طور حیاتی، محققان می‌گویند که این بهبودها به قیمت عملکرد در معیارهای مختلف تست استدلال، ریاضی و قابلیت‌های «دانش» نمی‌آید (اگرچه این ادعا هنوز به طور مستقل تأیید نشده است). با میانگین‌گیری نتایج در چندین معیار رایج، محققان دریافتند که BitNet «قابلیت‌هایی تقریباً برابر با مدل‌های پیشرو در کلاس اندازه خود را به دست می‌آورد در حالی که کارایی به طور چشمگیری بهبود یافته است.

با وجود موفقیت ظاهری این مدل BitNet به عنوان «مدل اثبات مفهوم»، محققان می‌نویسند که آن‌ها به طور کامل درک نمی‌کنند که چرا این مدل با چنین وزن‌های ساده‌شده به خوبی کار می‌کند. «کاوش عمیق‌تر در اصول نظری اینکه چرا آموزش 1 بیت در مقیاس بزرگ مؤثر است، همچنان یک حوزه باز باقی مانده است»، آن‌ها می‌نویسند. و تحقیقات بیشتری هنوز لازم است تا این مدل‌های BitNet را به رقابت با اندازه کلی و «حافظه» پنجره زمینه بزرگ‌ترین مدل‌های امروزی برساند.

با این حال، این تحقیقات جدید نشان‌دهنده یک رویکرد جایگزین بالقوه برای مدل‌های هوش مصنوعی است که با هزینه‌های فزاینده سخت‌افزاری و انرژی ناشی از اجرای روی GPUهای گران‌قیمت و قدرتمند مواجه هستند. ممکن است مدل‌های «دقت کامل» امروزی مانند خودروهای عضلانی باشند که انرژی و تلاش زیادی را هدر می‌دهند در حالی که معادل یک خودروی جمع و جور خوب می‌تواند نتایج مشابهی را ارائه دهد.

منبع:Ars Technica
در حال بارگذاری نظرات...
نظر شما:
0/800