انتشار ناگهانی لاما ۴ متا و شکاف بین آرزوهای هوش مصنوعی و واقعیت

انتشار ناگهانی لاما ۴ متا و شکاف بین آرزوهای هوش مصنوعی و واقعیت

تاریخ انتشار:

انتشار ناگهانی لاما ۴ متا و شکاف بین آرزوهای هوش مصنوعی و واقعیت

انتشار ناگهانی لاما ۴

در روز شنبه، متا جدیدترین مدل‌های هوش مصنوعی چندرسانه‌ای لاما ۴ را در یک حرکت ناگهانی در آخر هفته منتشر کرد که برخی از کارشناسان هوش مصنوعی را غافلگیر کرد. این اعلامیه از لاما ۴ اسکات و لاما ۴ موریسک به عنوان پیشرفت‌های عمده یاد کرد، با ادعای متا مبنی بر عملکرد برتر در دسته‌های مربوطه و یک پنجره زمینه‌ای عظیم به اندازه ۱۰ میلیون توکن برای اسکات. اما تا به حال، مدل‌های با وزن‌های باز، از سوی جامعه هوش مصنوعی با واکنش‌های مختلط تا منفی مواجه شده‌اند و تنش آشنایی را بین بازاریابی هوش مصنوعی و تجربه کاربری نشان می‌دهند.

سایمون ویلیسون، محقق مستقل هوش مصنوعی، به آرس تکنیکا گفت: "احساسات حول لاما ۴ تا به حال به وضوح متوسط است." ویلیسون معمولاً نبض جامعه را در خصوص انتشارهای هوش مصنوعی با منبع باز و وزن‌های باز بررسی می‌کند.

رقابت با غول‌های مدل‌های بسته

در حالی که متا لاما ۴ را در رقابت با غول‌های مدل بسته مانند OpenAI و گوگل قرار می‌دهد، این شرکت همچنان از اصطلاح "منبع باز" استفاده می‌کند، با وجود محدودیت‌های مجوزی که استفاده واقعی باز را منع می‌کند. همان‌طور که در گذشته با انتشارهای قبلی لاما اشاره کردیم، "وزن‌های باز" به طور دقیق‌تری رویکرد متا را توصیف می‌کند. کسانی که وارد می‌شوند و شرایط مجوز را می‌پذیرند، می‌توانند دو مدل کوچک‌تر لاما ۴ را از Hugging Face یا llama.com دانلود کنند.

این شرکت مدل‌های جدید لاما ۴ را به عنوان "چندرسانه‌ای بومی" توصیف می‌کند، که از ابتدا برای پردازش همزمان متن و تصویر با استفاده از تکنیکی به نام "ادغام زودهنگام" طراحی شده است. متا می‌گوید این امکان آموزش مشترک بر روی متن، تصاویر و فریم‌های ویدئویی را فراهم می‌کند و به مدل‌ها "درک بصری گسترده‌ای" می‌دهد. این رویکرد به وضوح لاما ۴ را در رقابت مستقیم با مدل‌های چندرسانه‌ای موجود از OpenAI (مانند GPT-4o) و گوگل (Gemini 2.5) قرار می‌دهد.

مدل‌های جدید با کمک مدل معلم

این شرکت دو مدل جدید را با کمک یک مدل "معلم" بزرگ‌تر و منتشر نشده به نام لاما ۴ بهیموت (با ۲ تریلیون پارامتر کل) که هنوز در حال توسعه است، آموزش داده است. پارامترها مقادیر عددی هستند که یک مدل در حین آموزش برای یادگیری الگوها تنظیم می‌کند. پارامترهای کمتر به مدل‌های کوچکتر و سریع‌تری منجر می‌شوند که می‌توانند بر روی تلفن‌ها یا لپ‌تاپ‌ها اجرا شوند، اگرچه ایجاد مدل‌های فشرده با عملکرد بالا همچنان یک چالش بزرگ در مهندسی هوش مصنوعی است.

متا مدل‌های لاما ۴ را با استفاده از معماری مخلوطی از کارشناسان (MoE) ساخته است، که یکی از راه‌ها برای دور زدن محدودیت‌های اجرای مدل‌های بزرگ هوش مصنوعی است. به MoE فکر کنید مانند داشتن یک تیم بزرگ از کارگران متخصص؛ به جای اینکه همه بر روی هر وظیفه کار کنند، تنها متخصصان مربوطه برای یک کار خاص فعال می‌شوند.

چک کردن واقعیت لاما

مدل‌های فعلی هوش مصنوعی دارای حافظه کوتاه‌مدت نسبتاً محدودی هستند. در هوش مصنوعی، یک پنجره زمینه‌ای به نوعی در این زمینه عمل می‌کند و تعیین می‌کند که چه مقدار اطلاعات را می‌تواند به طور همزمان پردازش کند. مدل‌های زبانی هوش مصنوعی مانند لاما معمولاً این حافظه را به عنوان تکه‌های داده‌ای به نام توکن‌ها پردازش می‌کنند، که می‌تواند شامل کلمات کامل یا بخش‌هایی از کلمات طولانی‌تر باشد. پنجره‌های زمینه‌ای بزرگ به مدل‌های هوش مصنوعی اجازه می‌دهند تا اسناد طولانی‌تر، پایگاه‌های کد بزرگ‌تر و مکالمات طولانی‌تری را پردازش کنند.

با وجود تبلیغات متا درباره پنجره زمینه‌ای ۱۰ میلیون توکنی لاما ۴ اسکات، توسعه‌دهندگان تا به حال کشف کرده‌اند که استفاده حتی از یک بخش کوچک از این مقدار به دلیل محدودیت‌های حافظه چالش‌برانگیز بوده است. ویلیسون در وبلاگ خود گزارش داد که خدمات شخص ثالثی که دسترسی را فراهم می‌کنند، مانند Groq و Fireworks، زمینه اسکات را به تنها ۱۲۸,۰۰۰ توکن محدود کرده‌اند. ارائه‌دهنده دیگری، Together AI، ۳۲۸,۰۰۰ توکن را ارائه کرده است.

Portrait of Llama against a Wooden Background

شواهد نشان می‌دهد که دسترسی به زمینه‌های بزرگتر به منابع عظیمی نیاز دارد. ویلیسون به دفترچه یادداشت نمونه متا اشاره کرد ("build_with_llama_4")، که بیان می‌کند اجرای یک زمینه ۱.۴ میلیون توکنی به هشت GPU Nvidia H100 با کیفیت بالا نیاز دارد.

مشکلات آزمایش

ویلیسون مشکلات آزمایش خود را مستند کرد. وقتی از لاما ۴ اسکات از طریق خدمات OpenRouter خواست تا یک بحث آنلاین طولانی (حدود ۲۰,۰۰۰ توکن) را خلاصه کند، نتیجه مفید نبود. او خروجی را به عنوان "خروجی کاملاً بی‌فایده" توصیف کرد که به حلقه‌های تکراری فرو می‌رفت.

متا ادعا می‌کند که بزرگ‌ترین مدل جدید خود، موریسک، در مقایسه با رقبایی مانند GPT-4o OpenAI و Gemini 2.0 گوگل در معیارهای فنی مختلف عملکرد بهتری دارد، که معمولاً اشاره می‌کنیم که لزوماً بازتاب‌های مفیدی از تجربه کاربری روزمره نیستند. تا به حال، تأیید مستقل از ادعاهای عملکرد مدل منتشر شده محدود باقی مانده است.

نقد و بررسی جامعه

جالب‌تر اینکه، نسخه‌ای از لاما ۴ در حال حاضر در رتبه دوم در جدول رده‌بندی LLM Chatbot Arena قرار دارد. با این حال، حتی این نیز با یک قید همراه است: ویلیسون به تفاوتی اشاره کرد که در اعلامیه خود متا به آن اشاره کرده است: ورودی با رتبه بالا به یک "نسخه چت آزمایشی با امتیاز ELO 1417 در LMArena" اشاره دارد، که با مدل موریسکی که برای دانلود در دسترس است متفاوت است.

انتشار لاما ۴ بحث‌هایی را در رسانه‌های اجتماعی درباره روندهای توسعه هوش مصنوعی برانگیخت، با واکنش‌هایی از جمله ناامیدی خفیف نسبت به ویژگی‌های چندرسانه‌ای ضعیف، نگرانی‌ها درباره اینکه معماری مخلوطی از کارشناسان از پارامترهای فعال بسیار کمی (تنها ۱۷ میلیارد) استفاده می‌کند و انتقاداتی که انتشار احساس شتاب‌زده یا مدیریت ضعیف داخلی داشته است. برخی از کاربران ردیت همچنین اشاره کردند که این مدل در مقایسه با رقبای نوآورانه‌ای مانند DeepSeek و Qwen به‌ویژه در عملکرد ضعیف در وظایف کدنویسی و معیارهای توسعه نرم‌افزار مقایسه بدی دارد.

چالش‌های فنی

در X، محقق آندری بورکوف، نویسنده کتاب "مدل‌های زبانی صد صفحه‌ای"، استدلال کرد که انتشار ناامیدکننده لاما ۴ شک و تردید را درباره مدل‌های پایه یکپارچه تقویت می‌کند. او بیان کرد که "انتشارهای ناامیدکننده اخیر از هر دو GPT-4.5 و لاما ۴ نشان داده‌اند که اگر شما یک مدل را برای استدلال با یادگیری تقویتی آموزش ندهید، افزایش اندازه آن دیگر مزایایی ندارد."

اشاره بورکوف به GPT-4.5 بازتابی از راه‌اندازی نسبتاً مشکل‌دار آن مدل است؛ آرس تکنیکا قبلاً گزارش داده بود که GPT-4.5 با نقدهای مختلطی مواجه شده است و هزینه بالا و محدودیت‌های عملکرد آن نشان‌دهنده یک بن‌بست بالقوه برای صرفاً افزایش مقیاس معماری‌های مدل‌های سنتی هوش مصنوعی است. این مشاهدات با بحث‌های گسترده‌تر در زمینه هوش مصنوعی درباره محدودیت‌های مقیاس‌پذیری آموزش مدل‌های پایه عظیم بدون گنجاندن تکنیک‌های جدید (مانند استدلال شبیه‌سازی شده یا آموزش مدل‌های کوچک‌تر و هدفمند) هم‌راستا است.

با وجود تمام معایب فعلی خانواده مدل‌های جدید متا، ویلیسون امیدوار است که انتشارهای آینده لاما ۴ مفیدتر باشد. او در وبلاگ خود نوشت: "امید من این است که یک خانواده کامل از مدل‌های لاما ۴ با اندازه‌های مختلف را ببینیم، که الگوی لاما ۳ را دنبال می‌کند. من به‌ویژه منتظر هستم ببینم آیا آنها یک مدل بهبود یافته حدود ۳ میلیاردی تولید می‌کنند که بر روی تلفن من اجرا شود."

منبع:Ars Technica
در حال بارگذاری نظرات...
نظر شما:
0/800