مدل هوش مصنوعی مَوریک متا در مقایسه با رقبا در یک معیار چت محبوب عملکرد ضعیفی دارد

مدل هوش مصنوعی مَوریک متا در مقایسه با رقبا در یک معیار چت محبوب عملکرد ضعیفی دارد

تاریخ انتشار:

مدل هوش مصنوعی مَوریک متا در مقایسه با رقبا در یک معیار چت محبوب عملکرد ضعیفی دارد

مقدمه

اوایل این هفته، متا به دلیل استفاده از نسخه آزمایشی و منتشرنشده مدل لاما ۴ مَوریک، با انتقاداتی مواجه شد. این مدل برای دستیابی به نمره بالا در یک معیار جمع‌سپاری‌شده به نام LM Arena مورد استفاده قرار گرفت. این حادثه باعث شد که نگهدارندگان LM Arena عذرخواهی کنند، سیاست‌های خود را تغییر دهند و نمره مدل مَوریک بدون تغییر را محاسبه کنند.

عملکرد ضعیف مَوریک

به نظر می‌رسد که مدل مَوریک بدون تغییر، یعنی "Llama-4-Maverick-17B-128E-Instruct"، در مقایسه با مدل‌های دیگر از جمله GPT-4o اوپن‌ای، Claude 3.5 Sonnet از آنتروپیک و Gemini 1.5 Pro از گوگل، در رتبه پایین‌تری قرار دارد. بسیاری از این مدل‌ها چندین ماه است که منتشر شده‌اند.

چرا عملکرد ضعیف است؟

عملکرد ضعیف مدل مَوریک به این دلیل است که نسخه آزمایشی آن، یعنی Llama-4-Maverick-03-26-Experimental، "برای مکالمه بهینه‌سازی شده" است. متا در یک نمودار که شنبه گذشته منتشر شد، توضیح داد که این بهینه‌سازی‌ها به وضوح در LM Arena خوب عمل کرده‌اند، جایی که ارزیابان انسانی خروجی‌های مدل‌ها را مقایسه کرده و انتخاب می‌کنند که کدام یک را ترجیح می‌دهند.

The LLaMA (Large Language Model Meta AI) logo seen displayed on a smartphone and the ChatGPT (OpenAI) logo in the background.

چالش‌های LM Arena

همانطور که قبلاً اشاره کردیم، به دلایل مختلف، LM Arena هرگز به عنوان یک معیار قابل اعتماد برای ارزیابی عملکرد مدل‌های هوش مصنوعی شناخته نشده است. با این حال، سفارشی‌سازی یک مدل برای یک معیار، علاوه بر اینکه می‌تواند گمراه‌کننده باشد، برای توسعه‌دهندگان دشوار می‌کند که پیش‌بینی کنند مدل در زمینه‌های مختلف چگونه عمل خواهد کرد.

بیانیه متا

در یک بیانیه، سخنگوی متا به گفت که متا با "همه نوع نسخه‌های سفارشی" آزمایش می‌کند. او ادامه داد: "‘Llama-4-Maverick-03-26-Experimental’ نسخه‌ای بهینه‌شده برای چت است که ما با آن آزمایش کردیم و همچنین در LM Arena عملکرد خوبی دارد. ما اکنون نسخه منبع باز خود را منتشر کرده‌ایم و خواهیم دید که توسعه‌دهندگان چگونه لاما ۴ را برای موارد استفاده خود سفارشی می‌کنند. ما از دیدن آنچه که آنها خواهند ساخت هیجان‌زده هستیم و منتظر بازخوردهای مداوم آنها هستیم."

منبع:Techcrunch
در حال بارگذاری نظرات...
نظر شما:
0/800