
مدل هوش مصنوعی مَوریک متا در مقایسه با رقبا در یک معیار چت محبوب عملکرد ضعیفی دارد
تاریخ انتشار:
مقدمه
اوایل این هفته، متا به دلیل استفاده از نسخه آزمایشی و منتشرنشده مدل لاما ۴ مَوریک، با انتقاداتی مواجه شد. این مدل برای دستیابی به نمره بالا در یک معیار جمعسپاریشده به نام LM Arena مورد استفاده قرار گرفت. این حادثه باعث شد که نگهدارندگان LM Arena عذرخواهی کنند، سیاستهای خود را تغییر دهند و نمره مدل مَوریک بدون تغییر را محاسبه کنند.
عملکرد ضعیف مَوریک
به نظر میرسد که مدل مَوریک بدون تغییر، یعنی "Llama-4-Maverick-17B-128E-Instruct"، در مقایسه با مدلهای دیگر از جمله GPT-4o اوپنای، Claude 3.5 Sonnet از آنتروپیک و Gemini 1.5 Pro از گوگل، در رتبه پایینتری قرار دارد. بسیاری از این مدلها چندین ماه است که منتشر شدهاند.
چرا عملکرد ضعیف است؟
عملکرد ضعیف مدل مَوریک به این دلیل است که نسخه آزمایشی آن، یعنی Llama-4-Maverick-03-26-Experimental، "برای مکالمه بهینهسازی شده" است. متا در یک نمودار که شنبه گذشته منتشر شد، توضیح داد که این بهینهسازیها به وضوح در LM Arena خوب عمل کردهاند، جایی که ارزیابان انسانی خروجیهای مدلها را مقایسه کرده و انتخاب میکنند که کدام یک را ترجیح میدهند.

چالشهای LM Arena
همانطور که قبلاً اشاره کردیم، به دلایل مختلف، LM Arena هرگز به عنوان یک معیار قابل اعتماد برای ارزیابی عملکرد مدلهای هوش مصنوعی شناخته نشده است. با این حال، سفارشیسازی یک مدل برای یک معیار، علاوه بر اینکه میتواند گمراهکننده باشد، برای توسعهدهندگان دشوار میکند که پیشبینی کنند مدل در زمینههای مختلف چگونه عمل خواهد کرد.
بیانیه متا
در یک بیانیه، سخنگوی متا به گفت که متا با "همه نوع نسخههای سفارشی" آزمایش میکند. او ادامه داد: "‘Llama-4-Maverick-03-26-Experimental’ نسخهای بهینهشده برای چت است که ما با آن آزمایش کردیم و همچنین در LM Arena عملکرد خوبی دارد. ما اکنون نسخه منبع باز خود را منتشر کردهایم و خواهیم دید که توسعهدهندگان چگونه لاما ۴ را برای موارد استفاده خود سفارشی میکنند. ما از دیدن آنچه که آنها خواهند ساخت هیجانزده هستیم و منتظر بازخوردهای مداوم آنها هستیم."