
معیارهای متا برای مدلهای جدید هوش مصنوعی کمی گمراهکننده است
تاریخ انتشار:
مدل جدید هوش مصنوعی متا
یکی از مدلهای جدید پرچمدار هوش مصنوعی که متا روز شنبه منتشر کرد، مدل «Maverick» است که در آزمون LM Arena در رتبه دوم قرار دارد. این آزمون به ارزیابی خروجیهای مدلها توسط ارزیابان انسانی میپردازد و آنها باید مدل مورد نظر را انتخاب کنند. اما به نظر میرسد نسخهای از Maverick که متا به LM Arena ارائه کرده، با نسخهای که بهطور گسترده برای توسعهدهندگان در دسترس است، متفاوت است.
نسخه آزمایشی و بهینهسازی شده
همانطور که چندین محقق هوش مصنوعی در شبکه اجتماعی X اشاره کردهاند، متا در اعلامیه خود ذکر کرده است که Maverick در LM Arena یک «نسخه آزمایشی چت» است. در عین حال، نموداری در وبسایت رسمی Llama نشان میدهد که آزمایشهای LM Arena با استفاده از «Llama 4 Maverick بهینهسازی شده برای مکالمه» انجام شده است.
عدم اعتبار LM Arena
همانطور که قبلاً در مورد آن نوشتهایم، به دلایل مختلف، LM Arena هرگز به عنوان یک معیار قابل اعتماد برای ارزیابی عملکرد مدلهای هوش مصنوعی شناخته نشده است. اما شرکتهای هوش مصنوعی به طور کلی مدلهای خود را برای کسب نمرات بهتر در LM Arena سفارشی یا بهینهسازی نکردهاند - یا حداقل به این موضوع اعتراف نکردهاند.
چالشهای پیشبینی عملکرد مدلها
مشکل سفارشیسازی یک مدل برای یک معیار، نگهداشتن آن و سپس انتشار یک نسخه «ساده» از همان مدل این است که پیشبینی دقیق عملکرد مدل در زمینههای خاص را برای توسعهدهندگان دشوار میکند. این موضوع همچنین گمراهکننده است. به طور ایدهآل، معیارها - هرچند که به شدت ناکافی هستند - باید تصویری از نقاط قوت و ضعف یک مدل واحد در طیف وسیعی از وظایف ارائه دهند.

تفاوتهای مشهود در رفتار مدلها
در واقع، محققان در X تفاوتهای چشمگیری در رفتار Maverick قابل دانلود عمومی نسبت به مدلی که در LM Arena میزبان است، مشاهده کردهاند. به نظر میرسد نسخه LM Arena از تعداد زیادی ایموجی استفاده میکند و پاسخهای بسیار طولانی و بیپایانی ارائه میدهد.
نظرات محققان
برخی از کاربران در X به این موضوع اشاره کردهاند که مدل Llama 4 در Arena به طرز عجیبی از ایموجیهای بیشتری استفاده میکند. در حالی که در پلتفرمهای دیگر، به نظر میرسد عملکرد بهتری دارد.
ما با متا و Chatbot Arena، سازمانی که LM Arena را مدیریت میکند، برای دریافت نظر تماس گرفتهایم.
به طور کلی، این موضوع نشاندهنده چالشهای موجود در ارزیابی مدلهای هوش مصنوعی و نحوه تأثیرگذاری معیارها بر روی توسعهدهندگان و کاربران نهایی است. در دنیای هوش مصنوعی، شفافیت و صداقت در ارائه اطلاعات در مورد عملکرد مدلها از اهمیت بالایی برخوردار است.
در نهایت، این نکته را باید در نظر داشت که معیارهای ارزیابی باید به گونهای طراحی شوند که بتوانند به درستی تواناییهای واقعی مدلها را منعکس کنند و به توسعهدهندگان کمک کنند تا تصمیمات بهتری اتخاذ کنند.