
مدیر متا شایعه تقویت مصنوعی نمرات بنچمارک Llama 4 را رد کرد
تاریخ انتشار:
رد شایعه تقویت نمرات بنچمارک
یک مدیر متا در روز دوشنبه شایعهای را که ادعا میکرد این شرکت مدلهای جدید هوش مصنوعی خود را به گونهای تنظیم کرده است که در بنچمارکهای خاص عملکرد خوبی داشته باشند، رد کرد. احمد الداله، معاون هوش مصنوعی تولیدی در متا، در یک پست در شبکه اجتماعی ایکس اعلام کرد که "این موضوع به سادگی نادرست است" و متا مدلهای Llama 4 Maverick و Llama 4 Scout را بر روی "مجموعههای آزمون" آموزش نداده است.
مجموعههای آزمون و تأثیر آنها بر نمرات
در بنچمارکهای هوش مصنوعی، مجموعههای آزمون شامل مجموعههای دادهای هستند که برای ارزیابی عملکرد یک مدل پس از آموزش آن استفاده میشوند. آموزش بر روی یک مجموعه آزمون میتواند به طور نادرست نمرات بنچمارک یک مدل را افزایش دهد و باعث شود که مدل نسبت به قابلیتهای واقعی خود بهتر به نظر برسد.
شایعه و منبع آن
در طول آخر هفته، شایعهای بیاساس مبنی بر اینکه متا به طور مصنوعی نتایج بنچمارک مدلهای جدید خود را تقویت کرده است، در شبکههای اجتماعی ایکس و ردیت منتشر شد. به نظر میرسد این شایعه از یک پست در یک سایت اجتماعی چینی نشأت گرفته باشد که کاربری ادعا کرده بود به دلیل شیوههای بنچمارکینگ متا از این شرکت استعفا داده است.

عملکرد ضعیف مدلها
گزارشهایی مبنی بر اینکه Maverick و Scout در برخی وظایف عملکرد ضعیفی دارند، به این شایعه دامن زد. همچنین تصمیم متا برای استفاده از نسخه آزمایشی و منتشرنشده Maverick برای دستیابی به نمرات بهتر در بنچمارک LM Arena نیز بر این شایعات تأثیر گذاشت. محققان در ایکس تفاوتهای چشمگیری در رفتار Maverick قابل دانلود عمومی نسبت به مدلی که در LM Arena میزبانی میشود، مشاهده کردهاند.
کیفیت متغیر مدلها
الداله اذعان کرد که برخی از کاربران در حال مشاهده "کیفیت مختلط" از Maverick و Scout در بین ارائهدهندگان مختلف ابری هستند. او گفت: "از آنجا که ما مدلها را به محض آماده شدن منتشر کردیم، انتظار داریم که چند روز طول بکشد تا تمام پیادهسازیهای عمومی به درستی تنظیم شوند." الداله افزود: "ما به کار بر روی رفع اشکالات و جذب شرکای جدید ادامه خواهیم داد."