مدیر متا شایعه تقویت مصنوعی نمرات بنچمارک Llama 4 را رد کرد

مدیر متا شایعه تقویت مصنوعی نمرات بنچمارک Llama 4 را رد کرد

تاریخ انتشار:

مدیر متا شایعه تقویت مصنوعی نمرات بنچمارک Llama 4 را رد کرد

رد شایعه تقویت نمرات بنچمارک

یک مدیر متا در روز دوشنبه شایعه‌ای را که ادعا می‌کرد این شرکت مدل‌های جدید هوش مصنوعی خود را به گونه‌ای تنظیم کرده است که در بنچمارک‌های خاص عملکرد خوبی داشته باشند، رد کرد. احمد ال‌داله، معاون هوش مصنوعی تولیدی در متا، در یک پست در شبکه اجتماعی ایکس اعلام کرد که "این موضوع به سادگی نادرست است" و متا مدل‌های Llama 4 Maverick و Llama 4 Scout را بر روی "مجموعه‌های آزمون" آموزش نداده است.

مجموعه‌های آزمون و تأثیر آن‌ها بر نمرات

در بنچمارک‌های هوش مصنوعی، مجموعه‌های آزمون شامل مجموعه‌های داده‌ای هستند که برای ارزیابی عملکرد یک مدل پس از آموزش آن استفاده می‌شوند. آموزش بر روی یک مجموعه آزمون می‌تواند به طور نادرست نمرات بنچمارک یک مدل را افزایش دهد و باعث شود که مدل نسبت به قابلیت‌های واقعی خود بهتر به نظر برسد.

شایعه و منبع آن

در طول آخر هفته، شایعه‌ای بی‌اساس مبنی بر اینکه متا به طور مصنوعی نتایج بنچمارک مدل‌های جدید خود را تقویت کرده است، در شبکه‌های اجتماعی ایکس و ردیت منتشر شد. به نظر می‌رسد این شایعه از یک پست در یک سایت اجتماعی چینی نشأت گرفته باشد که کاربری ادعا کرده بود به دلیل شیوه‌های بنچمارکینگ متا از این شرکت استعفا داده است.

distorted meta logo and other brands including facebook, instagram, whatsapp, oculus, and messenger

عملکرد ضعیف مدل‌ها

گزارش‌هایی مبنی بر اینکه Maverick و Scout در برخی وظایف عملکرد ضعیفی دارند، به این شایعه دامن زد. همچنین تصمیم متا برای استفاده از نسخه آزمایشی و منتشرنشده Maverick برای دستیابی به نمرات بهتر در بنچمارک LM Arena نیز بر این شایعات تأثیر گذاشت. محققان در ایکس تفاوت‌های چشمگیری در رفتار Maverick قابل دانلود عمومی نسبت به مدلی که در LM Arena میزبانی می‌شود، مشاهده کرده‌اند.

کیفیت متغیر مدل‌ها

ال‌داله اذعان کرد که برخی از کاربران در حال مشاهده "کیفیت مختلط" از Maverick و Scout در بین ارائه‌دهندگان مختلف ابری هستند. او گفت: "از آنجا که ما مدل‌ها را به محض آماده شدن منتشر کردیم، انتظار داریم که چند روز طول بکشد تا تمام پیاده‌سازی‌های عمومی به درستی تنظیم شوند." ال‌داله افزود: "ما به کار بر روی رفع اشکالات و جذب شرکای جدید ادامه خواهیم داد."

منبع:Techcrunch
در حال بارگذاری نظرات...
نظر شما:
0/800