معیارهای متا برای مدل‌های جدید هوش مصنوعی کمی گمراه‌کننده است

معیارهای متا برای مدل‌های جدید هوش مصنوعی کمی گمراه‌کننده است

تاریخ انتشار:

معیارهای متا برای مدل‌های جدید هوش مصنوعی کمی گمراه‌کننده است

مدل جدید هوش مصنوعی متا

یکی از مدل‌های جدید پرچمدار هوش مصنوعی که متا روز شنبه منتشر کرد، مدل «Maverick» است که در آزمون LM Arena در رتبه دوم قرار دارد. این آزمون به ارزیابی خروجی‌های مدل‌ها توسط ارزیابان انسانی می‌پردازد و آنها باید مدل مورد نظر را انتخاب کنند. اما به نظر می‌رسد نسخه‌ای از Maverick که متا به LM Arena ارائه کرده، با نسخه‌ای که به‌طور گسترده برای توسعه‌دهندگان در دسترس است، متفاوت است.

نسخه آزمایشی و بهینه‌سازی شده

همانطور که چندین محقق هوش مصنوعی در شبکه اجتماعی X اشاره کرده‌اند، متا در اعلامیه خود ذکر کرده است که Maverick در LM Arena یک «نسخه آزمایشی چت» است. در عین حال، نموداری در وب‌سایت رسمی Llama نشان می‌دهد که آزمایش‌های LM Arena با استفاده از «Llama 4 Maverick بهینه‌سازی شده برای مکالمه» انجام شده است.

عدم اعتبار LM Arena

همانطور که قبلاً در مورد آن نوشته‌ایم، به دلایل مختلف، LM Arena هرگز به عنوان یک معیار قابل اعتماد برای ارزیابی عملکرد مدل‌های هوش مصنوعی شناخته نشده است. اما شرکت‌های هوش مصنوعی به طور کلی مدل‌های خود را برای کسب نمرات بهتر در LM Arena سفارشی یا بهینه‌سازی نکرده‌اند - یا حداقل به این موضوع اعتراف نکرده‌اند.

چالش‌های پیش‌بینی عملکرد مدل‌ها

مشکل سفارشی‌سازی یک مدل برای یک معیار، نگه‌داشتن آن و سپس انتشار یک نسخه «ساده» از همان مدل این است که پیش‌بینی دقیق عملکرد مدل در زمینه‌های خاص را برای توسعه‌دهندگان دشوار می‌کند. این موضوع همچنین گمراه‌کننده است. به طور ایده‌آل، معیارها - هرچند که به شدت ناکافی هستند - باید تصویری از نقاط قوت و ضعف یک مدل واحد در طیف وسیعی از وظایف ارائه دهند.

Meta sign

تفاوت‌های مشهود در رفتار مدل‌ها

در واقع، محققان در X تفاوت‌های چشمگیری در رفتار Maverick قابل دانلود عمومی نسبت به مدلی که در LM Arena میزبان است، مشاهده کرده‌اند. به نظر می‌رسد نسخه LM Arena از تعداد زیادی ایموجی استفاده می‌کند و پاسخ‌های بسیار طولانی و بی‌پایانی ارائه می‌دهد.

نظرات محققان

برخی از کاربران در X به این موضوع اشاره کرده‌اند که مدل Llama 4 در Arena به طرز عجیبی از ایموجی‌های بیشتری استفاده می‌کند. در حالی که در پلتفرم‌های دیگر، به نظر می‌رسد عملکرد بهتری دارد.

ما با متا و Chatbot Arena، سازمانی که LM Arena را مدیریت می‌کند، برای دریافت نظر تماس گرفته‌ایم.

به طور کلی، این موضوع نشان‌دهنده چالش‌های موجود در ارزیابی مدل‌های هوش مصنوعی و نحوه تأثیرگذاری معیارها بر روی توسعه‌دهندگان و کاربران نهایی است. در دنیای هوش مصنوعی، شفافیت و صداقت در ارائه اطلاعات در مورد عملکرد مدل‌ها از اهمیت بالایی برخوردار است.

در نهایت، این نکته را باید در نظر داشت که معیارهای ارزیابی باید به گونه‌ای طراحی شوند که بتوانند به درستی توانایی‌های واقعی مدل‌ها را منعکس کنند و به توسعه‌دهندگان کمک کنند تا تصمیمات بهتری اتخاذ کنند.

منبع:Techcrunch
در حال بارگذاری نظرات...
نظر شما:
0/800