
جدلها بر سر ارزیابی هوش مصنوعی به دنیای پوکمون رسیده است
تاریخ انتشار:
مقدمه
حتی دنیای پوکمون نیز از جنجالهای ارزیابی هوش مصنوعی در امان نیست.
ادعای جدید در مورد مدلهای هوش مصنوعی
هفته گذشته، یک پست در شبکه اجتماعی ایکس (X) به سرعت در حال انتشار بود که ادعا میکرد مدل جدید جمنای گوگل از مدل پرچمدار آنتروپیک، کلاود، در سهگانه اصلی بازی ویدیویی پوکمون پیشی گرفته است. گزارشها حاکی از آن است که جمنای در یک استریم توییچ به مرحله لواندر تاون رسیده است؛ در حالی که کلاود تا اواخر فوریه در کوه ماه گیر کرده بود.
مزیت جمنای
اما آنچه که در این پست به آن اشاره نشده این است که جمنای یک مزیت داشت.
همانطور که کاربران در ردیت اشاره کردند، توسعهدهندهای که استریم جمنای را مدیریت میکند، یک نقشهبرداری سفارشی ساخته است که به مدل کمک میکند تا "تایلها" در بازی مانند درختان قابل بریدن را شناسایی کند. این موضوع نیاز جمنای به تجزیه و تحلیل عکسهای صفحه را قبل از اتخاذ تصمیمات بازی کاهش میدهد.
ارزیابی پوکمون به عنوان یک معیار

اکنون، پوکمون بهعنوان یک معیار نیمهجدی برای هوش مصنوعی در بهترین حالت شناخته میشود - تعداد کمی میتوانند ادعا کنند که این یک آزمایش بسیار آموزنده برای تواناییهای یک مدل است. اما این یک مثال آموزنده از این است که چگونه پیادهسازیهای مختلف یک معیار میتواند بر نتایج تأثیر بگذارد.
نمرات آنتروپیک
برای مثال، آنتروپیک دو نمره برای مدل اخیر خود، آنتروپیک 3.7 سونات، در معیار SWE-bench Verified گزارش کرده است که به منظور ارزیابی تواناییهای کدنویسی یک مدل طراحی شده است. کلاود 3.7 سونات در SWE-bench Verified به دقت 62.3% دست یافت، اما با یک "اسکافلد سفارشی" که آنتروپیک توسعه داده بود، به 70.3% رسید.
مدلهای متا و ارزیابیهای خاص
بهتازگی، متا نسخهای از یکی از مدلهای جدیدتر خود، لاما 4 ماوریک، را برای عملکرد بهتر در یک معیار خاص، LM Arena، تنظیم کرده است. نسخه اصلی این مدل در همان ارزیابی بهطور قابل توجهی ضعیفتر عمل میکند.
چالشهای مقایسه مدلها
با توجه به اینکه معیارهای هوش مصنوعی - شامل پوکمون - از ابتدا اندازهگیریهای کاملی نیستند، پیادهسازیهای سفارشی و غیر استاندارد میتوانند باعث ایجاد ابهام بیشتری در مقایسهها شوند. به عبارت دیگر، به نظر نمیرسد که مقایسه مدلها با انتشار آنها آسانتر شود.