جدل‌ها بر سر ارزیابی هوش مصنوعی به دنیای پوکمون رسیده است

جدل‌ها بر سر ارزیابی هوش مصنوعی به دنیای پوکمون رسیده است

تاریخ انتشار:

جدل‌ها بر سر ارزیابی هوش مصنوعی به دنیای پوکمون رسیده است

مقدمه

حتی دنیای پوکمون نیز از جنجال‌های ارزیابی هوش مصنوعی در امان نیست.

ادعای جدید در مورد مدل‌های هوش مصنوعی

هفته گذشته، یک پست در شبکه اجتماعی ایکس (X) به سرعت در حال انتشار بود که ادعا می‌کرد مدل جدید جمنای گوگل از مدل پرچمدار آنتروپیک، کلاود، در سه‌گانه اصلی بازی ویدیویی پوکمون پیشی گرفته است. گزارش‌ها حاکی از آن است که جمنای در یک استریم توییچ به مرحله لواندر تاون رسیده است؛ در حالی که کلاود تا اواخر فوریه در کوه ماه گیر کرده بود.

مزیت جمنای

اما آنچه که در این پست به آن اشاره نشده این است که جمنای یک مزیت داشت.

همان‌طور که کاربران در ردیت اشاره کردند، توسعه‌دهنده‌ای که استریم جمنای را مدیریت می‌کند، یک نقشه‌برداری سفارشی ساخته است که به مدل کمک می‌کند تا "تایل‌ها" در بازی مانند درختان قابل بریدن را شناسایی کند. این موضوع نیاز جمنای به تجزیه و تحلیل عکس‌های صفحه را قبل از اتخاذ تصمیمات بازی کاهش می‌دهد.

ارزیابی پوکمون به عنوان یک معیار

Pokémon

اکنون، پوکمون به‌عنوان یک معیار نیمه‌جدی برای هوش مصنوعی در بهترین حالت شناخته می‌شود - تعداد کمی می‌توانند ادعا کنند که این یک آزمایش بسیار آموزنده برای توانایی‌های یک مدل است. اما این یک مثال آموزنده از این است که چگونه پیاده‌سازی‌های مختلف یک معیار می‌تواند بر نتایج تأثیر بگذارد.

نمرات آنتروپیک

برای مثال، آنتروپیک دو نمره برای مدل اخیر خود، آنتروپیک 3.7 سونات، در معیار SWE-bench Verified گزارش کرده است که به منظور ارزیابی توانایی‌های کدنویسی یک مدل طراحی شده است. کلاود 3.7 سونات در SWE-bench Verified به دقت 62.3% دست یافت، اما با یک "اسکافلد سفارشی" که آنتروپیک توسعه داده بود، به 70.3% رسید.

مدل‌های متا و ارزیابی‌های خاص

به‌تازگی، متا نسخه‌ای از یکی از مدل‌های جدیدتر خود، لاما 4 ماوریک، را برای عملکرد بهتر در یک معیار خاص، LM Arena، تنظیم کرده است. نسخه اصلی این مدل در همان ارزیابی به‌طور قابل توجهی ضعیف‌تر عمل می‌کند.

چالش‌های مقایسه مدل‌ها

با توجه به اینکه معیارهای هوش مصنوعی - شامل پوکمون - از ابتدا اندازه‌گیری‌های کاملی نیستند، پیاده‌سازی‌های سفارشی و غیر استاندارد می‌توانند باعث ایجاد ابهام بیشتری در مقایسه‌ها شوند. به عبارت دیگر، به نظر نمی‌رسد که مقایسه مدل‌ها با انتشار آنها آسان‌تر شود.

منبع:Techcrunch
در حال بارگذاری نظرات...
نظر شما:
0/800