چرا کلود آنتروپیک هنوز نتوانسته بر پوکمون غلبه کند

چرا کلود آنتروپیک هنوز نتوانسته بر پوکمون غلبه کند

تاریخ انتشار:

چرا کلود آنتروپیک هنوز نتوانسته بر پوکمون غلبه کند

مقدمه

در ماه‌های اخیر، بزرگ‌ترین حامیان صنعت هوش مصنوعی شروع به همگرایی بر روی انتظارات عمومی کرده‌اند که ما در آستانه «هوش مصنوعی عمومی» (AGI) قرار داریم—عامل‌های مجازی که می‌توانند درک و عملکرد «در سطح انسانی» را در اکثر وظایف شناختی برآورده کنند یا از آن فراتر بروند.

OpenAI به آرامی انتظاراتی را برای یک عامل هوش مصنوعی «در سطح دکترا» که می‌تواند به‌طور خودکار در سطح یک «کارگر دانش با درآمد بالا» در آینده نزدیک عمل کند، ایجاد می‌کند. ایلان ماسک می‌گوید که «احتمالاً تا پایان سال 2025، هوش مصنوعی از هر انسان دیگری هوشمندتر خواهد بود». مدیر عامل آنتروپیک، داریو آمودئی، فکر می‌کند که ممکن است کمی بیشتر طول بکشد اما به‌طور مشابه می‌گوید که این احتمال وجود دارد که هوش مصنوعی تا پایان سال 2027 «بهتر از انسان‌ها در تقریباً همه چیز» باشد.

آیا کلود می‌تواند پوکمون بازی کند؟

چند محقق در آنتروپیک در طول سال گذشته به‌طور پاره‌وقت به یک مشکل خاص مشغول بوده‌اند. آیا کلود می‌تواند پوکمون بازی کند؟

ماه گذشته، آنتروپیک آزمایش «کلود پوکمون بازی می‌کند» را به‌عنوان یک نقطه عطف در مسیر به سمت آینده پیش‌بینی‌شده AGI ارائه کرد. این پروژه که شرکت آن را نشان‌دهنده «درخشش‌های سیستم‌های هوش مصنوعی که چالش‌ها را با افزایش شایستگی حل می‌کنند، نه تنها از طریق آموزش بلکه با استدلال عمومی» می‌داند، سرخط خبرها شد. آنتروپیک با افتخار اعلام کرد که قابلیت‌های استدلال «بهبود یافته» کلود 3.7 سونت به مدل جدید این شرکت اجازه داده است که در بازی محبوب قدیمی Game Boy پیشرفت کند به‌گونه‌ای که «مدل‌های قدیمی امید کمی به دستیابی به آن داشتند».

A game Boy Color playing Pokémon Red surrounded by the tendrils of an AI, or maybe some funky glowing wires, what do AI tendrils look like anyways

در حالی که مدل‌های کلود از یک سال پیش حتی در خروج از منطقه ابتدایی بازی مشکل داشتند، کلود 3.7 سونت توانست با جمع‌آوری چندین نشان Gym در تعداد نسبتاً کمی از اقدامات درون بازی پیشرفت کند. آنتروپیک نوشت که این پیشرفت به‌دلیل «تفکر گسترش‌یافته» کلود 3.7 سونت است که به این معنی است که مدل جدید «به جلو برنامه‌ریزی می‌کند، اهدافش را به یاد می‌آورد و وقتی استراتژی‌های اولیه شکست می‌خورند، سازگار می‌شود» به‌گونه‌ای که پیشینیانش نمی‌توانستند. آنتروپیک با افتخار می‌گوید که این‌ها «مهارت‌های حیاتی برای مبارزه با رهبران Gym پیکسل‌دار هستند. و ما فرض می‌کنیم که در حل مشکلات دنیای واقعی نیز همین‌طور است.

موفقیت نسبی در مقابل موفقیت مطلق

اما موفقیت نسبی در مقایسه با مدل‌های قبلی، به معنای موفقیت مطلق در کل بازی نیست. در هفته‌های پس از انتشار عمومی کلود پوکمون بازی می‌کند، هزاران بیننده در توییچ شاهد تلاش کلود برای پیشرفت مداوم در بازی بوده‌اند. با وجود توقف‌های طولانی «تفکر» بین هر حرکت—که در آن بینندگان می‌توانند پرینت‌های فرآیند استدلال شبیه‌سازی‌شده سیستم را بخوانند—کلود به‌طور مکرر خود را در حال بازدید بی‌فایده از شهرهای تکمیل‌شده، گیر کردن در گوشه‌های کور نقشه برای مدت طولانی، یا بی‌فایده با همان NPC غیرمفید صحبت کردن می‌یابد، تا فقط چند نمونه از عملکرد درون بازی به‌طور واضح زیر سطح انسانی را ذکر کنیم.

با مشاهده اینکه کلود همچنان در یک بازی طراحی‌شده برای کودکان با مشکل مواجه است، تصور اینکه ما شاهد تولد نوعی فوق‌هوش کامپیوتری هستیم دشوار است. اما حتی سطح فعلی عملکرد کلود در پوکمون نیز می‌تواند درس‌های مهمی برای جستجوی هوش مصنوعی عمومی و در سطح انسانی ارائه دهد.

Over the last year, new Claude models have shown quick progress in reaching new Pokémon milestones.

هوش در راه‌های مختلف

به نوعی، این شگفت‌انگیز است که کلود می‌تواند پوکمون را با هر تسهیلاتی بازی کند. هنگام توسعه سیستم‌های هوش مصنوعی که استراتژی‌های غالب را در بازی‌هایی مانند Go و Dota 2 پیدا می‌کنند، مهندسان معمولاً الگوریتم‌های خود را با دانش عمیق از قوانین بازی و/یا استراتژی‌های پایه، و همچنین تابع پاداش برای هدایت آن‌ها به سمت عملکرد بهتر شروع می‌کنند. اما برای کلود پوکمون بازی می‌کند، دیوید هرشی، توسعه‌دهنده پروژه و کارمند آنتروپیک می‌گوید که او با یک مدل کلود عمومی و بدون تغییر شروع کرده است که به‌طور خاص برای بازی‌های پوکمون آموزش یا تنظیم نشده است.

«این صرفاً چیزهای مختلف دیگری است که [کلود] درباره جهان می‌داند که برای اشاره به بازی‌های ویدئویی استفاده می‌شود»، هرشی به Ars گفت. «بنابراین او یک حس از پوکمون دارد. اگر به claude.ai بروید و درباره پوکمون بپرسید، می‌داند که پوکمون چیست بر اساس آنچه که خوانده است... اگر بپرسید، به شما می‌گوید که هشت نشان Gym وجود دارد، به شما می‌گوید که اولین آن بروک است... او ساختار کلی را می‌داند.»

علاوه بر نظارت مستقیم بر برخی آدرس‌های کلیدی (شبیه‌سازی‌شده) RAM Game Boy برای اطلاعات وضعیت بازی، کلود خروجی بصری بازی را به‌گونه‌ای مشابه انسان مشاهده و تفسیر می‌کند. اما با وجود پیشرفت‌های اخیر در پردازش تصویر هوش مصنوعی، هرشی گفت که کلود هنوز در تفسیر دنیای پیکسل‌دار و با وضوح پایین یک تصویر Game Boy به خوبی یک انسان مشکل دارد. «کلود هنوز در درک آنچه که روی صفحه است به‌طور خاص خوب نیست»، او گفت. «شما او را می‌بینید که سعی می‌کند به دیوارها برخورد کند.»

هرشی گفت که او مشکوک است که داده‌های آموزشی کلود احتمالاً شامل توصیف‌های متنی بسیار دقیق از «چیزهایی که شبیه صفحه Game Boy هستند» نمی‌شود. این به این معنی است که، به‌طور غافلگیرکننده، اگر کلود در حال بازی یک بازی با «تصاویر واقعی‌تر» بود، فکر می‌کنم کلود واقعاً می‌توانست بهتر ببیند.

«این یکی از آن چیزهای خنده‌دار درباره انسان‌هاست که می‌توانیم به این توده‌های هشت در هشت پیکسلی از افراد نگاه کنیم و بگوییم، ‘این یک دختر با موهای آبی است’»، هرشی ادامه داد. «به نظر می‌رسد که افراد این توانایی را دارند که از دنیای واقعی خود به‌سمت درک و نوعی فهم برسند... بنابراین من واقعاً کمی متعجب هستم که کلود به اندازه‌ای که هست در دیدن اینکه یک نفر روی صفحه است، خوب است.»

حتی با درک کامل از آنچه که روی صفحه می‌بیند، با این حال، هرشی گفت که کلود هنوز با چالش‌های ناوبری 2D که برای یک انسان بی‌دردسر است، مشکل دارد. «برای من درک اینکه [یک ساختمان درون بازی] یک ساختمان است و اینکه نمی‌توانم از طریق یک ساختمان عبور کنم، بسیار آسان است»، هرشی گفت. «و این [چیزی است] که برای کلود درک آن بسیار چالش‌برانگیز است... این خنده‌دار است زیرا او به نوعی در راه‌های مختلف هوشمند است، می‌دانید؟»

نقاط قوت و ضعف کلود

A flowchart summarizing the pieces that help Claude interact with an active game of Pokémon (click through to zoom in).

جایی که کلود معمولاً عملکرد بهتری دارد، هرشی گفت، در بخش‌های متنی‌تر بازی است. در طول یک نبرد درون بازی، کلود به‌راحتی متوجه می‌شود زمانی که بازی به او می‌گوید که یک حمله از یک پوکمون نوع الکتریکی «خیلی مؤثر نیست» در برابر یک حریف نوع سنگ، به‌عنوان مثال. کلود سپس آن واقعیت را در یک پایگاه داده نوشتاری بزرگ برای ارجاع‌های آینده ذخیره می‌کند. کلود همچنین می‌تواند چندین قطعه از دانش مشابه را به استراتژی‌های نبرد نسبتاً زیبا یکپارچه کند و حتی آن استراتژی‌ها را به برنامه‌های بلندمدت برای گرفتن و مدیریت تیم‌های چند موجودی برای نبردهای آینده گسترش دهد.

کلود حتی می‌تواند «هوش» شگفت‌انگیزی را نشان دهد زمانی که متن درون بازی پوکمون به‌طور عمدی گمراه‌کننده یا ناقص است. «این واقعاً خنده‌دار است که به شما می‌گویند باید به دنبال پروفسور اوک در کنار بروید و سپس او آنجا نیست»، هرشی در مورد یک وظیفه در اوایل بازی گفت. «به‌عنوان یک کودک 5 ساله، این برای من بسیار گیج‌کننده بود. اما کلود معمولاً از همان مراحل عبور می‌کند که با مادرش صحبت می‌کند، به آزمایشگاه می‌رود، [اوک] را پیدا نمی‌کند، می‌گوید، ‘باید چیزی را بفهمم’... او به اندازه کافی پیچیده است که نوعی از مراحل یادگیری که [انسان‌ها] واقعاً باید آن را یاد بگیرند، بگذرد.»

چالش‌های به یادآوری

فراتر از مسائل مربوط به تجزیه و تحلیل متن و تصاویر، هرشی همچنین اذعان کرد که کلود می‌تواند در «یادآوری» آنچه که قبلاً آموخته است، مشکل داشته باشد. مدل فعلی دارای یک «پنجره زمینه» 200,000 توکنی است که مقدار اطلاعات رابطه‌ای را که می‌تواند در «حافظه» خود در هر زمان ذخیره کند، محدود می‌کند. زمانی که پایگاه داده دانش همیشه در حال گسترش سیستم این پنجره زمینه را پر می‌کند، کلود از یک فرآیند خلاصه‌سازی پیچیده عبور می‌کند و یادداشت‌های دقیقی از آنچه که دیده، انجام داده و آموخته است را به خلاصه‌های متنی کوتاه‌تری که برخی از جزئیات دقیق را از دست می‌دهند، فشرده می‌کند.

این می‌تواند به این معنی باشد که کلود «در پیگیری چیزها برای مدت طولانی مشکل دارد و واقعاً حس خوبی از آنچه که تاکنون امتحان کرده است، ندارد»، هرشی گفت. «شما قطعاً او را می‌بینید که گاهی چیزی را که نباید حذف کند. هر چیزی که در پایگاه دانش شما نیست یا در خلاصه شما نیست، از بین خواهد رفت، بنابراین باید درباره آنچه که می‌خواهید در آنجا قرار دهید، فکر کنید.»

بیش از فراموش کردن تاریخچه مهم، با این حال، کلود با مشکلات بزرگ‌تری مواجه می‌شود زمانی که به‌طور ناخواسته اطلاعات نادرستی را به پایگاه دانش خود وارد می‌کند. مانند یک نظریه‌پرداز توطئه که یک جهان‌بینی کامل را از یک فرض نادرست به‌طور ذاتی می‌سازد، کلود می‌تواند به‌طرز شگفت‌انگیزی کند در شناسایی زمانی که یک خطا در پایگاه دانش خود تأثیر منفی بر بازی پوکمون او دارد، کند باشد.

«چیزهایی که در گذشته نوشته شده‌اند، او به‌طور نسبتاً کور به آن‌ها اعتماد می‌کند»، هرشی گفت. «من دیده‌ام که او به شدت متقاعد شده است که خروجی [محل درون بازی] جنگل ویرایدین را در برخی مختصات خاص پیدا کرده است و سپس ساعت‌ها و ساعت‌ها در حال کاوش یک مربع کوچک در اطراف آن مختصات اشتباه می‌گذرد به جای انجام هر چیز دیگری. او برای تصمیم‌گیری اینکه آن یک ‘شکست’ بوده است، زمان بسیار زیادی می‌برد.»

با این حال، هرشی گفت که کلود 3.7 سونت از مدل‌های قبلی در نهایت «سوال کردن از فرضیات خود، امتحان کردن استراتژی‌های جدید و پیگیری استراتژی‌های مختلف در افق‌های طولانی برای [دیدن] اینکه آیا آن‌ها کار می‌کنند یا نه» بهتر است. در حالی که مدل جدید هنوز «برای مدت‌های طولانی با تلاش برای تکرار همان چیز» مشکل دارد، در نهایت تمایل دارد «احساسی از آنچه در حال وقوع است و آنچه را که قبلاً امتحان کرده است، به دست آورد و بسیاری از اوقات به پیشرفت واقعی از آن می‌رسد»، هرشی گفت.

آینده کلود

یکی از جالب‌ترین چیزها در مشاهده کلود پوکمون بازی می‌کند در چندین تکرار و راه‌اندازی مجدد، هرشی گفت، این است که چگونه پیشرفت و استراتژی سیستم می‌تواند بین اجراها بسیار متفاوت باشد. گاهی اوقات کلود نشان می‌دهد که «قادر به ساخت یک استراتژی نسبتاً منسجم است» با «نگه‌داشتن یادداشت‌های دقیقی درباره مسیرهای مختلف برای امتحان»، به‌عنوان مثال، او گفت. اما «بیشتر اوقات اینطور نیست... بیشتر اوقات، او به دیوار می‌خورد زیرا مطمئن است که خروجی را می‌بیند.»

یکی از بزرگ‌ترین چیزهایی که مانع بهبود نسخه فعلی کلود می‌شود، هرشی گفت، این است که «زمانی که او آن استراتژی خوب را استخراج می‌کند، فکر نمی‌کنم که لزوماً خودآگاهی داشته باشد که یکی از استراتژی‌هایی که [او] به آن رسیده بهتر از دیگری است». و این مشکل چندان ساده‌ای برای حل نیست.

با این حال، هرشی گفت که او «میوه‌های پایین» را برای بهبود بازی پوکمون کلود با بهبود درک مدل از تصاویر Game Boy می‌بیند. «فکر می‌کنم اگر او حس کاملی از آنچه که روی صفحه است داشته باشد، احتمالاً می‌تواند بازی را ببرد»، هرشی گفت و افزود که چنین مدلی احتمالاً «کمی کمتر از انسان» عمل خواهد کرد. گسترش پنجره زمینه برای مدل‌های آینده کلود همچنین احتمالاً به آن مدل‌ها اجازه می‌دهد که «در طول زمان‌های طولانی‌تر استدلال کنند و مسائل را به‌طور منسجم‌تر در طول یک دوره طولانی مدیریت کنند»، هرشی گفت. مدل‌های آینده با «کمی بهتر شدن در یادآوری، پیگیری یک مجموعه منسجم از آنچه که باید امتحان کنند تا پیشرفت کنند» بهبود خواهند یافت.

هرچه درباره بهبودهای قریب‌الوقوع در مدل‌های هوش مصنوعی فکر کنید، با این حال، عملکرد فعلی کلود در پوکمون نشان نمی‌دهد که او در آستانه ایجاد انفجاری از هوش مصنوعی عمومی و کاملاً قابل تعمیم در سطح انسانی است. و هرشی اذعان می‌کند که مشاهده کلود 3.7 سونت که حدود 80 ساعت در کوه ماه گیر کرده است می‌تواند به نظر برسد «مدلی که نمی‌داند چه می‌کند». اما هرشی هنوز تحت تأثیر قرار گرفته است که چگونه مدل استدلال جدید کلود گاهی اوقات برخی از درخشش‌های آگاهی را نشان می‌دهد و «به نوعی می‌گوید که نمی‌داند چه می‌کند و می‌داند که باید کاری متفاوت انجام دهد. و تفاوت بین ‘نمی‌تواند اصلاً انجام دهد’ و ‘می‌تواند به نوعی انجام دهد’ برای من در این موارد هوش مصنوعی بسیار بزرگ است»، او ادامه داد. «می‌دانید، وقتی چیزی می‌تواند به نوعی چیزی را انجام دهد، معمولاً به این معنی است که ما به انجام آن به‌طور واقعاً خوب نزدیک هستیم.»

منبع:Ars Technica
در حال بارگذاری نظرات...
نظر شما:
0/800