
چرا کلود آنتروپیک هنوز نتوانسته بر پوکمون غلبه کند
تاریخ انتشار:
مقدمه
در ماههای اخیر، بزرگترین حامیان صنعت هوش مصنوعی شروع به همگرایی بر روی انتظارات عمومی کردهاند که ما در آستانه «هوش مصنوعی عمومی» (AGI) قرار داریم—عاملهای مجازی که میتوانند درک و عملکرد «در سطح انسانی» را در اکثر وظایف شناختی برآورده کنند یا از آن فراتر بروند.
OpenAI به آرامی انتظاراتی را برای یک عامل هوش مصنوعی «در سطح دکترا» که میتواند بهطور خودکار در سطح یک «کارگر دانش با درآمد بالا» در آینده نزدیک عمل کند، ایجاد میکند. ایلان ماسک میگوید که «احتمالاً تا پایان سال 2025، هوش مصنوعی از هر انسان دیگری هوشمندتر خواهد بود». مدیر عامل آنتروپیک، داریو آمودئی، فکر میکند که ممکن است کمی بیشتر طول بکشد اما بهطور مشابه میگوید که این احتمال وجود دارد که هوش مصنوعی تا پایان سال 2027 «بهتر از انسانها در تقریباً همه چیز» باشد.
آیا کلود میتواند پوکمون بازی کند؟
چند محقق در آنتروپیک در طول سال گذشته بهطور پارهوقت به یک مشکل خاص مشغول بودهاند. آیا کلود میتواند پوکمون بازی کند؟
ماه گذشته، آنتروپیک آزمایش «کلود پوکمون بازی میکند» را بهعنوان یک نقطه عطف در مسیر به سمت آینده پیشبینیشده AGI ارائه کرد. این پروژه که شرکت آن را نشاندهنده «درخششهای سیستمهای هوش مصنوعی که چالشها را با افزایش شایستگی حل میکنند، نه تنها از طریق آموزش بلکه با استدلال عمومی» میداند، سرخط خبرها شد. آنتروپیک با افتخار اعلام کرد که قابلیتهای استدلال «بهبود یافته» کلود 3.7 سونت به مدل جدید این شرکت اجازه داده است که در بازی محبوب قدیمی Game Boy پیشرفت کند بهگونهای که «مدلهای قدیمی امید کمی به دستیابی به آن داشتند».

در حالی که مدلهای کلود از یک سال پیش حتی در خروج از منطقه ابتدایی بازی مشکل داشتند، کلود 3.7 سونت توانست با جمعآوری چندین نشان Gym در تعداد نسبتاً کمی از اقدامات درون بازی پیشرفت کند. آنتروپیک نوشت که این پیشرفت بهدلیل «تفکر گسترشیافته» کلود 3.7 سونت است که به این معنی است که مدل جدید «به جلو برنامهریزی میکند، اهدافش را به یاد میآورد و وقتی استراتژیهای اولیه شکست میخورند، سازگار میشود» بهگونهای که پیشینیانش نمیتوانستند. آنتروپیک با افتخار میگوید که اینها «مهارتهای حیاتی برای مبارزه با رهبران Gym پیکسلدار هستند. و ما فرض میکنیم که در حل مشکلات دنیای واقعی نیز همینطور است.
موفقیت نسبی در مقابل موفقیت مطلق
اما موفقیت نسبی در مقایسه با مدلهای قبلی، به معنای موفقیت مطلق در کل بازی نیست. در هفتههای پس از انتشار عمومی کلود پوکمون بازی میکند، هزاران بیننده در توییچ شاهد تلاش کلود برای پیشرفت مداوم در بازی بودهاند. با وجود توقفهای طولانی «تفکر» بین هر حرکت—که در آن بینندگان میتوانند پرینتهای فرآیند استدلال شبیهسازیشده سیستم را بخوانند—کلود بهطور مکرر خود را در حال بازدید بیفایده از شهرهای تکمیلشده، گیر کردن در گوشههای کور نقشه برای مدت طولانی، یا بیفایده با همان NPC غیرمفید صحبت کردن مییابد، تا فقط چند نمونه از عملکرد درون بازی بهطور واضح زیر سطح انسانی را ذکر کنیم.
با مشاهده اینکه کلود همچنان در یک بازی طراحیشده برای کودکان با مشکل مواجه است، تصور اینکه ما شاهد تولد نوعی فوقهوش کامپیوتری هستیم دشوار است. اما حتی سطح فعلی عملکرد کلود در پوکمون نیز میتواند درسهای مهمی برای جستجوی هوش مصنوعی عمومی و در سطح انسانی ارائه دهد.

هوش در راههای مختلف
به نوعی، این شگفتانگیز است که کلود میتواند پوکمون را با هر تسهیلاتی بازی کند. هنگام توسعه سیستمهای هوش مصنوعی که استراتژیهای غالب را در بازیهایی مانند Go و Dota 2 پیدا میکنند، مهندسان معمولاً الگوریتمهای خود را با دانش عمیق از قوانین بازی و/یا استراتژیهای پایه، و همچنین تابع پاداش برای هدایت آنها به سمت عملکرد بهتر شروع میکنند. اما برای کلود پوکمون بازی میکند، دیوید هرشی، توسعهدهنده پروژه و کارمند آنتروپیک میگوید که او با یک مدل کلود عمومی و بدون تغییر شروع کرده است که بهطور خاص برای بازیهای پوکمون آموزش یا تنظیم نشده است.
«این صرفاً چیزهای مختلف دیگری است که [کلود] درباره جهان میداند که برای اشاره به بازیهای ویدئویی استفاده میشود»، هرشی به Ars گفت. «بنابراین او یک حس از پوکمون دارد. اگر به claude.ai بروید و درباره پوکمون بپرسید، میداند که پوکمون چیست بر اساس آنچه که خوانده است... اگر بپرسید، به شما میگوید که هشت نشان Gym وجود دارد، به شما میگوید که اولین آن بروک است... او ساختار کلی را میداند.»
علاوه بر نظارت مستقیم بر برخی آدرسهای کلیدی (شبیهسازیشده) RAM Game Boy برای اطلاعات وضعیت بازی، کلود خروجی بصری بازی را بهگونهای مشابه انسان مشاهده و تفسیر میکند. اما با وجود پیشرفتهای اخیر در پردازش تصویر هوش مصنوعی، هرشی گفت که کلود هنوز در تفسیر دنیای پیکسلدار و با وضوح پایین یک تصویر Game Boy به خوبی یک انسان مشکل دارد. «کلود هنوز در درک آنچه که روی صفحه است بهطور خاص خوب نیست»، او گفت. «شما او را میبینید که سعی میکند به دیوارها برخورد کند.»
هرشی گفت که او مشکوک است که دادههای آموزشی کلود احتمالاً شامل توصیفهای متنی بسیار دقیق از «چیزهایی که شبیه صفحه Game Boy هستند» نمیشود. این به این معنی است که، بهطور غافلگیرکننده، اگر کلود در حال بازی یک بازی با «تصاویر واقعیتر» بود، فکر میکنم کلود واقعاً میتوانست بهتر ببیند.
«این یکی از آن چیزهای خندهدار درباره انسانهاست که میتوانیم به این تودههای هشت در هشت پیکسلی از افراد نگاه کنیم و بگوییم، ‘این یک دختر با موهای آبی است’»، هرشی ادامه داد. «به نظر میرسد که افراد این توانایی را دارند که از دنیای واقعی خود بهسمت درک و نوعی فهم برسند... بنابراین من واقعاً کمی متعجب هستم که کلود به اندازهای که هست در دیدن اینکه یک نفر روی صفحه است، خوب است.»
حتی با درک کامل از آنچه که روی صفحه میبیند، با این حال، هرشی گفت که کلود هنوز با چالشهای ناوبری 2D که برای یک انسان بیدردسر است، مشکل دارد. «برای من درک اینکه [یک ساختمان درون بازی] یک ساختمان است و اینکه نمیتوانم از طریق یک ساختمان عبور کنم، بسیار آسان است»، هرشی گفت. «و این [چیزی است] که برای کلود درک آن بسیار چالشبرانگیز است... این خندهدار است زیرا او به نوعی در راههای مختلف هوشمند است، میدانید؟»
نقاط قوت و ضعف کلود

جایی که کلود معمولاً عملکرد بهتری دارد، هرشی گفت، در بخشهای متنیتر بازی است. در طول یک نبرد درون بازی، کلود بهراحتی متوجه میشود زمانی که بازی به او میگوید که یک حمله از یک پوکمون نوع الکتریکی «خیلی مؤثر نیست» در برابر یک حریف نوع سنگ، بهعنوان مثال. کلود سپس آن واقعیت را در یک پایگاه داده نوشتاری بزرگ برای ارجاعهای آینده ذخیره میکند. کلود همچنین میتواند چندین قطعه از دانش مشابه را به استراتژیهای نبرد نسبتاً زیبا یکپارچه کند و حتی آن استراتژیها را به برنامههای بلندمدت برای گرفتن و مدیریت تیمهای چند موجودی برای نبردهای آینده گسترش دهد.
کلود حتی میتواند «هوش» شگفتانگیزی را نشان دهد زمانی که متن درون بازی پوکمون بهطور عمدی گمراهکننده یا ناقص است. «این واقعاً خندهدار است که به شما میگویند باید به دنبال پروفسور اوک در کنار بروید و سپس او آنجا نیست»، هرشی در مورد یک وظیفه در اوایل بازی گفت. «بهعنوان یک کودک 5 ساله، این برای من بسیار گیجکننده بود. اما کلود معمولاً از همان مراحل عبور میکند که با مادرش صحبت میکند، به آزمایشگاه میرود، [اوک] را پیدا نمیکند، میگوید، ‘باید چیزی را بفهمم’... او به اندازه کافی پیچیده است که نوعی از مراحل یادگیری که [انسانها] واقعاً باید آن را یاد بگیرند، بگذرد.»
چالشهای به یادآوری
فراتر از مسائل مربوط به تجزیه و تحلیل متن و تصاویر، هرشی همچنین اذعان کرد که کلود میتواند در «یادآوری» آنچه که قبلاً آموخته است، مشکل داشته باشد. مدل فعلی دارای یک «پنجره زمینه» 200,000 توکنی است که مقدار اطلاعات رابطهای را که میتواند در «حافظه» خود در هر زمان ذخیره کند، محدود میکند. زمانی که پایگاه داده دانش همیشه در حال گسترش سیستم این پنجره زمینه را پر میکند، کلود از یک فرآیند خلاصهسازی پیچیده عبور میکند و یادداشتهای دقیقی از آنچه که دیده، انجام داده و آموخته است را به خلاصههای متنی کوتاهتری که برخی از جزئیات دقیق را از دست میدهند، فشرده میکند.
این میتواند به این معنی باشد که کلود «در پیگیری چیزها برای مدت طولانی مشکل دارد و واقعاً حس خوبی از آنچه که تاکنون امتحان کرده است، ندارد»، هرشی گفت. «شما قطعاً او را میبینید که گاهی چیزی را که نباید حذف کند. هر چیزی که در پایگاه دانش شما نیست یا در خلاصه شما نیست، از بین خواهد رفت، بنابراین باید درباره آنچه که میخواهید در آنجا قرار دهید، فکر کنید.»
بیش از فراموش کردن تاریخچه مهم، با این حال، کلود با مشکلات بزرگتری مواجه میشود زمانی که بهطور ناخواسته اطلاعات نادرستی را به پایگاه دانش خود وارد میکند. مانند یک نظریهپرداز توطئه که یک جهانبینی کامل را از یک فرض نادرست بهطور ذاتی میسازد، کلود میتواند بهطرز شگفتانگیزی کند در شناسایی زمانی که یک خطا در پایگاه دانش خود تأثیر منفی بر بازی پوکمون او دارد، کند باشد.
«چیزهایی که در گذشته نوشته شدهاند، او بهطور نسبتاً کور به آنها اعتماد میکند»، هرشی گفت. «من دیدهام که او به شدت متقاعد شده است که خروجی [محل درون بازی] جنگل ویرایدین را در برخی مختصات خاص پیدا کرده است و سپس ساعتها و ساعتها در حال کاوش یک مربع کوچک در اطراف آن مختصات اشتباه میگذرد به جای انجام هر چیز دیگری. او برای تصمیمگیری اینکه آن یک ‘شکست’ بوده است، زمان بسیار زیادی میبرد.»
با این حال، هرشی گفت که کلود 3.7 سونت از مدلهای قبلی در نهایت «سوال کردن از فرضیات خود، امتحان کردن استراتژیهای جدید و پیگیری استراتژیهای مختلف در افقهای طولانی برای [دیدن] اینکه آیا آنها کار میکنند یا نه» بهتر است. در حالی که مدل جدید هنوز «برای مدتهای طولانی با تلاش برای تکرار همان چیز» مشکل دارد، در نهایت تمایل دارد «احساسی از آنچه در حال وقوع است و آنچه را که قبلاً امتحان کرده است، به دست آورد و بسیاری از اوقات به پیشرفت واقعی از آن میرسد»، هرشی گفت.
آینده کلود
یکی از جالبترین چیزها در مشاهده کلود پوکمون بازی میکند در چندین تکرار و راهاندازی مجدد، هرشی گفت، این است که چگونه پیشرفت و استراتژی سیستم میتواند بین اجراها بسیار متفاوت باشد. گاهی اوقات کلود نشان میدهد که «قادر به ساخت یک استراتژی نسبتاً منسجم است» با «نگهداشتن یادداشتهای دقیقی درباره مسیرهای مختلف برای امتحان»، بهعنوان مثال، او گفت. اما «بیشتر اوقات اینطور نیست... بیشتر اوقات، او به دیوار میخورد زیرا مطمئن است که خروجی را میبیند.»
یکی از بزرگترین چیزهایی که مانع بهبود نسخه فعلی کلود میشود، هرشی گفت، این است که «زمانی که او آن استراتژی خوب را استخراج میکند، فکر نمیکنم که لزوماً خودآگاهی داشته باشد که یکی از استراتژیهایی که [او] به آن رسیده بهتر از دیگری است». و این مشکل چندان سادهای برای حل نیست.
با این حال، هرشی گفت که او «میوههای پایین» را برای بهبود بازی پوکمون کلود با بهبود درک مدل از تصاویر Game Boy میبیند. «فکر میکنم اگر او حس کاملی از آنچه که روی صفحه است داشته باشد، احتمالاً میتواند بازی را ببرد»، هرشی گفت و افزود که چنین مدلی احتمالاً «کمی کمتر از انسان» عمل خواهد کرد. گسترش پنجره زمینه برای مدلهای آینده کلود همچنین احتمالاً به آن مدلها اجازه میدهد که «در طول زمانهای طولانیتر استدلال کنند و مسائل را بهطور منسجمتر در طول یک دوره طولانی مدیریت کنند»، هرشی گفت. مدلهای آینده با «کمی بهتر شدن در یادآوری، پیگیری یک مجموعه منسجم از آنچه که باید امتحان کنند تا پیشرفت کنند» بهبود خواهند یافت.
هرچه درباره بهبودهای قریبالوقوع در مدلهای هوش مصنوعی فکر کنید، با این حال، عملکرد فعلی کلود در پوکمون نشان نمیدهد که او در آستانه ایجاد انفجاری از هوش مصنوعی عمومی و کاملاً قابل تعمیم در سطح انسانی است. و هرشی اذعان میکند که مشاهده کلود 3.7 سونت که حدود 80 ساعت در کوه ماه گیر کرده است میتواند به نظر برسد «مدلی که نمیداند چه میکند». اما هرشی هنوز تحت تأثیر قرار گرفته است که چگونه مدل استدلال جدید کلود گاهی اوقات برخی از درخششهای آگاهی را نشان میدهد و «به نوعی میگوید که نمیداند چه میکند و میداند که باید کاری متفاوت انجام دهد. و تفاوت بین ‘نمیتواند اصلاً انجام دهد’ و ‘میتواند به نوعی انجام دهد’ برای من در این موارد هوش مصنوعی بسیار بزرگ است»، او ادامه داد. «میدانید، وقتی چیزی میتواند به نوعی چیزی را انجام دهد، معمولاً به این معنی است که ما به انجام آن بهطور واقعاً خوب نزدیک هستیم.»