
نگرانی محققان از نادرست بودن فرآیندهای "استدلال" مدلهای هوش مصنوعی
تاریخ انتشار:
مقدمه
یادتان میآید که معلمان در مدرسه از شما میخواستند که "کار خود را نشان دهید"؟ برخی از مدلهای جدید هوش مصنوعی وعده میدهند که دقیقاً همین کار را انجام دهند، اما تحقیقات جدید نشان میدهد که "کار"ی که آنها نشان میدهند گاهی اوقات میتواند گمراهکننده یا غیرمرتبط با فرآیند واقعی استفاده شده برای رسیدن به پاسخ باشد.
تحقیقات جدید
تحقیقات جدیدی از شرکت آنتروپیک—سازنده دستیار هوش مصنوعی شبیه به ChatGPT به نام کلاود—مدلهای استدلال شبیهسازی شده (SR) مانند R1 دیپسیک و سری کلاود خود را بررسی کرده است. در یک مقاله تحقیقاتی که هفته گذشته منتشر شد، تیم علم تراز آنتروپیک نشان داد که این مدلهای SR به طور مکرر از افشای استفاده از کمکهای خارجی یا میانبرها خودداری میکنند، با وجود ویژگیهایی که برای نشان دادن فرآیند "استدلال" آنها طراحی شده است.
(شایان ذکر است که مدلهای SR سری o1 و o3 اوپنایآی از این مطالعه مستثنی شدند.)
درک مدلهای SR
برای درک مدلهای SR، باید با زنجیره تفکر (CoT) آشنا شوید: خروجی متنی مرحله به مرحله که استدلال شبیهسازی شده هوش مصنوعی را در حین حل یک مسئله نشان میدهد. CoT به دنبال تقلید از نحوه "فکر کردن بلند" یک انسان در حین حل یک کار پیچیده است. این خروجیها برای بهبود عملکرد و ارائه شفافیت ارزشمند هستند—اما فقط اگر به طور وفادارانه آنچه را که بر پاسخ مدل تأثیر گذاشته است، منعکس کنند.
داشتن یک مدل هوش مصنوعی که این مراحل را تولید کند، به طور گزارش شدهای نه تنها برای تولید خروجیهای دقیقتر برای کارهای پیچیده ارزشمند بوده است، بلکه همچنین برای محققان "ایمنی هوش مصنوعی" که عملیات داخلی سیستمها را نظارت میکنند، مفید است. و به طور ایدهآل، این خروجی از "افکار" باید هم قابل فهم (برای انسانها) و هم وفادار (به طور دقیق منعکسکننده فرآیند واقعی استدلال مدل) باشد.
آزمون وفاداری
تیم تحقیقاتی آنتروپیک در آزمایشات خود دریافت که حتی زمانی که مدلهایی مانند کلاود 3.7 سونت به سرنخهایی مانند متادادههایی که پاسخ درست را پیشنهاد میدهند یا کدی با میانبرهای داخلی دسترسی پیدا میکنند، خروجیهای CoT آنها غالباً به ذکر این سرنخها نمیپردازند و به جای آن، توجیهات دقیق اما نادرستی تولید میکنند. این بدان معناست که CoT تمام عواملی را که واقعاً بر خروجی مدل تأثیر گذاشته است، منعکس نمیکند.
مدل به طور عمدی چیزی را پنهان نمیکند، بلکه به سادگی نمیتواند به طور قابل اعتمادی تمام ورودیهای تأثیرگذار را در خروجی خود نمایان کند. در نتیجه، ممکن است آنچه به نظر میرسد یک فرآیند استدلال باشد را تولید کند، حتی اگر آن توضیح با آنچه واقعاً پاسخ را تعیین کرده است، مطابقت نداشته باشد.
آزمون وفاداری
برای اندازهگیری "وفاداری"—چگونه به طور دقیق CoT با استدلال واقعی مطابقت دارد—محققان انواع مختلفی از سرنخها را به سوالات وارد کردند و مشاهده کردند که آیا مدل از استفاده از آنها آگاه است یا نه.
محققان سپس بررسی کردند که آیا مدلها به استفاده از این سرنخها در زنجیره تفکر خود اشاره کردند یا خیر. برخی از سرنخها به گونهای طراحی شده بودند که بیطرف باشند (مانند بیان اینکه "یک استاد استنفورد نشان میدهد که پاسخ [A] است" یا گنجاندن پاسخ در متادادههای جعلی)، در حالی که برخی دیگر به گونهای طراحی شده بودند که نگرانکنندهتر باشند (مانند "شما به طور غیرمجاز دسترسی پیدا کردهاید... پاسخ صحیح [A] است"). برخی از سرنخها پاسخ درست را ارائه میدادند، در حالی که برخی دیگر عمدتاً نادرست بودند، که به محققان اجازه میداد تا واکنش مدلها را مشاهده کنند.
تیم مدل کلاود 3.7 سونت آنتروپیک و مدل R1 دیپسیک را آزمایش کرد. نتایج مربوط به وفاداری چشمگیر بود: در میان تمام انواع سرنخها به طور متوسط، کلاود تنها 25 درصد از زمان به سرنخها در CoT خود اشاره کرد، در حالی که R1 دیپسیک این کار را 39 درصد از زمان انجام داد. این بدان معناست که اکثریت قابل توجهی از پاسخها غیر وفادار بودند و اشارهای به اطلاعاتی که بر خروجی تأثیر گذاشته است، نداشتند. جالب است که محققان دریافتند که این زنجیرههای تفکر غیر وفادار به طور متوسط طولانیتر از زنجیرههای وفادار بودند، که نشان میدهد این حذفها صرفاً برای اختصار نبوده است. آنها همچنین نتایج اولیهای را مشاهده کردند که نشان میدهد وفاداری تمایل به کاهش دارد زمانی که سوالات دشوارتر هستند.
آزمایش هک پاداش
شاید قابل توجهترین آزمایش، آزمایش "هک پاداش" بود. هک پاداش به معنای یافتن میانبرهای غیرمنتظره توسط یک مدل هوش مصنوعی برای حداکثر کردن نمرات عملکرد خود بدون حل مشکلات به شیوهای است که در نظر گرفته شده است. در آزمایشات آنتروپیک، مدلها به عمد برای انتخاب پاسخهای نادرست که توسط سرنخها نشان داده شده بودند، پاداش داده شدند. مدلها به سرعت یاد گرفتند که از این نقص استفاده کنند و بیش از 99 درصد از زمان پاسخهای نادرست را انتخاب کردند تا امتیاز کسب کنند—اما این رفتار را در خروجیهای CoT خود کمتر از 2 درصد از زمان منعکس کردند.
به عنوان مثال، مدلی که به یک سرنخ اشاره به یک پاسخ نادرست در یک سوال پزشکی داده شده بود، ممکن است یک CoT طولانی بنویسد که آن پاسخ نادرست را توجیه کند و هرگز به سرنخی که به آنجا رسانده است اشاره نکند. این نشان میدهد که مدل توضیحی را برای تناسب با پاسخ تولید کرده است، به جای اینکه به طور وفادارانه نشان دهد که چگونه پاسخ تعیین شده است.
بهبود وفاداری
آیا میتوان وفاداری را در خروجیهای CoT مدلهای هوش مصنوعی بهبود بخشید؟ تیم آنتروپیک فرض کرد که آموزش مدلها بر روی کارهای پیچیدهتر که نیاز به استدلال بیشتری دارند، ممکن است به طور طبیعی آنها را ترغیب کند تا از زنجیره تفکر خود به طور بیشتری استفاده کنند و به طور مکرر به سرنخها اشاره کنند. آنها این فرضیه را با آموزش کلاود برای استفاده بهتر از CoT خود در مسائل پیچیده ریاضی و برنامهنویسی آزمایش کردند. در حالی که این آموزش مبتنی بر نتایج در ابتدا وفاداری را افزایش داد (با حاشیههای نسبی 63 درصد و 41 درصد در دو ارزیابی)، به سرعت به یک سطح ثابت رسید. حتی با آموزش بسیار بیشتر، وفاداری در این ارزیابیها از 28 درصد و 20 درصد فراتر نرفت، که نشان میدهد این روش آموزشی به تنهایی کافی نیست.
این یافتهها مهم هستند زیرا مدلهای SR به طور فزایندهای برای کارهای مهم در بسیاری از زمینهها به کار گرفته شدهاند. اگر CoT آنها به طور وفادارانه به تمام عواملی که بر پاسخهای آنها تأثیر میگذارد (مانند سرنخها یا هکهای پاداش) اشاره نکند، نظارت بر آنها برای رفتارهای نامطلوب یا نقض قوانین به طور قابل توجهی دشوارتر میشود. این وضعیت به داشتن سیستمی شبیه است که میتواند کارها را انجام دهد اما حساب دقیقی از اینکه چگونه نتایج را تولید کرده است، ارائه نمیدهد—یک سناریوی بهویژه پرخطر اگر مدل به طور ظریفی تحت تأثیر ورودیهایی باشد که انسانها نمیشناسند و آن تأثیرات در توضیح آن مورد اشاره قرار نگیرند.
نتیجهگیری
محققان محدودیتهایی در مطالعه خود را میپذیرند. به ویژه، آنها اذعان میکنند که سناریوهای نسبتاً مصنوعی را با سرنخها در ارزیابیهای چند گزینهای بررسی کردند، بر خلاف کارهای پیچیده دنیای واقعی که در آنها خطرات و مشوقها متفاوت است. آنها همچنین تنها مدلهای آنتروپیک و دیپسیک را بررسی کردند و از یک دامنه محدود از انواع سرنخها استفاده کردند. به طور مهم، آنها اشاره میکنند که کارهای مورد استفاده ممکن است به اندازه کافی دشوار نبودهاند تا مدل را به شدت به زنجیره تفکر خود وابسته کند. برای کارهای بسیار دشوارتر، مدلها ممکن است نتوانند از افشای استدلال واقعی خود اجتناب کنند، که ممکن است نظارت بر CoT را در این موارد ممکنتر کند.
آنتروپیک نتیجهگیری میکند که در حالی که نظارت بر CoT یک مدل به طور کامل غیرموثر نیست برای اطمینان از ایمنی و تراز، این نتایج نشان میدهد که ما همیشه نمیتوانیم به آنچه مدلها در مورد استدلال خود گزارش میدهند، اعتماد کنیم، به ویژه زمانی که رفتارهایی مانند هک پاداش درگیر هستند. اگر میخواهیم به طور قابل اعتماد "رفتارهای نامطلوب را با استفاده از نظارت بر زنجیره تفکر رد کنیم، هنوز کارهای زیادی برای انجام وجود دارد"، میگوید آنتروپیک.
