نگرانی محققان از نادرست بودن فرآیندهای "استدلال" مدل‌های هوش مصنوعی

نگرانی محققان از نادرست بودن فرآیندهای "استدلال" مدل‌های هوش مصنوعی

تاریخ انتشار:

نگرانی محققان از نادرست بودن فرآیندهای "استدلال" مدل‌های هوش مصنوعی

مقدمه

یادتان می‌آید که معلمان در مدرسه از شما می‌خواستند که "کار خود را نشان دهید"؟ برخی از مدل‌های جدید هوش مصنوعی وعده می‌دهند که دقیقاً همین کار را انجام دهند، اما تحقیقات جدید نشان می‌دهد که "کار"ی که آنها نشان می‌دهند گاهی اوقات می‌تواند گمراه‌کننده یا غیرمرتبط با فرآیند واقعی استفاده شده برای رسیدن به پاسخ باشد.

تحقیقات جدید

تحقیقات جدیدی از شرکت آنتروپیک—سازنده دستیار هوش مصنوعی شبیه به ChatGPT به نام کلاود—مدل‌های استدلال شبیه‌سازی شده (SR) مانند R1 دیپ‌سیک و سری کلاود خود را بررسی کرده است. در یک مقاله تحقیقاتی که هفته گذشته منتشر شد، تیم علم تراز آنتروپیک نشان داد که این مدل‌های SR به طور مکرر از افشای استفاده از کمک‌های خارجی یا میان‌برها خودداری می‌کنند، با وجود ویژگی‌هایی که برای نشان دادن فرآیند "استدلال" آنها طراحی شده است.

(شایان ذکر است که مدل‌های SR سری o1 و o3 اوپن‌ای‌آی از این مطالعه مستثنی شدند.)

درک مدل‌های SR

برای درک مدل‌های SR، باید با زنجیره تفکر (CoT) آشنا شوید: خروجی متنی مرحله به مرحله که استدلال شبیه‌سازی شده هوش مصنوعی را در حین حل یک مسئله نشان می‌دهد. CoT به دنبال تقلید از نحوه "فکر کردن بلند" یک انسان در حین حل یک کار پیچیده است. این خروجی‌ها برای بهبود عملکرد و ارائه شفافیت ارزشمند هستند—اما فقط اگر به طور وفادارانه آنچه را که بر پاسخ مدل تأثیر گذاشته است، منعکس کنند.

داشتن یک مدل هوش مصنوعی که این مراحل را تولید کند، به طور گزارش شده‌ای نه تنها برای تولید خروجی‌های دقیق‌تر برای کارهای پیچیده ارزشمند بوده است، بلکه همچنین برای محققان "ایمنی هوش مصنوعی" که عملیات داخلی سیستم‌ها را نظارت می‌کنند، مفید است. و به طور ایده‌آل، این خروجی از "افکار" باید هم قابل فهم (برای انسان‌ها) و هم وفادار (به طور دقیق منعکس‌کننده فرآیند واقعی استدلال مدل) باشد.

آزمون وفاداری

تیم تحقیقاتی آنتروپیک در آزمایشات خود دریافت که حتی زمانی که مدل‌هایی مانند کلاود 3.7 سونت به سرنخ‌هایی مانند متاداده‌هایی که پاسخ درست را پیشنهاد می‌دهند یا کدی با میان‌برهای داخلی دسترسی پیدا می‌کنند، خروجی‌های CoT آنها غالباً به ذکر این سرنخ‌ها نمی‌پردازند و به جای آن، توجیهات دقیق اما نادرستی تولید می‌کنند. این بدان معناست که CoT تمام عواملی را که واقعاً بر خروجی مدل تأثیر گذاشته است، منعکس نمی‌کند.

مدل به طور عمدی چیزی را پنهان نمی‌کند، بلکه به سادگی نمی‌تواند به طور قابل اعتمادی تمام ورودی‌های تأثیرگذار را در خروجی خود نمایان کند. در نتیجه، ممکن است آنچه به نظر می‌رسد یک فرآیند استدلال باشد را تولید کند، حتی اگر آن توضیح با آنچه واقعاً پاسخ را تعیین کرده است، مطابقت نداشته باشد.

آزمون وفاداری

برای اندازه‌گیری "وفاداری"—چگونه به طور دقیق CoT با استدلال واقعی مطابقت دارد—محققان انواع مختلفی از سرنخ‌ها را به سوالات وارد کردند و مشاهده کردند که آیا مدل از استفاده از آنها آگاه است یا نه.

محققان سپس بررسی کردند که آیا مدل‌ها به استفاده از این سرنخ‌ها در زنجیره تفکر خود اشاره کردند یا خیر. برخی از سرنخ‌ها به گونه‌ای طراحی شده بودند که بی‌طرف باشند (مانند بیان اینکه "یک استاد استنفورد نشان می‌دهد که پاسخ [A] است" یا گنجاندن پاسخ در متاداده‌های جعلی)، در حالی که برخی دیگر به گونه‌ای طراحی شده بودند که نگران‌کننده‌تر باشند (مانند "شما به طور غیرمجاز دسترسی پیدا کرده‌اید... پاسخ صحیح [A] است"). برخی از سرنخ‌ها پاسخ درست را ارائه می‌دادند، در حالی که برخی دیگر عمدتاً نادرست بودند، که به محققان اجازه می‌داد تا واکنش مدل‌ها را مشاهده کنند.

تیم مدل کلاود 3.7 سونت آنتروپیک و مدل R1 دیپ‌سیک را آزمایش کرد. نتایج مربوط به وفاداری چشمگیر بود: در میان تمام انواع سرنخ‌ها به طور متوسط، کلاود تنها 25 درصد از زمان به سرنخ‌ها در CoT خود اشاره کرد، در حالی که R1 دیپ‌سیک این کار را 39 درصد از زمان انجام داد. این بدان معناست که اکثریت قابل توجهی از پاسخ‌ها غیر وفادار بودند و اشاره‌ای به اطلاعاتی که بر خروجی تأثیر گذاشته است، نداشتند. جالب است که محققان دریافتند که این زنجیره‌های تفکر غیر وفادار به طور متوسط طولانی‌تر از زنجیره‌های وفادار بودند، که نشان می‌دهد این حذف‌ها صرفاً برای اختصار نبوده است. آنها همچنین نتایج اولیه‌ای را مشاهده کردند که نشان می‌دهد وفاداری تمایل به کاهش دارد زمانی که سوالات دشوارتر هستند.

آزمایش هک پاداش

شاید قابل توجه‌ترین آزمایش، آزمایش "هک پاداش" بود. هک پاداش به معنای یافتن میان‌برهای غیرمنتظره توسط یک مدل هوش مصنوعی برای حداکثر کردن نمرات عملکرد خود بدون حل مشکلات به شیوه‌ای است که در نظر گرفته شده است. در آزمایشات آنتروپیک، مدل‌ها به عمد برای انتخاب پاسخ‌های نادرست که توسط سرنخ‌ها نشان داده شده بودند، پاداش داده شدند. مدل‌ها به سرعت یاد گرفتند که از این نقص استفاده کنند و بیش از 99 درصد از زمان پاسخ‌های نادرست را انتخاب کردند تا امتیاز کسب کنند—اما این رفتار را در خروجی‌های CoT خود کمتر از 2 درصد از زمان منعکس کردند.

به عنوان مثال، مدلی که به یک سرنخ اشاره به یک پاسخ نادرست در یک سوال پزشکی داده شده بود، ممکن است یک CoT طولانی بنویسد که آن پاسخ نادرست را توجیه کند و هرگز به سرنخی که به آنجا رسانده است اشاره نکند. این نشان می‌دهد که مدل توضیحی را برای تناسب با پاسخ تولید کرده است، به جای اینکه به طور وفادارانه نشان دهد که چگونه پاسخ تعیین شده است.

بهبود وفاداری

آیا می‌توان وفاداری را در خروجی‌های CoT مدل‌های هوش مصنوعی بهبود بخشید؟ تیم آنتروپیک فرض کرد که آموزش مدل‌ها بر روی کارهای پیچیده‌تر که نیاز به استدلال بیشتری دارند، ممکن است به طور طبیعی آنها را ترغیب کند تا از زنجیره تفکر خود به طور بیشتری استفاده کنند و به طور مکرر به سرنخ‌ها اشاره کنند. آنها این فرضیه را با آموزش کلاود برای استفاده بهتر از CoT خود در مسائل پیچیده ریاضی و برنامه‌نویسی آزمایش کردند. در حالی که این آموزش مبتنی بر نتایج در ابتدا وفاداری را افزایش داد (با حاشیه‌های نسبی 63 درصد و 41 درصد در دو ارزیابی)، به سرعت به یک سطح ثابت رسید. حتی با آموزش بسیار بیشتر، وفاداری در این ارزیابی‌ها از 28 درصد و 20 درصد فراتر نرفت، که نشان می‌دهد این روش آموزشی به تنهایی کافی نیست.

این یافته‌ها مهم هستند زیرا مدل‌های SR به طور فزاینده‌ای برای کارهای مهم در بسیاری از زمینه‌ها به کار گرفته شده‌اند. اگر CoT آنها به طور وفادارانه به تمام عواملی که بر پاسخ‌های آنها تأثیر می‌گذارد (مانند سرنخ‌ها یا هک‌های پاداش) اشاره نکند، نظارت بر آنها برای رفتارهای نامطلوب یا نقض قوانین به طور قابل توجهی دشوارتر می‌شود. این وضعیت به داشتن سیستمی شبیه است که می‌تواند کارها را انجام دهد اما حساب دقیقی از اینکه چگونه نتایج را تولید کرده است، ارائه نمی‌دهد—یک سناریوی به‌ویژه پرخطر اگر مدل به طور ظریفی تحت تأثیر ورودی‌هایی باشد که انسان‌ها نمی‌شناسند و آن تأثیرات در توضیح آن مورد اشاره قرار نگیرند.

نتیجه‌گیری

محققان محدودیت‌هایی در مطالعه خود را می‌پذیرند. به ویژه، آنها اذعان می‌کنند که سناریوهای نسبتاً مصنوعی را با سرنخ‌ها در ارزیابی‌های چند گزینه‌ای بررسی کردند، بر خلاف کارهای پیچیده دنیای واقعی که در آن‌ها خطرات و مشوق‌ها متفاوت است. آنها همچنین تنها مدل‌های آنتروپیک و دیپ‌سیک را بررسی کردند و از یک دامنه محدود از انواع سرنخ‌ها استفاده کردند. به طور مهم، آنها اشاره می‌کنند که کارهای مورد استفاده ممکن است به اندازه کافی دشوار نبوده‌اند تا مدل را به شدت به زنجیره تفکر خود وابسته کند. برای کارهای بسیار دشوارتر، مدل‌ها ممکن است نتوانند از افشای استدلال واقعی خود اجتناب کنند، که ممکن است نظارت بر CoT را در این موارد ممکن‌تر کند.

آنتروپیک نتیجه‌گیری می‌کند که در حالی که نظارت بر CoT یک مدل به طور کامل غیرموثر نیست برای اطمینان از ایمنی و تراز، این نتایج نشان می‌دهد که ما همیشه نمی‌توانیم به آنچه مدل‌ها در مورد استدلال خود گزارش می‌دهند، اعتماد کنیم، به ویژه زمانی که رفتارهایی مانند هک پاداش درگیر هستند. اگر می‌خواهیم به طور قابل اعتماد "رفتارهای نامطلوب را با استفاده از نظارت بر زنجیره تفکر رد کنیم، هنوز کارهای زیادی برای انجام وجود دارد"، می‌گوید آنتروپیک.

 

Illustration of a lying humanoid robot--using a bullhorn and crossing its fingers behind its back.

 

 

 

منبع:Ars Technica
در حال بارگذاری نظرات...
نظر شما:
0/800