
چرا مدلهای زبانی بزرگ اطلاعات نادرست تولید میکنند؟ پژوهش جدید به بررسی جزئیات پرداخته است.
تاریخ انتشار:
چالشهای استفاده از مدلهای زبانی بزرگ
یکی از ناامیدکنندهترین جنبههای استفاده از مدلهای زبانی بزرگ، مواجهه با تمایل آنها به تولید اطلاعات نادرست و ساختگی است. این مدلها پاسخهایی را ارائه میدهند که با دادههای آموزشی خود پشتیبانی نمیشوند. از دیدگاه انسانی، درک این موضوع که چرا این مدلها به جای گفتن "نمیدانم"، به تولید اطلاعات به ظاهر منطقی میپردازند، دشوار است.
پژوهش جدید از Anthropic
پژوهش جدیدی که توسط Anthropic انجام شده، برخی از جزئیات داخلی شبکههای عصبی را که به مدلهای زبانی بزرگ کمک میکند تا تصمیم بگیرند چه زمانی به یک پاسخ (شاید ساختگی) پاسخ دهند و چه زمانی از پاسخ دادن خودداری کنند، روشن کرده است. در حالی که درک انسانی از این فرآیند "تصمیمگیری" داخلی هنوز در مراحل ابتدایی است، این نوع پژوهش میتواند به راهحلهای بهتری برای مشکل تولید اطلاعات نادرست در هوش مصنوعی منجر شود.
زمانی که "موجود شناختهشده" نیست
در یک مقاله پیشگامانه که در ماه مه گذشته منتشر شد، Anthropic از سیستمی از خودرمزگذارهای پراکنده استفاده کرد تا گروههای نورونهای مصنوعی را که هنگام مواجهه با مفاهیم داخلی از "پل گلدن گیت" تا "خطاهای برنامهنویسی" فعال میشوند، روشن کند. پژوهش جدید Anthropic که این هفته منتشر شده، این کار قبلی را گسترش میدهد و نشان میدهد که چگونه این ویژگیها میتوانند بر دیگر گروههای نورونی که نمایانگر "مدارهای" تصمیمگیری محاسباتی هستند که Claude در ایجاد پاسخ خود دنبال میکند، تأثیر بگذارند.
تشخیص موجودیت در مقابل یادآوری
پژوهش Anthropic نشان داد که افزایش مصنوعی وزن نورونها در ویژگی "پاسخ شناختهشده" میتواند Claude را وادار کند تا با اعتماد به نفس اطلاعاتی درباره ورزشکاران کاملاً ساختگی مانند "مایکل باتکین" تولید کند. این نوع نتیجهگیری پژوهشگران را به این نتیجه میرساند که "حداقل برخی" از توهمات Claude مربوط به "اشتباه" در مدار مهارکننده مسیر "نمیتوانم پاسخ دهم" است. به عبارت دیگر، در موقعیتهایی که ویژگی "موجود شناختهشده" (یا دیگر ویژگیهای مشابه) فعال میشود، حتی زمانی که توکن واقعاً به خوبی در دادههای آموزشی نمایان نشده است.
مدلهای زبانی و دقت آنها
متأسفانه، مدلسازی Claude از آنچه میداند و نمیداند همیشه بهطور خاص و دقیق نیست. در یک مثال دیگر، پژوهشگران متوجه شدند که درخواست از Claude برای نام بردن از مقالهای که توسط محقق هوش مصنوعی، آندری کارپاتی، نوشته شده، باعث میشود که مدل عنوان مقالهای بهظاهر منطقی اما کاملاً ساختگی به نام "طبقهبندی ImageNet با شبکههای عصبی عمیق کانولوشنی" را تولید کند. اما وقتی همان سؤال درباره ریاضیدان Anthropic، جاش باتسون پرسیده میشود، Claude پاسخ میدهد که "نمیتواند با اطمینان نام یک مقاله خاص را بدون تأیید اطلاعات ارائه دهد."
نتیجهگیری
این پژوهش و دیگر پژوهشها در مورد عملکرد سطح پایین مدلهای زبانی بزرگ، زمینهای حیاتی برای درک چگونگی و چرایی پاسخهای این مدلها فراهم میکند. اما Anthropic هشدار میدهد که فرآیند تحقیقاتی فعلی آنها هنوز "فقط بخشی از کل محاسبات انجامشده توسط Claude را در بر میگیرد" و نیاز به "چند ساعت تلاش انسانی" دارد تا مدارها و ویژگیهای موجود در یک درخواست کوتاه "با دهها کلمه" را درک کند. امیدواریم که این تنها اولین قدم به سوی روشهای پژوهشی قویتر باشد که بتوانند بینش عمیقتری به مشکل تولید اطلاعات نادرست در مدلهای زبانی بزرگ ارائه دهند و شاید، روزی، راهحلی برای آن پیدا کنند.


