چرا مدل‌های زبانی بزرگ اطلاعات نادرست تولید می‌کنند؟ پژوهش جدید به بررسی جزئیات پرداخته است.

چرا مدل‌های زبانی بزرگ اطلاعات نادرست تولید می‌کنند؟ پژوهش جدید به بررسی جزئیات پرداخته است.

تاریخ انتشار:

چرا مدل‌های زبانی بزرگ اطلاعات نادرست تولید می‌کنند؟ پژوهش جدید به بررسی جزئیات پرداخته است.

چالش‌های استفاده از مدل‌های زبانی بزرگ

یکی از ناامیدکننده‌ترین جنبه‌های استفاده از مدل‌های زبانی بزرگ، مواجهه با تمایل آن‌ها به تولید اطلاعات نادرست و ساختگی است. این مدل‌ها پاسخ‌هایی را ارائه می‌دهند که با داده‌های آموزشی خود پشتیبانی نمی‌شوند. از دیدگاه انسانی، درک این موضوع که چرا این مدل‌ها به جای گفتن "نمی‌دانم"، به تولید اطلاعات به ظاهر منطقی می‌پردازند، دشوار است.

پژوهش جدید از Anthropic

پژوهش جدیدی که توسط Anthropic انجام شده، برخی از جزئیات داخلی شبکه‌های عصبی را که به مدل‌های زبانی بزرگ کمک می‌کند تا تصمیم بگیرند چه زمانی به یک پاسخ (شاید ساختگی) پاسخ دهند و چه زمانی از پاسخ دادن خودداری کنند، روشن کرده است. در حالی که درک انسانی از این فرآیند "تصمیم‌گیری" داخلی هنوز در مراحل ابتدایی است، این نوع پژوهش می‌تواند به راه‌حل‌های بهتری برای مشکل تولید اطلاعات نادرست در هوش مصنوعی منجر شود.

زمانی که "موجود شناخته‌شده" نیست

در یک مقاله پیشگامانه که در ماه مه گذشته منتشر شد، Anthropic از سیستمی از خودرمزگذارهای پراکنده استفاده کرد تا گروه‌های نورون‌های مصنوعی را که هنگام مواجهه با مفاهیم داخلی از "پل گلدن گیت" تا "خطاهای برنامه‌نویسی" فعال می‌شوند، روشن کند. پژوهش جدید Anthropic که این هفته منتشر شده، این کار قبلی را گسترش می‌دهد و نشان می‌دهد که چگونه این ویژگی‌ها می‌توانند بر دیگر گروه‌های نورونی که نمایانگر "مدارهای" تصمیم‌گیری محاسباتی هستند که Claude در ایجاد پاسخ خود دنبال می‌کند، تأثیر بگذارند.

تشخیص موجودیت در مقابل یادآوری

پژوهش Anthropic نشان داد که افزایش مصنوعی وزن نورون‌ها در ویژگی "پاسخ شناخته‌شده" می‌تواند Claude را وادار کند تا با اعتماد به نفس اطلاعاتی درباره ورزشکاران کاملاً ساختگی مانند "مایکل باتکین" تولید کند. این نوع نتیجه‌گیری پژوهشگران را به این نتیجه می‌رساند که "حداقل برخی" از توهمات Claude مربوط به "اشتباه" در مدار مهارکننده مسیر "نمی‌توانم پاسخ دهم" است. به عبارت دیگر، در موقعیت‌هایی که ویژگی "موجود شناخته‌شده" (یا دیگر ویژگی‌های مشابه) فعال می‌شود، حتی زمانی که توکن واقعاً به خوبی در داده‌های آموزشی نمایان نشده است.

مدل‌های زبانی و دقت آن‌ها

متأسفانه، مدل‌سازی Claude از آنچه می‌داند و نمی‌داند همیشه به‌طور خاص و دقیق نیست. در یک مثال دیگر، پژوهشگران متوجه شدند که درخواست از Claude برای نام بردن از مقاله‌ای که توسط محقق هوش مصنوعی، آندری کارپاتی، نوشته شده، باعث می‌شود که مدل عنوان مقاله‌ای به‌ظاهر منطقی اما کاملاً ساختگی به نام "طبقه‌بندی ImageNet با شبکه‌های عصبی عمیق کانولوشنی" را تولید کند. اما وقتی همان سؤال درباره ریاضیدان Anthropic، جاش باتسون پرسیده می‌شود، Claude پاسخ می‌دهد که "نمی‌تواند با اطمینان نام یک مقاله خاص را بدون تأیید اطلاعات ارائه دهد."

نتیجه‌گیری

این پژوهش و دیگر پژوهش‌ها در مورد عملکرد سطح پایین مدل‌های زبانی بزرگ، زمینه‌ای حیاتی برای درک چگونگی و چرایی پاسخ‌های این مدل‌ها فراهم می‌کند. اما Anthropic هشدار می‌دهد که فرآیند تحقیقاتی فعلی آن‌ها هنوز "فقط بخشی از کل محاسبات انجام‌شده توسط Claude را در بر می‌گیرد" و نیاز به "چند ساعت تلاش انسانی" دارد تا مدارها و ویژگی‌های موجود در یک درخواست کوتاه "با ده‌ها کلمه" را درک کند. امیدواریم که این تنها اولین قدم به سوی روش‌های پژوهشی قوی‌تر باشد که بتوانند بینش عمیق‌تری به مشکل تولید اطلاعات نادرست در مدل‌های زبانی بزرگ ارائه دهند و شاید، روزی، راه‌حلی برای آن پیدا کنند.

A simplified graph showing how various features and circuits interact in prompts about sports stars, real and fake.
Which of those boxes represents the
Artificially suppressing Claude's the
منبع:Ars Technica
در حال بارگذاری نظرات...
نظر شما:
0/800