
مدیر عامل انتروپیک میخواهد در سال ۲۰۲۷ جعبه سیاه مدلهای هوش مصنوعی را باز کند
تاریخ انتشار:
چالشهای درک مدلهای هوش مصنوعی
مدیر عامل انتروپیک، داریو آمودئی، روز پنجشنبه مقالهای منتشر کرد که نشان میدهد محققان چقدر درباره عملکرد داخلی مدلهای پیشرفته هوش مصنوعی در جهان اطلاعات کمی دارند. برای رفع این مشکل، آمودئی هدفی بلندپروازانه برای انتروپیک تعیین کرده است تا تا سال ۲۰۲۷ بتواند بهطور قابلاعتمادی بیشتر مشکلات مدلهای هوش مصنوعی را شناسایی کند.
ضرورت تفسیرپذیری
آمودئی به چالشهای پیشرو اذعان دارد. در مقالهای با عنوان «فوریت تفسیرپذیری»، مدیر عامل انتروپیک میگوید که این شرکت در شناسایی نحوه رسیدن مدلها به پاسخهایشان پیشرفتهای اولیهای داشته است، اما تأکید میکند که تحقیقات بیشتری برای رمزگشایی از این سیستمها که روز به روز قدرتمندتر میشوند، لازم است.
او در این مقاله نوشت: «من بسیار نگران استقرار چنین سیستمهایی بدون درک بهتر از تفسیرپذیری هستم. این سیستمها بهطور قطع در مرکز اقتصاد، فناوری و امنیت ملی قرار خواهند گرفت و قادر به خودمختاری زیادی خواهند بود، بنابراین بهنظر من غیرقابل قبول است که بشریت کاملاً از نحوه عملکرد آنها بیخبر باشد.»
پیشرفتهای انتروپیک در تفسیرپذیری
انتروپیک یکی از شرکتهای پیشگام در تفسیرپذیری مکانیکی است، زمینهای که هدف آن باز کردن جعبه سیاه مدلهای هوش مصنوعی و درک دلایل تصمیمگیری آنها است. با وجود بهبودهای سریع عملکرد مدلهای هوش مصنوعی در صنعت فناوری، هنوز اطلاعات نسبتاً کمی درباره چگونگی رسیدن این سیستمها به تصمیمات داریم.
بهعنوان مثال، اوپنای آی به تازگی مدلهای هوش مصنوعی جدیدی به نام o3 و o4-mini را معرفی کرده است که در برخی وظایف بهتر عمل میکنند، اما همچنین بیشتر از مدلهای دیگر خود دچار توهم میشوند. این شرکت نمیداند چرا این اتفاق میافتد.
آمودئی در مقاله مینویسد: «زمانی که یک سیستم هوش مصنوعی مولد کاری انجام میدهد، مانند خلاصهسازی یک سند مالی، ما بهطور خاص و دقیق نمیدانیم که چرا انتخابهای خاصی را انجام میدهد — چرا برخی کلمات را به دیگران ترجیح میدهد یا چرا گاهی اوقات اشتباه میکند با وجود اینکه معمولاً دقیق است.»
چالشهای دستیابی به AGI
در این مقاله، آمودئی اشاره میکند که همبنیانگذار انتروپیک، کریس اولاه، میگوید که مدلهای هوش مصنوعی «بیشتر رشد میکنند تا اینکه ساخته شوند». به عبارت دیگر، محققان هوش مصنوعی راههایی برای بهبود هوش مدلهای هوش مصنوعی یافتهاند، اما نمیدانند چرا.
آمودئی همچنین میگوید که رسیدن به AGI — یا به قول او، «کشوری از نخبگان در یک مرکز داده» — بدون درک چگونگی عملکرد این مدلها میتواند خطرناک باشد. در مقاله قبلی خود، آمودئی ادعا کرده بود که صنعت فناوری میتواند به چنین نقطه عطفی تا سال ۲۰۲۶ یا ۲۰۲۷ برسد، اما معتقد است که ما هنوز فاصله زیادی از درک کامل این مدلهای هوش مصنوعی داریم.

بررسیهای آینده انتروپیک
در بلندمدت، آمودئی میگوید انتروپیک میخواهد بهطور اساسی «اسکن مغزی» یا «MRI» مدلهای پیشرفته هوش مصنوعی را انجام دهد. این بررسیها به شناسایی طیف وسیعی از مشکلات در مدلهای هوش مصنوعی کمک خواهد کرد، از جمله تمایل آنها به دروغ گفتن یا جستجوی قدرت و دیگر نقاط ضعف. او میگوید این ممکن است پنج تا ده سال طول بکشد، اما این اقدامات برای آزمایش و استقرار مدلهای آینده انتروپیک ضروری خواهد بود.
پیشرفتهای تحقیقاتی انتروپیک
انتروپیک چندین پیشرفت تحقیقاتی داشته است که به آن اجازه داده تا بهتر درک کند که مدلهای هوش مصنوعی چگونه کار میکنند. بهعنوان مثال، این شرکت به تازگی راههایی برای ردیابی مسیرهای تفکر یک مدل هوش مصنوعی از طریق آنچه که شرکت آن را «مدار» مینامد، پیدا کرده است. انتروپیک یک مدار را شناسایی کرده است که به مدلهای هوش مصنوعی کمک میکند تا بفهمند کدام شهرهای ایالات متحده در کدام ایالتهای ایالات متحده واقع شدهاند. این شرکت تنها چند مورد از این مدارها را پیدا کرده است، اما تخمین میزند که میلیونها مورد در مدلهای هوش مصنوعی وجود دارد.
انتروپیک همچنین در حال سرمایهگذاری در تحقیقات تفسیرپذیری است و به تازگی اولین سرمایهگذاری خود را در یک استارتاپ که بر روی تفسیرپذیری کار میکند، انجام داده است. در حالی که تفسیرپذیری امروز عمدتاً بهعنوان یک زمینه تحقیقاتی ایمنی دیده میشود، آمودئی اشاره میکند که در نهایت، توضیح اینکه چگونه مدلهای هوش مصنوعی به پاسخهای خود میرسند میتواند مزیت تجاری به همراه داشته باشد.
دعوت به همکاری در تحقیقات تفسیرپذیری
در این مقاله، آمودئی از اوپنای آی و گوگل دیپ مایند خواسته است که تلاشهای تحقیقاتی خود را در این زمینه افزایش دهند. فراتر از این تشویق دوستانه، مدیر عامل انتروپیک از دولتها خواسته است که مقررات «سبک» را برای تشویق تحقیقات تفسیرپذیری وضع کنند، مانند الزامات برای شرکتها برای افشای شیوههای ایمنی و امنیتی خود. آمودئی همچنین میگوید ایالات متحده باید کنترلهای صادراتی بر روی چیپها به چین وضع کند تا احتمال یک رقابت جهانی بیضابطه در زمینه هوش مصنوعی را محدود کند.
تمرکز بر ایمنی در انتروپیک
انتروپیک همیشه به خاطر تمرکز بر ایمنی از اوپنای آی و گوگل متمایز بوده است. در حالی که سایر شرکتهای فناوری به لایحه ایمنی هوش مصنوعی بحثبرانگیز کالیفرنیا، SB 1047، اعتراض کردند، انتروپیک حمایت و توصیههای متواضعانهای برای این لایحه ارائه داد که استانداردهای گزارش ایمنی را برای توسعهدهندگان مدلهای پیشرفته هوش مصنوعی تعیین میکرد.
در این مورد، بهنظر میرسد انتروپیک در حال تلاش برای ایجاد یک تلاش صنعتی برای درک بهتر مدلهای هوش مصنوعی است، نه فقط افزایش قابلیتهای آنها.