
توسعهدهندگان متنباز میگویند رباتهای هوش مصنوعی ترافیک را تسخیر کرده و مجبور به مسدود کردن کل کشورها میشوند
تاریخ انتشار:
مقدمه
توسعهدهنده نرمافزار، زِی آیسو، اوایل امسال به نقطهای بحرانی رسید زمانی که ترافیک رباتهای هوش مصنوعی از آمازون به شدت خدمات مخزن گیت آنها را تحت فشار قرار داد و بارها باعث ناپایداری و زمانهای غیرقابل دسترسی شد. با وجود تنظیم تدابیر دفاعی استاندارد—تنظیم robots.txt، مسدود کردن شناسههای کاربری رباتهای شناختهشده و فیلتر کردن ترافیک مشکوک—آیسو دریافت که رباتهای هوش مصنوعی همچنان از تمام تلاشها برای متوقف کردن آنها فرار میکنند، شناسههای کاربری را جعل کرده و از آدرسهای IP مسکونی به عنوان پروکسی استفاده میکنند.
چالشهای موجود در جامعه متنباز
آیسو در جستجوی راهحلی، در نهایت به انتقال سرور خود به پشت یک VPN و ایجاد "آنوبیس"، یک سیستم چالش اثبات کار سفارشی، روی آورد که مرورگرهای وب را مجبور میکند قبل از دسترسی به سایت، معماهای محاسباتی را حل کنند. آیسو در یک پست وبلاگی تحت عنوان "یک فریاد ناامیدانه برای کمک" نوشت: "مسدود کردن رباتهای ردیاب هوش مصنوعی بیفایده است زیرا آنها دروغ میگویند، شناسه کاربری خود را تغییر میدهند، از آدرسهای IP مسکونی به عنوان پروکسی استفاده میکنند و غیره." آیسو ادامه داد: "نمیخواهم سرور گیتای خود را به روی عموم ببندم، اما اگر مجبور شوم، این کار را میکنم."
افزایش ترافیک رباتها
داستان آیسو بحران وسیعتری را در جامعه متنباز نشان میدهد، زیرا رباتهای هوش مصنوعی به طور فزایندهای زیرساختهای نگهداریشده توسط جامعه را تحت فشار قرار میدهند و باعث حملات مداوم انکار سرویس توزیعشده (DDoS) به منابع عمومی حیاتی میشوند. طبق گزارشی جامع از LibreNews، برخی پروژههای متنباز اکنون تا 97 درصد ترافیک خود را از رباتهای شرکتهای هوش مصنوعی دریافت میکنند، که به طور چشمگیری هزینههای پهنای باند، ناپایداری خدمات و بار اضافی بر دوش نگهدارندگان که به طور معمول در حال تلاش هستند را افزایش میدهد.
تجربههای دیگر پروژهها
کوین فنی، یکی از اعضای تیم مدیریت سیستم پروژه Fedora Pagure، در وبلاگ خود گزارش داد که این پروژه مجبور شد تمام ترافیک از برزیل را مسدود کند پس از اینکه تلاشهای مکرر برای کاهش ترافیک رباتها ناکام ماند. GNOME GitLab سیستم "آنوبیس" آیسو را پیادهسازی کرد و از مرورگرها خواست تا قبل از دسترسی به محتوا، معماهای محاسباتی را حل کنند. بارت پیوتروفسکی، مدیر سیستم GNOME، در مَستودون به اشتراک گذاشت که تنها حدود 3.2 درصد از درخواستها (2690 از 84056) از سیستم چالش آنها عبور کردند، که نشان میدهد اکثریت قریب به اتفاق ترافیک خودکار بوده است. زیرساخت GitLab KDE به طور موقت به دلیل ترافیک رباتها از دامنههای IP علیبابا از دسترس خارج شد، طبق گزارش LibreNews که به چت توسعه KDE اشاره میکند.
معایب سیستم آنوبیس
در حالی که آنوبیس در فیلتر کردن ترافیک رباتها مؤثر بوده است، برای کاربران مشروع معایبی نیز دارد. زمانی که تعداد زیادی از افراد به طور همزمان به یک لینک دسترسی پیدا میکنند—مانند زمانی که یک لینک GitLab در یک اتاق چت به اشتراک گذاشته میشود—بازدیدکنندگان سایت میتوانند با تأخیرهای قابل توجهی مواجه شوند. برخی از کاربران موبایل گزارش دادهاند که برای تکمیل چالش اثبات کار تا دو دقیقه منتظر ماندهاند، طبق گزارش این رسانه.
وضعیت بحرانی
این وضعیت چندان جدید نیست. در دسامبر، دنیس شوبرت، که زیرساختهای شبکه اجتماعی دیاسپورا را نگهداری میکند، وضعیت را به عنوان "عملاً یک DDoS بر روی کل اینترنت" توصیف کرد پس از اینکه متوجه شد شرکتهای هوش مصنوعی 70 درصد از تمام درخواستهای وب به خدمات آنها را تشکیل میدهند.
هزینههای فنی و مالی
هزینهها هم فنی و هم مالی هستند. پروژه Read the Docs گزارش داد که مسدود کردن رباتهای هوش مصنوعی بلافاصله ترافیک آنها را 75 درصد کاهش داد و از 800 گیگابایت در روز به 200 گیگابایت در روز رسید. این تغییر به پروژه تقریباً 1500 دلار در ماه در هزینههای پهنای باند صرفهجویی کرد، طبق پست وبلاگی آنها تحت عنوان "رباتهای هوش مصنوعی باید بیشتر محترم باشند."
بار نامتناسب بر دوش متنبازها
این وضعیت چالش سختی برای پروژههای متنباز ایجاد کرده است که به همکاری عمومی وابستهاند و معمولاً با منابع محدودتری نسبت به نهادهای تجاری کار میکنند. بسیاری از نگهدارندگان گزارش دادهاند که رباتهای هوش مصنوعی عمداً از تدابیر مسدودکننده استاندارد فرار میکنند، دستورات robots.txt را نادیده میگیرند، شناسههای کاربری را جعل کرده و آدرسهای IP را برای جلوگیری از شناسایی تغییر میدهند.
نظرات جامعه
همانطور که LibreNews گزارش داد، مارتین اوونز از پروژه Inkscape در مَستودون اشاره کرد که مشکلات آنها فقط از "DDoS معمولی چینی سال گذشته نیست، بلکه از انبوهی از شرکتها ناشی میشود که شروع به نادیده گرفتن spider conf ما کرده و اطلاعات مرورگر خود را جعل کردند." اوونز افزود: "من اکنون یک لیست مسدودکننده فوقالعاده دارم. اگر شما به عنوان یک شرکت بزرگ در زمینه هوش مصنوعی کار میکنید، ممکن است دیگر به وبسایت ما دسترسی نداشته باشید."

نارضایتی در جوامع توسعهدهندگان
در Hacker News، کاربران در بحثهایی درباره پست LibreNews هفته گذشته و پستی درباره نبردهای آیسو در ژانویه، ناامیدی عمیق خود را از آنچه که به عنوان رفتار شکارچیانه شرکتهای هوش مصنوعی نسبت به زیرساختهای متنباز میبینند، ابراز کردند. در حالی که این نظرات از پستهای فروم ناشی میشود و نه از بیانیههای رسمی، آنها احساس مشترکی را در میان توسعهدهندگان نشان میدهند.
دلایل رفتار رباتها
شرکتهای هوش مصنوعی سابقهای در برداشت بدون اجازه دارند. قبل از اینکه شکوفایی اصلی تولیدکنندگان تصویر هوش مصنوعی و ChatGPT در سال 2022 توجهات را به این عمل جلب کند، حوزه یادگیری ماشین به طور منظم مجموعههای داده را بدون توجه به مالکیت جمعآوری میکرد.
انگیزههای مختلف
در حالی که بسیاری از شرکتهای هوش مصنوعی در حال ردیابی وب هستند، منابع پیشنهاد میکنند که سطوح مختلفی از مسئولیت و تأثیر وجود دارد. تجزیه و تحلیل شوبرت از لاگهای ترافیک دیاسپورا نشان داد که تقریباً یکچهارم ترافیک وب آنها از رباتهایی با شناسه کاربری OpenAI میآید، در حالی که آمازون 15 درصد و Anthropic 4.3 درصد را تشکیل میدهد.
الگوهای رفتاری رباتها
رفتار رباتها انگیزههای مختلفی را پیشنهاد میکند. برخی ممکن است در حال جمعآوری دادههای آموزشی برای ساخت یا بهبود مدلهای زبانی بزرگ باشند، در حالی که دیگران ممکن است در حال انجام جستجوهای بلادرنگ باشند زمانی که کاربران از دستیاران هوش مصنوعی اطلاعات میخواهند.
تکرار رباتها
فرکانس این ردیابیها به ویژه قابل توجه است. شوبرت مشاهده کرد که رباتهای هوش مصنوعی "فقط یک صفحه را یک بار ردیابی نمیکنند و سپس به جلو میروند. نه، آنها هر 6 ساعت برمیگردند چون چرا که نه." این الگو نشاندهنده جمعآوری مداوم دادهها به جای تمرینهای آموزشی یکباره است، که ممکن است نشان دهد شرکتها از این ردیابیها برای بهروز نگه داشتن دانش مدلهای خود استفاده میکنند.
شرکتهای مختلف و رویکردهای آنها
برخی شرکتها به نظر میرسد که نسبت به دیگران تهاجمیتر عمل میکنند. تیم مدیریت سیستم KDE گزارش داد که رباتهای دامنههای IP علیبابا مسئول قطع موقت GitLab آنها بودند. در همین حال، مشکلات آیسو ناشی از ربات آمازون بود. یکی از اعضای تیم مدیریت سیستم KDE به LibreNews گفت که اپراتورهای LLM غربی مانند OpenAI و Anthropic حداقل شناسههای کاربری مناسبی را تنظیم میکنند (که به طور نظری به وبسایتها اجازه میدهد آنها را مسدود کنند)، در حالی که برخی از شرکتهای هوش مصنوعی چینی به طور گزارششدهای در رویکردهای خود فریبندهتر بودند.
توسعه ابزارهای دفاعی
در پاسخ به این حملات، ابزارهای دفاعی جدیدی برای محافظت از وبسایتها در برابر رباتهای هوش مصنوعی ناخواسته ظهور کردهاند. همانطور که Ars در ژانویه گزارش داد، یک خالق ناشناس که تنها به عنوان "آرون" شناخته میشود، ابزاری به نام "Nepenthes" طراحی کرده است تا رباتها را در هزارتوهای بیپایان محتوای جعلی به دام بیندازد. آرون به وضوح آن را به عنوان "بدافزار تهاجمی" توصیف میکند که به منظور هدر دادن منابع شرکتهای هوش مصنوعی و احتمالاً مسموم کردن دادههای آموزشی آنها طراحی شده است.
نتیجهگیری
وضعیت کنونی، رشد سریع محتوای تولیدشده توسط هوش مصنوعی که فضاهای آنلاین را تحت فشار قرار میدهد و شیوههای تهاجمی ردیابی وب توسط شرکتهای هوش مصنوعی، تهدیدی برای پایداری منابع آنلاین ضروری است. رویکرد کنونی برخی از شرکتهای بزرگ هوش مصنوعی—استخراج حجم زیادی از دادهها از پروژههای متنباز بدون رضایت یا جبران واضح—خطر آسیب جدی به اکوسیستم دیجیتالی که این مدلهای هوش مصنوعی به آن وابستهاند را به همراه دارد.
جمعآوری مسئولانه دادهها ممکن است اگر شرکتهای هوش مصنوعی مستقیماً با جوامع آسیبدیده همکاری کنند، امکانپذیر باشد. با این حال، بازیگران برجسته صنعت انگیزه کمی برای اتخاذ شیوههای همکاری بیشتر نشان دادهاند. بدون مقررات معنادار یا خودکنترلی از سوی شرکتهای هوش مصنوعی، به نظر میرسد که مسابقه تسلیحاتی بین رباتهای گرسنه داده و کسانی که در تلاش برای دفاع از زیرساختهای متنباز هستند، به شدت تشدید خواهد شد و ممکن است بحران را برای اکوسیستم دیجیتالی که زیرساخت اینترنت مدرن را تشکیل میدهد، عمیقتر کند.