توسعه‌دهندگان متن‌باز می‌گویند ربات‌های هوش مصنوعی ترافیک را تسخیر کرده و مجبور به مسدود کردن کل کشورها می‌شوند

توسعه‌دهندگان متن‌باز می‌گویند ربات‌های هوش مصنوعی ترافیک را تسخیر کرده و مجبور به مسدود کردن کل کشورها می‌شوند

تاریخ انتشار:

توسعه‌دهندگان متن‌باز می‌گویند ربات‌های هوش مصنوعی ترافیک را تسخیر کرده و مجبور به مسدود کردن کل کشورها می‌شوند

مقدمه

توسعه‌دهنده نرم‌افزار، زِی آیسو، اوایل امسال به نقطه‌ای بحرانی رسید زمانی که ترافیک ربات‌های هوش مصنوعی از آمازون به شدت خدمات مخزن گیت آن‌ها را تحت فشار قرار داد و بارها باعث ناپایداری و زمان‌های غیرقابل دسترسی شد. با وجود تنظیم تدابیر دفاعی استاندارد—تنظیم robots.txt، مسدود کردن شناسه‌های کاربری ربات‌های شناخته‌شده و فیلتر کردن ترافیک مشکوک—آیسو دریافت که ربات‌های هوش مصنوعی همچنان از تمام تلاش‌ها برای متوقف کردن آن‌ها فرار می‌کنند، شناسه‌های کاربری را جعل کرده و از آدرس‌های IP مسکونی به عنوان پروکسی استفاده می‌کنند.

چالش‌های موجود در جامعه متن‌باز

آیسو در جستجوی راه‌حلی، در نهایت به انتقال سرور خود به پشت یک VPN و ایجاد "آنوبیس"، یک سیستم چالش اثبات کار سفارشی، روی آورد که مرورگرهای وب را مجبور می‌کند قبل از دسترسی به سایت، معماهای محاسباتی را حل کنند. آیسو در یک پست وبلاگی تحت عنوان "یک فریاد ناامیدانه برای کمک" نوشت: "مسدود کردن ربات‌های ردیاب هوش مصنوعی بی‌فایده است زیرا آن‌ها دروغ می‌گویند، شناسه کاربری خود را تغییر می‌دهند، از آدرس‌های IP مسکونی به عنوان پروکسی استفاده می‌کنند و غیره." آیسو ادامه داد: "نمی‌خواهم سرور گیتای خود را به روی عموم ببندم، اما اگر مجبور شوم، این کار را می‌کنم."

افزایش ترافیک ربات‌ها

داستان آیسو بحران وسیع‌تری را در جامعه متن‌باز نشان می‌دهد، زیرا ربات‌های هوش مصنوعی به طور فزاینده‌ای زیرساخت‌های نگهداری‌شده توسط جامعه را تحت فشار قرار می‌دهند و باعث حملات مداوم انکار سرویس توزیع‌شده (DDoS) به منابع عمومی حیاتی می‌شوند. طبق گزارشی جامع از LibreNews، برخی پروژه‌های متن‌باز اکنون تا 97 درصد ترافیک خود را از ربات‌های شرکت‌های هوش مصنوعی دریافت می‌کنند، که به طور چشمگیری هزینه‌های پهنای باند، ناپایداری خدمات و بار اضافی بر دوش نگهدارندگان که به طور معمول در حال تلاش هستند را افزایش می‌دهد.

تجربه‌های دیگر پروژه‌ها

کوین فنی، یکی از اعضای تیم مدیریت سیستم پروژه Fedora Pagure، در وبلاگ خود گزارش داد که این پروژه مجبور شد تمام ترافیک از برزیل را مسدود کند پس از اینکه تلاش‌های مکرر برای کاهش ترافیک ربات‌ها ناکام ماند. GNOME GitLab سیستم "آنوبیس" آیسو را پیاده‌سازی کرد و از مرورگرها خواست تا قبل از دسترسی به محتوا، معماهای محاسباتی را حل کنند. بارت پیوتروفسکی، مدیر سیستم GNOME، در مَستودون به اشتراک گذاشت که تنها حدود 3.2 درصد از درخواست‌ها (2690 از 84056) از سیستم چالش آن‌ها عبور کردند، که نشان می‌دهد اکثریت قریب به اتفاق ترافیک خودکار بوده است. زیرساخت GitLab KDE به طور موقت به دلیل ترافیک ربات‌ها از دامنه‌های IP علی‌بابا از دسترس خارج شد، طبق گزارش LibreNews که به چت توسعه KDE اشاره می‌کند.

معایب سیستم آنوبیس

در حالی که آنوبیس در فیلتر کردن ترافیک ربات‌ها مؤثر بوده است، برای کاربران مشروع معایبی نیز دارد. زمانی که تعداد زیادی از افراد به طور همزمان به یک لینک دسترسی پیدا می‌کنند—مانند زمانی که یک لینک GitLab در یک اتاق چت به اشتراک گذاشته می‌شود—بازدیدکنندگان سایت می‌توانند با تأخیرهای قابل توجهی مواجه شوند. برخی از کاربران موبایل گزارش داده‌اند که برای تکمیل چالش اثبات کار تا دو دقیقه منتظر مانده‌اند، طبق گزارش این رسانه.

وضعیت بحرانی

این وضعیت چندان جدید نیست. در دسامبر، دنیس شوبرت، که زیرساخت‌های شبکه اجتماعی دیاسپورا را نگهداری می‌کند، وضعیت را به عنوان "عملاً یک DDoS بر روی کل اینترنت" توصیف کرد پس از اینکه متوجه شد شرکت‌های هوش مصنوعی 70 درصد از تمام درخواست‌های وب به خدمات آن‌ها را تشکیل می‌دهند.

هزینه‌های فنی و مالی

هزینه‌ها هم فنی و هم مالی هستند. پروژه Read the Docs گزارش داد که مسدود کردن ربات‌های هوش مصنوعی بلافاصله ترافیک آن‌ها را 75 درصد کاهش داد و از 800 گیگابایت در روز به 200 گیگابایت در روز رسید. این تغییر به پروژه تقریباً 1500 دلار در ماه در هزینه‌های پهنای باند صرفه‌جویی کرد، طبق پست وبلاگی آن‌ها تحت عنوان "ربات‌های هوش مصنوعی باید بیشتر محترم باشند."

بار نامتناسب بر دوش متن‌بازها

این وضعیت چالش سختی برای پروژه‌های متن‌باز ایجاد کرده است که به همکاری عمومی وابسته‌اند و معمولاً با منابع محدودتری نسبت به نهادهای تجاری کار می‌کنند. بسیاری از نگهدارندگان گزارش داده‌اند که ربات‌های هوش مصنوعی عمداً از تدابیر مسدودکننده استاندارد فرار می‌کنند، دستورات robots.txt را نادیده می‌گیرند، شناسه‌های کاربری را جعل کرده و آدرس‌های IP را برای جلوگیری از شناسایی تغییر می‌دهند.

نظرات جامعه

همانطور که LibreNews گزارش داد، مارتین اوونز از پروژه Inkscape در مَستودون اشاره کرد که مشکلات آن‌ها فقط از "DDoS معمولی چینی سال گذشته نیست، بلکه از انبوهی از شرکت‌ها ناشی می‌شود که شروع به نادیده گرفتن spider conf ما کرده و اطلاعات مرورگر خود را جعل کردند." اوونز افزود: "من اکنون یک لیست مسدودکننده فوق‌العاده دارم. اگر شما به عنوان یک شرکت بزرگ در زمینه هوش مصنوعی کار می‌کنید، ممکن است دیگر به وب‌سایت ما دسترسی نداشته باشید."

man sitting in sofa in a flooded living room, feets in water, writing on a laptop

نارضایتی در جوامع توسعه‌دهندگان

در Hacker News، کاربران در بحث‌هایی درباره پست LibreNews هفته گذشته و پستی درباره نبردهای آیسو در ژانویه، ناامیدی عمیق خود را از آنچه که به عنوان رفتار شکارچیانه شرکت‌های هوش مصنوعی نسبت به زیرساخت‌های متن‌باز می‌بینند، ابراز کردند. در حالی که این نظرات از پست‌های فروم ناشی می‌شود و نه از بیانیه‌های رسمی، آن‌ها احساس مشترکی را در میان توسعه‌دهندگان نشان می‌دهند.

دلایل رفتار ربات‌ها

شرکت‌های هوش مصنوعی سابقه‌ای در برداشت بدون اجازه دارند. قبل از اینکه شکوفایی اصلی تولیدکنندگان تصویر هوش مصنوعی و ChatGPT در سال 2022 توجهات را به این عمل جلب کند، حوزه یادگیری ماشین به طور منظم مجموعه‌های داده را بدون توجه به مالکیت جمع‌آوری می‌کرد.

انگیزه‌های مختلف

در حالی که بسیاری از شرکت‌های هوش مصنوعی در حال ردیابی وب هستند، منابع پیشنهاد می‌کنند که سطوح مختلفی از مسئولیت و تأثیر وجود دارد. تجزیه و تحلیل شوبرت از لاگ‌های ترافیک دیاسپورا نشان داد که تقریباً یک‌چهارم ترافیک وب آن‌ها از ربات‌هایی با شناسه کاربری OpenAI می‌آید، در حالی که آمازون 15 درصد و Anthropic 4.3 درصد را تشکیل می‌دهد.

الگوهای رفتاری ربات‌ها

رفتار ربات‌ها انگیزه‌های مختلفی را پیشنهاد می‌کند. برخی ممکن است در حال جمع‌آوری داده‌های آموزشی برای ساخت یا بهبود مدل‌های زبانی بزرگ باشند، در حالی که دیگران ممکن است در حال انجام جستجوهای بلادرنگ باشند زمانی که کاربران از دستیاران هوش مصنوعی اطلاعات می‌خواهند.

تکرار ربات‌ها

فرکانس این ردیابی‌ها به ویژه قابل توجه است. شوبرت مشاهده کرد که ربات‌های هوش مصنوعی "فقط یک صفحه را یک بار ردیابی نمی‌کنند و سپس به جلو می‌روند. نه، آن‌ها هر 6 ساعت برمی‌گردند چون چرا که نه." این الگو نشان‌دهنده جمع‌آوری مداوم داده‌ها به جای تمرین‌های آموزشی یک‌باره است، که ممکن است نشان دهد شرکت‌ها از این ردیابی‌ها برای به‌روز نگه داشتن دانش مدل‌های خود استفاده می‌کنند.

شرکت‌های مختلف و رویکردهای آن‌ها

برخی شرکت‌ها به نظر می‌رسد که نسبت به دیگران تهاجمی‌تر عمل می‌کنند. تیم مدیریت سیستم KDE گزارش داد که ربات‌های دامنه‌های IP علی‌بابا مسئول قطع موقت GitLab آن‌ها بودند. در همین حال، مشکلات آیسو ناشی از ربات آمازون بود. یکی از اعضای تیم مدیریت سیستم KDE به LibreNews گفت که اپراتورهای LLM غربی مانند OpenAI و Anthropic حداقل شناسه‌های کاربری مناسبی را تنظیم می‌کنند (که به طور نظری به وب‌سایت‌ها اجازه می‌دهد آن‌ها را مسدود کنند)، در حالی که برخی از شرکت‌های هوش مصنوعی چینی به طور گزارش‌شده‌ای در رویکردهای خود فریبنده‌تر بودند.

توسعه ابزارهای دفاعی

در پاسخ به این حملات، ابزارهای دفاعی جدیدی برای محافظت از وب‌سایت‌ها در برابر ربات‌های هوش مصنوعی ناخواسته ظهور کرده‌اند. همانطور که Ars در ژانویه گزارش داد، یک خالق ناشناس که تنها به عنوان "آرون" شناخته می‌شود، ابزاری به نام "Nepenthes" طراحی کرده است تا ربات‌ها را در هزارتوهای بی‌پایان محتوای جعلی به دام بیندازد. آرون به وضوح آن را به عنوان "بدافزار تهاجمی" توصیف می‌کند که به منظور هدر دادن منابع شرکت‌های هوش مصنوعی و احتمالاً مسموم کردن داده‌های آموزشی آن‌ها طراحی شده است.

نتیجه‌گیری

وضعیت کنونی، رشد سریع محتوای تولیدشده توسط هوش مصنوعی که فضاهای آنلاین را تحت فشار قرار می‌دهد و شیوه‌های تهاجمی ردیابی وب توسط شرکت‌های هوش مصنوعی، تهدیدی برای پایداری منابع آنلاین ضروری است. رویکرد کنونی برخی از شرکت‌های بزرگ هوش مصنوعی—استخراج حجم زیادی از داده‌ها از پروژه‌های متن‌باز بدون رضایت یا جبران واضح—خطر آسیب جدی به اکوسیستم دیجیتالی که این مدل‌های هوش مصنوعی به آن وابسته‌اند را به همراه دارد.

جمع‌آوری مسئولانه داده‌ها ممکن است اگر شرکت‌های هوش مصنوعی مستقیماً با جوامع آسیب‌دیده همکاری کنند، امکان‌پذیر باشد. با این حال، بازیگران برجسته صنعت انگیزه کمی برای اتخاذ شیوه‌های همکاری بیشتر نشان داده‌اند. بدون مقررات معنادار یا خودکنترلی از سوی شرکت‌های هوش مصنوعی، به نظر می‌رسد که مسابقه تسلیحاتی بین ربات‌های گرسنه داده و کسانی که در تلاش برای دفاع از زیرساخت‌های متن‌باز هستند، به شدت تشدید خواهد شد و ممکن است بحران را برای اکوسیستم دیجیتالی که زیرساخت اینترنت مدرن را تشکیل می‌دهد، عمیق‌تر کند.

منبع:Ars Technica
در حال بارگذاری نظرات...
نظر شما:
0/800