مدل‌های OpenAI محتویات دارای حق نشر را «حفظ» کرده‌اند، مطالعه جدید نشان می‌دهد

مدل‌های OpenAI محتویات دارای حق نشر را «حفظ» کرده‌اند، مطالعه جدید نشان می‌دهد

تاریخ انتشار:

مدل‌های OpenAI محتویات دارای حق نشر را «حفظ» کرده‌اند، مطالعه جدید نشان می‌دهد

مقدمه

یک مطالعه جدید به نظر می‌رسد که به ادعاهای موجود در مورد اینکه OpenAI حداقل برخی از مدل‌های هوش مصنوعی خود را بر روی محتوای دارای حق نشر آموزش داده است، اعتبار می‌بخشد.

دعاوی حقوقی علیه OpenAI

OpenAI درگیر دعاوی حقوقی است که توسط نویسندگان، برنامه‌نویسان و سایر دارندگان حقوق مطرح شده است. این افراد شرکت را متهم می‌کنند که آثار آن‌ها — کتاب‌ها، کدها و غیره — را بدون اجازه برای توسعه مدل‌های خود استفاده کرده است. OpenAI همیشه از دفاع «استفاده منصفانه» حمایت کرده است، اما شاکیان در این موارد استدلال می‌کنند که در قانون حق نشر ایالات متحده برای داده‌های آموزشی هیچ استثنایی وجود ندارد.

روش مطالعه

این مطالعه که به‌صورت مشترک توسط محققانی از دانشگاه واشنگتن، دانشگاه کپنهاگ و استنفورد نوشته شده است، یک روش جدید برای شناسایی داده‌های آموزشی «حفظ شده» توسط مدل‌های پشت یک API، مانند OpenAI، پیشنهاد می‌کند.

مدل‌ها موتورهای پیش‌بینی هستند. آن‌ها بر روی حجم زیادی از داده‌ها آموزش می‌بینند و الگوها را یاد می‌گیرند — این‌گونه است که قادر به تولید مقالات، عکس‌ها و موارد دیگر می‌شوند. بیشتر خروجی‌ها کپی‌های عین به عین از داده‌های آموزشی نیستند، اما به دلیل نحوه «یادگیری» مدل‌ها، برخی از آن‌ها به ناچار چنین هستند. مدل‌های تصویری نشان داده‌اند که تصاویر اسکرین‌شات از فیلم‌هایی که بر روی آن‌ها آموزش دیده‌اند را بازتولید می‌کنند، در حالی که مدل‌های زبانی به‌طور مؤثری مقالات خبری را سرقت ادبی کرده‌اند.

کلمات با «شگفتی بالا»

روش این مطالعه به کلماتی که نویسندگان مشترک آن‌ها را «شگفتی بالا» می‌نامند، تکیه دارد — به این معنی که کلماتی که در زمینه یک مجموعه بزرگتر از آثار، غیرمعمول به نظر می‌رسند. به‌عنوان مثال، کلمه «رادار» در جمله «جک و من به‌طور کامل بی‌حرکت نشسته بودیم و رادار در حال وزوز بود» به‌عنوان شگفتی بالا در نظر گرفته می‌شود زیرا از نظر آماری کمتر از کلمات مانند «موتور» یا «رادیو» احتمال دارد که قبل از «وزوز» ظاهر شود.

آزمون‌های انجام شده

نویسندگان مشترک چندین مدل OpenAI، از جمله GPT-4 و GPT-3.5 را برای نشانه‌های حفظ اطلاعات مورد بررسی قرار دادند. آن‌ها با حذف کلمات شگفتی بالا از بخش‌هایی از کتاب‌های داستانی و مقالات نیویورک تایمز و سپس از مدل‌ها خواستند که سعی کنند حدس بزنند کدام کلمات پوشانده شده‌اند. اگر مدل‌ها موفق به حدس درست می‌شدند، به احتمال زیاد آن‌ها آن بخش را در طول آموزش حفظ کرده بودند، نتیجه‌گیری کردند نویسندگان.

OpenAI copyright study

نتایج آزمون‌ها

طبق نتایج آزمون‌ها، GPT-4 نشانه‌هایی از حفظ بخش‌هایی از کتاب‌های داستانی محبوب نشان داد، از جمله کتاب‌هایی در یک مجموعه داده که شامل نمونه‌هایی از کتاب‌های الکترونیکی دارای حق نشر به نام BookMIA است. نتایج همچنین نشان داد که این مدل بخش‌هایی از مقالات نیویورک تایمز را نیز حفظ کرده است، هرچند با نرخ نسبتاً پایین‌تری.

تحلیل و نیاز به شفافیت داده‌ها

ابهیلاشا راویچاندر، دانشجوی دکتری در دانشگاه واشنگتن و یکی از نویسندگان این مطالعه، به TechCrunch گفت که یافته‌ها به روشن شدن «داده‌های جنجالی» که مدل‌ها ممکن است بر روی آن‌ها آموزش دیده باشند، کمک می‌کند.

او گفت: «برای داشتن مدل‌های زبانی بزرگ که قابل اعتماد باشند، نیاز داریم که مدل‌هایی داشته باشیم که بتوانیم آن‌ها را بررسی و حسابرسی کنیم و به‌طور علمی مورد بررسی قرار دهیم. کار ما به‌دنبال ارائه ابزاری برای بررسی مدل‌های زبانی بزرگ است، اما واقعاً نیاز به شفافیت بیشتر داده‌ها در کل اکوسیستم وجود دارد.»

موضع OpenAI در مورد داده‌های دارای حق نشر

OpenAI مدت‌هاست که از محدودیت‌های کمتر در توسعه مدل‌ها با استفاده از داده‌های دارای حق نشر حمایت کرده است. در حالی که این شرکت برخی از توافق‌های مجوز محتوا را در اختیار دارد و مکانیزم‌های انتخابی را ارائه می‌دهد که به دارندگان حق نشر اجازه می‌دهد محتوایی را که ترجیح می‌دهند شرکت از آن برای اهداف آموزشی استفاده نکند، این شرکت به چندین دولت لابی کرده است تا قوانین «استفاده منصفانه» را در مورد رویکردهای آموزشی هوش مصنوعی به کد درآورند.

OpenAI AI robot writer
منبع:Techcrunch
در حال بارگذاری نظرات...
نظر شما:
0/800