
مدلهای OpenAI محتویات دارای حق نشر را «حفظ» کردهاند، مطالعه جدید نشان میدهد
تاریخ انتشار:
مقدمه
یک مطالعه جدید به نظر میرسد که به ادعاهای موجود در مورد اینکه OpenAI حداقل برخی از مدلهای هوش مصنوعی خود را بر روی محتوای دارای حق نشر آموزش داده است، اعتبار میبخشد.
دعاوی حقوقی علیه OpenAI
OpenAI درگیر دعاوی حقوقی است که توسط نویسندگان، برنامهنویسان و سایر دارندگان حقوق مطرح شده است. این افراد شرکت را متهم میکنند که آثار آنها — کتابها، کدها و غیره — را بدون اجازه برای توسعه مدلهای خود استفاده کرده است. OpenAI همیشه از دفاع «استفاده منصفانه» حمایت کرده است، اما شاکیان در این موارد استدلال میکنند که در قانون حق نشر ایالات متحده برای دادههای آموزشی هیچ استثنایی وجود ندارد.
روش مطالعه
این مطالعه که بهصورت مشترک توسط محققانی از دانشگاه واشنگتن، دانشگاه کپنهاگ و استنفورد نوشته شده است، یک روش جدید برای شناسایی دادههای آموزشی «حفظ شده» توسط مدلهای پشت یک API، مانند OpenAI، پیشنهاد میکند.
مدلها موتورهای پیشبینی هستند. آنها بر روی حجم زیادی از دادهها آموزش میبینند و الگوها را یاد میگیرند — اینگونه است که قادر به تولید مقالات، عکسها و موارد دیگر میشوند. بیشتر خروجیها کپیهای عین به عین از دادههای آموزشی نیستند، اما به دلیل نحوه «یادگیری» مدلها، برخی از آنها به ناچار چنین هستند. مدلهای تصویری نشان دادهاند که تصاویر اسکرینشات از فیلمهایی که بر روی آنها آموزش دیدهاند را بازتولید میکنند، در حالی که مدلهای زبانی بهطور مؤثری مقالات خبری را سرقت ادبی کردهاند.
کلمات با «شگفتی بالا»
روش این مطالعه به کلماتی که نویسندگان مشترک آنها را «شگفتی بالا» مینامند، تکیه دارد — به این معنی که کلماتی که در زمینه یک مجموعه بزرگتر از آثار، غیرمعمول به نظر میرسند. بهعنوان مثال، کلمه «رادار» در جمله «جک و من بهطور کامل بیحرکت نشسته بودیم و رادار در حال وزوز بود» بهعنوان شگفتی بالا در نظر گرفته میشود زیرا از نظر آماری کمتر از کلمات مانند «موتور» یا «رادیو» احتمال دارد که قبل از «وزوز» ظاهر شود.
آزمونهای انجام شده
نویسندگان مشترک چندین مدل OpenAI، از جمله GPT-4 و GPT-3.5 را برای نشانههای حفظ اطلاعات مورد بررسی قرار دادند. آنها با حذف کلمات شگفتی بالا از بخشهایی از کتابهای داستانی و مقالات نیویورک تایمز و سپس از مدلها خواستند که سعی کنند حدس بزنند کدام کلمات پوشانده شدهاند. اگر مدلها موفق به حدس درست میشدند، به احتمال زیاد آنها آن بخش را در طول آموزش حفظ کرده بودند، نتیجهگیری کردند نویسندگان.

نتایج آزمونها
طبق نتایج آزمونها، GPT-4 نشانههایی از حفظ بخشهایی از کتابهای داستانی محبوب نشان داد، از جمله کتابهایی در یک مجموعه داده که شامل نمونههایی از کتابهای الکترونیکی دارای حق نشر به نام BookMIA است. نتایج همچنین نشان داد که این مدل بخشهایی از مقالات نیویورک تایمز را نیز حفظ کرده است، هرچند با نرخ نسبتاً پایینتری.
تحلیل و نیاز به شفافیت دادهها
ابهیلاشا راویچاندر، دانشجوی دکتری در دانشگاه واشنگتن و یکی از نویسندگان این مطالعه، به TechCrunch گفت که یافتهها به روشن شدن «دادههای جنجالی» که مدلها ممکن است بر روی آنها آموزش دیده باشند، کمک میکند.
او گفت: «برای داشتن مدلهای زبانی بزرگ که قابل اعتماد باشند، نیاز داریم که مدلهایی داشته باشیم که بتوانیم آنها را بررسی و حسابرسی کنیم و بهطور علمی مورد بررسی قرار دهیم. کار ما بهدنبال ارائه ابزاری برای بررسی مدلهای زبانی بزرگ است، اما واقعاً نیاز به شفافیت بیشتر دادهها در کل اکوسیستم وجود دارد.»
موضع OpenAI در مورد دادههای دارای حق نشر
OpenAI مدتهاست که از محدودیتهای کمتر در توسعه مدلها با استفاده از دادههای دارای حق نشر حمایت کرده است. در حالی که این شرکت برخی از توافقهای مجوز محتوا را در اختیار دارد و مکانیزمهای انتخابی را ارائه میدهد که به دارندگان حق نشر اجازه میدهد محتوایی را که ترجیح میدهند شرکت از آن برای اهداف آموزشی استفاده نکند، این شرکت به چندین دولت لابی کرده است تا قوانین «استفاده منصفانه» را در مورد رویکردهای آموزشی هوش مصنوعی به کد درآورند.
