
ویژگی تولید تصویر ChatGPT بهروزرسانی شد
تاریخ انتشار:
بهروزرسانی بزرگ در قابلیتهای تولید تصویر ChatGPT
در یک پخش زنده در روز سهشنبه، سام آلتمن، مدیرعامل OpenAI، اولین بهروزرسانی عمده در قابلیتهای تولید تصویر ChatGPT را در بیش از یک سال گذشته اعلام کرد.
اکنون ChatGPT میتواند از مدل GPT-4o این شرکت برای ایجاد و ویرایش تصاویر و عکسها بهطور بومی استفاده کند. GPT-4o مدتهاست که پایهگذار پلتفرم چتبات مبتنی بر هوش مصنوعی بوده است، اما تا کنون، این مدل تنها قادر به تولید و ویرایش متن بود — نه تصاویر.
قابلیتهای جدید GPT-4o
آلتمن گفت که تولید تصویر بومی GPT-4o امروز در ChatGPT و Sora، محصول تولید ویدیو مبتنی بر هوش مصنوعی OpenAI، برای مشترکین طرح پرو ۲۰۰ دلاری این شرکت فعال است. OpenAI اعلام کرده است که این ویژگی به زودی برای کاربران Plus و کاربران رایگان ChatGPT و همچنین توسعهدهندگانی که از سرویس API این شرکت استفاده میکنند، ارائه خواهد شد.
GPT-4o با خروجی تصویر "کمی" بیشتر از مدل تولید تصویر که بهطور مؤثر جایگزین آن است، یعنی DALL-E 3، "فکر میکند" تا تصاویری دقیقتر و جزئیتر تولید کند. GPT-4o میتواند تصاویر موجود را ویرایش کند، از جمله تصاویری که در آنها افراد وجود دارند — با تغییر آنها یا "درونپوشانی" جزئیات مانند اشیاء در پیشزمینه و پسزمینه.
آموزش GPT-4o با دادههای عمومی
برای تامین قدرت ویژگی جدید تصویر، OpenAI به وال استریت ژورنال گفت که GPT-4o را بر روی "دادههای عمومی موجود" و همچنین دادههای اختصاصی از همکاریهای خود با شرکتهایی مانند Shutterstock آموزش داده است.

بسیاری از فروشندگان هوش مصنوعی تولیدی، دادههای آموزشی را به عنوان یک مزیت رقابتی میبینند، بنابراین آنها این دادهها و هر گونه اطلاعات مرتبط با آن را بهدقت نگه میدارند. اما جزئیات دادههای آموزشی همچنین میتواند منبع بالقوهای برای دعاوی مربوط به مالکیت معنوی باشد، که این نیز یکی دیگر از دلایل عدم تمایل شرکتها به افشای اطلاعات است.
احترام به حقوق هنرمندان
برد لایتکپ، مدیر عملیات OpenAI، در بیانیهای به ژورنال گفت: "ما به حقوق هنرمندان در مورد نحوه تولید خروجی احترام میگذاریم و سیاستهایی داریم که ما را از تولید تصاویری که بهطور مستقیم آثار هر هنرمند زنده را تقلید میکنند، منع میکند."
OpenAI یک فرم انصراف ارائه میدهد که به خالقان اجازه میدهد درخواست کنند که آثارشان از مجموعه دادههای آموزشی این شرکت حذف شود. این شرکت همچنین میگوید که به درخواستها برای جلوگیری از جمعآوری دادههای آموزشی، از جمله تصاویر، توسط رباتهای وبخزنده خود احترام میگذارد.
رقابت با گوگل
ویژگی بهروزرسانی شده تولید تصویر ChatGPT به دنبال ویژگی خروجی تصویر بومی آزمایشی گوگل برای Gemini 2.0 Flash است، که یکی از مدلهای پرچمدار این شرکت به شمار میرود. این ویژگی قدرتمند در رسانههای اجتماعی به شدت مورد توجه قرار گرفت — اما نه لزوماً به دلایل مثبت. مولفه تصویری Gemini 2.0 Flash به نظر میرسید که چندان محدودیتی ندارد، که به کاربران اجازه میدهد علامتهای آبی را حذف کرده و تصاویری از شخصیتهای دارای حق کپی ایجاد کنند.
این مقاله در ساعت ۱۲ بعد از ظهر به وقت اقیانوس آرام بهروزرسانی شد تا شامل بیانیه OpenAI به وال استریت ژورنال در مورد دادههای آموزشی GPT-4o باشد.