
ادامه آشفتگی نامگذاری در OpenAI با وجود اذعان مدیرعامل به این عادت
تاریخ انتشار:
معرفی مدلهای جدید GPT-4.1
در روز دوشنبه، OpenAI خانواده مدلهای GPT-4.1 را معرفی کرد، جدیدترین سری از مدلهای زبان هوش مصنوعی که برای اولین بار یک پنجره زمینه ۱ میلیون توکنی را به OpenAI میآورد و ادامهدهنده سنت طولانی نامگذاریهای بسیار گیجکننده مدلهای هوش مصنوعی است. در واقع، سه نام جدید گیجکننده: GPT-4.1، GPT-4.1 mini و GPT-4.1 nano.
عملکرد بهتر مدلهای جدید
به گفته OpenAI، این مدلها در چندین زمینه کلیدی از GPT-4o بهتر عمل میکنند. اما در یک اقدام غیرمعمول، GPT-4.1 تنها از طریق API توسعهدهندگان در دسترس خواهد بود و نه در رابط کاربری ChatGPT که اکثر مردم با فناوری OpenAI تعامل دارند.
پنجره زمینه ۱ میلیون توکنی
پنجره زمینه ۱ میلیون توکنی—که به طور اساسی مقدار متنی است که هوش مصنوعی میتواند به طور همزمان پردازش کند—به این مدلها اجازه میدهد حدود ۳۰۰۰ صفحه متن را در یک مکالمه واحد دریافت کنند. این موضوع پنجرههای زمینه OpenAI را در سطح مدلهای Gemini گوگل قرار میدهد که برای مدتی قابلیتهای زمینهای مشابهی را ارائه دادهاند.
بازنشستگی مدل GPT-4.5 Preview
در همین حال، این شرکت اعلام کرد که مدل GPT-4.5 Preview را در API بازنشسته خواهد کرد—یک پیشنهاد موقت که در فوریه راهاندازی شده و یکی از منتقدان آن را "لیمو" نامید—و به توسعهدهندگان تا ژوئیه ۲۰۲۵ فرصت میدهد تا به گزینه دیگری منتقل شوند. با این حال، به نظر میرسد GPT-4.5 فعلاً در ChatGPT باقی خواهد ماند.
چرا نامها اینقدر گیجکننده هستند؟
اگر این موضوع گیجکننده به نظر میرسد، خوب، به همین دلیل است. مدیرعامل OpenAI، سم آلتمن، در فوریه به عادت OpenAI در نامگذاریهای بد محصولات اذعان کرد، زمانی که در مورد نقشه راه به سمت GPT-5 که به شدت مورد انتظار است (و هنوز هم نظری است) صحبت میکرد.
او در آن زمان در پلتفرم X نوشت: "ما متوجه شدهایم که مدلها و پیشنهادات محصولات ما چقدر پیچیده شدهاند" و به رابط کاربری ChatGPT که قبلاً با انتخابهایی مانند GPT-4o، نسخههای مختلف تخصصی GPT-4o، GPT-4o mini، مدلهای استدلال شبیهسازی شده o1-pro، o3-mini و o3-mini-high و GPT-4 پر شده، اشاره کرد. هدف اعلام شده برای GPT-5، تجمیع است، یک حرکت برندینگ برای یکپارچهسازی مدلهای سری o و سری GPT.
آیا GPT-4.1 بهتر از GPT-4.5 است؟
در برخی زمینههای کلیدی، ۴.۱ از ۴.۵ بهتر است. این موضوع ما را به این فکر میاندازد که آیا OpenAI از LLMها برای نامگذاری محصولاتش استفاده کرده است، به دلیل مثال معروف سال گذشته که ChatGPT به طور معمول گزارش میکرد که مقدار عددی "۹.۱۱" بزرگتر از "۹.۹" است.
با این حال، استراتژی نامگذاری گیجکننده با ادعاهای عملکردی به همان اندازه گیجکننده همخوانی دارد. OpenAI، GPT-4.1 را به عنوان یک پیشرفت واضح نسبت به GPT-4o معرفی میکند، به ویژه در زمینه کدنویسی و پیروی از دستورالعملهای پیچیده (شما میتوانید تمام معیارها را در وبسایت OpenAI مشاهده کنید). خانواده مدل جدید همچنین آن پنجره زمینه بزرگ ۱ میلیون توکنی را به ارمغان میآورد—حدود چهار برابر بزرگتر از قابلیت GPT-4o. بهویژه، برخلاف GPT-4o چندرسانهای (که "o" به معنای "همهجانبه" بود)، اعلام خانواده GPT-4.1 هیچ اشارهای به قابلیتهای ورودی یا خروجی صوتی ندارد و نشان میدهد که تمرکز بر ورودیهای متنی و تصویری با خروجی متنی است، همانطور که کارشناس هوش مصنوعی، سایمون ویلیسون، در وبلاگش اشاره کرده است.

مقایسه با GPT-4.5 Preview
در مقایسه با GPT-4.5 Preview که به زودی بازنشسته خواهد شد، تصویر بسیار پیچیدهتر میشود. در حالی که GPT-4.1 به طور قابل توجهی در معیار کدنویسی SWE-bench Verified (۵۴.۶ درصد در مقابل ۳۸.۰ درصد برای GPT-4.5) بهتر عمل میکند و کدهای دیف را به طور قابل اعتمادی تولید میکند، دادههای معیار OpenAI نشان میدهد که GPT-4.5 هنوز در آزمونهای دانش علمی، پیروی از دستورالعملها و چندین وظیفه مرتبط با بینایی بهتر عمل کرده است.
(SWE-bench Verified یک معیار صنعتی است که هدف آن ارزیابی این است که مدلهای هوش مصنوعی چقدر خوب میتوانند مخازن نرمافزاری واقعی را درک و اصلاح کنند تا باگها را برطرف کنند یا ویژگیهای جدیدی را پیادهسازی کنند—به طور اساسی اندازهگیری میزان مفید بودن هوش مصنوعی برای مهندسان نرمافزار واقعی در محیطهای تولید.)
چرا یک مدل با قابلیتهای بیشتر را بازنشسته کنیم؟
این موضوع سوالی را مطرح میکند: چرا یک مدل به ظاهر با قابلیتهای بیشتر را در API بازنشسته کنیم؟ OpenAI توضیح میدهد که GPT-4.1 "عملکرد بهبود یافته یا مشابهی در بسیاری از قابلیتهای کلیدی با هزینه و تأخیر بسیار پایینتر ارائه میدهد." به عبارت دیگر، GPT-4.1 به نقطه شیرین عملی میرسد—عملکرد کافی برای اکثر موارد استفاده API، اما سریعتر و ارزانتر از GPT-4.5 Preview که منابع بیشتری مصرف میکند. GPT-4.5 بسیار کند و بسیار گران است.
استراتژی فقط API
مدلهای جدید با قیمتهای پایینتری نسبت به پیشینیان خود ارائه میشوند. GPT-4.1 برای ورودی ۲ دلار به ازای هر میلیون توکن و برای خروجی ۸ دلار به ازای هر میلیون توکن هزینه دارد که نشاندهنده کاهش ۲۶ درصدی هزینه برای پرسشهای میانه در مقایسه با GPT-4o است. GPT-4.1 mini با قیمت ۰.۴۰ دلار برای ورودی و ۱.۶۰ دلار برای خروجی به ازای هر میلیون توکن قیمتگذاری شده است، در حالی که GPT-4.1 nano تنها ۰.۱۰ دلار برای ورودی و ۰.۴۰ دلار برای خروجی به ازای هر میلیون توکن هزینه دارد.
در مقایسه، قیمتگذاری GPT-4.5 بسیار بالا بود—هزینه آن ۷۵ دلار برای هر میلیون توکن ورودی و ۱۵۰ دلار برای هر میلیون توکن خروجی از طریق API بود. بنابراین ۴.۱ یک ارتقاء بر ۴o است که تقریباً با ۴.۵ مطابقت دارد اما هزینه اجرای آن بسیار کمتر است. آیا متوجه شدید؟
سیستم دوگانه
بنابراین سوال دیگری باقی میماند: چرا مدلی ایجاد کنیم که در زمینههای مهم از GPT-4o بهتر عمل میکند اما آن را به کاربران ChatGPT ارائه نمیدهیم؟
به گفته OpenAI، بسیاری از بهبودها از این مدلهای تحقیقاتی "به تدریج به آخرین نسخه GPT-4o" در ChatGPT اضافه شدهاند و ویژگیهای بیشتری برای بهروزرسانیهای آینده برنامهریزی شده است. به طور اساسی، GPT-4o ChatGPT به یک مدل "برند" در حال تکامل تبدیل شده است که قابلیتهایی را از مدلهای مختلف تحقیقاتی شرکت در طول زمان جذب میکند.
این موضوع یک سیستم دوگانه ایجاد میکند: توسعهدهندگانی که از API استفاده میکنند، مدلهای خاص و ثابتی با قابلیتهای به وضوح تعریف شده دریافت میکنند، در حالی که کاربران عادی ChatGPT یک مدل واحد دریافت میکنند که در پشت صحنه تغییر میکند. توسعهدهندگان میتوانند دقیقاً انتخاب کنند که کدام مدل به نیازها و الزامات هزینهای آنها میخورد، بین ۴.۱، ۴.۱ mini، ۴.۱ nano، ۴o و سایر نسخهها انتخاب کنند. در عین حال، مصرفکنندگان هر نسخهای از GPT-4o را که OpenAI تصمیم میگیرد منتشر کند، دریافت میکنند.
اما این موضوع نامگذاری را سادهتر نخواهد کرد. همانطور که یکی از کاربران Hacker News به درستی اشاره کرد، "من به یک هوش مصنوعی نیاز دارم که کنوانسیونهای نامگذاری OpenAI را درک کند."