
مدلهای جدید هوش مصنوعی GPT-4.1 اوپنایآی بر کدنویسی متمرکز هستند
تاریخ انتشار:
معرفی مدلهای جدید GPT-4.1
اوپنایآی روز دوشنبه یک خانواده جدید از مدلها به نام GPT-4.1 را معرفی کرد. بله، "4.1" — گویی نامگذاری این شرکت به اندازه کافی گیجکننده نبود.
مدلهای GPT-4.1، GPT-4.1 mini و GPT-4.1 nano وجود دارند که اوپنایآی میگوید در کدنویسی و پیروی از دستورالعملها "برتر" هستند. این مدلها از طریق API اوپنایآی در دسترس هستند اما در ChatGPT موجود نیستند. این مدلهای چندرسانهای دارای یک پنجره متنی یک میلیون توکنی هستند، به این معنی که میتوانند به طور تقریبی ۷۵۰,۰۰۰ کلمه را در یک بار پردازش کنند (بیشتر از "جنگ و صلح").
رقابت با دیگر غولهای فناوری
مدل GPT-4.1 در زمانی به بازار میآید که رقبای اوپنایآی مانند گوگل و آنتروپیک تلاشهای خود را برای ساخت مدلهای برنامهنویسی پیشرفته افزایش دادهاند. مدل Gemini 2.5 Pro که به تازگی توسط گوگل منتشر شده است، که همچنین دارای یک پنجره متنی یک میلیون توکنی است، در معیارهای کدنویسی محبوب امتیاز بالایی کسب کرده است. همچنین مدلهای Claude 3.7 Sonnet آنتروپیک و مدل بهروز شده V3 استارتاپ چینی DeepSeek نیز در این زمینه موفق هستند.
هدف اوپنایآی
هدف بسیاری از غولهای فناوری، از جمله اوپنایآی، آموزش مدلهای هوش مصنوعی کدنویسی است که قادر به انجام وظایف پیچیده مهندسی نرمافزار باشند. آرزوی بزرگ اوپنایآی ایجاد یک "مهندس نرمافزار عامل" است، همانطور که CFO سارا فریار در یک اجلاس فناوری در لندن ماه گذشته بیان کرد. این شرکت ادعا میکند که مدلهای آیندهاش قادر خواهند بود برنامههای کامل را از ابتدا تا انتها برنامهنویسی کنند و جنبههایی مانند تضمین کیفیت، آزمایش اشکالات و نوشتن مستندات را مدیریت کنند.
بهینهسازی برای استفاده در دنیای واقعی
GPT-4.1 یک گام در این راستا است.
یک سخنگوی اوپنایآی به گفت: "ما GPT-4.1 را برای استفاده در دنیای واقعی بهینهسازی کردهایم بر اساس بازخورد مستقیم برای بهبود در زمینههایی که توسعهدهندگان بیشتر به آن اهمیت میدهند: کدنویسی فرانتاند، انجام ویرایشهای کمتر اضافی، پیروی از فرمتها بهطور قابلاعتماد، رعایت ساختار و ترتیب پاسخ، استفاده مداوم از ابزارها و بیشتر." این بهبودها به توسعهدهندگان این امکان را میدهد که عوامل بهتری بسازند که بهطور قابلتوجهی در وظایف مهندسی نرمافزار در دنیای واقعی بهتر عمل کنند.
عملکرد مدلهای GPT-4.1
اوپنایآی ادعا میکند که مدل کامل GPT-4.1 در معیارهای کدنویسی، از جمله SWE-bench، بهتر از مدلهای GPT-4o و GPT-4o mini عمل میکند. گفته میشود که مدلهای GPT-4.1 mini و nano کارآمدتر و سریعتر هستند اما به قیمت دقت کمتر، و اوپنایآی میگوید که GPT-4.1 nano سریعترین و ارزانترین مدل آنهاست.

هزینههای استفاده از GPT-4.1
هزینه استفاده از GPT-4.1 به ازای هر میلیون توکن ورودی ۲ دلار و به ازای هر میلیون توکن خروجی ۸ دلار است. هزینه GPT-4.1 mini به ازای هر میلیون توکن ورودی ۰.۴۰ دلار و به ازای هر میلیون توکن خروجی ۱.۶۰ دلار و هزینه GPT-4.1 nano به ازای هر میلیون توکن ورودی ۰.۱۰ دلار و به ازای هر میلیون توکن خروجی ۰.۴۰ دلار است.
نتایج آزمایشهای داخلی اوپنایآی
بر اساس آزمایشهای داخلی اوپنایآی، GPT-4.1 که میتواند بیشتر از GPT-4o توکن تولید کند (۳۲,۷۶۸ در مقابل ۱۶,۳۸۴)، در بین ۵۲٪ تا ۵۴.۶٪ در SWE-bench Verified، یک زیرمجموعه تأیید شده توسط انسان از SWE-bench، امتیاز کسب کرده است. (اوپنایآی در یک پست وبلاگی اشاره کرد که برخی از راهحلهای مسائل SWE-bench Verified نمیتوانستند در زیرساخت آنها اجرا شوند، از این رو دامنه نمرات.) این ارقام کمی پایینتر از نمرات گزارش شده توسط گوگل و آنتروپیک برای Gemini 2.5 Pro (۶۳.۸٪) و Claude 3.7 Sonnet (۶۲.۳٪) در همان معیار هستند.
ارزیابیهای جداگانه
در یک ارزیابی جداگانه، اوپنایآی به بررسی GPT-4.1 با استفاده از Video-MME پرداخت، که برای اندازهگیری توانایی یک مدل در "درک" محتوا در ویدیوها طراحی شده است. اوپنایآی ادعا میکند که GPT-4.1 در دسته ویدیوهای "بلند، بدون زیرنویس" به دقت ۷۲٪ دست یافته است.
چالشهای موجود
در حالی که GPT-4.1 در معیارها امتیاز نسبتاً خوبی کسب میکند و دارای "قطعنامه دانش" بهروزتری است که به آن مرجع بهتری برای رویدادهای جاری میدهد (تا ژوئن ۲۰۲۴)، مهم است که به یاد داشته باشید که حتی برخی از بهترین مدلها در حال حاضر در انجام وظایفی که ممکن است کارشناسان را به چالش بکشند، با مشکلاتی مواجه میشوند. به عنوان مثال، بسیاری از مطالعات نشان دادهاند که مدلهای تولید کد اغلب در رفع و حتی معرفی آسیبپذیریهای امنیتی و اشکالات ناکام میمانند.
اعلامیه اوپنایآی
اوپنایآی همچنین اذعان میکند که GPT-4.1 هر چه بیشتر توکن ورودی داشته باشد، کمتر قابلاعتماد میشود (یعنی احتمال بیشتری برای ارتکاب اشتباه دارد). در یکی از آزمایشهای خود شرکت، OpenAI-MRCR، دقت مدل از حدود ۸۴٪ با ۸,۰۰۰ توکن به ۵۰٪ با ۱ میلیون توکن کاهش یافت. همچنین، اوپنایآی میگوید که GPT-4.1 تمایل بیشتری به "تفسیر تحتاللفظی" نسبت به GPT-4o دارد، که گاهی نیاز به درخواستهای خاص و صریحتر دارد.