مدل‌های جدید هوش مصنوعی GPT-4.1 اوپن‌ای‌آی بر کدنویسی متمرکز هستند

مدل‌های جدید هوش مصنوعی GPT-4.1 اوپن‌ای‌آی بر کدنویسی متمرکز هستند

تاریخ انتشار:

مدل‌های جدید هوش مصنوعی GPT-4.1 اوپن‌ای‌آی بر کدنویسی متمرکز هستند

معرفی مدل‌های جدید GPT-4.1

اوپن‌ای‌آی روز دوشنبه یک خانواده جدید از مدل‌ها به نام GPT-4.1 را معرفی کرد. بله، "4.1" — گویی نام‌گذاری این شرکت به اندازه کافی گیج‌کننده نبود.

مدل‌های GPT-4.1، GPT-4.1 mini و GPT-4.1 nano وجود دارند که اوپن‌ای‌آی می‌گوید در کدنویسی و پیروی از دستورالعمل‌ها "برتر" هستند. این مدل‌ها از طریق API اوپن‌ای‌آی در دسترس هستند اما در ChatGPT موجود نیستند. این مدل‌های چندرسانه‌ای دارای یک پنجره متنی یک میلیون توکنی هستند، به این معنی که می‌توانند به طور تقریبی ۷۵۰,۰۰۰ کلمه را در یک بار پردازش کنند (بیشتر از "جنگ و صلح").

رقابت با دیگر غول‌های فناوری

مدل GPT-4.1 در زمانی به بازار می‌آید که رقبای اوپن‌ای‌آی مانند گوگل و آنتروپیک تلاش‌های خود را برای ساخت مدل‌های برنامه‌نویسی پیشرفته افزایش داده‌اند. مدل Gemini 2.5 Pro که به تازگی توسط گوگل منتشر شده است، که همچنین دارای یک پنجره متنی یک میلیون توکنی است، در معیارهای کدنویسی محبوب امتیاز بالایی کسب کرده است. همچنین مدل‌های Claude 3.7 Sonnet آنتروپیک و مدل به‌روز شده V3 استارتاپ چینی DeepSeek نیز در این زمینه موفق هستند.

هدف اوپن‌ای‌آی

هدف بسیاری از غول‌های فناوری، از جمله اوپن‌ای‌آی، آموزش مدل‌های هوش مصنوعی کدنویسی است که قادر به انجام وظایف پیچیده مهندسی نرم‌افزار باشند. آرزوی بزرگ اوپن‌ای‌آی ایجاد یک "مهندس نرم‌افزار عامل" است، همان‌طور که CFO سارا فریار در یک اجلاس فناوری در لندن ماه گذشته بیان کرد. این شرکت ادعا می‌کند که مدل‌های آینده‌اش قادر خواهند بود برنامه‌های کامل را از ابتدا تا انتها برنامه‌نویسی کنند و جنبه‌هایی مانند تضمین کیفیت، آزمایش اشکالات و نوشتن مستندات را مدیریت کنند.

بهینه‌سازی برای استفاده در دنیای واقعی

GPT-4.1 یک گام در این راستا است.

یک سخنگوی اوپن‌ای‌آی به گفت: "ما GPT-4.1 را برای استفاده در دنیای واقعی بهینه‌سازی کرده‌ایم بر اساس بازخورد مستقیم برای بهبود در زمینه‌هایی که توسعه‌دهندگان بیشتر به آن اهمیت می‌دهند: کدنویسی فرانت‌اند، انجام ویرایش‌های کمتر اضافی، پیروی از فرمت‌ها به‌طور قابل‌اعتماد، رعایت ساختار و ترتیب پاسخ، استفاده مداوم از ابزارها و بیشتر." این بهبودها به توسعه‌دهندگان این امکان را می‌دهد که عوامل بهتری بسازند که به‌طور قابل‌توجهی در وظایف مهندسی نرم‌افزار در دنیای واقعی بهتر عمل کنند.

عملکرد مدل‌های GPT-4.1

اوپن‌ای‌آی ادعا می‌کند که مدل کامل GPT-4.1 در معیارهای کدنویسی، از جمله SWE-bench، بهتر از مدل‌های GPT-4o و GPT-4o mini عمل می‌کند. گفته می‌شود که مدل‌های GPT-4.1 mini و nano کارآمدتر و سریع‌تر هستند اما به قیمت دقت کمتر، و اوپن‌ای‌آی می‌گوید که GPT-4.1 nano سریع‌ترین و ارزان‌ترین مدل آن‌هاست.

Binary code and OpenAI logo

هزینه‌های استفاده از GPT-4.1

هزینه استفاده از GPT-4.1 به ازای هر میلیون توکن ورودی ۲ دلار و به ازای هر میلیون توکن خروجی ۸ دلار است. هزینه GPT-4.1 mini به ازای هر میلیون توکن ورودی ۰.۴۰ دلار و به ازای هر میلیون توکن خروجی ۱.۶۰ دلار و هزینه GPT-4.1 nano به ازای هر میلیون توکن ورودی ۰.۱۰ دلار و به ازای هر میلیون توکن خروجی ۰.۴۰ دلار است.

نتایج آزمایش‌های داخلی اوپن‌ای‌آی

بر اساس آزمایش‌های داخلی اوپن‌ای‌آی، GPT-4.1 که می‌تواند بیشتر از GPT-4o توکن تولید کند (۳۲,۷۶۸ در مقابل ۱۶,۳۸۴)، در بین ۵۲٪ تا ۵۴.۶٪ در SWE-bench Verified، یک زیرمجموعه تأیید شده توسط انسان از SWE-bench، امتیاز کسب کرده است. (اوپن‌ای‌آی در یک پست وبلاگی اشاره کرد که برخی از راه‌حل‌های مسائل SWE-bench Verified نمی‌توانستند در زیرساخت آن‌ها اجرا شوند، از این رو دامنه نمرات.) این ارقام کمی پایین‌تر از نمرات گزارش شده توسط گوگل و آنتروپیک برای Gemini 2.5 Pro (۶۳.۸٪) و Claude 3.7 Sonnet (۶۲.۳٪) در همان معیار هستند.

ارزیابی‌های جداگانه

در یک ارزیابی جداگانه، اوپن‌ای‌آی به بررسی GPT-4.1 با استفاده از Video-MME پرداخت، که برای اندازه‌گیری توانایی یک مدل در "درک" محتوا در ویدیوها طراحی شده است. اوپن‌ای‌آی ادعا می‌کند که GPT-4.1 در دسته ویدیوهای "بلند، بدون زیرنویس" به دقت ۷۲٪ دست یافته است.

چالش‌های موجود

در حالی که GPT-4.1 در معیارها امتیاز نسبتاً خوبی کسب می‌کند و دارای "قطع‌نامه دانش" به‌روزتری است که به آن مرجع بهتری برای رویدادهای جاری می‌دهد (تا ژوئن ۲۰۲۴)، مهم است که به یاد داشته باشید که حتی برخی از بهترین مدل‌ها در حال حاضر در انجام وظایفی که ممکن است کارشناسان را به چالش بکشند، با مشکلاتی مواجه می‌شوند. به عنوان مثال، بسیاری از مطالعات نشان داده‌اند که مدل‌های تولید کد اغلب در رفع و حتی معرفی آسیب‌پذیری‌های امنیتی و اشکالات ناکام می‌مانند.

اعلامیه اوپن‌ای‌آی

اوپن‌ای‌آی همچنین اذعان می‌کند که GPT-4.1 هر چه بیشتر توکن ورودی داشته باشد، کمتر قابل‌اعتماد می‌شود (یعنی احتمال بیشتری برای ارتکاب اشتباه دارد). در یکی از آزمایش‌های خود شرکت، OpenAI-MRCR، دقت مدل از حدود ۸۴٪ با ۸,۰۰۰ توکن به ۵۰٪ با ۱ میلیون توکن کاهش یافت. همچنین، اوپن‌ای‌آی می‌گوید که GPT-4.1 تمایل بیشتری به "تفسیر تحت‌اللفظی" نسبت به GPT-4o دارد، که گاهی نیاز به درخواست‌های خاص و صریح‌تر دارد.

منبع:Techcrunch
در حال بارگذاری نظرات...
نظر شما:
0/800