
گفتگو با گوگل درباره مدل ۲.۵ پرو جمنای
تاریخ انتشار:
گوگل در تلاش برای جبران عقبماندگی
گوگل با افزایش ناگهانی علاقه به هوش مصنوعی تولیدی، علیرغم نقش خود در توسعه فناوریهای زیرساختی، دچار سردرگمی شد. این موضوع باعث شد تا این شرکت منابع قابل توجه خود را دوباره بر روی رقابت با OpenAI متمرکز کند. از آن زمان، ما شاهد مدلهای مختلف جمنای چندمدلی و همچنین Bard با جزئیات ناقص بودهایم. در حالی که جمنای در پیشرفت در معیارها و تجربه کاربری با چالشهایی مواجه بوده است، به نظر میرسد که با انتشار جدید ۲.۵ پرو (آزمایشی) این وضعیت در حال تغییر باشد. با افزایشهای قابل توجه در معیارها و احساسات، ممکن است این اولین مدل گوگل باشد که میتواند در تسلط ChatGPT تأثیر بگذارد.
دوران احساسات
گوگل ممکن است در آغاز تولید محصولات هوش مصنوعی تولیدی، کند بوده باشد، اما تیم جمنای در ماههای اخیر سرعت بیشتری به خود گرفته است. این شرکت در دسامبر مدل جمنای ۲.۰ را منتشر کرد که بهبود اندکی نسبت به نسخه ۱.۵ نشان میدهد. تنها سه ماه طول کشید تا به ۲.۵ برسد، به این معنی که جمنای ۲.۰ پرو حتی از مرحله آزمایشی خارج نشده بود. به گفته دوسی، این نتیجه سرمایهگذاریهای بلندمدت گوگل در جمنای است.
دوسی گفت: "بخش بزرگی از آن بهراستی این است که بسیاری از اجزا و اصولی که ما در حال ساخت آنها بودیم، اکنون به شیوههای واقعاً شگفتانگیز به هم پیوستهاند. بنابراین ما احساس میکنیم که قادر به افزایش سرعت در اینجا هستیم."
فرآیند انتشار مدل جدید

فرآیند انتشار یک مدل جدید شامل آزمایش تعداد زیادی از نامزدها است. به گفته دوسی، گوگل رویکرد چندلایهای برای بررسی این مدلها اتخاذ میکند که با معیارها آغاز میشود. او گفت: "ما مجموعهای از ارزیابیها داریم، هم معیارهای آکادمیک خارجی و هم ارزیابیهای داخلی که برای موارد استفادهای که برای ما مهم هستند، ایجاد کردهایم."
تیم همچنین از این آزمایشها برای کار بر روی ایمنی استفاده میکند که به گفته گوگل، همچنان بخش اصلی توسعه جمنای است. دوسی اشاره کرد که ایمن کردن یک مدل و آمادهسازی آن برای انتشار گسترده شامل آزمایشهای خصمانه و زمان زیادی است که به صورت عملی صرف میشود.
احساسات و کدگذاری احساسات
اما نمیتوانیم احساسات را فراموش کنیم، که به طور فزایندهای بخشی مهم از مدلهای هوش مصنوعی شده است. تمرکز زیادی بر روی احساسات خروجیها وجود دارد - اینکه چقدر جذاب و مفید هستند. همچنین روند جدیدی به نام کدگذاری احساسات در حال ظهور است، که در آن شما از درخواستهای هوش مصنوعی برای ساخت چیزها استفاده میکنید به جای اینکه خودتان کد را تایپ کنید. برای تیم جمنای، این مفاهیم به هم مرتبط هستند. تیم از بازخورد محصول و کاربر برای درک "احساسات" خروجی استفاده میکند، چه آن کد باشد و چه فقط پاسخی به یک سوال.

گوگل در چندین مورد اشاره کرده است که جمنای ۲.۵ در صدر جدول ردهبندی LM Arena قرار دارد، که نشان میدهد افرادی که از این مدل استفاده کردهاند، خروجی آن را به طور قابل توجهی ترجیح میدهند - این مدل احساسات خوبی دارد. این قطعاً یک نقطه مثبت برای جمنای است پس از یک صعود طولانی، اما در این زمینه نگرانیهایی وجود دارد که تأکید بیش از حد بر روی احساسات ممکن است ما را به سمت مدلهایی سوق دهد که ما را خوشحال میکنند، صرف نظر از اینکه خروجی خوب است یا خیر، که به عنوان تملق شناخته میشود.
مدلهای احساسخوش
اگر تیم جمنای نگرانیهایی درباره مدلهای احساسخوش داشته باشد، آن را نشان نمیدهد. دوسی به تمرکز تیم بر روی تولید کد اشاره کرد، که او خاطرنشان کرد میتواند برای "تجربیات دلپذیر" بهینهسازی شود بدون اینکه به خودخواهی کاربر دامن بزند. او گفت: "من به احساسات کمتر به عنوان یک نوع خاص از ویژگی شخصیتی که در تلاش برای رسیدن به آن هستیم، فکر میکنم."
هذیانها و چالشهای آن
هذیانها نیز یکی دیگر از حوزههای نگرانی با مدلهای هوش مصنوعی تولیدی هستند. گوگل تجربیات خجالتآوری با جمنای و Bard در ساخت اطلاعات نادرست داشته است، اما تیم جمنای معتقد است که در مسیر درستی قرار دارد. به نظر میرسد جمنای ۲.۵ در معیارهای واقعیتسنجی تیم، رکورد بالایی را ثبت کرده است. اما آیا هذیانها هرگز به حدی کاهش مییابند که بتوانیم به هوش مصنوعی کاملاً اعتماد کنیم؟ در این زمینه نظری ارائه نشده است.
تفکر بیش از حد
شاید جالبترین نکتهای که هنگام استفاده از جمنای ۲.۵ متوجه خواهید شد، این است که این مدل نسبت به سایر مدلهایی که از استدلال شبیهسازی شده استفاده میکنند، بسیار سریع است. گوگل میگوید که این قابلیت "تفکر" را به همه مدلهای خود در آینده اضافه میکند، که باید به خروجیهای بهبود یافته منجر شود. گسترش استدلال در مدلهای زبانی بزرگ در سال ۲۰۲۴ منجر به بهبود قابل توجهی در کیفیت این ابزارها شد. این همچنین باعث شد که هزینههای اجرای آنها نیز بیشتر شود، که مشکل جدی در هوش مصنوعی تولیدی را تشدید میکند.
هرچه یک LLM بزرگتر و پیچیدهتر شود، هزینه اجرای آن نیز بیشتر میشود. گوگل دادههای فنی مانند تعداد پارامترها را در مدلهای جدید خود منتشر نکرده است - شما باید به شاخه ۱.۵ برگردید تا این نوع جزئیات را به دست آورید. با این حال، دوسی توضیح داد که جمنای ۲.۵ مدل بهطور قابل توجهی بزرگتر از آخرین نسخه گوگل نیست و آن را "قابل مقایسه" از نظر اندازه با ۲.۰ توصیف کرد.

کارایی و تفکر پویا
جمنای ۲.۵ در یک حوزه کلیدی کارآمدتر است: زنجیره تفکر. این اولین مدل عمومی گوگل است که از ویژگی به نام تفکر پویا پشتیبانی میکند، که به مدل اجازه میدهد میزان استدلالی که در یک خروجی وارد میشود را تنظیم کند. با این حال، این تنها اولین قدم است.
دوسی گفت: "من فکر میکنم در حال حاضر، مدل ۲.۵ پرو که ما منتشر میکنیم هنوز برای درخواستهای ساده بیش از حد فکر میکند به طوری که ما امیدواریم به بهبود آن ادامه دهیم." او افزود: "بنابراین یکی از حوزههای بزرگ که ما در آن سرمایهگذاری میکنیم، تفکر پویا است به عنوان راهی برای رسیدن به نسخه [دسترسپذیری عمومی] ۲.۵ پرو که در آن برای درخواستهای سادهتر حتی کمتر فکر میکند."
چالشهای مالی و زیرساختی
گوگل درآمدهای خود را از پروژههای جدید هوش مصنوعی خود منتشر نمیکند، اما میتوانیم با اطمینان فرض کنیم که هیچ سودی در این زمینه وجود ندارد. هیچکس نتوانسته است این LLMهای بزرگ را به یک کسبوکار قابل دوام تبدیل کند. OpenAI، که بزرگترین پایگاه کاربری را با ChatGPT دارد، حتی از کاربران پرداختکننده برای برنامه ۲۰۰ دلاری خود هم ضرر میکند. گوگل برنامهریزی کرده است که در سال ۲۰۲۵، ۷۵ میلیارد دلار برای زیرساختهای هوش مصنوعی هزینه کند، بنابراین بسیار مهم است که از این سختافزار بسیار گرانقیمت به بهترین نحو استفاده شود. ساخت مدلهایی که در "سلام، حال شما چطور است؟" بیش از حد فکر نکنند، میتواند کمک بزرگی باشد.
جزئیات فنی گم شده
گوگل با جمنای اطلاعات را بهدقت مدیریت میکند، اما انتشار ۲.۵ پرو بیش از هر زمان دیگری بینش بیشتری درباره برنامههای آینده این شرکت ارائه کرده است. برای درک واقعی این مدل، با این حال، ما نیاز به مشاهده گزارش فنی داریم. گوگل آخرین بار چنین سندی را برای جمنای ۱.۵ منتشر کرد. ما هنوز نسخه ۲.۰ را ندیدهایم و ممکن است هرگز آن سند را نبینیم حالا که ۲.۵ جایگزین ۲.۰ شده است.
دوسی اشاره کرد که ۲.۵ پرو هنوز یک مدل آزمایشی است. بنابراین، انتظار نداشته باشید که گزارشهای ارزیابی کامل به زودی منتشر شوند. یک سخنگوی گوگل روشن کرد که یک گزارش ارزیابی فنی کامل برای شاخه ۲.۵ در نظر گرفته شده است، اما هیچ جدول زمانی مشخصی وجود ندارد. گوگل حتی کارتهای مدل بهروز شده برای جمنای ۲.۰ را منتشر نکرده است، چه برسد به ۲.۵. این اسناد خلاصههای یک صفحهای از آموزش یک مدل، موارد استفاده مورد نظر، دادههای ارزیابی و غیره هستند. آنها اساساً برچسبهای تغذیهای LLM هستند. این خیلی کمتر از یک گزارش فنی دقیق است، اما بهتر از هیچ است. گوگل تأیید میکند که کارتهای مدل برای جمنای ۲.۰ و ۲.۵ در راه است.
با توجه به سرعت بالای انتشارها در روزهای اخیر، ممکن است جمنای ۲.۵ پرو در حال گسترش بیشتری در اطراف Google I/O در ماه مه باشد. ما قطعاً امیدواریم که گوگل جزئیات بیشتری داشته باشد زمانی که شاخه ۲.۵ گسترش یابد. با افزایش سرعت توسعه جمنای، شفافیت نباید نادیده گرفته شود.