گفتگو با گوگل درباره مدل ۲.۵ پرو جمنای

گفتگو با گوگل درباره مدل ۲.۵ پرو جمنای

تاریخ انتشار:

گفتگو با گوگل درباره مدل ۲.۵ پرو جمنای

گوگل در تلاش برای جبران عقب‌ماندگی

گوگل با افزایش ناگهانی علاقه به هوش مصنوعی تولیدی، علی‌رغم نقش خود در توسعه فناوری‌های زیرساختی، دچار سردرگمی شد. این موضوع باعث شد تا این شرکت منابع قابل توجه خود را دوباره بر روی رقابت با OpenAI متمرکز کند. از آن زمان، ما شاهد مدل‌های مختلف جمنای چندمدلی و همچنین Bard با جزئیات ناقص بوده‌ایم. در حالی که جمنای در پیشرفت در معیارها و تجربه کاربری با چالش‌هایی مواجه بوده است، به نظر می‌رسد که با انتشار جدید ۲.۵ پرو (آزمایشی) این وضعیت در حال تغییر باشد. با افزایش‌های قابل توجه در معیارها و احساسات، ممکن است این اولین مدل گوگل باشد که می‌تواند در تسلط ChatGPT تأثیر بگذارد.

دوران احساسات

گوگل ممکن است در آغاز تولید محصولات هوش مصنوعی تولیدی، کند بوده باشد، اما تیم جمنای در ماه‌های اخیر سرعت بیشتری به خود گرفته است. این شرکت در دسامبر مدل جمنای ۲.۰ را منتشر کرد که بهبود اندکی نسبت به نسخه ۱.۵ نشان می‌دهد. تنها سه ماه طول کشید تا به ۲.۵ برسد، به این معنی که جمنای ۲.۰ پرو حتی از مرحله آزمایشی خارج نشده بود. به گفته دوسی، این نتیجه سرمایه‌گذاری‌های بلندمدت گوگل در جمنای است.

دوسی گفت: "بخش بزرگی از آن به‌راستی این است که بسیاری از اجزا و اصولی که ما در حال ساخت آن‌ها بودیم، اکنون به شیوه‌های واقعاً شگفت‌انگیز به هم پیوسته‌اند. بنابراین ما احساس می‌کنیم که قادر به افزایش سرعت در اینجا هستیم."

فرآیند انتشار مدل جدید

Gemini icon macro

فرآیند انتشار یک مدل جدید شامل آزمایش تعداد زیادی از نامزدها است. به گفته دوسی، گوگل رویکرد چندلایه‌ای برای بررسی این مدل‌ها اتخاذ می‌کند که با معیارها آغاز می‌شود. او گفت: "ما مجموعه‌ای از ارزیابی‌ها داریم، هم معیارهای آکادمیک خارجی و هم ارزیابی‌های داخلی که برای موارد استفاده‌ای که برای ما مهم هستند، ایجاد کرده‌ایم."

تیم همچنین از این آزمایش‌ها برای کار بر روی ایمنی استفاده می‌کند که به گفته گوگل، همچنان بخش اصلی توسعه جمنای است. دوسی اشاره کرد که ایمن کردن یک مدل و آماده‌سازی آن برای انتشار گسترده شامل آزمایش‌های خصمانه و زمان زیادی است که به صورت عملی صرف می‌شود.

احساسات و کدگذاری احساسات

اما نمی‌توانیم احساسات را فراموش کنیم، که به طور فزاینده‌ای بخشی مهم از مدل‌های هوش مصنوعی شده است. تمرکز زیادی بر روی احساسات خروجی‌ها وجود دارد - اینکه چقدر جذاب و مفید هستند. همچنین روند جدیدی به نام کدگذاری احساسات در حال ظهور است، که در آن شما از درخواست‌های هوش مصنوعی برای ساخت چیزها استفاده می‌کنید به جای اینکه خودتان کد را تایپ کنید. برای تیم جمنای، این مفاهیم به هم مرتبط هستند. تیم از بازخورد محصول و کاربر برای درک "احساسات" خروجی استفاده می‌کند، چه آن کد باشد و چه فقط پاسخی به یک سوال.

گوگل در چندین مورد اشاره کرده است که جمنای ۲.۵ در صدر جدول رده‌بندی LM Arena قرار دارد، که نشان می‌دهد افرادی که از این مدل استفاده کرده‌اند، خروجی آن را به طور قابل توجهی ترجیح می‌دهند - این مدل احساسات خوبی دارد. این قطعاً یک نقطه مثبت برای جمنای است پس از یک صعود طولانی، اما در این زمینه نگرانی‌هایی وجود دارد که تأکید بیش از حد بر روی احساسات ممکن است ما را به سمت مدل‌هایی سوق دهد که ما را خوشحال می‌کنند، صرف نظر از اینکه خروجی خوب است یا خیر، که به عنوان تملق شناخته می‌شود.

مدل‌های احساس‌خوش

اگر تیم جمنای نگرانی‌هایی درباره مدل‌های احساس‌خوش داشته باشد، آن را نشان نمی‌دهد. دوسی به تمرکز تیم بر روی تولید کد اشاره کرد، که او خاطرنشان کرد می‌تواند برای "تجربیات دلپذیر" بهینه‌سازی شود بدون اینکه به خودخواهی کاربر دامن بزند. او گفت: "من به احساسات کمتر به عنوان یک نوع خاص از ویژگی شخصیتی که در تلاش برای رسیدن به آن هستیم، فکر می‌کنم."

هذیان‌ها و چالش‌های آن

هذیان‌ها نیز یکی دیگر از حوزه‌های نگرانی با مدل‌های هوش مصنوعی تولیدی هستند. گوگل تجربیات خجالت‌آوری با جمنای و Bard در ساخت اطلاعات نادرست داشته است، اما تیم جمنای معتقد است که در مسیر درستی قرار دارد. به نظر می‌رسد جمنای ۲.۵ در معیارهای واقعیت‌سنجی تیم، رکورد بالایی را ثبت کرده است. اما آیا هذیان‌ها هرگز به حدی کاهش می‌یابند که بتوانیم به هوش مصنوعی کاملاً اعتماد کنیم؟ در این زمینه نظری ارائه نشده است.

تفکر بیش از حد

شاید جالب‌ترین نکته‌ای که هنگام استفاده از جمنای ۲.۵ متوجه خواهید شد، این است که این مدل نسبت به سایر مدل‌هایی که از استدلال شبیه‌سازی شده استفاده می‌کنند، بسیار سریع است. گوگل می‌گوید که این قابلیت "تفکر" را به همه مدل‌های خود در آینده اضافه می‌کند، که باید به خروجی‌های بهبود یافته منجر شود. گسترش استدلال در مدل‌های زبانی بزرگ در سال ۲۰۲۴ منجر به بهبود قابل توجهی در کیفیت این ابزارها شد. این همچنین باعث شد که هزینه‌های اجرای آن‌ها نیز بیشتر شود، که مشکل جدی در هوش مصنوعی تولیدی را تشدید می‌کند.

هرچه یک LLM بزرگ‌تر و پیچیده‌تر شود، هزینه اجرای آن نیز بیشتر می‌شود. گوگل داده‌های فنی مانند تعداد پارامترها را در مدل‌های جدید خود منتشر نکرده است - شما باید به شاخه ۱.۵ برگردید تا این نوع جزئیات را به دست آورید. با این حال، دوسی توضیح داد که جمنای ۲.۵ مدل به‌طور قابل توجهی بزرگ‌تر از آخرین نسخه گوگل نیست و آن را "قابل مقایسه" از نظر اندازه با ۲.۰ توصیف کرد.

Gemini models on phone

کارایی و تفکر پویا

جمنای ۲.۵ در یک حوزه کلیدی کارآمدتر است: زنجیره تفکر. این اولین مدل عمومی گوگل است که از ویژگی به نام تفکر پویا پشتیبانی می‌کند، که به مدل اجازه می‌دهد میزان استدلالی که در یک خروجی وارد می‌شود را تنظیم کند. با این حال، این تنها اولین قدم است.

دوسی گفت: "من فکر می‌کنم در حال حاضر، مدل ۲.۵ پرو که ما منتشر می‌کنیم هنوز برای درخواست‌های ساده بیش از حد فکر می‌کند به طوری که ما امیدواریم به بهبود آن ادامه دهیم." او افزود: "بنابراین یکی از حوزه‌های بزرگ که ما در آن سرمایه‌گذاری می‌کنیم، تفکر پویا است به عنوان راهی برای رسیدن به نسخه [دسترس‌پذیری عمومی] ۲.۵ پرو که در آن برای درخواست‌های ساده‌تر حتی کمتر فکر می‌کند."

چالش‌های مالی و زیرساختی

گوگل درآمدهای خود را از پروژه‌های جدید هوش مصنوعی خود منتشر نمی‌کند، اما می‌توانیم با اطمینان فرض کنیم که هیچ سودی در این زمینه وجود ندارد. هیچ‌کس نتوانسته است این LLMهای بزرگ را به یک کسب‌وکار قابل دوام تبدیل کند. OpenAI، که بزرگ‌ترین پایگاه کاربری را با ChatGPT دارد، حتی از کاربران پرداخت‌کننده برای برنامه ۲۰۰ دلاری خود هم ضرر می‌کند. گوگل برنامه‌ریزی کرده است که در سال ۲۰۲۵، ۷۵ میلیارد دلار برای زیرساخت‌های هوش مصنوعی هزینه کند، بنابراین بسیار مهم است که از این سخت‌افزار بسیار گران‌قیمت به بهترین نحو استفاده شود. ساخت مدل‌هایی که در "سلام، حال شما چطور است؟" بیش از حد فکر نکنند، می‌تواند کمک بزرگی باشد.

جزئیات فنی گم شده

گوگل با جمنای اطلاعات را به‌دقت مدیریت می‌کند، اما انتشار ۲.۵ پرو بیش از هر زمان دیگری بینش بیشتری درباره برنامه‌های آینده این شرکت ارائه کرده است. برای درک واقعی این مدل، با این حال، ما نیاز به مشاهده گزارش فنی داریم. گوگل آخرین بار چنین سندی را برای جمنای ۱.۵ منتشر کرد. ما هنوز نسخه ۲.۰ را ندیده‌ایم و ممکن است هرگز آن سند را نبینیم حالا که ۲.۵ جایگزین ۲.۰ شده است.

دوسی اشاره کرد که ۲.۵ پرو هنوز یک مدل آزمایشی است. بنابراین، انتظار نداشته باشید که گزارش‌های ارزیابی کامل به زودی منتشر شوند. یک سخنگوی گوگل روشن کرد که یک گزارش ارزیابی فنی کامل برای شاخه ۲.۵ در نظر گرفته شده است، اما هیچ جدول زمانی مشخصی وجود ندارد. گوگل حتی کارت‌های مدل به‌روز شده برای جمنای ۲.۰ را منتشر نکرده است، چه برسد به ۲.۵. این اسناد خلاصه‌های یک صفحه‌ای از آموزش یک مدل، موارد استفاده مورد نظر، داده‌های ارزیابی و غیره هستند. آن‌ها اساساً برچسب‌های تغذیه‌ای LLM هستند. این خیلی کمتر از یک گزارش فنی دقیق است، اما بهتر از هیچ است. گوگل تأیید می‌کند که کارت‌های مدل برای جمنای ۲.۰ و ۲.۵ در راه است.

با توجه به سرعت بالای انتشارها در روزهای اخیر، ممکن است جمنای ۲.۵ پرو در حال گسترش بیشتری در اطراف Google I/O در ماه مه باشد. ما قطعاً امیدواریم که گوگل جزئیات بیشتری داشته باشد زمانی که شاخه ۲.۵ گسترش یابد. با افزایش سرعت توسعه جمنای، شفافیت نباید نادیده گرفته شود.

منبع:Ars Technica
در حال بارگذاری نظرات...
نظر شما:
0/800