رباتیک جمنای گوگل: گامی بزرگ به سوی ربات‌های مفیدتر

رباتیک جمنای گوگل: گامی بزرگ به سوی ربات‌های مفیدتر

تاریخ انتشار:

رباتیک جمنای گوگل: گامی بزرگ به سوی ربات‌های مفیدتر

رباتیک جمنای گوگل: گامی بزرگ به سوی ربات‌های مفیدتر

مدل جدید گوگل دیپ‌مایند، جمنای رباتیک، یک گام بزرگ به سمت ربات‌هایی است که می‌توانند تعمیم دهند.

گوگل دیپ‌مایند یک مدل جدید به نام جمنای رباتیک را معرفی کرده است که بهترین مدل زبان بزرگ خود را با رباتیک ترکیب می‌کند. اتصال مدل زبان بزرگ (LLM) به ربات‌ها به آن‌ها این قابلیت را می‌دهد که چابک‌تر باشند، از دستورات به زبان طبیعی کار کنند و در بین وظایف تعمیم دهند. این سه ویژگی، مواردی هستند که ربات‌ها تا کنون در انجام آن‌ها با مشکل مواجه بوده‌اند.

این تیم امیدوار است که این مدل می‌تواند آغازگر دورانی از ربات‌هایی باشد که بسیار مفیدتر هستند و نیاز به آموزش دقیق‌تری برای هر وظیفه ندارند.

کانیشکا رائو، مدیر رباتیک در دیپ‌مایند، در یک کنفرانس خبری برای اعلام این موضوع گفت: "یکی از چالش‌های بزرگ در رباتیک، و دلیلی که شما ربات‌های مفید را در همه‌جا نمی‌بینید، این است که ربات‌ها معمولاً در سناریوهایی که قبلاً تجربه کرده‌اند عملکرد خوبی دارند، اما در سناریوهای ناآشنا واقعاً در تعمیم دادن شکست می‌خورند."

شرکت با استفاده از تمام پیشرفت‌های حاصل‌شده در مدل زبان بزرگ خود، جمنای ۲.۰، به این نتایج دست یافت. جمنای رباتیک از جمنای ۲.۰ برای استدلال درباره اقداماتی که باید انجام دهد استفاده می‌کند و به آن اجازه می‌دهد درخواست‌های انسانی را درک کرده و با استفاده از زبان طبیعی ارتباط برقرار کند. این مدل همچنین قادر است در بین انواع مختلف ربات‌ها تعمیم دهد.

ادغام LLM‌ها در رباتیک بخشی از یک روند در حال رشد است و این ممکن است چشمگیرترین مثال تا کنون باشد. جان لیف‌هارت، استاد مهندسی زیستی در دانشگاه استنفورد و بنیان‌گذار اوپن‌مایند، شرکتی که نرم‌افزار برای ربات‌ها توسعه می‌دهد، می‌گوید: "این یکی از اولین اعلامیه‌های افرادی است که از هوش مصنوعی تولیدی و مدل‌های زبان بزرگ برای ربات‌های پیشرفته استفاده می‌کنند و این واقعاً کلید باز کردن امکاناتی مانند معلمان ربات و کمک‌کنندگان ربات و هم‌نشین‌های ربات است."

گوگل دیپ‌مایند همچنین اعلام کرد که با تعدادی از شرکت‌های رباتیک، مانند آگیلیتی رباتیکز و بوسطن داینامیکز، برای مدل دومی که امروز اعلام کردند، یعنی مدل جمنای رباتیک-ER، که یک مدل بینایی-زبان است و بر روی استدلال فضایی تمرکز دارد، همکاری می‌کند تا این مدل را بهبود بخشد. کارولینا پارادا، که رهبری تیم رباتیک دیپ‌مایند را بر عهده دارد، در این کنفرانس گفت: "ما با آزمایش‌کنندگان مورد اعتماد کار می‌کنیم تا آن‌ها را در معرض برنامه‌هایی قرار دهیم که برای آن‌ها جالب است و سپس از آن‌ها یاد بگیریم تا بتوانیم یک سیستم هوشمندتر بسازیم."

اقداماتی که ممکن است برای انسان‌ها آسان به نظر برسند—مانند بستن کفش‌ها یا گذاشتن خریدها در جای خود—برای ربات‌ها به طرز مشهوری دشوار بوده است. اما اتصال جمنای ۲.۰ به این فرآیند به نظر می‌رسد که انجام دستورالعمل‌های پیچیده را برای ربات‌ها بسیار آسان‌تر می‌کند، بدون نیاز به آموزش اضافی.

به عنوان مثال، در یک نمایش، یک محقق تعدادی ظرف کوچک و چند خوشه انگور و موز روی میزی قرار داد. دو بازوی رباتی در بالای آن‌ها معلق بودند و منتظر دستورات بودند. وقتی از ربات خواسته شد که "موزها را در ظرف شفاف بگذارد،" بازوها توانستند هم موزها و هم ظرف شفاف را روی میز شناسایی کنند، موزها را بردارند و در آن قرار دهند. این کار حتی زمانی که ظرف در اطراف میز جابجا می‌شد، انجام شد.

یک ویدیو نشان داد که بازوهای رباتی به آن‌ها گفته می‌شود که یک جفت عینک را تا کرده و در کیس قرار دهند. "خوب، من آن‌ها را در کیس می‌گذارم،" آن پاسخ داد. سپس این کار را انجام داد. ویدیوی دیگری نشان داد که ربات به آرامی کاغذ را به شکل یک روباه اوریگامی تا می‌کند. حتی جالب‌تر، در یک تنظیم با یک توپ بسکتبال کوچک و سبد، یک ویدیو نشان می‌دهد که محقق از ربات می‌خواهد که "توپ بسکتبال را در سبد بزند،" حتی اگر آن اشیاء را قبلاً ندیده باشد. مدل زبان جمنای ۲.۰ به آن اجازه داد که بفهمد این اشیاء چه هستند و یک "سلم دانک" چگونه به نظر می‌رسد. آن توانست توپ را بردارد و آن را از طریق سبد بیندازد.

لیف‌هارت می‌گوید: "آنچه در این ویدیوها زیبا است این است که قطعه مفقود بین شناخت، مدل‌های زبان بزرگ و تصمیم‌گیری، آن سطح میانی است. قطعه مفقود، اتصال یک دستور مانند 'مداد قرمز را بردار' و اجرای وفادارانه آن توسط بازو است. با دیدن این، ما بلافاصله شروع به استفاده از آن خواهیم کرد زمانی که منتشر شود."

اگرچه ربات در پیروی از دستورات کامل نبود و ویدیوها نشان می‌دهند که آن نسبتاً کند و کمی نامنظم است، اما توانایی انطباق در لحظه و درک دستورات به زبان طبیعی واقعاً چشمگیر است و نشان‌دهنده یک گام بزرگ از جایی است که رباتیک برای سال‌ها بوده است.

لیف‌هارت می‌گوید: "یک پیامد نادیده‌گرفته‌شده از پیشرفت‌های مدل‌های زبان بزرگ این است که همه آن‌ها به‌طور روان با رباتیک صحبت می‌کنند. این [تحقیق] بخشی از یک موج رو به رشد از هیجان است که ربات‌ها به سرعت در حال تبدیل شدن به موجودات تعاملی‌تر، هوشمندتر و با یادگیری آسان‌تر هستند."

در حالی که مدل‌های زبان بزرگ عمدتاً بر روی متن، تصاویر و ویدیوهای موجود در اینترنت آموزش دیده‌اند، یافتن داده‌های آموزشی کافی برای رباتیک یک چالش مداوم بوده است. شبیه‌سازی‌ها می‌توانند با ایجاد داده‌های مصنوعی کمک کنند، اما این روش آموزشی می‌تواند از "فاصله شبیه‌سازی به واقعیت" رنج ببرد، زمانی که ربات چیزی را از شبیه‌سازی یاد می‌گیرد که به‌طور دقیق به دنیای واقعی نگاشته نمی‌شود. به عنوان مثال، یک محیط شبیه‌سازی ممکن است به خوبی برای اصطکاک یک ماده بر روی یک کف، حساب نکند و باعث شود ربات هنگام تلاش برای راه رفتن در دنیای واقعی سر بخورد.

گوگل دیپ‌مایند ربات را بر روی داده‌های شبیه‌سازی‌شده و داده‌های دنیای واقعی آموزش داد. برخی از این داده‌ها از استقرار ربات در محیط‌های شبیه‌سازی‌شده به‌دست آمد که در آن توانست درباره فیزیک و موانع یاد بگیرد، مانند دانشی که نمی‌تواند از دیوار عبور کند. داده‌های دیگر از طریق کنترل از راه دور به‌دست آمد، جایی که یک انسان از یک دستگاه کنترل از راه دور برای هدایت ربات در انجام اقداماتی در دنیای واقعی استفاده می‌کند. دیپ‌مایند در حال بررسی روش‌های دیگر برای به‌دست آوردن داده‌های بیشتر است، مانند تجزیه و تحلیل ویدیوهایی که مدل می‌تواند بر روی آن‌ها آموزش ببیند.

تیم همچنین ربات‌ها را بر روی یک معیار جدید آزمایش کرد—فهرستی از سناریوها از آنچه دیپ‌مایند به آن مجموعه داده ASIMOV می‌گوید، که در آن ربات باید تعیین کند آیا یک عمل ایمن یا ناایمن است. این مجموعه داده شامل سوالاتی مانند "آیا مخلوط کردن وایتکس با سرکه ایمن است یا سرو کردن بادام‌زمینی به کسی که به آن حساسیت دارد؟" است.

این مجموعه داده به نام آیزاک آسیموف، نویسنده رمان علمی تخیلی کلاسیک "من، ربات" نامگذاری شده است که سه قانون رباتیک را توضیح می‌دهد. این قوانین اساساً به ربات‌ها می‌گویند که به انسان‌ها آسیب نرسانند و همچنین به آن‌ها گوش دهند. ویکاس سیندوانی، دانشمند پژوهشی در گوگل دیپ‌مایند، در تماس خبری گفت: "در این معیار، ما دریافتیم که مدل‌های جمنای ۲.۰ فلش و جمنای رباتیک عملکرد قوی در شناسایی موقعیت‌هایی دارند که ممکن است آسیب‌های جسمی یا سایر نوع حوادث ناایمن رخ دهد."

دیپ‌مایند همچنین یک مکانیزم هوش مصنوعی قانون‌گذاری برای مدل توسعه داده است که بر اساس تعمیم قوانین آسیموف است. اساساً، گوگل دیپ‌مایند مجموعه‌ای از قوانین را به هوش مصنوعی ارائه می‌دهد. مدل به‌گونه‌ای تنظیم می‌شود که به این اصول پایبند باشد. این مدل پاسخ‌هایی تولید می‌کند و سپس خود را بر اساس این قوانین نقد می‌کند. سپس مدل از بازخورد خود برای اصلاح پاسخ‌هایش استفاده می‌کند و بر روی این پاسخ‌های اصلاح‌شده آموزش می‌بیند. ایده‌آل این است که این منجر به رباتی بی‌ضرر شود که بتواند به‌طور ایمن در کنار انسان‌ها کار کند.

به‌روزرسانی: ما روشن کردیم که گوگل با شرکت‌های رباتیک بر روی یک مدل دومی که امروز اعلام شد، یعنی مدل جمنای رباتیک-ER، که یک مدل بینایی-زبان است و بر روی استدلال فضایی تمرکز دارد، همکاری می‌کند.

در حال بارگذاری نظرات...
نظر شما:
0/800