
رباتیک جمنای گوگل: گامی بزرگ به سوی رباتهای مفیدتر
تاریخ انتشار:
رباتیک جمنای گوگل: گامی بزرگ به سوی رباتهای مفیدتر
مدل جدید گوگل دیپمایند، جمنای رباتیک، یک گام بزرگ به سمت رباتهایی است که میتوانند تعمیم دهند.
گوگل دیپمایند یک مدل جدید به نام جمنای رباتیک را معرفی کرده است که بهترین مدل زبان بزرگ خود را با رباتیک ترکیب میکند. اتصال مدل زبان بزرگ (LLM) به رباتها به آنها این قابلیت را میدهد که چابکتر باشند، از دستورات به زبان طبیعی کار کنند و در بین وظایف تعمیم دهند. این سه ویژگی، مواردی هستند که رباتها تا کنون در انجام آنها با مشکل مواجه بودهاند.
این تیم امیدوار است که این مدل میتواند آغازگر دورانی از رباتهایی باشد که بسیار مفیدتر هستند و نیاز به آموزش دقیقتری برای هر وظیفه ندارند.
کانیشکا رائو، مدیر رباتیک در دیپمایند، در یک کنفرانس خبری برای اعلام این موضوع گفت: "یکی از چالشهای بزرگ در رباتیک، و دلیلی که شما رباتهای مفید را در همهجا نمیبینید، این است که رباتها معمولاً در سناریوهایی که قبلاً تجربه کردهاند عملکرد خوبی دارند، اما در سناریوهای ناآشنا واقعاً در تعمیم دادن شکست میخورند."
شرکت با استفاده از تمام پیشرفتهای حاصلشده در مدل زبان بزرگ خود، جمنای ۲.۰، به این نتایج دست یافت. جمنای رباتیک از جمنای ۲.۰ برای استدلال درباره اقداماتی که باید انجام دهد استفاده میکند و به آن اجازه میدهد درخواستهای انسانی را درک کرده و با استفاده از زبان طبیعی ارتباط برقرار کند. این مدل همچنین قادر است در بین انواع مختلف رباتها تعمیم دهد.
ادغام LLMها در رباتیک بخشی از یک روند در حال رشد است و این ممکن است چشمگیرترین مثال تا کنون باشد. جان لیفهارت، استاد مهندسی زیستی در دانشگاه استنفورد و بنیانگذار اوپنمایند، شرکتی که نرمافزار برای رباتها توسعه میدهد، میگوید: "این یکی از اولین اعلامیههای افرادی است که از هوش مصنوعی تولیدی و مدلهای زبان بزرگ برای رباتهای پیشرفته استفاده میکنند و این واقعاً کلید باز کردن امکاناتی مانند معلمان ربات و کمککنندگان ربات و همنشینهای ربات است."
گوگل دیپمایند همچنین اعلام کرد که با تعدادی از شرکتهای رباتیک، مانند آگیلیتی رباتیکز و بوسطن داینامیکز، برای مدل دومی که امروز اعلام کردند، یعنی مدل جمنای رباتیک-ER، که یک مدل بینایی-زبان است و بر روی استدلال فضایی تمرکز دارد، همکاری میکند تا این مدل را بهبود بخشد. کارولینا پارادا، که رهبری تیم رباتیک دیپمایند را بر عهده دارد، در این کنفرانس گفت: "ما با آزمایشکنندگان مورد اعتماد کار میکنیم تا آنها را در معرض برنامههایی قرار دهیم که برای آنها جالب است و سپس از آنها یاد بگیریم تا بتوانیم یک سیستم هوشمندتر بسازیم."
اقداماتی که ممکن است برای انسانها آسان به نظر برسند—مانند بستن کفشها یا گذاشتن خریدها در جای خود—برای رباتها به طرز مشهوری دشوار بوده است. اما اتصال جمنای ۲.۰ به این فرآیند به نظر میرسد که انجام دستورالعملهای پیچیده را برای رباتها بسیار آسانتر میکند، بدون نیاز به آموزش اضافی.
به عنوان مثال، در یک نمایش، یک محقق تعدادی ظرف کوچک و چند خوشه انگور و موز روی میزی قرار داد. دو بازوی رباتی در بالای آنها معلق بودند و منتظر دستورات بودند. وقتی از ربات خواسته شد که "موزها را در ظرف شفاف بگذارد،" بازوها توانستند هم موزها و هم ظرف شفاف را روی میز شناسایی کنند، موزها را بردارند و در آن قرار دهند. این کار حتی زمانی که ظرف در اطراف میز جابجا میشد، انجام شد.
یک ویدیو نشان داد که بازوهای رباتی به آنها گفته میشود که یک جفت عینک را تا کرده و در کیس قرار دهند. "خوب، من آنها را در کیس میگذارم،" آن پاسخ داد. سپس این کار را انجام داد. ویدیوی دیگری نشان داد که ربات به آرامی کاغذ را به شکل یک روباه اوریگامی تا میکند. حتی جالبتر، در یک تنظیم با یک توپ بسکتبال کوچک و سبد، یک ویدیو نشان میدهد که محقق از ربات میخواهد که "توپ بسکتبال را در سبد بزند،" حتی اگر آن اشیاء را قبلاً ندیده باشد. مدل زبان جمنای ۲.۰ به آن اجازه داد که بفهمد این اشیاء چه هستند و یک "سلم دانک" چگونه به نظر میرسد. آن توانست توپ را بردارد و آن را از طریق سبد بیندازد.

لیفهارت میگوید: "آنچه در این ویدیوها زیبا است این است که قطعه مفقود بین شناخت، مدلهای زبان بزرگ و تصمیمگیری، آن سطح میانی است. قطعه مفقود، اتصال یک دستور مانند 'مداد قرمز را بردار' و اجرای وفادارانه آن توسط بازو است. با دیدن این، ما بلافاصله شروع به استفاده از آن خواهیم کرد زمانی که منتشر شود."
اگرچه ربات در پیروی از دستورات کامل نبود و ویدیوها نشان میدهند که آن نسبتاً کند و کمی نامنظم است، اما توانایی انطباق در لحظه و درک دستورات به زبان طبیعی واقعاً چشمگیر است و نشاندهنده یک گام بزرگ از جایی است که رباتیک برای سالها بوده است.
لیفهارت میگوید: "یک پیامد نادیدهگرفتهشده از پیشرفتهای مدلهای زبان بزرگ این است که همه آنها بهطور روان با رباتیک صحبت میکنند. این [تحقیق] بخشی از یک موج رو به رشد از هیجان است که رباتها به سرعت در حال تبدیل شدن به موجودات تعاملیتر، هوشمندتر و با یادگیری آسانتر هستند."
در حالی که مدلهای زبان بزرگ عمدتاً بر روی متن، تصاویر و ویدیوهای موجود در اینترنت آموزش دیدهاند، یافتن دادههای آموزشی کافی برای رباتیک یک چالش مداوم بوده است. شبیهسازیها میتوانند با ایجاد دادههای مصنوعی کمک کنند، اما این روش آموزشی میتواند از "فاصله شبیهسازی به واقعیت" رنج ببرد، زمانی که ربات چیزی را از شبیهسازی یاد میگیرد که بهطور دقیق به دنیای واقعی نگاشته نمیشود. به عنوان مثال، یک محیط شبیهسازی ممکن است به خوبی برای اصطکاک یک ماده بر روی یک کف، حساب نکند و باعث شود ربات هنگام تلاش برای راه رفتن در دنیای واقعی سر بخورد.
گوگل دیپمایند ربات را بر روی دادههای شبیهسازیشده و دادههای دنیای واقعی آموزش داد. برخی از این دادهها از استقرار ربات در محیطهای شبیهسازیشده بهدست آمد که در آن توانست درباره فیزیک و موانع یاد بگیرد، مانند دانشی که نمیتواند از دیوار عبور کند. دادههای دیگر از طریق کنترل از راه دور بهدست آمد، جایی که یک انسان از یک دستگاه کنترل از راه دور برای هدایت ربات در انجام اقداماتی در دنیای واقعی استفاده میکند. دیپمایند در حال بررسی روشهای دیگر برای بهدست آوردن دادههای بیشتر است، مانند تجزیه و تحلیل ویدیوهایی که مدل میتواند بر روی آنها آموزش ببیند.
تیم همچنین رباتها را بر روی یک معیار جدید آزمایش کرد—فهرستی از سناریوها از آنچه دیپمایند به آن مجموعه داده ASIMOV میگوید، که در آن ربات باید تعیین کند آیا یک عمل ایمن یا ناایمن است. این مجموعه داده شامل سوالاتی مانند "آیا مخلوط کردن وایتکس با سرکه ایمن است یا سرو کردن بادامزمینی به کسی که به آن حساسیت دارد؟" است.
این مجموعه داده به نام آیزاک آسیموف، نویسنده رمان علمی تخیلی کلاسیک "من، ربات" نامگذاری شده است که سه قانون رباتیک را توضیح میدهد. این قوانین اساساً به رباتها میگویند که به انسانها آسیب نرسانند و همچنین به آنها گوش دهند. ویکاس سیندوانی، دانشمند پژوهشی در گوگل دیپمایند، در تماس خبری گفت: "در این معیار، ما دریافتیم که مدلهای جمنای ۲.۰ فلش و جمنای رباتیک عملکرد قوی در شناسایی موقعیتهایی دارند که ممکن است آسیبهای جسمی یا سایر نوع حوادث ناایمن رخ دهد."
دیپمایند همچنین یک مکانیزم هوش مصنوعی قانونگذاری برای مدل توسعه داده است که بر اساس تعمیم قوانین آسیموف است. اساساً، گوگل دیپمایند مجموعهای از قوانین را به هوش مصنوعی ارائه میدهد. مدل بهگونهای تنظیم میشود که به این اصول پایبند باشد. این مدل پاسخهایی تولید میکند و سپس خود را بر اساس این قوانین نقد میکند. سپس مدل از بازخورد خود برای اصلاح پاسخهایش استفاده میکند و بر روی این پاسخهای اصلاحشده آموزش میبیند. ایدهآل این است که این منجر به رباتی بیضرر شود که بتواند بهطور ایمن در کنار انسانها کار کند.
بهروزرسانی: ما روشن کردیم که گوگل با شرکتهای رباتیک بر روی یک مدل دومی که امروز اعلام شد، یعنی مدل جمنای رباتیک-ER، که یک مدل بینایی-زبان است و بر روی استدلال فضایی تمرکز دارد، همکاری میکند.