
اکنون میتوانید کد منبعای که موجب رونق هوش مصنوعی شد را دانلود کنید
تاریخ انتشار:
انتشار کد منبع AlexNet
روز پنجشنبه، گوگل و موزه تاریخ کامپیوتر (CHM) بهطور مشترک کد منبع AlexNet را منتشر کردند. این شبکه عصبی پیچشی (CNN) که بسیاری آن را بهعنوان عامل تغییر در حوزه هوش مصنوعی در سال 2012 میشناسند، نشان داد که "یادگیری عمیق" میتواند کارهایی را انجام دهد که تکنیکهای سنتی هوش مصنوعی قادر به انجام آن نبودند.
یادگیری عمیق، که از شبکههای عصبی چند لایه استفاده میکند که میتوانند از دادهها بدون برنامهنویسی صریح یاد بگیرند، یک تغییر عمده از رویکردهای سنتی هوش مصنوعی است که به قوانین و ویژگیهای دستساز متکی بودند.
کد پایتون که اکنون بهعنوان نرمافزار متنباز در صفحه GitHub CHM در دسترس است، به علاقهمندان و پژوهشگران هوش مصنوعی نگاهی به یک لحظه کلیدی در تاریخ محاسبات میدهد. AlexNet بهعنوان یک نقطه عطف در هوش مصنوعی شناخته میشود زیرا میتوانست اشیاء را در عکسها با دقت بیسابقه شناسایی کند و تصاویر را به یکی از 1000 دسته مانند "توتفرنگی"، "اتوبوس مدرسه" یا "راگدول" با خطاهای بسیار کمتری نسبت به سیستمهای قبلی طبقهبندی کند.
آموزش به کامپیوترها برای دیدن
همانطور که CHM در پست وبلاگ مفصل خود توضیح میدهد، AlexNet از کار دانشجویان فارغالتحصیل دانشگاه تورنتو، الکس کریژفسکی و ایلیا سوتسکِور، به همراه مشاورشان جفری هینتون، نشأت گرفت. این پروژه نشان داد که یادگیری عمیق میتواند از روشهای سنتی بینایی کامپیوتری پیشی بگیرد.
این شبکه عصبی در مسابقه ImageNet 2012 برنده شد و اشیاء را در عکسها بهمراتب بهتر از هر روش قبلی شناسایی کرد. یان لِکُن، کارشناس بینایی کامپیوتری که در ارائه در فلورانس، ایتالیا حضور داشت، بلافاصله اهمیت آن را برای این حوزه تشخیص داد و reportedly بعد از ارائه ایستاد و AlexNet را "یک نقطه عطف غیرقابل انکار در تاریخ بینایی کامپیوتری" نامید. همانطور که Ars در نوامبر توضیح داد، AlexNet تقاطع سه فناوری کلیدی را که هوش مصنوعی مدرن را تعریف میکند، نشان داد.
تاریخچه کد منبع
به گفته CHM، این موزه از سال 2020 تلاشهایی را برای بهدست آوردن این کد تاریخی آغاز کرد، زمانی که هنسن هسو (نگهدار موزه CHM) با کریژفسکی تماس گرفت تا درباره انتشار کد منبع بهدلیل اهمیت تاریخی آن صحبت کند. از آنجایی که گوگل در سال 2013 شرکت DNNresearch تیم را خریداری کرده بود، مالکیت حقوق معنوی این کد به گوگل تعلق داشت.
موزه به مدت پنج سال با گوگل همکاری کرد تا انتشار کد را مذاکره کند و بهدقت شناسایی کند که کدام نسخه خاص نمایانگر پیادهسازی اصلی 2012 است—این یک تمایز مهم است، زیرا بسیاری از بازسازیهایی که بهعنوان "AlexNet" در اینترنت وجود دارند، کد اصلی مورد استفاده در این پیشرفت نیستند.
چگونگی عملکرد AlexNet
در حالی که تأثیر AlexNet بر هوش مصنوعی اکنون افسانهای است، درک نوآوریهای فنی پشت آن کمک میکند تا توضیح دهد چرا این پروژه چنین لحظهای حیاتی را نمایان کرد. این پیشرفت، یک تکنیک انقلابی واحد نبود، بلکه ترکیب زیبا و هوشمندانهای از فناوریهای موجود بود که قبلاً بهطور جداگانه توسعه یافته بودند.
این پروژه سه مؤلفه جداگانه را ترکیب کرد: شبکههای عصبی عمیق، مجموعههای داده تصویری عظیم و واحدهای پردازش گرافیکی (GPU). شبکههای عصبی عمیق هسته معماری AlexNet را تشکیل میدادند، با لایههای متعدد که میتوانستند ویژگیهای بصری پیچیدهتری را یاد بگیرند. این شبکه به نام کریژفسکی نامگذاری شد که سیستم را پیادهسازی و فرآیند آموزش گسترده را انجام داد.

برخلاف سیستمهای سنتی هوش مصنوعی که نیاز به این داشتند که برنامهنویسان بهصورت دستی ویژگیهایی را که باید در تصاویر جستجو شوند مشخص کنند، این شبکههای عمیق میتوانستند بهطور خودکار الگوها را در سطوح مختلف انتزاع کشف کنند—از لبهها و بافتهای ساده در لایههای اولیه تا بخشهای پیچیده اشیاء در لایههای عمیقتر. در حالی که AlexNet از معماری CNN برای پردازش دادههای شبکهای مانند تصاویر استفاده میکرد، سیستمهای هوش مصنوعی امروز مانند ChatGPT و Claude عمدتاً بر مدلهای Transformer تکیه دارند. این مدلها اختراع تحقیقات گوگل در سال 2017 هستند که در پردازش دادههای توالی و درک وابستگیهای بلندمدت در متن و سایر رسانهها از طریق مکانیزمی به نام "توجه" برتری دارند.
دادههای آموزشی و قدرت محاسباتی
برای دادههای آموزشی، AlexNet از ImageNet استفاده کرد، پایگاهی که توسط پروفسور دانشگاه استنفورد، دکتر فی-فی لی، در سال 2006 آغاز شد. لی میلیونها تصویر اینترنتی را جمعآوری کرده و آنها را با استفاده از پایگاه دادهای به نام WordNet سازماندهی کرد. کارگران در پلتفرم Mechanical Turk آمازون به برچسبگذاری تصاویر کمک کردند.
این پروژه به قدرت محاسباتی جدی برای پردازش این دادهها نیاز داشت. کریژفسکی فرآیند آموزش را بر روی دو کارت گرافیک Nvidia که در یک کامپیوتر در اتاق خوابش در خانه والدینش نصب شده بود، اجرا کرد. شبکههای عصبی محاسبات زیادی را بهصورت موازی انجام میدهند که کارتهای گرافیک به خوبی از عهده آن برمیآیند. Nvidia، به رهبری جنسن هوانگ، کارتهای گرافیک خود را از طریق نرمافزار CUDA که در سال 2007 منتشر شد، برای وظایف غیرگرافیکی قابل برنامهریزی کرده بود.
تأثیرات گسترده AlexNet
تأثیر AlexNet فراتر از بینایی کامپیوتری است. شبکههای عصبی یادگیری عمیق اکنون در تولید صدا، سیستمهای بازی، مدلهای زبانی و تولیدکنندههای تصویر به کار میروند. آنها همچنین مسئول تأثیرات بالقوهای هستند که میتوانند جامعه را دچار تفرقه کنند، مانند پر کردن شبکههای اجتماعی با محتوای تولیدشده توسط هوش مصنوعی، تقویت آزاردهندگان و احتمالاً تغییر سوابق تاریخی.
اکنون آنها کجا هستند؟
در 13 سالی که از پیشرفت آنها میگذرد، خالقان AlexNet تخصص خود را در جهات مختلفی دنبال کردهاند و هر یک بهطور منحصر به فردی به این حوزه کمک کردهاند.
پس از موفقیت AlexNet، کریژفسکی، سوتسکِور و هینتون شرکتی به نام DNNresearch Inc. تأسیس کردند که گوگل در سال 2013 آن را خرید. هر یک از اعضای تیم از آن زمان مسیر متفاوتی را دنبال کردهاند. سوتسکِور در سال 2015 OpenAI را تأسیس کرد که ChatGPT را در سال 2022 منتشر کرد و بهتازگی Safe Superintelligence (SSI) را راهاندازی کرده است، استارتاپی که 1 میلیارد دلار سرمایهگذاری جذب کرده است. کریژفسکی در سال 2017 از گوگل خارج شد تا بر روی تکنیکهای جدید یادگیری عمیق در Dessa کار کند.
هینتون بهخاطر هشدار درباره خطرات بالقوه سیستمهای هوش مصنوعی آینده شهرت و اعتبار کسب کرده و در سال 2023 از گوگل استعفا داد تا بتواند آزادانه درباره این موضوع صحبت کند. سال گذشته، هینتون جامعه علمی را شگفتزده کرد وقتی که جایزه نوبل فیزیک 2024 را بههمراه جان جی. هاپفیلد بهخاطر کارهای بنیادی آنها در یادگیری ماشین که به اوایل دهه 1980 برمیگردد، دریافت کرد.
در مورد اینکه چه کسی بیشترین اعتبار را برای AlexNet دارد، هینتون با شوخطبعی خاصی به نقشهای پروژه اشاره کرد: "ایلیا فکر کرد که ما باید این کار را انجام دهیم، الکس آن را عملی کرد و من جایزه نوبل را گرفتم."