بومی سازی زیرساخت هوش مصنوعی در پروژه پلتفرم ملی
به گزارش مداربسته، مدیر تیم پلت فرم پلتفرم ملی هوش مصنوعی از طراحی و پیاده سازی زیرساختی بومی برای مدیریت منابع محدود پردازشی آگاهی داد و اظهار داشت: در شرایطی که GPU، CPU و فضای ذخیره سازی با محدودیت روبه رو هستند، با طراحی یک لایه واسط بین سخت افزار و لایه اجرائی، امکان بهره برداری حداکثری از این منابع را فراهم آورده ایم. به گفته ی ایشان، این زیرساخت سه لایه با استانداردهای بین المللی رقابت پذیر بوده و آماده همکاری با مجموعه های علاقمند است.
به گزارش مداربسته به نقل از ایسنا، جمال امیدی امروز در نشست فعالان حوزه هوش مصنوعی به تشریح نحوه طراحی زیرساخت این سکو پرداخت و ضمن اشاره به محدود بودن منابع سخت افزاری نظیر GPU، CPU و فضای ذخیره سازی، اظهار داشت: اگر این منابع محدود به شکل عادی و عمومی مورد استفاده قرار می گرفتند، کارآمدی لازم را ایجاد نمی کردند. بنابراین تصمیم گرفتیم لایه ای واسط بین لایه اجرایی سکو و سخت افزارهای موجود طراحی نماییم تا بیشترین بهره وری ممکن را از این منابع فراهم نماییم.
وی ضمن اشاره به تجربیات پیشین در توسعه سیستم های مقیاس پذیر، اضافه کرد: هدف این بود که منابع محدود داخلی و ظرفیتهای بیرونی را در یک ساختار منسجم و ترتیبی استفاده نماییم. در صنعت نیز با چالش هایی مشابه مواجه بودیم که بررسی و تحلیل آنها در طراحی این ساختار لحاظ شده است.
مدیر تیم پلت فرم سکوی هوش مصنوعی با تکیه بر این که منابع پردازشی نظیر GPU، CPU و فضای ذخیره سازی را تحت عنوان کلی «کامپیوتر» درنظر گرفتیم، تصریح کرد: تخمین ما اینست که بالغ بر ۳۰ میلیارد تومان تجهیزات در این عرصه نیاز است. اما هیچ یک از زیرساخت های فعلی آمادگی موردنیاز برای پشتیبانی از چنین ساختاری را ندارند. ما باید بتوانیم به شکل مستقل، چندصد گیگابایت داده را با سرعت بالا تغذیه و پردازش نماییم. شبکه نیز باید توان این حجم را داشته باشد.
وی یکی از مسایل اساسی را انتخاب سیستم عامل مینیمال و بهینه جهت استفاده از سخت افزارها دانست و خاطرنشان کرد: ما سیستم عاملی بسیار سبک و کم حجم را انتخاب کردیم که به صورت گسترده در دنیا شناخته شده است و با هدف مدیریت دقیق منابع سخت افزاری، تغییرات سیستم از یک مرکز کنترل واحد به آن ارجاع داده می شود.
این فعال توسعه دهنده زیر ساخت های هوش مصنوعی افزود: برای مثال در یک فرآیند یادگیری ماشین توزیع شده، امکان دارد هزاران فرآیند هم زمان روی حجم زیادی از داده فعالیت داشته باشند. زمان بندی و توزیع این تسک ها روی سخت افزار، نیازمند یک لایه استاندارد و تخصصی است که در زیرساخت معمولی قابل اجرا نیست. از این رو از ابزارهایی بهره گرفتیم که کارآمدی بالا در مدیریت توزیع و هماهنگی وظایف داشته باشند.
او همینطور به برخی راهکارهای مرسوم مانند SLURM اشاره نمود و اظهار داشت: با این که ابزارهایی مثل «اسلار» در پروژه های بین المللی مورد استفاده قرار می گیرند، اما با زیرساخت های مدرن سازگار نیستند. ما تنها تجربه قبلی در استفاده از اسلار را بررسی نموده و ساختار مشابهی را به سیستم عامل خود افزودیم.
این فعال فناور با اشاره به اینکه این زیرساخت حال در سه لایه اصلی طراحی شده و قابل استفاده است، توضیح داد: شبکه ای مبتنی بر RDMA و نسخه دوم RoCE برای ارتباط سریع بین GPUها را درنظر گرفته ایم. همینطور یک شبکه ذخیره سازی سریع مبتنی بر Ceph برای تغذیه پرسرعت مدلهای هوش مصنوعی درنظر گرفته شده است.
وی چالش ذخیره سازی را یکی از مسایل کلیدی در یادگیری عمیق دانست و اظهار داشت: در پروژه های یادگیری عمیق، احتیاج به دسترسی هم زمان به حجم عظیمی از داده وجود دارد. در اکثر سیستم های ذخیره سازی رایج، اگر یک فرایند به فایلی دسترسی پیدا کند، سایر فرآیندها نمی توانند به شکل هم زمان از آن استفاده نمایند. به همین دلیل، در طراحی این ساختار ضروری است امکان پردازش هم زمان و انتقال موازی داده ها با هزینه ای مقرون به صرفه پیشبینی شود.
وی افزود: ما نمی توانیم در این مقیاس از ذخیره سازی های تجاری گران قیمت استفاده نماییم. ازاین رو به جای خرید تجهیزات گران قیمت، از راهکارهای تعریف شده و دیفایند استفاده کردیم که هزینه کمتر و بهره وری بالاتری دارد.
امیدی ضمن اشاره به دو خصوصیت کلیدی در لایه پردازش، اظهار داشت: یکی از این خصوصیت ها، قابلیت کار با مدلهای بزرگ مبتنی بر دیتابیس است، به صورتی که امکان تقسیم مدل روی چندین GPU فراهم گردد. برای مدل هایی با پارامترهای بسیار بالا نمی توان آنها را روی یک یا دو GPU اجرا کرد و باید بخش های مختلف آن روی چندین پردازنده گرافیکی توزیع شوند.
مدیر تیم پلت فرم سکوی ملی هوش مصنوعی ضمن اشاره به زیرساخت های مشابه بین المللی، اظهار داشت: ما این ساختار را با زیرساخت های آمریکایی و همینطور پلت فرم های شرکت هایی چون علی بابا و هوآوی مقایسه کردیم. خوشبختانه نسخه تولیدی ما در بیشتر شاخصها قابلیت رقابت با سرویسهای مشابه را دارد.
امیدی تصریح کرد: اگر دوستانی در کشور تجربه های مشابه دارند، با آغوش باز از آنها استقبال می نماییم. هدف ما تکرار کارهای قبلی نیست. هرچه سریع تر و با هزینه کمتر به نتیجه برسیم، به سود کشور است. زیرساختی که طراحی نموده ایم هم اکنون قابل پیاده سازی است و برای همکاری با مجموعه های علاقه مند آماده هستیم.
منبع: مداربسته
این مطلب را می پسندید؟
(1)
(0)
تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب