راهنمای گام به گام: نصب و پیکربندی فیزیکی چندین GPU NVIDIA H100/A100 در سرور HPE DL380a Gen11 برای حداکثر کارایی AI
این راهنما به صورت گام به گام، نحوه نصب و پیکربندی فیزیکی چندین GPU انویدیا H100/A100 را در سرور HPE DL380a Gen11 برای دستیابی به حداکثر کارایی در هوش مصنوعی توضیح میدهد.
در دنیای امروز، هوش مصنوعی (AI) و یادگیری عمیق (Deep Learning) به موتور محرکه نوآوری در بسیاری از صنایع تبدیل شدهاند. قلب تپنده این فناوریها، واحدهای پردازش گرافیکی (GPUs) قدرتمند هستند که توانایی انجام محاسبات موازی پیچیده را با سرعتی بینظیر فراهم میکنند. برای رسیدن به حداکثر کارایی در آموزش مدلهای AI بزرگ، نیاز به سرورهایی داریم که بتوانند چندین GPU را به طور همزمان و با حداکثر بهرهوری میزبانی کنند.
سرور HPE ProLiant DL380a Gen11 به طور خاص برای این منظور طراحی شده است؛ یک پلتفرم بهینهسازی شده برای Workloadهای AI و HPC (High Performance Computing). در کنار آن، GPUهای NVIDIA H100 و A100، پرچمداران حال حاضر در این حوزه، توان پردازشی بینظیری را ارائه میدهند. اما نصب و پیکربندی فیزیکی چندین GPU در یک سرور، نیازمند دقت و رعایت نکات تخصصی است.
این راهنمای جامع، شما را گام به گام در فرآیند نصب فیزیکی و پیکربندی اولیه سختافزاری چندین GPU NVIDIA H100/A100 در سرور HPE DL380a Gen11 همراهی میکند تا از حداکثر کارایی برای پروژههای AI خود بهرهمند شوید.
چرا HPE DL380a Gen11 و NVIDIA H100/A100؟
قبل از شروع، اجازه دهید به طور خلاصه توضیح دهیم چرا این ترکیب سختافزاری انتخابی ایدهآل برای بارهای کاری AI است:
- HPE DL380a Gen11: این سرور نسخهای بهینهسازی شده از سرور DL380 است که به طور خاص برای میزبانی GPUهای با چگالی بالا طراحی شده. دارای پاورساپلایهای قوی، سیستم خنککننده بهینه و ساختار داخلی مناسب برای پذیرش چندین GPU در فضایی کارآمد است. پشتیبانی از PCIe Gen5 نیز پهنای باند لازم برای GPUهای پرسرعت را فراهم میکند.
- NVIDIA H100/A100 GPUs: این GPUها با معماریهای Hopper (H100) و Ampere (A100)، برای محاسبات AI و HPC بهینه شدهاند. دارای هستههای Tensor (Tensor Cores) اختصاصی، حافظه HBM با پهنای باند فوقالعاده بالا و رابط NVLink برای ارتباطات بسیار سریع بین GPUها هستند که در آموزش توزیعشده مدلهای AI حیاتی است.
پیشنیازها و ملاحظات اولیه (قبل از شروع به کار)
قبل از اینکه درب سرور را باز کنید، رعایت نکات زیر ضروری است:
1. بررسی سازگاری و پیکربندی
- مدل سرور: اطمینان حاصل کنید که سرور شما دقیقاً HPE ProLiant DL380a Gen11 است. مدلهای دیگر DL380 ممکن است ظرفیتهای متفاوتی برای GPU، پاور و خنککنندگی داشته باشند.
- تعداد GPUها: حداکثر تعداد GPU قابل پشتیبانی توسط DL380a Gen11 را با توجه به داکتهای GPU و پاورساپلایهای موجود بررسی کنید (معمولاً 8x DW GPU).
- Power Supply (منبع تغذیه): اطمینان حاصل کنید که سرور دارای پاورساپلایهای کافی و با توان خروجی بالا (مثلاً 2x 1600W یا 2x 2200W Platinum/Titanium) برای تغذیه تمامی GPUها و سایر قطعات سرور است. GPUهای H100/A100 مصرف توان بسیار بالایی دارند.
- سیستم خنککننده: DL380a Gen11 دارای فنهای با کارایی بالا (High Performance Fans) است که برای خنکسازی GPUها ضروری هستند. اطمینان حاصل کنید که این فنها نصب شدهاند.
2. بهروزرسانی Firmware و BIOS/UEFI
پیش از نصب سختافزار جدید، توصیه میشود که تمامی Firmwareهای سرور را بهروز کنید. این کار میتواند مشکلات سازگاری را رفع کرده و عملکرد بهینه را تضمین کند:
- System ROM (BIOS/UEFI): آخرین نسخه را از وبسایت پشتیبانی HPE دانلود و نصب کنید.
- iLO Firmware: Firmware کنترلر مدیریت iLO را بهروز کنید.
- PCIe Device Firmware: برای اطمینان از عملکرد صحیح اسلاتهای PCIe و سازگاری با GPUها.
3. ابزار مورد نیاز
- پیچگوشتی (معمولاً Philips Head)
- دستبند آنتیاستاتیک (ESD Wrist Strap)
- کابلهای پاور PCIe (معمولاً 8-pin یا 16-pin) که معمولاً همراه GPUها یا توسط HPE ارائه میشوند.
- پلهای NVLink (در صورت نیاز برای ارتباط مستقیم GPU به GPU).
4. اقدامات ایمنی
هشدار: قبل از هرگونه دستکاری سختافزاری، سرور را کاملاً خاموش کرده و تمامی کابلهای برق را از پشت سرور جدا کنید. از دستبند آنتیاستاتیک استفاده کنید تا از آسیب دیدن قطعات الکترونیکی حساس جلوگیری شود. با رعایت نکات ایمنی در دفترچه راهنمای سرور، اقدام نمایید.
مفاهیم کلیدی برای نصب GPU در سرور
برای درک بهتر فرآیند نصب، با چند مفهوم مهم آشنا میشویم:
- GPU در مقابل CPU برای AI:CPU (واحد پردازش مرکزی): برای وظایف عمومی، پردازشهای ترتیبی و کنترل سیستم عالی است.GPU (واحد پردازش گرافیکی): با هزاران هسته کوچک، برای انجام حجم عظیمی از محاسبات موازی (مانند عملیات ماتریسی در یادگیری عمیق) طراحی شده و بسیار کارآمدتر از CPU در این زمینه است.
- PCIe (Peripheral Component Interconnect Express):این یک استاندارد رابط پرسرعت است که GPUها را به مادربرد سرور متصل میکند. هر GPU به یک اسلات PCIe نیاز دارد. اسلاتها با تعداد Laneها (خطوط داده) مشخص میشوند (مثلاً x16, x8). GPUهای با کارایی بالا مانند H100/A100 معمولاً به اسلاتهای PCIe x16 برای حداکثر پهنای باند نیاز دارند.
- NVLink:این یک رابط ارتباطی پرسرعت و اختصاصی NVIDIA است که امکان ارتباط مستقیم و بسیار سریع بین چندین GPU را فراهم میکند. در سرورهای AI با چندین GPU، NVLink به GPUها اجازه میدهد تا با هم به عنوان یک واحد بزرگتر عمل کنند و bottlenecks (تنگناهای) پهنای باند PCIe را کاهش دهند، که برای آموزش مدلهای بزرگ Deep Learning حیاتی است.
- Power Connectors (کانکتورهای برق PCIe):GPUهای پرقدرت علاوه بر برقی که از اسلات PCIe دریافت میکنند، نیاز به برق اضافی از طریق کابلهای اختصاصی دارند. این کابلها معمولاً 6 پین، 8 پین یا برای GPUهای جدیدتر مانند H100، 16 پین (12VHPWR) هستند و مستقیماً از پاورساپلای سرور تغذیه میشوند.
فرآیند نصب فیزیکی GPUها (گام به گام)
گام 1: آمادهسازی سرور
- خاموش کردن سرور: از طریق سیستم عامل یا iLO، سرور را به طور کامل خاموش کنید.
- قطع اتصالات برق: تمامی کابلهای برق را از پشت پاورساپلایهای سرور جدا کنید.
- جدا کردن از رک: در صورت لزوم، سرور را از رک خارج کرده و روی یک سطح صاف و تمیز قرار دهید.
- باز کردن درب سرور: قفل درب سرور را باز کرده و کاور بالایی را بردارید.
گام 2: شناسایی اسلاتهای PCIe و Risers
سرور HPE DL380a Gen11 دارای ساختار داخلی خاصی برای GPUهاست که معمولاً شامل Risers (بردهای افزایشدهنده) اختصاصی GPU میشود. این Risersها دارای اسلاتهای PCIe x16 هستند که مستقیماً به CPU متصل میشوند:
- Risersهای GPU را که برای نصب GPUها طراحی شدهاند، شناسایی کنید. معمولاً این Risersها در بخش میانی یا پشت سرور قرار دارند.
- فضای کافی و خنککننده (داکتهای هوای اختصاصی) برای هر GPU را بررسی کنید.
نکته: در DL380a Gen11، مهم است که GPUها را در Risers و اسلاتهای توصیهشده توسط HPE برای حداکثر پهنای باند و خنککنندگی نصب کنید. به دفترچه راهنمای سرور مراجعه کنید.
گام 3: نصب GPUها
- آمادهسازی GPU: GPU را به دقت از بستهبندی آن خارج کنید. از لمس مستقیم پینهای اتصال و قطعات حساس خودداری کنید.
- همتراز کردن: GPU را به دقت با اسلات PCIe x16 در Riser مورد نظر همتراز کنید. اطمینان حاصل کنید که براکت GPU به درستی با شیار مربوطه در شاسی سرور تراز شده است.
- وارد کردن GPU: به آرامی و با فشار یکنواخت، GPU را به داخل اسلات فشار دهید تا به طور کامل در جای خود قرار گیرد. باید صدای کلیک کوچکی از قفل اسلات شنیده شود.
- محکم کردن: براکت فلزی GPU را با پیچ به شاسی سرور محکم کنید تا از حرکت آن جلوگیری شود.
- این مراحل را برای تمامی GPUهای باقیمانده تکرار کنید.
گام 4: اتصال کابلهای برق GPU (Power Cables)
این گام بسیار حیاتی است، زیرا تامین برق کافی برای GPUها ضروری است:
- شناسایی کانکتورهای پاور: بر روی هر GPU، پورتهای ورودی برق (معمولاً 8 پین یا 16 پین) را پیدا کنید.
- اتصال به پاورساپلای سرور: کابلهای پاور PCIe (که از پاورساپلای سرور یا برد پشتیبانی پاور GPU میآیند) را به این پورتها وصل کنید. اطمینان حاصل کنید که هر GPU به تعداد کافی و صحیح کابل پاور متصل شده است. برای H100ها، معمولاً کانکتور 16 پین 12VHPWR استفاده میشود که باید با دقت و به طور کامل وارد شود.
- اطمینان حاصل کنید که تمامی کابلها به طور ایمن و کامل متصل شدهاند تا از عدم تامین برق یا مشکلات احتمالی جلوگیری شود.
گام 5: اتصال پلهای NVLink (در صورت نیاز و پشتیبانی GPU)
اگر از چندین GPU NVIDIA که از NVLink پشتیبانی میکنند (مانند H100 یا A100)، استفاده میکنید و میخواهید از بالاترین پهنای باند بین آنها بهرهمند شوید:
- پلهای NVLink را (که معمولاً همراه با GPUها یا کیتهای NVIDIA عرضه میشوند) بین پورتهای NVLink در GPUهای مجاور نصب کنید.
- مطمئن شوید که هر پل NVLink به درستی و به طور کامل در هر دو GPU متصل شده است.
گام 6: بستن و ایمنسازی داخل سرور
- نصب داکتهای هوا (Air Baffles): اطمینان حاصل کنید که داکتهای هوا (Air Baffles) و سایر قطعاتی که برای مدیریت جریان هوا در داخل سرور قرار میگیرند، به درستی نصب شدهاند تا خنککنندگی GPUها بهینه باشد.
- بستن درب سرور: کاور بالایی سرور را در جای خود قرار داده و آن را با پیچ یا قفلهای مربوطه محکم کنید.
- قرار دادن در رک: سرور را به آرامی در رک خود نصب کنید.
گام 7: اتصال برق و راهاندازی اولیه
- اتصال کابلهای برق: کابلهای برق را مجدداً به پاورساپلایهای سرور وصل کنید.
- روشن کردن سرور: سرور را روشن کنید و به صدای فنها و نمایشگر POST اولیه توجه کنید تا علائم غیرعادی وجود نداشته باشد.
- وارد تنظیمات BIOS/UEFI سرور شوید.
پیکربندی پس از نصب (در سطح سختافزار و Firmware)
1. تنظیمات BIOS/UEFI برای بهینهسازی GPU
ورود به تنظیمات BIOS/UEFI سرور (معمولاً با فشردن F9 یا F10 هنگام بوت اولیه) برای اطمینان از بهینهسازی عملکرد GPUها بسیار مهم است:
- تغییر حالت Power Management: به بخش Power Management بروید و حالت عملکرد (Performance Profile) را به “Maximum Performance” یا “High Performance” تغییر دهید. این کار از کاهش توان GPUها در زمان استفاده سنگین جلوگیری میکند.
- فعالسازی Resizable BAR (ReBAR) / Large BAR Support: این ویژگی به CPU اجازه میدهد تا به طور کامل به حافظه GPU دسترسی داشته باشد، که میتواند در برخی بارهای کاری AI بهبود عملکرد ایجاد کند. این گزینه را در بخش PCIe یا Chipset سرور جستجو و فعال کنید.
- PCIe Slot Bifurcation (در صورت نیاز): در برخی سرورها، ممکن است نیاز باشد نحوه تقسیم خطوط PCIe از یک اسلات x16 به دو اسلات x8 (یا بیشتر) را تنظیم کنید. DL380a معمولاً Risersهای اختصاصی GPU دارد، اما بررسی این مورد در دفترچه راهنما مفید است.
- تنظیمات NUMA (Non-Uniform Memory Access): در صورت وجود چندین CPU و GPU، تنظیمات NUMA را برای بهینهسازی دسترسی CPU به حافظه GPU و جلوگیری از Latency بالا بررسی کنید. معمولاً فعال کردن “NUMA” و تنظیمات “Node Interleaving” میتواند بر اساس Workload بهینه شود.
2. بهروزرسانی Firmware GPU (در صورت وجود)
برخی از GPUها، به خصوص مدلهای Enterprise، دارای Firmware اختصاصی هستند که ممکن است نیاز به بهروزرسانی داشته باشند. به وبسایت NVIDIA یا HPE مراجعه کنید.
تست اولیه در سیستم عامل و درایورها
پس از اتمام پیکربندی سختافزاری و BIOS، میتوانید سیستم عامل (مانند Linux) را نصب کرده و درایورهای NVIDIA و CUDA Toolkit را نصب کنید. سپس با دستور سادهای میتوانید از شناسایی صحیح GPUها مطمئن شوید:
nvidia-smi
این دستور باید تمامی GPUهای نصب شده، وضعیت آنها و اطلاعات درایور را نمایش دهد.
چالشهای رایج و راهحلها
در حین یا پس از نصب GPU ممکن است با چالشهایی مواجه شوید:
- GPU شناسایی نمیشود:
- راهحل: اتصالات پاور PCIe را بررسی کنید (شایعترین دلیل). GPU را از اسلات خارج کرده و مجدداً با فشار یکنواخت وارد کنید. تنظیمات BIOS (مخصوصاً Resizable BAR) را بررسی کنید. از آخرین درایورهای NVIDIA مطمئن شوید.
- سیستم بوت نمیشود یا خطای پاور میدهد:
- راهحل: اطمینان حاصل کنید که پاورساپلایهای سرور دارای توان کافی برای تمامی GPUها و سایر قطعات هستند. ممکن است نیاز به پاورساپلایهای پرقدرتتر یا اضافه کردن یک پاورساپلای دیگر (در صورت پشتیبانی سرور) باشد. اتصالات پاور به GPUها را دو بار بررسی کنید.
- داغ شدن بیش از حد GPUها:
- راهحل: اطمینان حاصل کنید که داکتهای هوا و فنهای داخلی سرور به درستی نصب شدهاند. فنهای سرور HPE DL380a باید از نوع “High Performance Fan Kit” باشند. جریان هوای داخل رک و اتاق سرور را بررسی کنید. GPUها نیاز به فضای کافی برای خنکسازی دارند.
- عملکرد پایینتر از انتظار:
- راهحل: تنظیمات BIOS (به ویژه Power Management و Resizable BAR) را بررسی کنید. از آخرین نسخه درایورهای NVIDIA و CUDA Toolkit استفاده کنید. اگر از چندین GPU استفاده میکنید، اتصالات NVLink را بررسی کنید.
بهترین شیوهها برای حداکثر کارایی AI
- خنککنندگی مداوم: اطمینان از جریان هوای عالی در سرور و رک، و پایش دمای GPUها.
- برق پایدار و کافی: استفاده از پاورساپلایهای قوی و اطمینان از اتصال صحیح تمامی کابلهای برق.
- بهروزرسانی منظم: سیستم عامل، درایورهای NVIDIA، CUDA Toolkit و Firmware سرور را همیشه بهروز نگه دارید.
- پایش و لاگبرداری: استفاده از ابزارهای پایش (مانند
nvidia-smi -l 1) برای نظارت بر عملکرد، دما و مصرف توان GPUها. - آموزش توزیعشده: برای بهرهگیری کامل از چندین GPU، از فریمورکهایی مانند PyTorch Distributed یا TensorFlow Distributed برای آموزش توزیعشده مدلهای AI استفاده کنید.
نتیجهگیری: نصب و پیکربندی فیزیکی چندین GPU قدرتمند NVIDIA H100/A100 در سرور HPE DL380a Gen11 یک فرآیند فنی پیچیده اما بسیار پربار است. با رعایت دقیق این راهنمای گام به گام و توجه به جزئیات مربوط به توان، خنککنندگی و تنظیمات BIOS/UEFI، میتوانید زیرساخت AI قدرتمندی را برای آموزش مدلهای پیشرفته هوش مصنوعی خود راهاندازی کنید.