راهنمای گام به گام: نصب و پیکربندی فیزیکی چندین GPU NVIDIA H100/A100 در سرور HPE DL380a Gen11 برای حداکثر کارایی AI

این راهنما به صورت گام به گام، نحوه نصب و پیکربندی فیزیکی چندین GPU انویدیا H100/A100 را در سرور HPE DL380a Gen11 برای دستیابی به حداکثر کارایی در هوش مصنوعی توضیح می‌دهد.

نصب فیزیکی GPU NVIDIA H100/A100 در سرور HPE DL380a Gen11

در دنیای امروز، هوش مصنوعی (AI) و یادگیری عمیق (Deep Learning) به موتور محرکه نوآوری در بسیاری از صنایع تبدیل شده‌اند. قلب تپنده این فناوری‌ها، واحدهای پردازش گرافیکی (GPUs) قدرتمند هستند که توانایی انجام محاسبات موازی پیچیده را با سرعتی بی‌نظیر فراهم می‌کنند. برای رسیدن به حداکثر کارایی در آموزش مدل‌های AI بزرگ، نیاز به سرورهایی داریم که بتوانند چندین GPU را به طور همزمان و با حداکثر بهره‌وری میزبانی کنند.

سرور HPE ProLiant DL380a Gen11 به طور خاص برای این منظور طراحی شده است؛ یک پلتفرم بهینه‌سازی شده برای Workloadهای AI و HPC (High Performance Computing). در کنار آن، GPUهای NVIDIA H100 و A100، پرچم‌داران حال حاضر در این حوزه، توان پردازشی بی‌نظیری را ارائه می‌دهند. اما نصب و پیکربندی فیزیکی چندین GPU در یک سرور، نیازمند دقت و رعایت نکات تخصصی است.

این راهنمای جامع، شما را گام به گام در فرآیند نصب فیزیکی و پیکربندی اولیه سخت‌افزاری چندین GPU NVIDIA H100/A100 در سرور HPE DL380a Gen11 همراهی می‌کند تا از حداکثر کارایی برای پروژه‌های AI خود بهره‌مند شوید.

چرا HPE DL380a Gen11 و NVIDIA H100/A100؟

قبل از شروع، اجازه دهید به طور خلاصه توضیح دهیم چرا این ترکیب سخت‌افزاری انتخابی ایده‌آل برای بارهای کاری AI است:

HPE DL380a Gen11: این سرور نسخه‌ای بهینه‌سازی شده از سرور DL380 است که به طور خاص برای میزبانی GPUهای با چگالی بالا طراحی شده. دارای پاورساپلای‌های قوی، سیستم خنک‌کننده بهینه و ساختار داخلی مناسب برای پذیرش چندین GPU در فضایی کارآمد است. پشتیبانی از PCIe Gen5 نیز پهنای باند لازم برای GPUهای پرسرعت را فراهم می‌کند.
NVIDIA H100/A100 GPUs: این GPUها با معماری‌های Hopper (H100) و Ampere (A100)، برای محاسبات AI و HPC بهینه شده‌اند. دارای هسته‌های Tensor (Tensor Cores) اختصاصی، حافظه HBM با پهنای باند فوق‌العاده بالا و رابط NVLink برای ارتباطات بسیار سریع بین GPUها هستند که در آموزش توزیع‌شده مدل‌های AI حیاتی است.

پیش‌نیازها و ملاحظات اولیه (قبل از شروع به کار)

قبل از اینکه درب سرور را باز کنید، رعایت نکات زیر ضروری است:

1. بررسی سازگاری و پیکربندی

مدل سرور: اطمینان حاصل کنید که سرور شما دقیقاً HPE ProLiant DL380a Gen11 است. مدل‌های دیگر DL380 ممکن است ظرفیت‌های متفاوتی برای GPU، پاور و خنک‌کنندگی داشته باشند.
تعداد GPUها: حداکثر تعداد GPU قابل پشتیبانی توسط DL380a Gen11 را با توجه به داکت‌های GPU و پاورساپلای‌های موجود بررسی کنید (معمولاً 8x DW GPU).
Power Supply (منبع تغذیه): اطمینان حاصل کنید که سرور دارای پاورساپلای‌های کافی و با توان خروجی بالا (مثلاً 2x 1600W یا 2x 2200W Platinum/Titanium) برای تغذیه تمامی GPUها و سایر قطعات سرور است. GPUهای H100/A100 مصرف توان بسیار بالایی دارند.
سیستم خنک‌کننده: DL380a Gen11 دارای فن‌های با کارایی بالا (High Performance Fans) است که برای خنک‌سازی GPUها ضروری هستند. اطمینان حاصل کنید که این فن‌ها نصب شده‌اند.

2. به‌روزرسانی Firmware و BIOS/UEFI

پیش از نصب سخت‌افزار جدید، توصیه می‌شود که تمامی Firmwareهای سرور را به‌روز کنید. این کار می‌تواند مشکلات سازگاری را رفع کرده و عملکرد بهینه را تضمین کند:

System ROM (BIOS/UEFI): آخرین نسخه را از وب‌سایت پشتیبانی HPE دانلود و نصب کنید.
iLO Firmware: Firmware کنترلر مدیریت iLO را به‌روز کنید.
PCIe Device Firmware: برای اطمینان از عملکرد صحیح اسلات‌های PCIe و سازگاری با GPUها.

3. ابزار مورد نیاز

پیچ‌گوشتی (معمولاً Philips Head)
دستبند آنتی‌استاتیک (ESD Wrist Strap)
کابل‌های پاور PCIe (معمولاً 8-pin یا 16-pin) که معمولاً همراه GPUها یا توسط HPE ارائه می‌شوند.
پل‌های NVLink (در صورت نیاز برای ارتباط مستقیم GPU به GPU).

4. اقدامات ایمنی

هشدار: قبل از هرگونه دست‌کاری سخت‌افزاری، سرور را کاملاً خاموش کرده و تمامی کابل‌های برق را از پشت سرور جدا کنید. از دستبند آنتی‌استاتیک استفاده کنید تا از آسیب دیدن قطعات الکترونیکی حساس جلوگیری شود. با رعایت نکات ایمنی در دفترچه راهنمای سرور، اقدام نمایید.

مفاهیم کلیدی برای نصب GPU در سرور

برای درک بهتر فرآیند نصب، با چند مفهوم مهم آشنا می‌شویم:

GPU در مقابل CPU برای AI:CPU (واحد پردازش مرکزی): برای وظایف عمومی، پردازش‌های ترتیبی و کنترل سیستم عالی است.GPU (واحد پردازش گرافیکی): با هزاران هسته کوچک، برای انجام حجم عظیمی از محاسبات موازی (مانند عملیات ماتریسی در یادگیری عمیق) طراحی شده و بسیار کارآمدتر از CPU در این زمینه است.
PCIe (Peripheral Component Interconnect Express):این یک استاندارد رابط پرسرعت است که GPUها را به مادربرد سرور متصل می‌کند. هر GPU به یک اسلات PCIe نیاز دارد. اسلات‌ها با تعداد Laneها (خطوط داده) مشخص می‌شوند (مثلاً x16, x8). GPUهای با کارایی بالا مانند H100/A100 معمولاً به اسلات‌های PCIe x16 برای حداکثر پهنای باند نیاز دارند.
NVLink:این یک رابط ارتباطی پرسرعت و اختصاصی NVIDIA است که امکان ارتباط مستقیم و بسیار سریع بین چندین GPU را فراهم می‌کند. در سرورهای AI با چندین GPU، NVLink به GPUها اجازه می‌دهد تا با هم به عنوان یک واحد بزرگتر عمل کنند و bottlenecks (تنگناهای) پهنای باند PCIe را کاهش دهند، که برای آموزش مدل‌های بزرگ Deep Learning حیاتی است.
Power Connectors (کانکتورهای برق PCIe):GPUهای پرقدرت علاوه بر برقی که از اسلات PCIe دریافت می‌کنند، نیاز به برق اضافی از طریق کابل‌های اختصاصی دارند. این کابل‌ها معمولاً 6 پین، 8 پین یا برای GPUهای جدیدتر مانند H100، 16 پین (12VHPWR) هستند و مستقیماً از پاورساپلای سرور تغذیه می‌شوند.

فرآیند نصب فیزیکی GPUها (گام به گام)

گام 1: آماده‌سازی سرور

خاموش کردن سرور: از طریق سیستم عامل یا iLO، سرور را به طور کامل خاموش کنید.
قطع اتصالات برق: تمامی کابل‌های برق را از پشت پاورساپلای‌های سرور جدا کنید.
جدا کردن از رک: در صورت لزوم، سرور را از رک خارج کرده و روی یک سطح صاف و تمیز قرار دهید.
باز کردن درب سرور: قفل درب سرور را باز کرده و کاور بالایی را بردارید.

گام 2: شناسایی اسلات‌های PCIe و Risers

سرور HPE DL380a Gen11 دارای ساختار داخلی خاصی برای GPUهاست که معمولاً شامل Risers (بردهای افزایش‌دهنده) اختصاصی GPU می‌شود. این Risersها دارای اسلات‌های PCIe x16 هستند که مستقیماً به CPU متصل می‌شوند:

Risersهای GPU را که برای نصب GPUها طراحی شده‌اند، شناسایی کنید. معمولاً این Risersها در بخش میانی یا پشت سرور قرار دارند.
فضای کافی و خنک‌کننده (داکت‌های هوای اختصاصی) برای هر GPU را بررسی کنید.

نکته: در DL380a Gen11، مهم است که GPUها را در Risers و اسلات‌های توصیه‌شده توسط HPE برای حداکثر پهنای باند و خنک‌کنندگی نصب کنید. به دفترچه راهنمای سرور مراجعه کنید.

گام 3: نصب GPUها

آماده‌سازی GPU: GPU را به دقت از بسته‌بندی آن خارج کنید. از لمس مستقیم پین‌های اتصال و قطعات حساس خودداری کنید.
هم‌تراز کردن: GPU را به دقت با اسلات PCIe x16 در Riser مورد نظر هم‌تراز کنید. اطمینان حاصل کنید که براکت GPU به درستی با شیار مربوطه در شاسی سرور تراز شده است.
وارد کردن GPU: به آرامی و با فشار یکنواخت، GPU را به داخل اسلات فشار دهید تا به طور کامل در جای خود قرار گیرد. باید صدای کلیک کوچکی از قفل اسلات شنیده شود.
محکم کردن: براکت فلزی GPU را با پیچ به شاسی سرور محکم کنید تا از حرکت آن جلوگیری شود.
این مراحل را برای تمامی GPUهای باقی‌مانده تکرار کنید.

گام 4: اتصال کابل‌های برق GPU (Power Cables)

این گام بسیار حیاتی است، زیرا تامین برق کافی برای GPUها ضروری است:

شناسایی کانکتورهای پاور: بر روی هر GPU، پورت‌های ورودی برق (معمولاً 8 پین یا 16 پین) را پیدا کنید.
اتصال به پاورساپلای سرور: کابل‌های پاور PCIe (که از پاورساپلای سرور یا برد پشتیبانی پاور GPU می‌آیند) را به این پورت‌ها وصل کنید. اطمینان حاصل کنید که هر GPU به تعداد کافی و صحیح کابل پاور متصل شده است. برای H100ها، معمولاً کانکتور 16 پین 12VHPWR استفاده می‌شود که باید با دقت و به طور کامل وارد شود.
اطمینان حاصل کنید که تمامی کابل‌ها به طور ایمن و کامل متصل شده‌اند تا از عدم تامین برق یا مشکلات احتمالی جلوگیری شود.

گام 5: اتصال پل‌های NVLink (در صورت نیاز و پشتیبانی GPU)

اگر از چندین GPU NVIDIA که از NVLink پشتیبانی می‌کنند (مانند H100 یا A100)، استفاده می‌کنید و می‌خواهید از بالاترین پهنای باند بین آن‌ها بهره‌مند شوید:

پل‌های NVLink را (که معمولاً همراه با GPUها یا کیت‌های NVIDIA عرضه می‌شوند) بین پورت‌های NVLink در GPUهای مجاور نصب کنید.
مطمئن شوید که هر پل NVLink به درستی و به طور کامل در هر دو GPU متصل شده است.

گام 6: بستن و ایمن‌سازی داخل سرور

نصب داکت‌های هوا (Air Baffles): اطمینان حاصل کنید که داکت‌های هوا (Air Baffles) و سایر قطعاتی که برای مدیریت جریان هوا در داخل سرور قرار می‌گیرند، به درستی نصب شده‌اند تا خنک‌کنندگی GPUها بهینه باشد.
بستن درب سرور: کاور بالایی سرور را در جای خود قرار داده و آن را با پیچ یا قفل‌های مربوطه محکم کنید.
قرار دادن در رک: سرور را به آرامی در رک خود نصب کنید.

گام 7: اتصال برق و راه‌اندازی اولیه

اتصال کابل‌های برق: کابل‌های برق را مجدداً به پاورساپلای‌های سرور وصل کنید.
روشن کردن سرور: سرور را روشن کنید و به صدای فن‌ها و نمایشگر POST اولیه توجه کنید تا علائم غیرعادی وجود نداشته باشد.
وارد تنظیمات BIOS/UEFI سرور شوید.

پیکربندی پس از نصب (در سطح سخت‌افزار و Firmware)

1. تنظیمات BIOS/UEFI برای بهینه‌سازی GPU

ورود به تنظیمات BIOS/UEFI سرور (معمولاً با فشردن F9 یا F10 هنگام بوت اولیه) برای اطمینان از بهینه‌سازی عملکرد GPUها بسیار مهم است:

تغییر حالت Power Management: به بخش Power Management بروید و حالت عملکرد (Performance Profile) را به “Maximum Performance” یا “High Performance” تغییر دهید. این کار از کاهش توان GPUها در زمان استفاده سنگین جلوگیری می‌کند.
فعال‌سازی Resizable BAR (ReBAR) / Large BAR Support: این ویژگی به CPU اجازه می‌دهد تا به طور کامل به حافظه GPU دسترسی داشته باشد، که می‌تواند در برخی بارهای کاری AI بهبود عملکرد ایجاد کند. این گزینه را در بخش PCIe یا Chipset سرور جستجو و فعال کنید.
PCIe Slot Bifurcation (در صورت نیاز): در برخی سرورها، ممکن است نیاز باشد نحوه تقسیم خطوط PCIe از یک اسلات x16 به دو اسلات x8 (یا بیشتر) را تنظیم کنید. DL380a معمولاً Risersهای اختصاصی GPU دارد، اما بررسی این مورد در دفترچه راهنما مفید است.
تنظیمات NUMA (Non-Uniform Memory Access): در صورت وجود چندین CPU و GPU، تنظیمات NUMA را برای بهینه‌سازی دسترسی CPU به حافظه GPU و جلوگیری از Latency بالا بررسی کنید. معمولاً فعال کردن “NUMA” و تنظیمات “Node Interleaving” می‌تواند بر اساس Workload بهینه شود.

2. به‌روزرسانی Firmware GPU (در صورت وجود)

برخی از GPUها، به خصوص مدل‌های Enterprise، دارای Firmware اختصاصی هستند که ممکن است نیاز به به‌روزرسانی داشته باشند. به وب‌سایت NVIDIA یا HPE مراجعه کنید.

تست اولیه در سیستم عامل و درایورها

پس از اتمام پیکربندی سخت‌افزاری و BIOS، می‌توانید سیستم عامل (مانند Linux) را نصب کرده و درایورهای NVIDIA و CUDA Toolkit را نصب کنید. سپس با دستور ساده‌ای می‌توانید از شناسایی صحیح GPUها مطمئن شوید:

nvidia-smi

این دستور باید تمامی GPUهای نصب شده، وضعیت آن‌ها و اطلاعات درایور را نمایش دهد.

چالش‌های رایج و راه‌حل‌ها

در حین یا پس از نصب GPU ممکن است با چالش‌هایی مواجه شوید:

GPU شناسایی نمی‌شود:
- راه‌حل: اتصالات پاور PCIe را بررسی کنید (شایع‌ترین دلیل). GPU را از اسلات خارج کرده و مجدداً با فشار یکنواخت وارد کنید. تنظیمات BIOS (مخصوصاً Resizable BAR) را بررسی کنید. از آخرین درایورهای NVIDIA مطمئن شوید.
سیستم بوت نمی‌شود یا خطای پاور می‌دهد:
- راه‌حل: اطمینان حاصل کنید که پاورساپلای‌های سرور دارای توان کافی برای تمامی GPUها و سایر قطعات هستند. ممکن است نیاز به پاورساپلای‌های پرقدرت‌تر یا اضافه کردن یک پاورساپلای دیگر (در صورت پشتیبانی سرور) باشد. اتصالات پاور به GPUها را دو بار بررسی کنید.
داغ شدن بیش از حد GPUها:
- راه‌حل: اطمینان حاصل کنید که داکت‌های هوا و فن‌های داخلی سرور به درستی نصب شده‌اند. فن‌های سرور HPE DL380a باید از نوع “High Performance Fan Kit” باشند. جریان هوای داخل رک و اتاق سرور را بررسی کنید. GPUها نیاز به فضای کافی برای خنک‌سازی دارند.
عملکرد پایین‌تر از انتظار:
- راه‌حل: تنظیمات BIOS (به ویژه Power Management و Resizable BAR) را بررسی کنید. از آخرین نسخه درایورهای NVIDIA و CUDA Toolkit استفاده کنید. اگر از چندین GPU استفاده می‌کنید، اتصالات NVLink را بررسی کنید.

بهترین شیوه‌ها برای حداکثر کارایی AI

خنک‌کنندگی مداوم: اطمینان از جریان هوای عالی در سرور و رک، و پایش دمای GPUها.
برق پایدار و کافی: استفاده از پاورساپلای‌های قوی و اطمینان از اتصال صحیح تمامی کابل‌های برق.
به‌روزرسانی منظم: سیستم عامل، درایورهای NVIDIA، CUDA Toolkit و Firmware سرور را همیشه به‌روز نگه دارید.
پایش و لاگ‌برداری: استفاده از ابزارهای پایش (مانند nvidia-smi -l 1) برای نظارت بر عملکرد، دما و مصرف توان GPUها.
آموزش توزیع‌شده: برای بهره‌گیری کامل از چندین GPU، از فریم‌ورک‌هایی مانند PyTorch Distributed یا TensorFlow Distributed برای آموزش توزیع‌شده مدل‌های AI استفاده کنید.

نتیجه‌گیری: نصب و پیکربندی فیزیکی چندین GPU قدرتمند NVIDIA H100/A100 در سرور HPE DL380a Gen11 یک فرآیند فنی پیچیده اما بسیار پربار است. با رعایت دقیق این راهنمای گام به گام و توجه به جزئیات مربوط به توان، خنک‌کنندگی و تنظیمات BIOS/UEFI، می‌توانید زیرساخت AI قدرتمندی را برای آموزش مدل‌های پیشرفته هوش مصنوعی خود راه‌اندازی کنید.

برچسب ها

مشاهده بیشتر