عیبیابی خطاهای رایج Fan و Thermal در سرورهای HPE ProLiant و راهحلها
این راهنمای جامع، به عیبیابی خطاهای رایج فن و دما در سرورهای HPE ProLiant میپردازد و دلایل، مراحل تشخیص از طریق iLO و بازرسی فیزیکی، و راهحلهای عملی برای حفظ سیستم خنککننده سرور را ارائه میدهد.
سرورهای HPE ProLiant به دلیل پایداری و عملکرد بالا شناخته شدهاند، اما مانند هر سیستم سختافزاری دیگری، ممکن است با مشکلاتی مواجه شوند. خطاهای مربوط به فن (Fan) و دما (Thermal) از جمله رایجترین هشدارهایی هستند که میتوانند نشاندهنده یک مشکل جدی در خنککنندگی سرور باشند و در صورت عدم رسیدگی، به آسیب سختافزاری و خرابی سیستم منجر شوند. این راهنما به شما کمک میکند تا این خطاها را عیبیابی کرده و راهحلهای مناسبی برای آنها پیدا کنید.
—
مفاهیم پیشنیاز و علل رایج
قبل از شروع عیبیابی، درک مفاهیم اساسی مربوط به خنککنندگی سرور و علل اصلی خطاهای فن و دما ضروری است:
- خنککنندگی (Cooling): حفظ دمای مطلوب برای قطعات سرور (CPU, RAM, Hard Drives, etc.) حیاتی است. سیستم خنککنندگی شامل فنها، هیتسینکها و جریان هوا در داخل کیس سرور است.
- فن (Fan): اجزای مکانیکی که هوا را به داخل و خارج سرور به جریان میاندازند تا گرما را دفع کنند. سرورهای ProLiant معمولاً چندین فن (redundant) دارند.
- سنسورهای دما (Thermal Sensors): حسگرهایی در نقاط مختلف سرور که دمای قطعات را پایش میکنند و در صورت عبور دما از آستانههای تعیین شده، هشدار ایجاد میکنند.
- iLO (Integrated Lights-Out): یک کنترلر مدیریت از راه دور تعبیهشده در سرورهای HPE که امکان مانیتورینگ وضعیت سختافزار، از جمله فنها و دما، و دسترسی به لاگهای سیستمی را فراهم میکند. iLO ابزار اصلی شما برای تشخیص این خطاها خواهد بود.
- POST (Power-On Self-Test): فرآیند تست خودکار که سرور هنگام روشن شدن انجام میدهد تا از سلامت قطعات اصلی اطمینان حاصل کند. خطاهای فن و دما میتوانند در این مرحله نیز شناسایی شوند.
علل رایج خطاهای فن و دما:
خطاهای فن و Thermal میتوانند دلایل مختلفی داشته باشند، از مسائل جزئی تا مشکلات سختافزاری جدی:
- خرابی فیزیکی فن: فن خراب، گیر کرده یا کند شده.
- انسداد جریان هوا: تجمع گرد و غبار یا کابلکشی نامرتب در داخل کیس سرور که مانع جریان هوای مناسب میشود.
- دمای بالای محیط: اتاق سرور یا رک دارای دمای بیش از حد بالا.
- نصب نادرست قطعات: عدم نصب صحیح هیتسینک CPU یا سایر قطعات که منجر به عدم انتقال حرارت میشود.
- خرابی سنسور دما: سنسور دما ممکن است به درستی کار نکند و اطلاعات غلطی ارائه دهد.
- Firmware یا درایور قدیمی: Firmware قدیمی iLO، BIOS یا سایر درایورها میتوانند باعث تشخیص اشتباه یا عدم مدیریت صحیح فنها شوند.
- کمبود فن: برخی پیکربندیهای سختافزاری (مثل نصب کارتهای گرافیک یا قطعات پرمصرف) ممکن است به تعداد فن بیشتری نیاز داشته باشند که در صورت عدم وجود، هشدار دما داده میشود.
- Overload یا پیکربندی نامناسب: استفاده بیش از حد از منابع CPU/GPU که منجر به تولید گرمای زیاد میشود، یا عدم تخصیص صحیح فنها به مناطق گرمایشی.
—
مراحل گام به گام عیبیابی و راهحلها
برای عیبیابی خطاهای Fan و Thermal در سرورهای HPE ProLiant، مراحل زیر را به ترتیب انجام دهید:
گام 1: بررسی هشدارها و لاگها در iLO
iLO اولین و مهمترین ابزار شما برای تشخیص نوع و محل دقیق خطا است.
- دسترسی به iLO:
- مرورگر وب خود را باز کرده و آدرس IP iLO سرور را وارد کنید.
- با نام کاربری و رمز عبور وارد شوید.
- بررسی وضعیت سیستم:
- به بخش System Information -> Fans و System Information -> Temperature (یا معادل آن در نسخههای مختلف iLO) بروید. در این بخشها، میتوانید وضعیت فعلی فنها (دور فن، وضعیت سلامت) و دمای سنسورهای مختلف را مشاهده کنید. فنهای قرمز یا با وضعیت “Degraded” نیاز به بررسی دارند.
- بررسی لاگ رویدادها (Event Logs):
- به بخش Information -> Event Log (یا System Log) بروید.
- به دنبال پیغامهای خطا یا هشدار مرتبط با Fan یا Thermal باشید. این لاگها معمولاً شامل کد خطا، زمان وقوع و جزئیات بیشتری درباره مشکل هستند. به عنوان مثال:
Fan X degradedThermal sensor X exceeded thresholdSystem Overheating (Temperature)
- بررسی Active Health System Log (AHS Log):
- در iLO، به بخش Diagnostics -> Active Health System Log بروید و AHS Report را دانلود کنید. این گزارش اطلاعات بسیار دقیقی از وضعیت سختافزار، رویدادها و تغییرات سیستم در طول زمان ارائه میدهد و میتواند در تشخیص مشکلات پیچیده کمککننده باشد.
گام 2: بازرسی فیزیکی سرور
پس از بررسی لاگها، نوبت به بازرسی فیزیکی سرور میرسد (در صورت امکان و با رعایت نکات ایمنی).
- بررسی فنها:
- درب سرور را باز کنید. فنهای سیستم را به دقت بررسی کنید. آیا همه فنها در حال چرخش هستند؟ آیا صدایی غیرعادی (مانند صدای ساییدگی یا لرزش شدید) از فنها شنیده میشود؟ آیا پرههای فن آسیب دیدهاند؟
- اگر فن خاصی خراب یا کند است، آن را با یک فن جایگزین سالم تعویض کنید. فنهای HPE معمولاً Hot-Swap هستند، اما برای تعویض بهتر است سرور را خاموش کنید.
- پاکسازی گرد و غبار:
- با استفاده از اسپری هوای فشرده، گرد و غبار انباشته شده روی فنها، هیتسینکها و داخل کیس سرور را پاک کنید. گرد و غبار بزرگترین دشمن خنککنندگی سرور است.
- بررسی کابلکشی و قطعات:
- مطمئن شوید که هیچ کابلی مانع جریان هوا نیست.
- بررسی کنید که هیتسینک CPU و سایر هیتسینکها به درستی روی قطعات مربوطه نصب شدهاند و خمیر حرارتی خشک یا از بین نرفته است. (این مورد معمولاً نیاز به تخصص بیشتری دارد.)
- اطمینان حاصل کنید که تمام فنها در جایگاههای خود به درستی نشسته و کانکتورهای آنها محکم هستند.
- اگر اخیراً قطعهای اضافه کردهاید، مطمئن شوید که با پیکربندی خنککنندگی سرور سازگار است.
- اطمینان از وجود تعداد کافی فن:
- برخی پیکربندیهای سرور (مانند استفاده از دو پردازنده یا کارتهای توسعه پرقدرت) به فنهای اضافی نیاز دارند. مطمئن شوید که سرور شما دارای تعداد فنهای لازم برای پیکربندی فعلیاش است.
گام 3: بررسی محیط فیزیکی و دمای اتاق سرور
دمای محیط نقش بسزایی در خنککنندگی سرور دارد.
- دمای محیط:
- مطمئن شوید که دمای اتاق سرور یا رک در محدوده مجاز (معمولاً بین 18 تا 27 درجه سانتیگراد) قرار دارد. استفاده از تهویه مطبوع مناسب ضروری است.
- جریان هوا در رک:
- اطمینان حاصل کنید که رک به درستی تهویه میشود. سرورها باید هوا را از جلو گرفته و از عقب خارج کنند. پانلهای خالی در رک را با Blind Panelها بپوشانید تا از recirculating شدن هوای گرم جلوگیری شود.
- مسدود نبودن ورودی/خروجی هوا:
- مطمئن شوید که ورودیهای هوای جلو و خروجیهای هوای عقب سرور مسدود نیستند.
گام 4: بهروزرسانی Firmware و درایورها
Firmware قدیمی میتواند باعث تشخیص اشتباه یا عدم مدیریت صحیح فنها و سنسورها شود.
- بهروزرسانی Firmware iLO:
- این مرحله بسیار مهم است. همیشه مطمئن شوید که Firmware iLO شما به آخرین نسخه بهروزرسانی شده است. این کار میتواند بسیاری از مشکلات مربوط به مانیتورینگ و کنترل فن را حل کند.
- برای دانلود، به وبسایت پشتیبانی HPE (support.hpe.com) مراجعه کنید، مدل سرور خود را جستجو کرده و آخرین Firmware iLO را دانلود و از طریق رابط وب iLO نصب کنید.
- بهروزرسانی System ROM (BIOS):
- بهروزرسانی BIOS/System ROM نیز میتواند در بهبود مدیریت دما و فنها موثر باشد.
- از وبسایت پشتیبانی HPE، آخرین نسخه BIOS را دانلود و نصب کنید. (این عملیات نیاز به ریبوت سرور دارد.)
- بهروزرسانی درایورها و Firmware سایر قطعات:
- در صورت لزوم، Firmware کارتهای شبکه، کنترلرهای RAID و سایر قطعات را نیز بهروزرسانی کنید.
گام 5: تنظیمات BIOS / UEFI
برخی تنظیمات در BIOS/UEFI سرور میتوانند بر رفتار فنها تأثیر بگذارند.
- دسترسی به BIOS/UEFI:
- سرور را ریبوت کرده و در هنگام بوت شدن (معمولاً با فشردن کلید
F9)، وارد تنظیمات System Utilities شوید.
- سرور را ریبوت کرده و در هنگام بوت شدن (معمولاً با فشردن کلید
- بررسی تنظیمات فن:
- به دنبال گزینههای مرتبط با Fan Control، Thermal Configuration یا Power Management باشید.
- مطمئن شوید که حالت کنترل فن روی “Optimal Cooling” یا “Performance” (به جای “Minimal Fan Speed”) تنظیم شده باشد تا فنها بتوانند با سرعت کافی بچرخند و خنککنندگی لازم را فراهم کنند.
گام 6: استفاده از ابزارهای تشخیصی HPE
HPE ابزارهای تشخیصی پیشرفتهای را ارائه میدهد که میتوانند به شناسایی مشکلات کمک کنند.
- HPE Smart Storage Administrator (SSA): اگر خطای دما مربوط به درایوها یا کنترلر RAID است، از SSA برای بررسی سلامت درایوها و کنترلر استفاده کنید.
- HPE Insight Diagnostics: این ابزار میتواند تستهای جامعی روی سختافزار سرور انجام دهد و مشکلات احتمالی را شناسایی کند.
—
نکات تکمیلی و بهترین روشها:
- مانیتورینگ مداوم: از HPE OneView، **HPE Systems Insight Manager (SIM)** یا سایر ابزارهای مانیتورینگ شبکه برای نظارت مداوم بر دما و وضعیت فنهای سرورهای خود استفاده کنید. این ابزارها میتوانند هشدارهای اولیه را قبل از تبدیل شدن مشکل به یک بحران ارسال کنند.
- برنامهریزی برای نگهداری منظم: سرورها را به صورت دورهای (هر 6 تا 12 ماه) برای پاکسازی گرد و غبار و بازرسی فیزیکی برنامهریزی کنید.
- محیط خنک: همیشه اطمینان حاصل کنید که محیطی که سرور در آن قرار دارد، دارای تهویه مناسب و دمای کنترل شده است.
- تعویض پیشگیرانه فنها: فنها قطعات مصرفی هستند. در سرورهای قدیمیتر، ممکن است نیاز به تعویض پیشگیرانه فنها باشد، حتی اگر هنوز کاملاً خراب نشده باشند.
- تماس با پشتیبانی HPE: اگر با وجود انجام تمام مراحل بالا، مشکل همچنان پابرجا بود، **Service Tag** سرور و لاگهای iLO و AHS را آماده کرده و با پشتیبانی فنی HPE تماس بگیرید.
با پیگیری دقیق این مراحل عیبیابی و رعایت نکات ارائهشده، میتوانید بسیاری از خطاهای رایج Fan و Thermal در سرورهای HPE ProLiant خود را تشخیص داده و برطرف کنید، و بدین ترتیب از سلامت و پایداری زیرساخت IT خود اطمینان حاصل نمایید.