23.01.2023
Sposoby rozwiązywania problemów z dyskami twardymi w Proxmox
DiagnostykaProxmox
proxmoxrozwiazywanieproblemowdyskitwarde

Dla administratora nie ma chyba gorszego komunikatu z samego rana jak awaria dysku twardego w serwerze. 😬 Osobiście już kilka razy doświadczyłem takiej sytuacji i pobudziło mnie to mocniej niż kawa. Jakkolwiek byłbym przygotowany na taką ewentualność, to zawsze podnosi mi ona ciśnienie i chcę jak najszybciej rozwiązać ten problem. W emocjach nieświadomie można popełnić błąd i pogorszyć sytuację, jeśli na hurra wykonam jakąś czynność, która w momencie jej wykonywania wydaje się sensowna, kiedy taka nie jest. Najlepiej przed podjęciem działań, wziąć kilka głębokich oddechów i na spokojnie podejść do tematu. Tak staram się teraz działać, ale przyszło mi to po paru latach pracy w branży. 🙂

Problemy z dyskami twardymi bywają różne w zależności od serwera, ilości nośników, użytego oprogramowania oraz poziomu skomplikowania całej konfiguracji. Pamiętaj o najważniejszej zasadzie - "RAID is not a backup!". To, że masz ustawioną redundancję w swojej grupie dysków nie zwalnia Cię z obowiązku kopiowania tych danych na inne urządzenia i/lub w inne lokalizacje.

Poniżej przykład z mojego podwórka, który nie okazał się tak groźny, jak przedstawiał mi to system.

Status FAULTED jako fałszywy alarm (ang. false positive)

Serwer wysłał mi maila z informacją o problemie sprzętowym. Po zalogowaniu się do interfejsu webowego, system zgłaszał mi komunikat, że jeden z dysków w trzeciej parze RAID-1 ma za dużo błędów (status FAULTED). Już chciałem wymienić dysk na nowy (zawsze staram się mieć chociaż jeden dysk "na górkę", na wypadek problemów), jednak postanowiłem spróbować innej metody. Włączyłem konsolę w celu sprawdzenia statusu puli ZFS.

zpool status

Następnie wyczyściłem wszystkie komunikaty o błędach w mojej problematycznej puli PROXMOX (tak wiem, słaba nazwa 😅).

zpool clear PROXMOX

Ponownie sprawdziłem status puli - błąd znikł.

zpool status

System zakomunikował, że rozpoczął proces resilveringu czyli odbudowy RAID-1.

Po procesie odbudowy system, a raczej dysk, działa poprawnie już od prawie roku (a dokładnie od 15.02.2022r., kiedy pojawił się błąd) i nie mam problemów z wydajnością. Nie wiem co spowodowało ten błąd - może to wina kontrolera RAID LSI, który działa w trybie IT MODE, może backplane`a - nie mam pojęcia. Wiedza z tego jest taka, że nie zawsze trzeba od razu wymieniać dysków twardych na nowe. 😋

0 komentarzy

Szybki kontakt

Masz pytania? Napisz