Home / Themen / Analysen / Aus der Praxis: Die 7 Hauptursachen für Datenverlust im RAID-Verbund

Aus der Praxis: Die 7 Hauptursachen für Datenverlust im RAID-Verbund

Ausbau von defekten RAID-Festplatten im Rechenzentrum.

Quelle: Datarecovery

Ein RAID-Verbund dient innerhalb der Unternehmens-IT in erster Linie als zentraler, hochverfügbarer Speicherort. Im Zuge der Virtualisierung von Server-Clientstrukturen sind die Anforderungen an redundante Storagelösungen gewachsen. Im gleichen Maß sollte auch die zentrale Absicherung seitens der IT-Administration gestiegen sein. Häufig ist sie das auch, doch in einigen Fällen machen Datenretter gegenteilige Erfahrungen.

„Oft handelt es sich auch um unvorhersehbare Situationen im ungünstigsten Moment“, weiß Jan Bindig, CEO beim Datenrettungsunternehmen Datarecovery. „Eine außerplanmäßige Migration schlägt fehl oder ein ungeplant vom Netzwerk abgekoppeltes System bricht plötzlich zusammen – gerade dann, wenn Datensicherungsroutinen für einen begrenzten Zeitraum ausgesetzt wurden“, beschreibt Bindig die typische Situation, vor der Administratoren von namhaften deutschen Unternehmen im Worst Case, einem Totalverlust des Arrays, stehen. Datarecovery hat anhand von Praxisbeispielen sieben typische, wiederkehrende Ursachen für einen Datenverlust eines Serversystems mit RAID-Verbund zusammengestellt.

1. Fehlerhaftes Rebuild nach Statusanzeige „degraded“
Da RAID5-Verbunde über eine redundante Systemarchitektur verfügen, kann es vorkommen, dass mindestens eine Festplatte im Array defekt ist, ohne dass mit einem unmittelbaren Datenverlust zu rechnen ist. Entsprechend der konfigurierten Benachrichtigungsoption zeigt der RAID-Controller den Defekt über ein akustisches Signal oder per E-Mail an. Als Statusmeldung des virtuellen Laufwerkes erscheint „degraded“. In der Regel wechselt der Administrator dann das defekte Speichermedium aus und startet die automatisierte Wiederherstellung. Allerdings können während des Rebuilds in seltenen Fällen Fehlfunktionen auftreten, die oft controllerbedingt sind. Dadurch erfolgt eine fehlerhafte Überschreibung der unbeschädigten Bereiche des RAID-Verbundes. Der inkorrekte Neuaufbau wird häufig erst nach dem scheinbar erfolgreichen Abschluss bemerkt (meist mehrere Stunden später). In vielen Fällen kann dann nicht mehr auf die Daten und Inhalte zugegriffen werden.

2. Thermische Überlastung der Festplatten
Ein Defekt im RAID5-Verbund wird häufig durch eine Überhitzung der Festplatten aufgrund von fehlerhaften Abluftsystemen (verschmutzte Lüfter) oder beschädigten Klimaanlagen verursacht. Eine anhaltende Überhitzung kann zu dauerhaften Defekten, v.a. im Antriebs- sowie Lagersystem der Hard Disks, führen. Möglicherweise sind die Folgen der thermischen Überbelastung nicht unmittelbar zu erkennen. Das System läuft in diesem Fall scheinbar fehlerfrei, nachdem die Ursache des Problems beseitigt wurde, z.B. durch eine Reparatur der Klimaanlage. Oft fallen eine oder mehrere Festplatten trotzdem nach kurzer Zeit aus, was auch bei anderen RAID-Levels geschehen kann.

3. Überspannungsschäden (durch Blitzschlag oder Energieversorgungsfehler)
Um Überspannungen elektronischer Geräte vorzubeugen, ist der Einsatz von speziellen Filtern bzw. Schaltern ratsam. Auch eine unterbrechungsfreie Stromversorgung (USV) mit integriertem Filter ist eine geeignete Schutzmaßnahme. Eine Nichtbeachtung dieser Vorsichtsmaßnahmen kann dazu führen, dass durch Blitzeinschläge oder Mängel in der elektrischen Anlage verursachte Überspannungen ungehindert an die elektronischen Komponenten des RAID-Controllers sowie der Festplatten weitergeleitet werden und diese beschädigen. Allerdings bieten die genannten Maßnahmen nicht immer einen vollständigen Schutz vor Überspannungsschäden am Server. Beispielsweise werden Überspannungen auch über Netzwerktechnik (z.B. Router) weitertransportiert, wenn diese per LAN-Kabel mit dem Server-System verbunden ist. Deshalb sollten bei einer konsequenten Absicherung Netzwerkleitungen separat über eine USV geschützt werden.

4. Nichtbeachtung von Systemwarnungen
Aufgrund der sporadischen Serveradministration in manchen Unternehmen sind Warnmeldungen beim Ausfall einer oder mehrerer Festplatten nur unzureichend konfiguriert und getestet. Systemwarnungen über akustische Signale oder E-Mail-Benachrichtigungen bleiben in diesen Fällen aus, wodurch der Defekt einer Festplatte meist nicht rechtzeitig erkannt wird. Fällt dann auch noch eine zweite Festplatte aus, muss mit einem Totalausfall und dadurch mit Datenverlust gerechnet werden.

5. Keine Hot-Spare-Disk im System integriert
Einige RAID-Systeme verfügen über eine Ersatzfestplatte (Hot-Spare-Disk), die beim Ausfall einer regulären Festplatte automatisch in das RAID-System integriert wird. Anschließend erfolgt ein automatisiertes Rebuild des Arrays. Die Hot-Spare-Disk übernimmt dann die Funktion der defekten Festplatte. Sind RAID-Verbunde nicht mit dieser Notfall-Disk ausgestattet, ist die Durchführung einer automatischen Rekonstruktion nicht möglich, sodass es zu Datenverlust kommen kann.

6. Nutzerbedingte Fehler
Neben technischen Defekten können auch menschliche Fehler den Ausfall eines RAID5-Volumes (virtuelles Laufwerk) und somit Datenverlust verursachen. Beispielsweise kann es vorkommen, dass der Administrator oder Anwender versehentlich das RAID-Volume löscht oder formatiert – sei es durch mangelhafte Kenntnisse oder einfach aufgrund von Unaufmerksamkeit.

7. Durch Firmware des RAID-Controllers ausgelöste Fehlfunktionen
Auch eine Beschädigung des Arrays durch einen fehlerhaften Zugriff des Controllers bildet eine mögliche Ursache für Datenverlust. Löst der RAID-Controller konfigurationsbedingt mehrfach aussichtslose Rebuilds aus, ist das besonders kritisch zu beurteilen. Die wiederholten Schreibzugriffe steigern den Arbeitsaufwand bei der Datenrettung enorm, was erheblich höhere Wiederherstellungskosten zur Folge hat.

Ein weiterer Hinweis: „Neben den technischen und benutzerbedingten Ausfallszenarien sollte beachtet werden, dass ein RAID-Verbund kein Backup ersetzt. Werden beispielsweise Daten gelöscht oder überschrieben, wird der letzte Zustand der Dateien synchronisiert. Bei Kopplung eines regelmäßigen Backups oder der Replikation im Fall von virtuellen Maschinen, können gelöschte Daten problemlos aus einem älteren Zustand des RAID-Volumens extrahiert werden.“

Share

Leave a Reply