This forum uses cookies
This forum makes use of cookies to store your login information if you are registered, and your last visit if you are not. Cookies are small text documents stored on your computer; the cookies set by this forum can only be used on this website and pose no security risk. Cookies on this forum also track the specific topics you have read and when you last read them. Please confirm whether you accept or reject these cookies being set.

A cookie will be stored in your browser regardless of choice to prevent you being asked this question again. You will be able to change your cookie settings at any time using the link in the footer.

Verhalten bei RAID Fehlern
#1
Was mache ich bei auftretenden RAID Fehlern?
Was ist wichtig zu beachten damit die Daten nicht verloren gehen?


Den folgenden Artikel widme ich meinen Kollegen die im Spätdienst auf sich alleine gestellt sind, und Unterstützung bei RAID Fehlern benötigen.



Es gibt bei RAID Problemen meist nur einen Versuch. Wenn der misslingt sind die Daten verloren.

Erster Check: Läuft der Server / Rechner noch und sind die Daten zugreifbar?
     nein:  EXPERTEN BEIHOLEN!!!!!, Backup suchen, und gegebenenfalls gegen Überschreiben sichern.
     ja:      DATEN EXTERN SICHERN!!!!!!! bevor irgendwelche Arbeiten gemacht werden



Grundlagen zum Verständnis

Arten von RAID CONTROLLERn:

Raid Controller treffen wir in unseren Systemen in 3 gängigen Arten an:

- Hardware Raid Controller (LSI, Adaptec, ...) : 

Zum Beispiel als Steckkarte, oder auf dem Motherboard aufgelötet. Typische Vertreter: LSI, Adapec,...

Eigenschaften: Das Management der Daten, die Berechnung der Parity, die Verteilung der Daten auf den Laufwerken managt der Raid Controller selbstständig. Nach aussen hin ( zum Betriebssystem) erscheint ein eingerichteter Raid Verbund als ein physikalisches Laufwerk.
Da diese Raid Umsetzung "auf BIOS Level" geschieht sind diese Laufwerke unter allen Betriebssystemen nutzbar.

Die Performance des Gesamt RAID Systems hängt sehr stark von verwendeten Controller und dem eingesetzten RAID Lavel ab.
Tendenziell sind diese Controller viel langsamer als "primitive" Software Raids, aber haben die höchste Ausfall Sicherheit.
Gute RAID Controller haben Batterie Puffer ihrer RAM Caches damit sie keinen Datenverlust bei Stromausfall erleiden.

Negativ: RAID Settings werden gerne im RAID Controller gespeichert,
Bei defekten Raid Controllers ist ein Umzug des Raid auf einen baugleichen Controller fast unmöglich.
Auf andere Boards oder Controller Typen können RAIDS fast nie ohne kompletten Datenverlust umgezogen werden.

IM FEHLERFALL:
Das Management Interface kann im Fehlerfall über Shortcut beim Startzeitpunkt des BIOS erreicht werden.
Des weiteren haben solche hochwertigen Raid Controller auch ein in Windows installierbares Raid Management Tool anzubieten.

Was im Fehlerfall davon genutzt wird hängt von der Situation ab.

Das BIOS Tool geht immer, aber ist evt. kryptisch zu bedienen. Es gibt aber verläßliche Auskunft über RAID Typ, Status,
und bietet Anzeigen welche Platte defekt ist.

Hardware Raid Controller können üblicherweise Hot Spare Platten unterstützen (sofern Anschlüse frei sind). Genaueres später bei Erklärung der RAID Level.

Shortcuts im BIOS Modus: Control A (Adaptec) und Control C (LSI SAS Controller ) gesichtet. Es gibt aber keinerlei Norm.
Software Tools sind besser grafisch aufbereitet, sind aber häufig nicht auf betreffenden Rechnern installiert.


- OnChip Raid (Intel):

Bisher nur als integrierte Lösung von Motherboard Chipsätzen gesichtet. Dafür auf fast jeden Motherboard mit Intel Business Chipsatz der letzten 10 Jahre verfügbar.

Dieses weit verbreitete Raid System scheint eine Mischung aus Hard und Software RAID zu sein.
Kennzeichen: Es gibt im Bios ein Management Interface meist das mit Control I  aufgerufen werden kann.
Aber: Als Raid werden die Platten nur in Windows nach Installation eines Raid Treibers angezeigt.
Installiert man Linux so ist ein vorher im Controller angelegter Raid Verbund wieder als einzel Festplatten zu sehen.
Fazit: Software unterstützes Raid mit Bios Management Interface

Positiv: Umzug auf ein Board mit baugleichen Controller sollte möglich sein, da Raid Infos offenbar auf der Platte gespeichert werden.
Aber Vorsicht. Andere Möglichkeiten sind zu bevorzugen! Siehe später.

IM FEHLERFALL:
Das Management Interface kann im Fehlerfall über Shortcut Control I  beim Startzeitpunkt des BIOS erreicht werden.
In dem Management Tool gibt es eine Rebuild Funktion, sowie dei Möglichkeit das Raid zu degraden.


- Software Raid (z. Bsp: Microsoft):

Server Betriebssysteme bieten die Möglichkeit ein sehr performantes Software Raid einzurichten.
Letztendlich ist jedes NAS auch nichts anderes, nur meist auf Linux Basis.

Negativ: Bei einem Ausfall des Betriebssystemes kann auf das Raid nicht mehr zugegriffen werden




RAID LEVEL:

RAID 0:
Nutzungsart: Festplatten werden nur additiv zur Vergrößerung der Kapazität und der Datenrate vewendet.

Plattenzahl: Mindestens 2, können aber auch viel mehr sein. Begrenzung der Anzahl durch Controller, Anschlüsse, IDs.

Datenzugriff: Das Schreiben und Lesen der Daten erfolgt jeweils Blockweise abwechselnd auf die zum RAID0 verbundenen Platten.
Die Daten werden dadurch geichmäßig auf alle Laufwerke verteilt, und haben keinerlei Redundanzen oder Sicherung.

Datenrate: Sofern der Controller oder die Anbindung nicht beschränkt,
erfolgt eine Multiplikation der Laufwerks Datenrate und der Laufwerks Kapazität mit der Anzahl der Laufwerke.

Auswirkung des Defektes eines Laufwerks: Totaler Datenverlust
Reparaturmöglichkeit zur Rettung der Daten: Keine ( ausser kostenpflichtige Daten Rettungs Anbieter)

Vorsorge: Anderen RAID Level verwenden, je nach Anforderung.
bei Anforderung Datenrate: RAID10 einsetzten
bei Anforderung Kosten: RAID 5 einsetzten.


RAID1:
Nutzungsart: Exakte Spiegelung jeweils zweier Laufwerke

Plattenzahl: 2

Datenzugriff: Schreiben erfolgt auf beide Platten parallel. Lesen bei guten Controllern alternierend und Bandbreiten additiv.

Datenrate: Beim Schreiben die einfach Schreibrate eines Laufwerks, beim Lesen annähernd die Summenrate beider Laufwerke.

Auswirkung des Defektes eines Laufwerks:  Controller meldet RAID degraded, aber der Rechner läuft ohne Einbruch der Datenrate unbeirrt weiter.

Reparaturmöglichkeit zur Rettung der Daten: Sehr gut.
Solange ein Laufwerk noch intakt ist, sind die Daten komplett in Ordnung.

Reparaturmöglichkeit: Solange ein Laufwerk noch intakt ist, muss nur das Defekte durch ein (möglichst baugleiches, oder größeres)
Laufwerk ersetzt werden. Die meisten Controller erkennen das und starten den Rebuild Modus automatisch.
ansonsten mit dem Shortcut beim Booten in das Controller BIOS wechseln, und den rebuild Prozess anstossen.

Anleitung: Rechner herunter fahren. (So bleibt die Installation der noch intakten platte immer Fehlerfrei- auch wenn das falsche Laufwerk gezogen wurde). Ein Laufwerk abklemmen (entnehmen etc), und mit dem Anderen starten.

Da beide Platten identisch sind muss nur die defekte gefunden, und durch eine möglichst baugleiche ersetzt werden. Bitte wenn es geht dafür den Rechner aber ausschalten. Dies hat den Vorteil das man selbst beim versehenlichen Ziehen der falschen Platte die Intakte nicht "ungültig" macht. Raid Controller schreiben üblicherweise Zeitstempel, und erkennen so die "zuerst weggeflogene" Platte eines Verbundes, und erklären die ggf. für ungültig.

Je nach verwendeter Laufwerksart kann man bei manchen auch angeschaltet "on the fly" defekte Laufwerke austauschen, was man nur tun sollte wenn die Datenversorgung durchlaufen muss.


RAID5:
Nutzungsart: Festplatten werden additiv zur Vergrößerung der Kapazität und der Datenrate vewendet. Jedoch wird eine Platte zusätzlich für Parity verwendet um den Ausfall genau eines Laufwerkes ohne Datenverlust zu überstehen.

Plattenzahl: Mindestens 3, können aber auch viel mehr sein. Begrenzung der Anzahl durch Controller, Anzahl der physikalischen Anschlüsse oder anzahl freier IDs.

Datenzugriff: Das Schreiben und Lesen der Daten erfolgt über alle zum Raid5 verbundenen Platten quasi gleichzeitig da jede Platte nur Teile der Information enthält. Die Daten werden dadurch geichmäßig auf alle Laufwerke verteilt. Datenrettung von einzelnen Laufwerken ist nicht möglich. 

Datenrate: Sofern der Controller oder die Anbindung nicht beschränkt, erfolgt Erhöhung der Laufwerks Datenrate gegenüber einem Einzellaufwerk.
Aber der Datendurchsatz wird durch die (Paritäts Berechnung und Fehlerkorrektur) Rechenarbeit des Controllers stark begrenzt.
In der Praxix sind RAID5 mit Abstand die langsamsten Raid Verbünde.
Auch wirkt sich stark aus wenn Latenzen und Datenraten der Laufwerke unterschiedlich sind, und dies nicht ein Cache ausgleichen kann.

Auswirkung des Defektes eines Laufwerks: Raid wird "degraded" und noch langsamer. Fällt mehr als eine Platte aus sind alle Daten verloren.

Reparaturmöglichkeit zur Rettung der Daten:
1. Ruhe Bewahren und zunächst eine komplette Datensicherung extern durchführen.

2. Danach prüfen ob die Möglichkeit besteht ein neues Laufwerk zusätzlich mit anzuschliessen und als "Hot Spare" zu definieren.
Dann wird dieses Laufwerk automatisch als Ersatz des Defekten hergenommen, und der Rebuild Prozess startet.
Unbedingt das Ende des rebuild Prozesses abwarten, bis das RAID5 als intakt dargestellt wird. Nun erst die defekte Platte entfernen.
Hat man nach dem Rebuild nun die Falsche gezogen, so sind die Daten noch immer da, nur das RAID wieder degraded.

3. War 2. nicht möglich, und ist 1. abgeschlossen, so ist genau ein Versuch ist möglich zur Reparatur des RAID5 Verbundes.
Daher das defekte Laufwerk sehr akribisch ermitteln. Experten holen wenn man selber unsicher ist!!!!!
Controller Software führt überllicherweise Logs und mault defekte Laufwerke an.
Auch ermöglicht Controller Software Laufwerke zur Indentifizierung der Hardware blinken zu lassen.
Dies hilft wenn die logisch Nummerierung der Laufwerke im Controller nicht mir der physikalischen Nummerierung der Einbauplätzte übereinstimmt.
Es muss sicher gestellt werden das genau die defekte Platte gezogen wird.
Erwischt man die Falsche sind alle Daten weg.

Vorsorge: Anderen RAID Level verwenden, je nach Anforderung.
bei Anforderung Datenrate: RAID10 einsetzten
nur bei Anforderung Kosten: RAID 5 einsetzten, aber möglichst eine Hot Spare Platte mitlaufen lassen.

Fazit: RAID 5 ist das "Arme Leute Raid" oder auch "Betriebswirtschaftler Raid" wenn man mit möglichst wenigst Aufwand große Datenmangen abspeichern will.
Datenrate und Datensicherheit ist aber nicht überragend. Eine gute Backup Strategie auf offline Medien ist dabei unerlässlich.


Andere RAID LEVEL fristen ein Nischen dasein, und sind nur leichte Varianten dieser obigen 3 Grundformen.

RAID 10 ist eine Mischung aus RAID 0 das aber doppelt ausgeführt ist wie RAID1, jedoch anstelle 2er Laufwerke aus 2 Laufwerks Verbünden bestehend. Fazit: Erweitert ein RAID1 für mehr Kapazität als ein Laufwerk bereitstellen kann.

Andere Varianten sind mehr Marketingnamen, die letztendlich nur die Anzahl der Paritäts-/Redundanz- Laufwerke erhöhen oder die Datenverteilung über die Laufwerke verändern.


EIN TIPP zum Schluss:

EIN RAID HILFT NUR WENN ES ÜBERWACHT WIRD: Je nach Raid Typ übersteht es mehr oder weniger Fehler ohne Datenverlust.
Aber selbst das sicherste Raid1 hilft nichts wenn der Ausfall des 1. Laufwerks erst registriert wird, bis auch das 2. den Geist aufgibt.


Für Hardware Controller kommen dafür meist SNMP Tools zum Einsatz.

Bei Intels OnChip Raid hilft die kostenlose Intel Rapid Storage Management Software. Hier kann sich der Admin einen Mail bei Laufwerksproblemen senden lassen. (im Intel Rapid Storage Management unter "Vorsinstellungen- Emails" konfigurieren)
Da die meisten unsere Opensim Server diesen Controller haben sollten wir den auch aktiv nutzen.


RAID1 ist bei unseren Anwendungen im Opensim Bereich die einzige sinnvolle Variante, da typischerweise die Datenmange eines kleinen bis mittleren Grids auf ein einzelnes Laufwerk passt. Lieber teilt man das Grid Instanzenweise auf mehrere RAID1 Laufwerke auf.

Bevor ihr andere RAIDs als RAID1 einsetzt, sprecht mit Experten. 

Wer mir nicht glaubt sei an den halbjährigen OSGRID Ausfall wegen eines RAID5 Datenverlust Problems erinnert. Wenn ich mich richtig erinnere waren da mehr als eine Platte ausgefallen, und die Daten weg. Das halbe Jahr wurde erfolglos versucht die Daten alle wieder herzustellen.
Mit der hier vorgestellten Laufwerks Überwachung wäre der Fehler wohl früher bei der ersten defekten Platte schon erkannt worden, und ein Datenverlust vermieden.
Zitieren


Gehe zu:


Benutzer, die gerade dieses Thema anschauen: 1 Gast/Gäste