Redundanz – und alles ist gut?

Im Rechenzentrum

Redundanzen sind eine tolle Sache: Fällt System A aus, übernimmt nahtlos System B. Aber wieso gibt es dann trotzdem immer wieder große und kleine Ausfälle, die die Arbeit der Verwaltung beinträchtigen?

Hardware fällt selten aus

Doppelt hält besser, sagt man. Das gilt auch in der Technik. Mit sogenannten Redundanzen, also identischen Backup-Systemen, die im Notfall einspringen, werden viele Störungen verhindert. Das klappt auch oft sehr gut: Die aktive Komponente A fällt aus, die Standby-Komponente B übernimmt. Die Maschinen erkennen bestenfalls die Störung selbst und der Wechsel geht binnen weniger Sekunden automatisch vonstatten. Ohne dass der Nutzer etwas bemerkt. Oder aber die Störung löst eine Meldung aus und ein*e Administrator*in leitet das Umschalten auf die Redundanz ein. Je nach Komplexität des Systems dauert das wenige Minuten bis zu mehreren Stunden. Es kommt nur zu kurzzeitigen Beeinträchtigungen oder Ausfällen.

Das ist der Idealfall. Leider sind Redundanzen kein Allheilmittel gegen Störungen und Ausfälle. Redundanzen haben als primären Fokus den Ausfall von Hardware. Der kommt in der Praxis aber leider nur selten vor. Hardwareausfälle sind im Betrieb von Dataport für lediglich zwei Prozent aller IT-Störungen verantwortlich. Ein verschwindend kleiner Anteil.

Redundante Software, redundante Probleme

Einen erheblichen Anteil an Störungen haben Softwarefehler oder Software-Fehlkonfigurationen. In diesen Fällen hilft eine klassische Hardware-Redundanz nicht weiter. Denn sowohl das aktive als auch das Standby-System haben dann den gleichen Softwarefehler. Auch Störungen durch administrative Fehler oder durch Schadcode lassen sich durch klassische Redundanzen in den seltensten Fällen auffangen. Es sind eben identische Systeme, die auch identisch reagieren. Die Fehlersuche und das Beseitigen von Fehlern sind durch die Redundanz zum Teil eher zeitaufwändiger und schwieriger. Verlängern potenziell die Ausfallzeiten gegenüber einer Situation ohne Redundanz.

Systemvielfalt steigert Verfügbarkeit

Um Fehler in der Software, administrative Fehler oder Schadcode auszugleichen, muss eine andere Art von Redundanz her: Eine diversitäre Redundanz. Wenn Mailsystem A auf Betriebssystem B ausfällt, kann nur ein völlig anders aufgebautes System einspringen. Das bedeutet, das Standby-System muss ein anderes Mailsystem C auf einem Betriebssystem D bereithalten. Die Wahrscheinlichkeit, dass ein Softwarefehler, ein Administrationsfehler oder ein Schadcode jede Konstellation gleichermaßen betrifft, ist sehr gering. Mit diversitären Redundanzen kann man also die Verfügbarkeit steigern. Wobei auch das Umswitchen auf ein anderes System seine Zeit braucht und zu Ausfallzeiten führt.

Maximale Sicherheit, höhere Kosten

Klingt vom Grundsatz her sehr gut und sehr smart. Ist aber sehr aufwändig und teuer. Ein alternatives System für den eventuellen Fall permanent betriebsbereit zu halten, kostet viel Geld. Zudem muss immer konkret bewertet werden, ob ein derartiges paralleles System im Fall der Fälle auch einen praktischen Nutzen hat. Im Beispiel des Mailsystems müssten dann auch alle Mitarbeiter*innen eine alternative E-Mail-Adresse haben. Die kennt ihr Umfeld aber im Fall der Fälle gar nicht.

Eine Redundanz ist wie eine gute Versicherung. Sie gibt für bestimmte vorhersehbare Ereignisse Absicherung. Und je mehr die Versicherung abdeckt, desto teuer wird sie. Für den Ausfall eines Rechners oder sogar eines ganzen Rechenzentrums kann man sich mit Redundanzen wappnen. Aber es gibt auch immer eine unbekannt große Menge von unvorhersehbaren Ereignissen, gegen die eine einfache Systemredundanz nichts ausrichten kann.

Bewusst abwägen und entscheiden

Deshalb kann man nicht pauschal sagen, dass für jedes Verfahren und jede Infrastruktur eine Redundanz her muss. Im Gegenteil: Die Verwaltung muss  bei jedem einzelnen System nüchtern abwägen, was ihr eine noch höhere Verfügbarkeit wert ist. Welcher Schaden entsteht, wenn Fachverfahren A für eine Stunde oder einen Tag nicht zur Verfügung steht? Ist dieser Schaden größer als die Kosten für eine teure Redundanz? Für einen Online-Händler lässt sich das leicht berechnen und die Antwort ist klar. Aber für eine Verwaltung? Da geht es mehr um Imageschäden und Vertrauensverlust als um monetäre Schäden. Mit diesen Fragen muss sich die Verwaltung gründlich auseinandersetzen – Verfahren für Verfahren und bewusste Entscheidungen treffen. Das verschafft Klarheit und sorgt für eine realistische Erwartungshaltung.

Zum Autor

Betriebsmanager und Leiter des Krisenmanagements bei Dataport
Mitarbeiterfoto von Jan-Markus Peters

Wie kann man am besten performante und verfügbare IT-Servicves bereitstellen? Das ist die stetige Kernfrage für den Dipl. Ing. für Nachrichtentechnik. Für die Antwort betrachtet er IT vor allem in den Gesamtzusammenhängen. Denn nur mit einem übergreifenden Verständnis von Technologien und Zusammenhängen lassen sich kritische Herausforderungen zu meistern.