Zum Seiteninhalt springen
Netzstatus: grün. Uns sind keine Probleme bekannt.
German
English

StuNet News

Der perfekte Sturm

Am Dienstag kam es zu einem Ausfall von über zwei Stunden in den Häusern der Winklerstraße, der auch zu Problemen für einige Nutzer in den übrigen Wohnheimen führte. Wir entschuldigen uns dafür und hoffen, die Störung hat für euch zu keinen größeren Unannehmlichkeiten geführt. Unten beschreiben wir kurz, was dazu geführt hat.

Wir wissen, dass so gravierende Netzstörungen extrem ärgerlich sind und arbeiten schon seit Mitte des vergangenen Jahres verstärkt daran, die Ausfallsicherheit unserer zentralen Netzkomponenten zu erhöhen.

Wir werden in den kommenden Wochen die Anbindung an das Uni-Rechenzentrum wieder redundant herstellen, den Router in der Winklerstraße 22 durch ein neues System ersetzen und ein neues, vollständig redundantes Core-Netz in Betrieb nehmen. Die Struktur ist so ausgelegt, dass keine Störung an einzelnen LWL-Verbindungen oder zentralen Komponenten mehr zu einem Ausfall für unsere Nutzer führt.

Zur Störung diese Woche kam es so: Für Montag hatten wir durch Aushang und hier auf der Webseite kurze Netzunterbrechungen angekündigt. Wir wollten die Netzkomponenten in der Winklerstraße auf einen aktuellen Softwarestand bringen, um den zweiten Uplink zum Rechenzentrum wieder in Betrieb nehmen zu können. Das URZ hatte vergangenes Jahr seine zentralen Router ausgetauscht, sodass das bisher verwendete Routingprotokoll ("RIP") ersetzt werden musste. Das Update am Montag funktionierte wie geplant - es kam zu zwei kurzen Unterbrechungen von weniger als fünf Minuten. Allerdings mussten wir im Zuge des Updates auch das Partitionslayout, also die Art wie Daten auf den Festplatten gespeichert werden, verändern. Alle Systeme im StuNet speichern ihre Daten auf mindestens zwei Festplatten ("RAID"), sodass solche Änderungen ohne Ausfall im Betrieb vorgenommen werden können. Als wir den Zugangsrouter in der Winklerstraße 22 aber am Dienstag nach Abschluß dieser Änderung neu starteten, konnte das System nicht mehr hochfahren. Scheinbar hatte das Tool "resize2fs" die Partitionen so beschädigt, dass der Bootloader sie nicht mehr lesen konnte (das Betriebssystem selbst allerdings sehrwohl). Wir sind auf solche Situationen vorbereitet, allerdings konnten wir auch von zwei USB-Sticks nicht booten, die wir vorbereitet hatten. Eine CD hatten wir auch - allerdings mit der falschen Version (64bit statt 32bit). Dass keiner der beiden USB-Sticks mit dem Rechner zusammenarbeitet hatten wir schlicht nicht erwartet, deshalb hatte das niemand überprüft. Wir mussten also zuerst einen CD-Brenner und Rohling auftreiben um dann den Rechner im Notfallsystem zu booten, dort die Partitionen neu anzulegen, umzukopieren und das System wieder in einen funktionsfähigen Zustand zu versetzen.

Leider war aber auch das nicht das letzte Problem. Am Dienstag und Mittwoch beobachteten wir, dass die Glasfaser-Interfaces zu den einzelnen Häusern der Winklerstraße in unregelmäßigen Abständen für einige Sekunden ausfielen. Wir haben den Fehler schließlich heute in einer neuen Treiberversion für die verbauten Intel-Karten lokalisieren können und hoffen, dass nun endlich wieder alles wie gewohnt funktioniert.

Lieben Gruß
Eure AG StuNet