
Wie kann man Netzwerkgeräte in einem großen Unternehmen aktualisieren, ohne die Produktion zu stoppen ? Oleg Fedorov, Projektmanager von Linxdatacenter, spricht über ein Großprojekt im Modus "Chirurgie am offenen Herzen" .
In den letzten Jahren haben Kunden eine erhöhte Nachfrage nach Diensten im Zusammenhang mit der Netzwerkkomponente der IT-Infrastruktur festgestellt. Die Notwendigkeit der Konnektivität von IT-Systemen, -Diensten, -Anwendungen, -Überwachung und -Betriebsmanagement eines Unternehmens in nahezu allen Bereichen zwingt Unternehmen heute dazu, den Netzwerken mehr Aufmerksamkeit zu widmen.
Das Spektrum der Anforderungen - von der Bereitstellung von Netzwerkstabilität bis zur Erstellung und Verwaltung eines autonomen Client-Systems mit dem Kauf eines IP-Adressblocks, der Konfiguration von Routing-Protokollen und dem Verkehrsmanagement gemäß den Richtlinien der Organisationen.
Es besteht auch eine wachsende Nachfrage nach komplexen Lösungen für den Aufbau und die Wartung der Netzwerkinfrastruktur, vor allem von Kunden, deren Netzwerkinfrastruktur von Grund auf neu erstellt wurde oder moralisch veraltet ist und ernsthafte Änderungen erfordert.
Dieser Trend fiel mit der Entwicklung und Komplikation der eigenen Netzwerkinfrastruktur von Linxdatacenter zusammen. Wir haben die Geografie unserer Präsenz in Europa durch die Verbindung zu entfernten Standorten erweitert, was wiederum die Verbesserung der Netzwerkinfrastruktur erforderlich machte.
Das Unternehmen hat mit Network-as-a-Service einen neuen Service für Kunden eingeführt: Wir kümmern uns um alle Netzwerkaufgaben unserer Kunden, damit sie sich auf ihr Kerngeschäft konzentrieren können.
Im Sommer 2020 wurde das erste große Projekt in dieser Richtung abgeschlossen, über das ich sprechen möchte.
Am Anfang
Ein großer Industriekomplex wandte sich an uns, um den Netzteil der Infrastruktur in einem seiner Unternehmen zu modernisieren. Es war erforderlich, alte Geräte durch neue zu ersetzen, einschließlich des Netzwerkkerns.
Die letzte Modernisierung der Geräte im Unternehmen erfolgte vor ca. 10 Jahren. Das neue Management des Unternehmens entschied sich für eine Verbesserung der Konnektivität, beginnend mit Infrastruktur-Upgrades auf der grundlegendsten physischen Ebene.
Das Projekt gliederte sich in zwei Teile: ein Upgrade des Serverparks und der Netzwerkausrüstung. Wir waren für den zweiten Teil verantwortlich.
Zu den grundlegenden Anforderungen für die Arbeit gehörte die Minimierung der Ausfallzeiten der Produktionslinien des Unternehmens während der Ausführung der Arbeiten (und in einigen Bereichen die vollständige Beseitigung von Ausfallzeiten). Jeder Stop - direkter finanzieller Verlust des Kunden, der unter keinen Umständen hätte eintreten dürfen. Im Zusammenhang mit der Betriebsart der Einrichtung rund um die Uhr und unter Berücksichtigung des völligen Fehlens geplanter Ausfallzeiten in der Unternehmenspraxis wurden wir tatsächlich mit der Durchführung einer Operation am offenen Herzen beauftragt. Dies wurde zum Hauptunterscheidungsmerkmal des Projekts.
Gehen
Die Arbeiten wurden nach dem Prinzip der Bewegung von den vom Kern entfernten Knoten des Netzwerks zu den näheren Knoten sowie von denjenigen, die den Betrieb von Produktionslinien weniger beeinflussen, zu denjenigen, die diese Arbeit direkt beeinflussen, geplant.
Wenn Sie beispielsweise einen Netzwerkknoten in einer Verkaufsabteilung verwenden, wirkt sich eine Unterbrechung der Kommunikation aufgrund der Arbeit in dieser Abteilung in keiner Weise auf die Produktion aus. Gleichzeitig hilft uns ein solcher Vorfall als Auftragnehmer, die Richtigkeit des gewählten Ansatzes für die Arbeit an solchen Knoten zu überprüfen und nach Anpassung der Maßnahmen an den nächsten Phasen des Projekts zu arbeiten.
Es ist nicht nur erforderlich, die Knoten und Kabel im Netzwerk auszutauschen, sondern auch alle Komponenten für den korrekten Betrieb der gesamten Lösung korrekt zu konfigurieren. Es waren die Konfigurationen, die auf diese Weise überprüft wurden: Wir begannen die Arbeit in einiger Entfernung vom Kernel und gaben uns das "Recht, einen Fehler zu machen", ohne kritische Bereiche für den Betrieb des Unternehmens zu gefährden.
Wir haben Bereiche identifiziert, die den Produktionsprozess nicht beeinflussen, sowie kritische Bereiche - Werkstätten, Lade- und Entladeblöcke, Lager usw. In Schlüsselbereichen hat der Kunde die zulässigen Ausfallzeiten für jeden Knoten des Netzwerks separat vereinbart: 1 bis 15 Minuten ... Es war unmöglich, die Trennung einzelner Netzwerkknoten vollständig zu vermeiden, da das Kabel physisch von der alten auf die neue Ausrüstung umgeschaltet werden muss und beim Umschalten auch der "Bart" der Drähte entwirrt werden muss, der während mehrerer Betriebsjahre ohne angemessene Pflege gebildet wurde (eine der Folgen von Outsourcing-Arbeiten) über die Installation von Kabelleitungen).
Die Arbeit war in mehrere Phasen unterteilt.
Bühne 1- Prüfung. Vorbereitung und Genehmigung des Ansatzes zur Arbeitsplanung und Bewertung der Bereitschaft der Teams: des Kunden, des Auftragnehmers, der die Installation durchführt, und unseres Teams.
Stufe 2 - Entwicklung eines Formats für die Ausführung von Arbeiten mit eingehender detaillierter Analyse und Planung. Wir haben ein Checklistenformat mit einer genauen Angabe der Reihenfolge und Reihenfolge der Aktionen bis hin zur Reihenfolge des Umschaltens der Patchkabel nach Ports gewählt.
Stufe 3 - Arbeiten in Schränken ausführen, die die Produktion nicht beeinträchtigen. Schätzung und Anpassung der Ausfallzeiten für nachfolgende Arbeitsphasen.
Stufe 4 - Arbeiten in Schränken ausführen, die sich direkt auf die Produktion auswirken. Schätzung und Anpassung der Ausfallzeiten für die letzte Arbeitsphase.
Stufe 5- Arbeiten im Serverraum durchführen, um die restlichen Geräte auszutauschen. Wird beim Routing auf einem neuen Kernel ausgeführt.
Stufe 6 - Sequentielles Umschalten des Systemkerns von alten auf neue Netzwerkkonfigurationen für einen reibungslosen Übergang des gesamten Systemkomplexes (VLAN, Routing usw.). Zu diesem Zeitpunkt haben wir alle Benutzer verbunden und alle Dienste auf neue Geräte übertragen, die Richtigkeit der Verbindung überprüft, sichergestellt, dass keiner der Unternehmensdienste gestoppt wurde, und sichergestellt, dass sie bei Problemen direkt mit dem Kernel verbunden werden, was die Beseitigung möglicher Dienste erleichtert Fehlerbehebung und endgültige Einstellung.
Bartfrisur
Das Projekt war auch aufgrund der schwierigen Anfangsbedingungen eine Herausforderung.
Erstens handelt es sich um eine große Anzahl von Knoten und Abschnitten des Netzwerks mit einer komplizierten Topologie und Klassifizierung der Drähte nach ihrem Zweck. Solche "Bärte" mussten aus den Schränken genommen und sorgfältig "gekämmt" werden, um herauszufinden, welcher Draht von wo und wo führt.
Es sah ungefähr so aus:

Damit:

oder so:

Zweitens musste für jede dieser Aufgaben eine Datei vorbereitet werden, die den Prozess beschreibt. "Wir nehmen Kabel X von Port 1 des alten Geräts und schließen es an Port 18 des neuen Geräts an." Es klingt einfach, aber wenn Ihre ursprünglichen Daten 48 vollständig verstopfte Ports haben und es keine Leerlaufoption gibt (wir erinnern uns an 24x7x365), besteht der einzige Ausweg darin, in Blöcken zu arbeiten. Je mehr Kabel Sie gleichzeitig aus alten Geräten herausziehen können, desto schneller können Sie sie kämmen und in neue Netzwerkhardware einführen, um Netzwerkstörungen und Ausfallzeiten zu vermeiden.
Daher haben wir in der Vorbereitungsphase das Netzwerk in Blöcke unterteilt - jeder von ihnen gehörte zu einem bestimmten VLAN. Jeder Port (oder eine Teilmenge davon) auf der alten Hardware ist ein VLAN in der neuen Netzwerktopologie. Wir haben sie wie folgt gruppiert: Die ersten Ports des Switch befinden sich in Benutzernetzwerken, in den Netzwerken der mittleren Produktion und in den letzten Access Points und Uplinks.
Dieser Ansatz ermöglichte es, nicht 1 Draht, sondern 10-15 Drähte gleichzeitig aus der alten Ausrüstung herauszuziehen und herauszukämmen. Dies beschleunigte den Workflow mehrmals.
Übrigens, so sehen die Drähte in Schränken nach dem Kämmen aus:

oder zum Beispiel so:

Nach Abschluss der 2. Phase machten wir eine Pause, um Fehler und Projektdynamik zu analysieren. Zum Beispiel traten kleinere Fehler sofort aufgrund von Ungenauigkeiten in den uns zur Verfügung gestellten Netzwerkdiagrammen auf (ein falscher Anschluss im Diagramm ist ein falsch gekauftes Patchkabel und die Notwendigkeit, es zu ersetzen).
Die Pause war notwendig, da selbst ein kleiner Fehler im Prozess nicht akzeptabel war, wenn vom Server aus gearbeitet wurde. Wenn das Ziel darin bestand, sicherzustellen, dass die Ausfallzeit im Netzwerkabschnitt nicht mehr als 5 Minuten beträgt, konnte sie nicht überschritten werden. Eine mögliche Abweichung vom Zeitplan musste mit dem Kunden vereinbart werden.
Die vorläufige Planung und Aufteilung des Projekts in Blöcke ermöglichte es jedoch, die geplanten Ausfallzeiten in allen Bereichen einzuhalten und in den meisten Fällen ganz darauf zu verzichten.
Zeitherausforderung - Projekt unter COVID
Es gab jedoch einige zusätzliche Komplikationen. Natürlich war das Coronavirus eines der Hindernisse.
Die Arbeit wurde durch die Tatsache erschwert, dass eine Pandemie begann, und es war unmöglich, dass alle am Prozess beteiligten Spezialisten während der Arbeit beim Kunden anwesend waren. Nur das Installationspersonal durfte die Baustelle betreten, und die Steuerung wurde durch einen Raum in Zoom durchgeführt. Es gab einen Netzwerktechniker von Linxdatacenter, ich als Projektmanager, einen Netzwerktechniker auf Kundenseite, der für die Produktion der Arbeiten verantwortlich war, und das Team, das die Installationsarbeiten durchführte.
Während der Arbeit traten Probleme auf, die nicht berücksichtigt wurden, und es war notwendig, Anpassungen im laufenden Betrieb vorzunehmen. So konnte der Einfluss des menschlichen Faktors (Fehler im Schema, Fehler bei der Bestimmung des Status der Schnittstellenaktivität usw.) schnell verhindert werden.
Obwohl das Remote-Arbeitsformat zu Beginn des Projekts ungewöhnlich schien, haben wir uns schnell an die neuen Bedingungen angepasst und sind in die Endphase der Arbeit eingetreten.
Wir haben eine temporäre Netzwerkkonfigurationskonfiguration ausgeführt, um zwei Netzwerkkerne parallel auszuführen, den alten und den neuen, um einen reibungslosen Übergang zu gewährleisten. Es stellte sich jedoch heraus, dass eine zusätzliche Zeile nicht aus der Konfigurationsdatei des neuen Kernels entfernt wurde und der Übergang nicht stattfand. Dies ließ uns einige Zeit damit verbringen, nach dem Problem zu suchen.
Es stellte sich heraus, dass der Hauptverkehr korrekt übertragen wurde und der Kontrollverkehr den Knoten nicht über den neuen Kern erreichte. Dank der klaren Aufteilung des Projekts in Phasen war es möglich, den Abschnitt des Netzwerks, in dem die Schwierigkeit auftrat, schnell zu identifizieren, das Problem zu identifizieren und es zu beheben.
Als Ergebnis
Technische Ergebnisse des Projekts
Zunächst wurde ein neuer Kern des neuen Unternehmensnetzwerks erstellt, für den wir physische / logische Ringe erstellt haben. Dies geschieht so, dass jeder Switch im Netzwerk eine "zweite Schulter" hat. Im alten Netzwerk waren viele Switches über eine Route, eine Schulter (Uplink) mit dem Kern verbunden. Wenn es zerrissen war, war der Schalter völlig unzugänglich. Und wenn mehrere Switches über eine Aufwärtsverbindung verbunden waren, hat ein Unfall eine ganze Abteilung oder Produktionslinie des Unternehmens außer Betrieb gesetzt.
In einem neuen Netzwerk kann selbst ein ziemlich schwerwiegender Netzwerkvorfall in keinem Szenario das gesamte Netzwerk oder seinen wichtigen Abschnitt "töten".
90% aller Netzwerkgeräte wurden aktualisiert, Medienkonverter (Signalausbreitungsmedienkonverter) wurden außer Betrieb genommen, und die Notwendigkeit dedizierter Stromleitungen zur Stromversorgung von Geräten wurde durch den Anschluss an PoE-Switches beseitigt, bei denen die Stromversorgung über Ethernet-Kabel erfolgt.
Außerdem sind alle optischen Verbindungen im Serverraum und in den Schränken vor Ort markiert - in allen wichtigen Kommunikationszentren. Dies ermöglichte es, ein topologisches Diagramm der Geräte und Verbindungen im Netzwerk zu erstellen, das den aktuellen Zustand widerspiegelt.
Netzwerkdiagramm

Das aus technischer Sicht wichtigste Ergebnis: Ziemlich umfangreiche Infrastrukturarbeiten wurden schnell durchgeführt, ohne den Betrieb des Unternehmens zu beeinträchtigen, und für das Personal nahezu unsichtbar.
Geschäftsergebnisse des Projekts
Meiner Meinung nach ist dieses Projekt vor allem nicht aus technischer, sondern aus organisatorischer Sicht interessant. Die Schwierigkeit bestand hauptsächlich darin, die Schritte zur Umsetzung der Projektaufgaben zu planen und zu durchdenken.
Der Erfolg des Projekts lässt darauf schließen, dass unsere Initiative zur Entwicklung der Netzwerkrichtung innerhalb des Linxdatacenter-Dienstleistungsportfolios die richtige Wahl des Vektors für die Unternehmensentwicklung ist. Ein verantwortungsbewusster Ansatz für das Projektmanagement, eine kompetente Strategie und eine klare Planung ermöglichten es uns, die Arbeiten auf der richtigen Ebene durchzuführen.
Bestätigung der Arbeitsqualität - eine Aufforderung des Kunden, die Bereitstellung von Netzwerkmodernisierungsdiensten an seinen anderen Standorten in Russland fortzusetzen.