Innerhalb der Netskope NewEdge Data Center Factory

Im letzten Jahr haben wir eine Reihe von Blogs über NewEdge veröffentlicht, das Netzwerk oder die Infrastruktur, auf der wir die Netskope Security Cloud-Dienste bereitstellen, und es mit anderen Ansätzen von Cloud-Sicherheitsanbietern verglichen. Wir haben ausführlich über den grundsätzlichen Ansatz von Netskopezur Überwindung der inhärenten Leistungsbeschränkungen des öffentlichen Internets gesprochen. Außerdem haben wir darüber gesprochen , warum Backhauling (oder „Hairpinning“) innerhalb der Cloud eine schlechte Strategie ist, warum es bei der Abdeckung nicht nur um die Zählung von Rechenzentren geht und wie wichtig Peering und eine aggressive Verbindungsstrategie für die beste Leistung und Benutzererfahrung sind .

Ein Thema, das in Gesprächen mit Führungskräften aus den Bereichen Netzwerke und Infrastruktur häufig zur Sprache kommt und auf großes Interesse stößt, ist der Ansatz, den wir bei Netskope hinsichtlich des tatsächlichen Aufbaus und der Skalierung von NewEdge verfolgen. Ich persönlich freue mich sehr, diese Geschichte zu erzählen, da es zu meinen täglichen Aufgaben gehört, dies zu ermöglichen, und es mit meinen bisherigen Erfahrungen bei AWS, der weltweit größten und bekanntesten öffentlichen Cloud, übereinstimmt. Wir sind jetzt an einem Punkt angelangt, an dem wir NewEdge entmystifizieren und die Begeisterung unserer internen Teams für NewEdge nutzen möchten, um die Einzelheiten mit unseren Kunden und Partnern zu teilen.

Wir entwickeln NewEdge unter Berücksichtigung einer Reihe von Designgrundsätzen und das Ziel besteht darin, Verfügbarkeit, Leistung und Skalierbarkeit effektiv ins Gleichgewicht zu bringen. Da diese miteinander im Widerspruch stehen können, müssen wir nicht nur bewusste Entscheidungen darüber treffen, welche Hard- und Software wir jetzt verwenden, sondern auch um die Ecke denken und vorhersagen, was wir brauchen werden, bevor wir es brauchen. Unser aktueller Footprint mit über 50 Standorten nutzt eine Infrastruktur, die am ältesten Standort weniger als drei Jahre alt ist und von Dritten und unseren eigenen QA-Teams gründlich getestet wurde. Wir nutzen bei Bedarf erweiterte Plattformfunktionen, stürzen uns jedoch nicht kopfüber auf die neuesten Funktionen von Drittanbietern. Wo wir spezielle Funktionen benötigen, bauen wir sie selbst. Wir überdimensionieren das Netzwerk, um einen Puffer für die Skalierung vor Bedarf zu haben und wir arbeiten in einem nicht blockierenden Modus, sodass selbst wenn alle Dienste verfügbar sind, die Anwendung unserer Sicherheitsfunktionen den Kundenverkehr zu und von ihren SaaS-Anwendungen nicht drosselt. Bei Netskope unterliegt alles, was wir entwerfen, entwickeln und bereitstellen, einer Reihe von Grundprinzipien oder Werten, an die wir fest glauben, und unsere Kultur schreibt vor, dass wir unseren Fortschritt an diesen Prinzipien messen. Wir möchten die Frage beantworten können, ob wir das Leben unserer Kunden besser oder schlechter gemacht haben. Dazu nutzen wir Daten.

In diesem Blog werde ich einige Zeit darauf verwenden, die Rechenzentrumsstrategie von NewEdge zu erläutern und Ihnen die „Rechenzentrumsfabrik“ hinter NewEdge vorzustellen. Ich werde nicht nur im Detail darauf eingehen, was wir getan haben, sondern auch , warum wir es so getan haben. Außerdem werde ich einige unserer Best Practices weitergeben. Das Ziel besteht nicht nur darin, transparent zu sein und Sie von der Leistungsfähigkeit von NewEdge zu überzeugen, sondern auch darin, Erkenntnisse weiterzugeben, die Sie berücksichtigen können, wenn Ihr Unternehmen den bedeutenden Übergang in die Cloud vollzieht und wichtige Erkenntnisse der Cloud- und Hyperscale-Pioniere nutzen möchte.

Nutzen Sie einen schlanken Fußabdruck

Seit der Einführung von NewEdge vor etwa zwei Jahren haben wir unseren Rechenzentrums-Footprint vollständig neu gestaltet, indem wir Optimierungen in unserem gesamten Infrastruktur- und Softwareportfolio gefunden und implementiert haben. Unsere bisherige Architektur erforderte einen hybriden Mix aus mehreren physischen Racks vor Ort sowie eine erhebliche physische Präsenz in gehosteten Computerumgebungen. Wie viele unserer Konkurrenten verließen wir uns eine Zeit lang auf die öffentliche Cloud und konnten uns selbst von der unvorhersehbaren Leistung dieser Architekturen überzeugen, wenn es um die Bereitstellung von Inline-Sicherheitsdiensten in Echtzeit ging. Vor NewEdge beispielsweise erlebten wir erhebliche Leistungsschwankungen, da öffentliche Cloud-Anbieter den Datenverkehr entsprechend ihren Geschäftsanforderungen, Kosten oder anderen Faktoren umleiteten. Da die Latenzzeit für den Benutzerverkehr an manchen Standorten von einstelligen bis hin zu Dutzenden von Millisekunden (ms) reichte, kam es bei den Kunden zu Anwendungsproblemen, insbesondere dort, wo die Anwendungen empfindlich auf Jitter reagierten. Heute streben wir mit dem NewEdge-Footprint eine konstante Latenz im einstelligen Millisekundenbereich an. Dementsprechend brauchten wir eine Lösung, die leistungsstark, schlank und fokussiert ist und mehr Kapazität, Flexibilität und Leistung in einem einzigen Rack bietet. Darüber hinaus könnten wir durch den Einzel-Rack-Ansatz schnell reagieren, wenn wir in einem bestimmten geografischen Gebiet skalieren oder auf ein verändertes Nutzungsmuster reagieren müssen. Dieser Ansatz war nur mit einer erheblichen Investition in Kapital und Fachwissen möglich, und zu diesem Zweck investierte Netskope 100 Mitarbeiter (mich eingeschlossen) und 100 Millionen US-Dollar in den anfänglichen Ausbau der privaten NewEdge-Sicherheits-Cloud.

Erstellen Sie Rechenzentren ohne Persönlichkeiten

Wir haben sehr hart daran gearbeitet, unsere Infrastruktur einheitlich und hundertprozentig homogen zu gestalten, sodass kein Rechenzentrum anders aussieht als die anderen. Im Rahmen der Umstellung auf einen schlankeren, leistungsorientierten Footprint haben wir das Konzept integrierter Racks in unseren Datacenter-Factory-Ansatz implementiert. Wir bauen, bereiten vor, konfigurieren, testen und liefern ein Rechenzentrum als vorgefertigtes Rack aus, wobei jedes Rack auf genau dieselbe Weise aufgebaut ist. Dieser Ansatz gewährleistet in jedem Rechenzentrum absolute Konsistenz hinsichtlich der verfügbaren Dienste und der entsprechenden Konfiguration der umgebenden Infrastruktur und der zugrunde liegenden Komponenten.

Dieses Maß an Konsistenz und Einheitlichkeit reicht sogar dahingehend, dass sichergestellt wird, dass die Kabel in allen Rechenzentren weltweit an die exakt gleichen Ports angeschlossen werden! Auf diese Weise können wir die Automatisierung zur Beschleunigung der Bereitstellung nutzen und bei Bedarf eine automatische Korrektur durchführen. Während sich im Jahr 2020 ein Großteil der Welt mitten in einer globalen Pandemie befand, konnten wir durch den Einsatz von Automatisierung innerhalb von rund 30 Tagen weltweit mehr als 20 Rechenzentren in Betrieb nehmen, darunter vier Rechenzentren in Lateinamerika! Dies ist selbst für führende Cloud- und Hyperscale-Unternehmen ein noch nie dagewesenes Tempo der Bereitstellung und Skalierung. Vorbei sind die Zeiten, in denen man physische Boxen miteinander verkabeln und teures Personal in die ganze Welt schicken musste, um ein Rechenzentrum einzurichten.

Führen Sie umfangreiche Tests vor und nach der Bereitstellung durch

Obwohl die Konfiguration der NewEdge-Rechenzentren automatisiert ist und jedes Mal auf die gleiche Weise ausgeführt wird, wissen wir, dass Dinge kaputt gehen und unvermeidlich Probleme auftreten werden. Um das Risiko unserer Bereitstellungen zu minimieren, erfassen und bewerten wir, bevor ein NewEdge-Rechenzentrum zu seinem endgültigen Bestimmungsort aufbricht, über 2.000 einzigartige Kennzahlen, die Aufschluss über die allgemeine Systemintegrität geben. Hierzu gehören die Spannung an jedem Netzteil, die Speicherparität und das Leistungsniveau, die simulierte Belastung unserer Infrastruktur sowie detaillierte Tests der Servicefunktionalität. Ein Rechenzentrum versendet erst, wenn alle Artikel im erwarteten Zustand sind und alle Kriterien erfüllt sind. Dieselben Tests werden erneut durchgeführt , nachdem das Rechenzentrum in der Region angekommen ist. Und das Rechenzentrum wird erst dann in Betrieb genommen und in Produktion genommen, wenn alle Kennzahlen zu 100 % übereinstimmen und die Tests erfolgreich abgeschlossen sind.

Sobald das Rechenzentrum einmal in Betrieb ist, ist es unvermeidlich, dass es irgendwann seine Auslastungsgrenzen erreicht und der Prozess sich wiederholt. Dies ist ein wichtiger Punkt, da wir nicht einfach nur die Kapazität eines bestehenden Rechenzentrums erweitern. Stattdessen besteht der Ansatz von NewEdge darin, an einen anderen Standort in der gleichen Region zu expandieren, was die allgemeine Ausfallsicherheit unseres Netzwerks konzeptgemäß maximiert. Beispielsweise mussten wir dies im gesamten Vereinigten Königreich tun, zuerst mit unserem Rechenzentrum in London und dann mit der Hinzufügung von Manchester. Ähnliches gilt für Frankreich: Auf Paris folgt Marseille, und in Deutschland folgt Frankfurt, demnächst Düsseldorf. Erwähnenswert ist auch, dass zwar viele Anbieter ihre Auslastung bis an die „Bruchgrenze“ und oft darüber hinaus treiben, 20 % jedoch die Zielauslastung sind, die ein NewEdge-Erweiterungsereignis auslöst. Der Grund hierfür besteht darin, dass wir damit ungewöhnliche Verkehrsspitzen bewältigen, problemlos Zehn- oder Hunderttausende von Unternehmensbenutzern schnell und zuverlässig integrieren und unsere zugrunde liegende Infrastruktur generell härten möchten, um die absolut beste Leistung und Service-Ausfallsicherheit zu erreichen.

Mehr Kontrolle über das Kundenerlebnis

Ob es sich um unseren Data Center Factory-Ansatz handelt, um Entscheidungen über Komponenten, aus denen unsere integrierten Racks bestehen (z. B. Bare-Metal-Server, NVMe-SSDs oder Netzwerk-Switche mit hoher Bandbreite), Rechenzentrumsstandorte, Peering- oder Transitbeziehungen – wir übernehmen die volle Verantwortung für das Kundenerlebnis und es ist unsere Aufgabe, die entsprechenden Probleme zu umgehen. Es ist wichtig zu erkennen, dass wir bei unserer Zusammenarbeit mit Kunden überwiegend mit Datenverkehr über das Internet zu tun haben, sei es für den Zugriff auf Webinhalte, Workloads in der öffentlichen Cloud oder SaaS-Anwendungen. Heute dominiert der Webverkehr, der 90 % des gesamten Unternehmensverkehrs ausmacht, wobei 53 % des Cloud-bezogenen Datenverkehrs auf ihn entfallen. Es ist eine bekannte Tatsache, dass die Nutzung des Internets ohne spezielle Konfiguration oder Überlegungen, beispielsweise zum Routing, zu einer Erfahrung führt, die weitgehend außerhalb der Kontrolle des Absenders oder Empfängers liegt. Wir alle haben schon erlebt, dass unsere bevorzugten Websites oder Apps langsam sind (oder im schlimmsten Fall ausfallen) und wir hilflos sind, bis unser Internetdienstanbieter oder ein Mitarbeiter des IT-Helpdesks die Ursache des Problems beheben kann.

Grundsätzlich sind wir alle auf das Internet angewiesen, um mit anderen in Kontakt zu treten. Besonders akut ist dies in Unternehmen, wo das Internet für die Vernetzung der Mitarbeiter untereinander und mit ihren Kunden, Geschäftspartnern und Lieferanten von entscheidender Bedeutung ist. Diese Probleme im Zusammenhang mit Langsamkeit oder Ausfällen sind ein großes Problem. Aus diesem Grund haben wir mit der NewEdge-Architektur den Ansatz verfolgt, eine „Überholspur“ zu schaffen, die das traditionelle (und weniger vorhersehbare) öffentliche Internet überlagert. Dies wurde in früheren Blogs ausführlich besprochen, aber unser technischer und geschäftlicher Ansatz ist auf das Peering mit unseren Kunden, Geschäftspartnern und Web-, Cloud- und SaaS-Anbietern abgestimmt und priorisiert diese, um den Datenverkehr so direkt und deterministisch wie möglich zu leiten. Um beispielsweise von Punkt A nach Punkt B zu gelangen, halten wir den Datenverkehr so lange wie möglich und in manchen Fällen für die gesamte Dauer des Datenverkehrs auf privaten Verbindungen. Um es auf den Punkt zu bringen: Heute sendet Netskope tatsächlich weniger Datenverkehr über das öffentliche Internet als über unsere halbprivaten oder privaten Peering-Links. Diese End-to-End-Kontrolle ist genau das, was NewEdge ermöglicht, ein überlegenes Benutzererlebnis und eine hervorragende Anwendungsleistung bereitzustellen. Überzeugen Sie sich selbst davon, indem Sie den NewEdge-Geschwindigkeitstest durchführen, der die branchenführend schnellen Zufahrten zu unserem Netzwerk hervorhebt. Aus diesem Grund sind wir an jedem NewEdge-Rechenzentrumsstandort auch direkt mit Microsoft und Google verbunden, um nur zwei herausragende Beispiele zu nennen.

Näher an unseren Kunden

Aufgrund der schlanken, modularen Natur der physischen Präsenz von NewEdge konnten wir unsere Rechenzentren an mehr Standorten weltweit (und schneller) errichten als unsere Wettbewerber. Wir haben einen äußerst ehrgeizigen Plan zur weltweiten Abdeckung umgesetzt und ein Netzwerk mit mehr Standorten mit Rechenressourcen zur Verarbeitung des Sicherheitsverkehrs aufgebaut als die größten Cloud-Anbieter. Dies hat uns dazu gezwungen, eine physische Präsenz in Gebieten der Welt aufzubauen, die aufgrund von Platzbeschränkungen, eingeschränkter oder instabiler Stromversorgung, geopolitischen Unruhen oder anderen Problemen für die meisten Organisationen normalerweise eine unüberwindbare Markteintrittsbarriere darstellten. Die gute Nachricht ist: Wir übernehmen die harte Arbeit, unsere Racks an diese physischen Standorte zu bringen – und bieten nicht nur eine visuelle Darstellung der Anwesenheit an einem Standort, beispielsweise über virtuelle POPs, die nicht in der Lage sind, den Datenverkehr tatsächlich zu verarbeiten. Daher können wir NewEdge direkt mit den „Augennetzwerken“ der Endbenutzer oder mit Web-, Cloud- und SaaS-Anbietern verbinden, die auf dem Markt präsent sind. Im Einklang mit dem vorherigen Grundsatz „mehr Kontrolle über das Kundenerlebnis“ verschafft uns genau dies unseren Leistungs- und Benutzererlebnisvorteil.

Reduzieren Sie den Explosionsradius

Ein weiterer zentraler Grundsatz von NewEdge besteht darin, dass wir zur Gewährleistung einer hohen Verfügbarkeit und Maximierung der Netzwerkbelastbarkeit erhebliche Anstrengungen unternehmen, um den potenziellen Umfang von Vorfällen, die die Leistung beeinträchtigen könnten, zu planen und zu reduzieren. Da viele unserer Wettbewerber große, konzentrierte Rechenzentren (und davon weniger) nutzen und nur auf dem Papier über eine lokale Marktpräsenz verfügen (beispielsweise mit vPOPs), können die potenziellen Auswirkungen eines einzelnen Ausfalls sehr gravierend sein. Wenn ein einzelnes Rechenzentrum ausfällt oder offline geht, kann dies die Erfahrung einer größeren Untergruppe von Kunden (möglicherweise Millionen von Benutzern) beeinträchtigen, was wiederum Auswirkungen auf deren Geschäftsbetrieb hat. Dies ist ein völlig inakzeptables Ergebnis und genau deshalb sind Service Level Agreements (SLAs) für Kunden so wichtig, um alle Ansprüche des Anbieters zu untermauern. (Zur Klarstellung: Netskope bietet als Teil jedes Vertrags ein SLA für 5-9s oder 99,999 % Betriebszeit/Verfügbarkeit an, um unsere Inline-Dienste wie Secure Web Gateway, Cloud Access Security Broker oder Zero Trust Network Access zu garantieren.)

Wenn wir das Szenario weiter verfolgen und den Ausfall selbst außer Acht lassen, wird das Problem noch komplexer – fast wie eine sprichwörtliche Bombe, die im Netzwerk explodiert –, wenn wir erkennen, wie viel Datenverkehr, Konfigurations- oder Richtliniendetails oder andere wichtige Daten sofort an den sekundären oder Backup-Standort verschoben werden müssen. Um dieses Problem direkt anzugehen, besteht eines der eleganten Designmerkmale von NewEdge darin, diese potenziellen Explosionsradien zu minimieren, sodass bei einer Beeinträchtigung eines Rechenzentrums aus irgendeinem Grund ein Failover schnell, automatisch und reibungslos erfolgt und die Auswirkungen auf das restliche Netzwerk oder den sonstigen Kundenverkehr so gering wie möglich bleiben. Kurz gesagt ermöglicht dieser Ansatz, dass die Rechenzentren von NewEdge jeweils als austauschbare Kapazitätseinheiten fungieren, sodass die Außerbetriebnahme eines Rechenzentrums aufgrund des Designs ein „Nicht-Ereignis“ ist. Dies kann auf einen unerwarteten Ausfall oder sogar eine einfache alltägliche Verwaltungsaufgabe zurückzuführen sein, z. B. das Anwenden von Sicherheitspatches, das Durchführen von Software-Upgrades oder die Reparatur beschädigter oder veralteter Hardware. In beiden Fällen ist NewEdge mit Blick auf diesen reduzierten Explosionsradius konzipiert, um jegliche Beeinträchtigung des Benutzererlebnisses zu vermeiden. Dadurch können wir die langen Ausfallzeiten oder Wartungsfenster, die für die Kunden störend sind, minimieren (oder in den meisten Fällen vermeiden). Letztendlich besteht unsere Strategie mit NewEdge und unserem „Data Center Factory“-Ansatz darin, einen Dienst bereitzustellen, der „einfach funktioniert“ und zuverlässig auf Carrier-Niveau ist, ähnlich wie der Wählton von früher. Wenn es um die Sicherheit und den Schutz der wertvollen digitalen Vermögenswerte und Daten moderner Unternehmen geht, sind keine Opfer oder Kompromisse akzeptabel. Um mehr über Netskope und unsere private Sicherheitscloud namens NewEdge zu erfahren, besuchen Sie: https://www.netskope.com/netskope-one/newedge.