Por Dentro Da Fábrica De Data Centers Da Netskope NewEdge

Ao longo do ano passado, publicamos vários blogs falando sobre a NewEdge, a rede ou a infraestrutura na qual oferecemos os serviços da plataforma Netskope Security Cloud, comparando também, outras abordagens que os fornecedores de segurança em nuvem adotaram. Além disso, falamos bastante sobre a abordagem da Netskope para superar as limitações de desempenho inerentes da Internet pública, bem como porque o backhaul (ou “hairpinning”) dentro da nuvem é uma estratégia ruim, porque a cobertura não envolve apenas o número de data centers e a importância do peering e de uma estratégia de interconexão consistente para o melhor desempenho e experiência do usuário.

Um assunto que surge com frequência em conversas com líderes de redes e infraestrutura e que atrai muito interesse, é a abordagem que estamos adotando na Netskope para realmente construir e dimensionar a NewEdge. Particularmente, estou muito animado para contar essa história, pois minhas responsabilidades diárias envolvem fazer isso acontecer e se alinham com minhas experiências anteriores na AWS, a maior e mais conhecida nuvem pública do mundo. Agora estamos vivendo um momento em que queremos desmistificar a NewEdge, aproveitar o entusiasmo de nossas equipes internas e compartilhar os detalhes com nossos clientes e parceiros.

Nós construímos a NewEdge com uma série de princípios de design em mente, com o objetivo de equilibrar efetivamente a disponibilidade, o desempenho e a escalabilidade. Como esses elementos podem entrar em conflito um com o outro, temos que não apenas tomar decisões sobre qual hardware e software usar agora, mas também analisar as bordas e prever o que precisaremos antes mesmo de precisarmos de fato. Nossa presença em mais de 50 sites utiliza infraestrutura com menos de três anos no local mais antigo e foi testada vigorosamente por terceiros e por nossas próprias equipes de controle de qualidade. Utilizamos recursos avançados da plataforma quando necessário, mas não recorremos precipitadamente às funcionalidades de ponta fornecidas por terceiros. Onde precisamos de funcionalidades específicas, nós mesmos as construímos. Supervisionamos a rede para nos dar um buffer e escalar antes que seja necessário e operamos em um modo sem bloqueio para que, mesmo com todos os serviços disponíveis, a aplicação de nossos recursos de segurança não reduza o tráfego do cliente de e para suas aplicações SaaS. Na Netskope, tudo o que projetamos, desenvolvemos e implementamos é regido por um conjunto de princípios ou valores fundamentais nos quais acreditamos firmemente e em nossa cultura para que possamos medir nosso progresso em relação a esses princípios. Queremos ser capazes de responder se tornamos a vida melhor ou pior para nossos clientes e usamos dados para fazer isso.

Neste blog, vou revelar a estratégia de data center da NewEdge, apresentando para você à "fábrica de data centers" por trás da NewEdge. Não irei apenas detalhar o que fizemos, mas também porque fizemos dessa forma e quais são nossas melhores práticas. O objetivo não é apenas ser transparente e convencê-lo do potencial da NewEdge, mas também compartilhar insights para que você possa incorporar na sua empresa, à medida que sua organização faz a transição para cloud e busca absorver os principais aprendizados dos pioneiros da nuvem e da hiperescala.

Aproveite uma rede enxuta

Desde o começo da NewEdge há cerca de dois anos, redesenhamos completamente a topologia de nossos data centers, encontrando e implementando otimizações em nossa infraestrutura e portfólio de software. Nossa arquitetura anterior exigia uma combinação híbrida de vários racks on-premises e uma presença física em ambientes de computação hospedados. Como muitos de nossos concorrentes, contamos com a nuvem pública por um tempo e pudemos ver por nós mesmos o desempenho imprevisível dessas arquiteturas quando se tratava da entrega de serviços de segurança inline em tempo real. Antes da NewEdge, experimentamos uma variabilidade significativa no desempenho à medida que os provedores de nuvem pública roteavam o tráfego de acordo com suas necessidades de negócios, custos ou outros. Com a latência para o tráfego do usuário variando de um dígito a dezenas de milissegundos (ms) em alguns locais, os clientes enfrentavam problemas nas aplicações, especialmente onde elas eram sensíveis ao jitter. Hoje, com a rede NewEdge, nós nos esforçamos para obter latência consistente de milissegundos de um dígito. Para isso, precisávamos de uma solução que fosse enxuta e focada—fornecendo mais capacidade, flexibilidade e desempenho em um único rack. Além disso, a abordagem de rack único nos permitiria agir rapidamente se precisássemos dimensionar em uma área geográfica específica ou abordar um padrão de uso em mudança. Essa abordagem só foi possível com um investimento significativo em capital e experiência e, para esse fim, a Netskope investiu em 100 pessoas (incluindo eu) e US$ 100 milhões para fazer a construção inicial da nuvem privada de segurança NewEdge.

Crie data centers homogêneos

Trabalhamos muito para tornar nossa infraestrutura única, unificada e 100% homogênea, para que nenhum data center seja diferente de outro. Como parte da mudança para uma rede enxuta e focada no desempenho, implementamos o conceito de racks integrados na abordagem de nossa fábrica de data centers. Nós construímos, pré-testamos, configuramos, testamos e enviamos um data center como um rack pré-construído, com cada rack construído exatamente da mesma maneira. Essa abordagem garante consistência total em cada data center no que diz respeito aos serviços disponíveis e à configuração relacionada à infraestrutura do entorno e dos componentes subjacentes.

Esse nível de consistência e uniformidade se estende até garantir que os cabos sejam conectados às mesmas portas em todos os data centers em todo o mundo! Isso nos permite usar a automação para acelerar a implementação e empregar a autorremediação quando necessário. Até este ponto, enquanto a maior parte do mundo estava no meio de uma pandemia global em 2020, por meio do nosso uso de automação, fomos capazes de implementar mais de 20 data centers em todo o mundo, incluindo quatro data centers na América Latina em cerca de 30 dias! Este é um ritmo inédito de implementação e escalonamento, mesmo para empresas líderes em nuvem e hiperescala. Foi-se o tempo de cabear caixas físicas e enviar equipes caras em todo o mundo para lançar um data center.

Empregue exaustivamente testes pré e pós-implementação

Embora a configuração dos data centers NewEdge seja automatizada e executada exatamente da mesma maneira todas as vezes, sabemos que as coisas podem quebrar e problemas ocorrerão. Para diminuir o risco em nossas implementações, antes de um data center NewEdge partir para seu destino, coletamos e avaliamos mais de 2.000 métricas exclusivas que indicam a saúde geral do sistema. Isso inclui a tensão em cada fonte de alimentação e níveis de paridade de memória e de desempenho, simulação da carga em nossa infraestrutura e teste granular da funcionalidade do serviço. Um data center não é enviado até que todos os itens estejam em seu estado esperado e todos os critérios sejam atendidos. Os mesmos testes são realizados novamente após o data center chegar à região. O data center não é lançado e entra em produção até que todas as métricas estejam 100% alinhadas e os testes sejam concluídos com sucesso.

Uma vez em produção, é inevitável que o data center acabe atingindo seus limites de utilização e é quando o processo se repete. Este é um ponto importante, pois nós não apenas adicionamos capacidade a um data center existente. Em vez disso, a abordagem NewEdge é expandir para um local diferente na mesma região, o que maximiza a resiliência geral de nossa rede por design. Por exemplo, tivemos que fazer isso em todo o Reino Unido, primeiro com nosso data center de Londres e, em seguida, adicionando Manchester. O mesmo ocorreu para a França, com Paris seguida por Marselha, ou Frankfurt na Alemanha seguido por Dusseldorf. Também vale a pena mencionar que, embora muitos fornecedores empurrem sua utilização para, e muitas vezes além do "ponto de ruptura", 20% é a meta de utilização que desencadeia um evento de expansão da NewEdge. A razão para isso é garantir que possamos lidar com picos de tráfego incomuns, ter a capacidade de integrar dezenas ou centenas de milhares de usuários corporativos com facilidade e fortalecer nossa infraestrutura para obter o melhor desempenho absoluto e resiliência de serviço.

Tenha mais controle sobre a experiência do cliente

Seja com nossa abordagem de fábrica de data centers, decisões imediatas sobre os componentes que compõem nossos racks integrados (por exemplo, servidores bare-metal, SSDs NVMe ou switches de rede de alta largura de banda), locais do site do data center, relações de peering ou de trânsito, assumimos total responsabilidade pela experiência do cliente e é nosso trabalho arquitetar considerando eventuais problemas. É importante reconhecer que a grande maioria de nosso envolvimento com os clientes demanda lidar com o tráfego que atravessa a Internet, seja para acessar conteúdo da web, workloads na nuvem pública ou aplicações SaaS. Hoje, o tráfego da web domina, respondendo por 90% da maior parte do tráfego corporativo, com 53% do tráfego relacionado à nuvem. Como sabemos, usar a Internet sem qualquer configuração especial ou pensamento sobre o roteamento, por exemplo, resulta em uma experiência que está em grande parte fora do controle do remetente ou do destinatário. Todos nós já experimentamos lentidão (ou, no pior dos casos, interrupções) em nossos sites ou aplicações favoritas que nos deixam na mão até que nosso provedor de serviços de Internet ou helpdesk de TI fosse capaz de resolver o que estava causando o problema.

Todos nós dependemos da Internet para nos conectarmos com outras pessoas e isso é mais importante em empresas onde ela é absolutamente crítica para conectar funcionários uns aos outros e a seus clientes, parceiros de negócios e fornecedores. Esses problemas de lentidão ou interrupções são muito importantes. É por isso que, com a arquitetura NewEdge, adotamos a abordagem de criar uma "via expressa" que se sobrepõe à Internet pública tradicional (e menos previsível). Já falamos muito sobre isso em blogs anteriores, mas nossa abordagem técnica e de negócios se alinha e prioriza o peering com nossos clientes, parceiros de negócios e provedores de web, nuvem e SaaS para rotear o tráfego da maneira mais direta e determinista possível. Por exemplo, para ir do ponto A ao ponto B, mantemos o tráfego em links privados pelo maior tempo possível e, em alguns casos, por todo o caminho de tráfego. Hoje em dia, a Netskope envia menos tráfego pela Internet pública do que fazemos por meio de nossos links de peering semiprivados ou privados. Esse controle de ponta a ponta é precisamente o que permite que a NewEdge ofereça uma experiência superior de usuário e de desempenho das aplicações. Você pode ver isso por si mesmo fazendo o teste de velocidade NewEdge, que destaca os acessos mais rápidos líderes do setor em nossa rede. É também por isso que fazemos o peer diretamente a Microsoft e o Google, como apenas dois exemplos, em cada local de data center da NewEdge.

Aproxime-se de seus clientes

Devido à natureza enxuta e modular da estrutura física da NewEdge, fomos capazes de posicionar nossos data centers em mais lugares pelo mundo (e mais rapidamente) do que nossos concorrentes. Executamos um plano extremamente ambicioso para cobertura global e construímos uma rede com mais locais com recursos de computação para o processamento de segurança no tráfego, mais do que os maiores provedores de nuvem. Isso nos obrigou a estabelecer uma presença física em áreas do mundo que, devido a restrições de espaço, fornecimento de energia limitado ou instável, turbulência geopolítica ou outras preocupações, normalmente apresentam uma barreira intransponível de entrada para a maioria das organizações. A boa notícia é que, como fazemos o trabalho duro de colocar nossos racks nesses locais físicos, em vez de fornecer apenas uma representação visual de estar em um local, por exemplo, por meio de POPs virtuais que são incapazes de realmente processar o tráfego, podemos conectar a NewEdge diretamente às redes “oculares” do usuário final ou provedores de Web, nuvem e SaaS com presença no mercado. Em alinhamento com o princípio anterior de ter “mais controle sobre a experiência do cliente”, é precisamente isso que nos dá a vantagem de nosso desempenho e experiência do usuário.

Reduza o raio de explosão

Como mais um princípio fundamental da NewEdge, a fim de oferecer alta disponibilidade e maximizar a resiliência de nossa rede, um trabalho significativo é feito para planejar e reduzir o escopo potencial de qualquer incidente que possa degradar o desempenho. Como muitos de nossos concorrentes usam data centers grandes e concentrados (e menos deles) combinados com uma presença de mercado local “apenas no papel” (com vPOPs, por exemplo), o impacto potencial de qualquer interrupção pode ser muito significativo. Se um único data center ficar inativo ou offline, a experiência de um subconjunto maior de clientes (potencialmente milhões de usuários) pode ser afetada, o que por sua vez se repercute nas operações de seus negócios. Este é um resultado totalmente inaceitável e é precisamente por isso que os Acordos de Nível de Serviço (SLAs) são tão importantes para os clientes como suporte a qualquer reclamação do fornecedor. (Para registro, a Netskope oferece um SLA de disponibilidade/ tempo de atividade de 5-9s ou 99,999% como parte de cada contrato para garantir nossos serviços inline, como Secure Web Gateway, Cloud Access Security Broker ou Zero Trust Network Access.)

Continuando com o cenário, além do evento de interrupção em si, o problema se torna ainda mais complexo — quase como uma bomba proverbial explodindo na rede — quando você reconhece a quantidade significativa de tráfego, detalhes de configuração ou política, ou outros dados críticos que precisam ser transferidos imediatamente para o local secundário ou de backup. Para resolver esse problema de frente, uma das características elegantes do design do NewEdge é minimizar esses raios de explosão em potencial, de modo que, se um data center for prejudicado por qualquer motivo, o failover ocorrerá de forma rápida, automática e graciosa, com o mínimo de impacto sobre o restante da rede ou sobre o tráfego de outros clientes. Em suma, essa abordagem permite que os data centers NewEdge atuem como unidades fungíveis de capacidade, de modo que o design faz com que tirar um data center de serviço seja um "não evento". Isso pode ser devido a uma interrupção inesperada ou até mesmo a uma simples tarefa administrativa diária, como aplicar patches de segurança, realizar atualizações de software ou reparar hardware danificado ou em fim de vida útil. Em ambos os cenários, o NewEdge foi projetado com esse raio de explosão reduzido em mente para eliminar qualquer impacto na experiência do usuário. Isso nos permite minimizar (ou, na maioria dos casos, eliminar) os longos períodos de inatividade ou janelas de manutenção que prejudicam os clientes. No final das contas, nossa estratégia com a NewEdge e nossa abordagem de "fábrica de data center" é oferecer um serviço que "simplesmente funcione" e que seja confiável em nível de operadora, muito parecido com o tom de discagem do passado. Quando se trata de segurança e proteção dos valiosos ativos e dados digitais da empresa moderna, nenhum sacrifício ou compensação é aceitável. Para saber mais sobre a Netskope e nossa nuvem privada de segurança chamada NewEdge, visite: https://www.netskope.com/netskope-one/newedge.