0:00:00.7 Max Havey: Olá, bem-vindo a mais uma edição do Security Visionaries, um podcast sobre o mundo da infraestrutura cibernética, de dados e tecnologia, reunindo especialistas de todo o mundo e de vários domínios. Sou seu anfitrião, Max Havey. E hoje estamos mergulhando no mundo dos lagos de dados com Troy Wilkinson, CISO do Interpublic Group, também conhecido como IPG. Troy, bem-vindo ao show.
0:00:21.5 Troy Wilkinson: Obrigado Max. É realmente um grande prazer estar aqui.
0:00:23.8 Max Havey: Fico feliz em ter você. Então, para começar aqui, você pode nos explicar quais são os conceitos de data lakes e por que eles são importantes? Como um aspecto da segurança moderna.
0:00:34.2 Troy Wilkinson: Sim, com certeza. Acho importante dar um passo atrás e falar sobre o motivo pelo qual coletamos dados em primeiro lugar, tudo o que sentimos, vemos e tocamos e a tecnologia tem algum tipo de registro de máquina que sai disso. Alguns desses registros de eventos são apenas logins e saídas normais, mas alguns deles são uma telemetria de segurança muito importante. Então, o que temos feito nos últimos 25, 30 anos é realmente tentar decidir o que é importante para nós do ponto de vista das operações de segurança, quais dados precisamos coletar, quais dados são importantes para um evento ou incidente e, em seguida, mergulhar na lógica ou na ciência de dados por trás de como podemos unir esses incidentes ou eventos. Portanto, esse tem sido um problema de dados por um longo período de tempo, e somos muito firmes entrando na próxima geração ou na próxima fronteira desses dados ao dissociar os dados da análise por tanto tempo, temos Fui convidado a colocar esses dados em um lugar único, o que eu gosto de chamar de SIM legado, onde você canaliza seus dados para um banco de dados enorme e, em seguida, faz a análise para reunir insights de todos os seus incidentes. Agora, com a estrutura do data lake, ser capaz de colocar seus dados em um esquema comum em um data lake permite que você separe esses dados de suas análises, então, se a próxima solução de IA inovadora aparecer e você quer aplicar essa IA a.
0:01:55.3 Troy Wilkinson: Esse conjunto de dados é ótimo. É um toque de botão, você não precisa mover seus dados para uma nova solução, não precisa transferi-los para qualquer lugar, basta aplicar essas novas análises, e acho que isso realmente oferece aos líderes e operadores de segurança a flexibilidade de como realizam operações de segurança e pesquisas de correlação em seus data lakes. Então, eu realmente sinto que essa flexibilidade, essa transparência e a propriedade dos dados, e a capacidade de decidir por quanto tempo você mantém esses dados é critérios de tomada de decisão realmente importantes para data lakes e como eles mudarão o setor das operações de segurança.
0:02:30.5 Max Havey: Até certo ponto, é uma espécie de lugar que serve como repositório para todos esses dados que as organizações que eles criaram ao longo de todos esses anos, e que agora podem usar esses dados para qualquer finalidade que precisem, seja com um modelo de IA ou com análises ou qualquer outra coisa, mas é essencialmente algo que as ajuda a manter tudo contido de uma forma que também possam mantê-los seguros.
0:02:51.7 Troy Wilkinson: Sim, com certeza, e eu também quero abordar o custo, então, se você pensar que o custo dos dados caiu tremendamente, então armazenar dados na nuvem custa menos de centavos por gigabyte agora, então você pode armazenar mais dados, então, no passado, você realmente tinha que estar ciente de quais dados eu estou trazendo para o meu SIM e quais dados eu posso fazer as correlações estavam ativadas, então havia limitações, e posso decidir, como líder de segurança, que não posso usar essa fonte de dados muito volumosa porque é muito caro fazer isso, mas eu realmente queria.
0:03:17.7 Troy Wilkinson: Agora, com a estrutura do data lake, você pode trazê-la a um custo muito menor e usá-la para fazer pesquisas de correlação, algo que nunca foi capaz de fazer antes. Por exemplo, os registros de DNS geralmente são muito ruidosos e incomuns, então muitos líderes seguros não os trazem. No entanto, eles são muito valiosos em casos de incidentes ou se você quiser voltar e ver se um usuário acessou um site específico e realmente se debruçou. Então, com esses dados em um data lake onde o armazenamento é muito barato, você pode tê-los para investigações de longo prazo e muito aprofundadas, especialmente em uma investigação forense após um incidente.
0:03:51.5 Max Havey: O advento total de ter esse armazenamento barato e de poder ter todos esses dados acaba criando novas oportunidades de como você pode melhor usá-los. Ter mais armazenamento está levando a mais inovação com esses dados e a coisas mais interessantes que as pessoas da segurança e de outros lugares podem fazer com esses dados.
0:04:08.7 Troy Wilkinson: Com certeza, e outra coisa a mencionar é que ser capaz de armazenar esses dados ao longo do tempo permite que o líder de segurança aplique diferentes tipos de análise a eles. Como exemplo, hoje temos vários tipos de pesquisas geradas por IA e eventos de correlação gerados por IA, e podemos unir a telemetria de todas as suas fontes de dados em grande escala e com rapidez, ou nunca conseguimos fazer isso antes. Agora, essa era a promessa da SIM no passado: reunir todos os seus dados em um único lugar. Vamos fazer toda essa interpretação sofisticada. No entanto, acho que nunca chegamos lá do ponto de vista de um operador de rua em grande escala por causa das despesas. Devido ao conhecimento necessário para executá-los e à manutenção, ficamos no local por muito tempo, então o data center estava cheio de servidores que você tinha para manter, e então passamos para uma era da nuvem, em que agora seu SIM está na nuvem, e é muito caro com a potência computacional necessária para fazer isso analítica altamente complexa, sendo capaz de desacoplar seus dados e, o mais importante, ter esses dados em um esquema comum ou no esquema de estrutura aberta de segurança cibernética, de forma que cada fonte de log esteja no mesmo esquema, de forma que um nome de host seja um nome de host e um computador seja um computador, e um endereço IP seja um endereço IP, você não precisa traduzir isso, não precisa examinar vários índices ou fontes de dados e traduzi-lo.
0:05:24.2 Troy Wilkinson: Em outras palavras, tudo está no mesmo idioma, você pode fazer perguntas sobre seus dados em grande escala e em vários lugares diferentes, o que realmente ajuda a encontrar aquela agulha na pilha de agulhas, como gostamos de dizer, para encontrar agentes de ameaças fazendo coisas ruins, exportando lateralmente sua infraestrutura, seus servidores, sua nuvem, juntando-os onde você pode ter perdido esses insights antes.
0:05:45.8 Max Havey: Absolutamente. E isso me leva à minha próxima reflexão aqui: quais são alguns dos desafios que você enfrentou como CISO quando se trata de usar data lakes e proteger data lakes?
0:05:54.6 Troy Wilkinson: Bem, acho que os desafios tendem a ser os mesmos de qualquer tipo de fonte de dados, você precisa ter proteções de dados implementadas, propriedade e linhagem de dados, ter certeza de que está descontinuando os dados no prazo certo, de acordo com os requisitos regulatórios que você tem. Portanto, você ainda tem as mesmas preocupações com a proteção de dados que teria com qualquer outra fonte de dados.
0:06:14.5 Max Havey: Com certeza, e nesse mesmo tipo de linha, por que os data lakes se tornaram uma superfície de ameaça cada vez mais importante para se proteger de agentes maliciosos e outras pessoas que estão tentando entrar lá ou envenenar esses dados? Por que isso está se tornando uma superfície de ameaça importante a ser lembrada pelos profissionais de segurança?
0:06:31.9 Troy Wilkinson: Sim, boa pergunta. Acho que, do ponto de vista dos dados, os agentes de ameaças estão sempre procurando dados para exfiltrar. Acho que vimos que, como um tema crescente entre os agentes de ameaças nos últimos anos, os recentes incidentes de flocos de neve que vimos em várias grandes organizações nos mostram que os agentes de ameaças estão procurando grandes fontes de dados para exfiltrar e, portanto, as proteções de dados são extremamente importantes. Certamente, a proteção de dados e a exfiltração estão no topo das ameaças livro, e por isso estamos sempre procurando protegê-lo. Acho que os agentes de ameaças realmente pretendem acessar os dados da empresa e os consideram muito valiosos. Costumávamos ver ataques de ransomware em que apenas criptografavam os servidores e mantinham as empresas como reféns. Agora, na verdade, elas estão exfiltrando esses dados. Portanto, são dados secundários e até terciários, ransomware, onde você diz: Se você não nos pagar, divulgaremos seus dados ao público, para que os dados se tornem uma mercadoria monetizada para que os agentes da ameaça continuem sendo um alvo.
0:07:24.6 Max Havey: Com certeza, e você viu que, com corporações ou organizações que tiveram grandes vazamentos de dados, especificamente da Nintendo, houve algum tipo de grande escala, como corporações de entretenimento e outras pessoas em todos os setores, ao longo dos anos, em que eles tiveram esse tipo de grande vazamento de dados, e acho que é um ponto interessante que existem esses tesouros de dados agora que talvez não existissem há 15, 20 anos, só porque somos capazes de controlá-la agora.
0:07:49.2 Troy Wilkinson: Ao analisarmos os conjuntos de dados, analisamos as informações de hackeamento e extração de filmes pela Sony. Veja os outros setores bancários em que eles estão tentando extrair informações dos clientes. Acho que cada conjunto de dados é igualmente único e precisa ser protegido, mas se você pensar nos lagos de dados de segurança de que estamos falando aqui na telemetria de segurança para operações de segurança, os agentes de ameaças poderiam ter uma visão muito ampla do que um cliente faz para se proteger, o que lhes daria um caminho para aproveitá-los ainda mais, em outras palavras, eles poderiam encontrar maneiras de se proteger para entrar em seus backups, em seus bancos de dados, em seus servidores, e assim a telemetria de segurança também é muito valiosa para os agentes de ameaças, por isso precisamos até mesmo colocar mais barreiras em torno de nossos data lakes.
0:08:29.4 Max Havey: Com certeza, e então, eu sei que falamos sobre a ideia de usar data lakes como algo para ajudar a treinar modelos de IA e coisas desse tipo. Sei que a ideia de envenenar dados é algo que representa um risco real quando se trata de treinamento, IA generativa e outros modelos de IA. Como isso é um problema e quais são algumas maneiras pelas quais as pessoas podem pensar em se proteger contra isso quando se trata de data lakes?
0:08:47.5 Troy Wilkinson: Então, quando analisamos grandes modelos de linguagem e outros tipos de modelos básicos para inteligência artificial que estamos alimentando, esse é um modelo que você está construindo e mantendo no local ou em sua própria nuvem. Acho muito importante entender que essa opção de envenenamento de dados existe para os agentes de ameaças aproveitarem. Você precisa ter validação de entrada, garantir que ninguém seja capaz de basicamente envenenar as entradas e também de exfiltrar. Mesmo que você tenha uma arquitetura de trapos ou uma arquitetura de referência para compartilhar um modelo de IA, você ainda pode ter um pouco da intoxicação de dados no nível de entrada e também pode ter uma exfiltração de dados, onde há uma troca entre a entrada do usuário e a troca com o modelo básico subjacente, então eu acho que é muito importante proteger todos os componentes disso.
0:09:32.9 Troy Wilkinson: E é um gênero diferente de segurança neste momento, em que estamos vendo a proteção da IA, protegendo o modelo básico, protegendo e detectando o envenenamento de dados e também o viés, e esse viés pode ser inerente ou desconhecido, em que o senhor nem percebe que seu modelo está se transformando em um grande algoritmo que o está levando para o caminho errado, Acho que estamos bastante seguros em relação a isso porque não estamos implementando ou instituindo modelos de IA em cima de nossos Data lakes de segurança em escala, mas há fornecedores que estão fazendo isso nos bastidores, portanto, eles teriam um grande desafio para proteger esses modelos subjacentes, mas para nós, acho que como profissionais de todo o setor, ser capaz de colocar todos os nossos dados em um Data lake central e implicar Advanced Analytics a ele ainda é o que eu consideraria aprendizado de máquina e algumas das pesquisas de correlação de segurança do tipo mais antigo. Agora, a melhor parte de um data lake, novamente, é ter seus dados em um esquema comum e em um local centralizado como esse, você pode mudar a análise. Portanto, se a próxima solução de IA surgir, digamos, nos próximos 12 meses, onde.
0:10:44.9 Troy Wilkinson: Os operadores de segurança dizem que eu quero aplicar essa nova IA ao meu data lake, é muito fácil apertar esse botão e fazer isso sem precisar mover esses dados, então temos a flexibilidade necessária, mas acho que ainda não estamos prontos para proteger esse modelo básico em nosso data lake.
0:10:58.8 Max Havey: Com certeza, e isso remete ao que você estava dizendo sobre a ideia de que todos os dados estão falando a mesma língua, que tudo o que existe precisa ser decodificado de uma forma que confunda seus operadores de segurança e coisas do tipo. E acho que é especialmente interessante, considerando a rapidez com que a segurança, a IA e toda a inovação tecnológica estão avançando neste momento. Parece que estamos vendo novas soluções surgindo a cada duas semanas e, sendo capazes de ajustar esses dados e aplicá-los adequadamente, se você vê uma solução surgindo, acho que é muito empolgante e muito interessante, e diz muito sobre o que você pode fazer com a inovação no futuro.
0:11:33.2 Troy Wilkinson: Com certeza, acho que uma das vantagens mais exclusivas que vejo no curto prazo da IA é poder traduzir consultas complexas para um operador de segurança escrever em linguagem natural. Acho que a equipe de operações de segurança se tornou muito hábil em escrever scripts e consultas complexas para consultar seus dados, mas treinar essa próxima geração de operadores de segurança será muito mais fácil se eles puderem simplesmente fazer perguntas sobre seus dados, me mostrar onde estão ou onde eu tenho essa vulnerabilidade. Ser capaz de fazer apenas perguntas normais e depois fazer com que a IA traduza isso em uma consulta complexa que possa pesquisar o Data Lake muito rapidamente nos ajudará a obter melhores resultados e mais rapidamente.. Também acho que o data lake nos capacitará a manter esses dados por longos períodos de tempo, para que, se você tiver uma violação, se uma empresa tiver uma violação, você possa olhar para trás e combinar uma telemetria que talvez não tivesse a opção de fazer antes.
0:12:25.6 Troy Wilkinson: Por exemplo, no IBM Ponemon Institute, no ano passado, a duração média de uma violação antes da detecção é de cerca de 180 dias, ou seja, seis meses antes de uma empresa perceber que os agentes de ameaças estão em seu ambiente. Portanto, se você não estiver escondendo seis meses dessa telemetria completa de seus firewalls, de sua detecção e resposta de terminais e de seu antivírus, perderá alguns desses componentes críticos de dados para reunir novamente a história de como aquele agente de ameaças entrou e o que eles fizeram no início Access, o data lake permite que você armazene esses dados a um custo muito baixo por longos períodos de tempo e, portanto, você pode voltar e usá-los em sua investigação para descobrir exatamente o que aconteceu desde o momento da entrada até hoje.
0:13:06.3 Max Havey: E nesse mesmo tipo de pensamento, você viu algum incidente importante de segurança relatado como resultado de data lakes protegidos de forma inadequada e, em caso afirmativo, há alguma lição importante que possa ser aprendida com esses tipos de incidentes?
0:13:19.6 Troy Wilkinson: Sim, acho que a recente edição da Snowflake é um bom exemplo. Portanto, esse é um enorme banco de dados Data lake que os clientes usam por vários motivos. Usamos o Ticketmaster, que é um dos incidentes mais conhecidos relacionados a flocos de neve deste ano. Acredito que seja um bom exemplo de como usar a higiene cibernética adequada, ter todas as suas contas por trás da autenticação multifatorial, ter os firewalls de aplicativos certos para garantir que essas contas de serviço estejam protegidas, então acho que essas são as melhores práticas de acesso aos dados ou o Data lake é muito importante nisso, ser capaz de criar isso e ter esse direito higiene cibernética como chave para o sucesso.
0:13:57.7 Max Havey: Absolutamente, você não quer ter uma situação em que tenha senhas em texto simples ou coisas espalhadas que não deveriam estar espalhadas quando você lida com dados desse volume e dessa sensibilidade.
0:14:08.3 Troy Wilkinson: Absolutamente.
0:14:09.1 Max Havey: Traga-nos até aqui. Quais são algumas estratégias ou conselhos que você recomendaria aos CISOs e outros profissionais de segurança quando se trata de proteger os data lakes, além de uma ampla higiene cibernética? Há algum outro conselho ou estratégia que você gostaria de recomendar às pessoas?
0:14:24.8 Troy Wilkinson: Sim, acho que do ponto de vista da proteção dos lagos de dados, acho que você precisa decidir o que é certo para sua empresa em particular, pode executá-la no local, na nuvem, e todas as mesmas proteções que você normalmente faria se aplicam aqui, então o acesso inicial, a autenticação multifatorial, suas credenciais de administrador usando um gerenciador de acesso privilegiado, tudo do mesmo tipo de proteção colocaria qualquer outro software como um serviço ou um aplicativo local com um alto valor ou dados críticos. Mas o mais importante é que acho que os data lakes são uma ótima opção para quem quer decidir como mudar o futuro de suas operações de segurança, as pesquisas de correlação. Acho que é o momento certo no setor para o SIM e o Soar para o lançamento da próxima geração de data lakes. Você tem tantos no mercado, não quero citar nomes, mas há muitos fornecedores que estão entrando no gênero Data lake e, desde que você tenha esse esquema comum, poderá portar seus dados, se necessário, mantê-los por mais tempo e fazer correlações em velocidade e escala, o que é muito importante no centro de operações de segurança.
0:15:24.8 Max Havey: Absolutamente. E para trazer tudo para casa aqui, Troy, o que mais te empolga sobre o futuro do que podemos realizar com segurança, data lakes e coisas desse tipo? O que mais o entusiasma nesse tipo de inovação que olha para o futuro?
0:15:36.8 Troy Wilkinson: Sim, acho que há duas coisas aqui. O número um é poder trazer mais dados de telemetria ou de segurança que não conseguimos antes, por vários motivos, e colocá-los em um esquema comum para que possamos fazer um Advanced Analytics. Esse é o número um, definitivamente mostrou que estamos aumentando nossas capacidades em grande escala aqui com a ajuda dos data lakes e também com o advento da IA e de algumas das análises que estamos aplicando lá, mas o número dois é realmente o custo. Ser capaz de reduzir o custo dos dados é útil para trazer mais dados e armazená-los para que você possa fazer essas correlações em um conjunto de dados mais amplo, e isso é muito importante quando você pensa em toda a vasta quantidades de fontes de dados muito ruidosas de seus registros de trilhas na nuvem, seus registros de fluxo e seus registros de DNS, coisas que as pessoas tradicionalmente, não coletava nem armazenava por um período de tempo, agora você pode realmente armazenar e fazer pesquisas de correlação.
0:16:27.7 Troy Wilkinson: O motivo pelo qual as empresas armazenam esse tipo de dados e os mantêm ao longo do tempo é para encontrar os bandidos mais rapidamente, encontrar o agente da ameaça que está tentando tirar proveito da sua empresa mais rapidamente, e acredito que os lagos de dados realmente capacitam isso por terem a capacidade de fazer Advanced Analytics em conjuntos de dados maiores e com velocidade e em escala, digo isso muitas vezes, gosto desse termo, porque se pudermos fazer isso em uma escala maior e realmente trouxermos esses dados e fizermos isso com mais rapidez, o senhor capacitará os operadores de segurança para que possam agir mais rapidamente e deter os bandidos mais rapidamente e tirá-los do seu sistema mais rapidamente, o que nos dá uma vantagem, pois os agentes de ameaças estão sempre evoluindo e temos que acompanhá-los.
0:17:09.0 Max Havey: Absolutamente, Troy, acho que isso nos leva ao final de nossas perguntas aqui, então eu só quero te agradecer por se juntar a nós hoje. Foi uma conversa fascinante, e acho que aprendemos muito aqui sobre data lakes e o que nos entusiasmar à medida que as coisas continuam inovando neste mundo, olhando para o futuro.
0:17:23.4 Troy Wilkinson: Absolutamente, Max, obrigado por me receber. E aguardo ansiosamente a próxima.
0:17:26.1 Max Havey: Sim, com certeza. E você está ouvindo o podcast Security Visionaries. Fui seu apresentador, Max Havey, e se você gostou desse episódio, compartilhe com um amigo e assine Security Visionaries em sua plataforma de podcast favorita. Lá você pode ouvir nosso catálogo anterior de episódios e ficar de olho nos novos episódios que serão lançados a cada duas semanas. Apresentado por mim ou por minha co-apresentadora, a maravilhosa Emily Wearmouth. E com isso, nos vemos no próximo episódio.