0:00:00.7 Max Havey: Olá, bem-vindo a mais uma edição do Security Visionaries, um podcast sobre o mundo da infraestrutura cibernética, de dados e tecnologia, reunindo especialistas de todo o mundo e de vários domínios. Sou seu anfitrião, Max Havey. E hoje estamos mergulhando no mundo dos lagos de dados com Troy Wilkinson, CISO do Interpublic Group, também conhecido como IPG. Troy, bem-vindo ao show.
0:00:21.5 Troy Wilkinson: Obrigado Max. É realmente um grande prazer estar aqui.
0:00:23.8 Max Havey: Fico feliz em ter você. Então, para começar aqui, você pode nos explicar quais são os conceitos de data lakes e por que eles são importantes? Como um aspecto da segurança moderna.
0:00:34.2 Troy Wilkinson: Sim, com certeza. Acho importante dar um passo atrás e falar sobre o motivo pelo qual coletamos dados em primeiro lugar, tudo o que sentimos, vemos e tocamos e a tecnologia tem algum tipo de registro de máquina que sai disso. Alguns desses registros de eventos são apenas logins e saídas normais, mas alguns deles são uma telemetria de segurança muito importante. Então, o que temos feito nos últimos 25, 30 anos é realmente tentar decidir o que é importante para nós do ponto de vista das operações de segurança, quais dados precisamos coletar, quais dados são importantes para um evento ou incidente e, em seguida, mergulhar na lógica ou na ciência de dados por trás de como podemos unir esses incidentes ou eventos. Portanto, esse tem sido um problema de dados por um longo período de tempo, e somos muito firmes entrando na próxima geração ou na próxima fronteira desses dados ao dissociar os dados da análise por tanto tempo, temos Fui convidado a colocar esses dados em um lugar único, o que eu gosto de chamar de SIM legado, onde você canaliza seus dados para um banco de dados enorme e, em seguida, faz a análise para reunir insights de todos os seus incidentes. Agora, com a estrutura do data lake, ser capaz de colocar seus dados em um esquema comum em um data lake permite que você separe esses dados de suas análises, então, se a próxima solução de IA inovadora aparecer e você quer aplicar essa IA a.
0:01:55.3 Troy Wilkinson: Esse conjunto de dados é ótimo. É um toque de botão, você não precisa mover seus dados para uma nova solução, não precisa transferi-los para qualquer lugar, basta aplicar essas novas análises, e acho que isso realmente oferece aos líderes e operadores de segurança a flexibilidade de como realizam operações de segurança e pesquisas de correlação em seus data lakes. Então, eu realmente sinto que essa flexibilidade, essa transparência e a propriedade dos dados, e a capacidade de decidir por quanto tempo você mantém esses dados é critérios de tomada de decisão realmente importantes para data lakes e como eles mudarão o setor das operações de segurança.
0:02:30.5 Max Havey: Até certo ponto, é uma espécie de lugar que serve como repositório para todos esses dados que as organizações que eles criaram ao longo de todos esses anos, e que agora podem usar esses dados para qualquer finalidade que precisem, seja com um modelo de IA ou com análises ou qualquer outra coisa, mas é essencialmente algo que as ajuda a manter tudo contido de uma forma que também possam mantê-los seguros.
0:02:51.7 Troy Wilkinson: Sim, com certeza, e eu também quero abordar o custo, então, se você pensar que o custo dos dados caiu tremendamente, então armazenar dados na nuvem custa menos de centavos por gigabyte agora, então você pode armazenar mais dados, então, no passado, você realmente tinha que estar ciente de quais dados eu estou trazendo para o meu SIM e quais dados eu posso fazer as correlações estavam ativadas, então havia limitações, e posso decidir, como líder de segurança, que não posso usar essa fonte de dados muito volumosa porque é muito caro fazer isso, mas eu realmente queria.
0:03:17.7 Troy Wilkinson: Agora, com a estrutura do data lake, você pode trazê-la a um custo muito menor e usá-la para fazer pesquisas de correlação, algo que nunca foi capaz de fazer antes. Por exemplo, os registros de DNS geralmente são muito ruidosos e incomuns, então muitos líderes seguros não os trazem. No entanto, eles são muito valiosos em casos de incidentes ou se você quiser voltar e ver se um usuário acessou um site específico e realmente se debruçou. Então, com esses dados em um data lake onde o armazenamento é muito barato, você pode tê-los para investigações de longo prazo e muito aprofundadas, especialmente em uma investigação forense após um incidente.
0:03:51.5 Max Havey: O advento total de ter esse armazenamento barato e de poder ter todos esses dados acaba criando novas oportunidades de como você pode melhor usá-los. Ter mais armazenamento está levando a mais inovação com esses dados e a coisas mais interessantes que as pessoas da segurança e de outros lugares podem fazer com esses dados.
0:04:08.7 Troy Wilkinson: Com certeza, e outra coisa a mencionar é que ser capaz de armazenar esses dados ao longo do tempo permite que o líder de segurança aplique diferentes tipos de análise a eles. Como exemplo, hoje temos vários tipos de pesquisas geradas por IA e eventos de correlação gerados por IA, e podemos unir a telemetria de todas as suas fontes de dados em grande escala e com rapidez, ou nunca conseguimos fazer isso antes. Agora, essa era a promessa da SIM no passado: reunir todos os seus dados em um único lugar. Vamos fazer toda essa interpretação sofisticada. No entanto, acho que nunca chegamos lá do ponto de vista de um operador de rua em grande escala por causa das despesas. Devido ao conhecimento necessário para executá-los e à manutenção, ficamos no local por muito tempo, então o data center estava cheio de servidores que você tinha para manter, e então passamos para uma era da nuvem, em que agora seu SIM está na nuvem, e é muito caro com a potência computacional necessária para fazer isso analítica altamente complexa, sendo capaz de desacoplar seus dados e, o mais importante, ter esses dados em um esquema comum ou no esquema de estrutura aberta de segurança cibernética, de forma que cada fonte de log esteja no mesmo esquema, de forma que um nome de host seja um nome de host e um computador seja um computador, e um endereço IP seja um endereço IP, você não precisa traduzir isso, não precisa examinar vários índices ou fontes de dados e traduzi-lo.
0:05:24.2 Troy Wilkinson: Em outras palavras, tudo está no mesmo idioma, você pode fazer perguntas sobre seus dados em grande escala e em vários lugares diferentes, o que realmente ajuda a encontrar aquela agulha na pilha de agulhas, como gostamos de dizer, para encontrar agentes de ameaças fazendo coisas ruins, exportando lateralmente sua infraestrutura, seus servidores, sua nuvem, juntando-os onde você pode ter perdido esses insights antes.
0:05:45.8 Max Havey: Absolutamente. E isso me leva à minha próxima reflexão aqui: quais são alguns dos desafios que você enfrentou como CISO quando se trata de usar data lakes e proteger data lakes?
0:05:54.6 Troy Wilkinson: Bem, acho que os desafios tendem a ser os mesmos de qualquer tipo de fonte de dados, você precisa ter proteções de dados implementadas, propriedade e linhagem de dados, ter certeza de que está descontinuando os dados no prazo certo, de acordo com os requisitos regulatórios que você tem. Portanto, você ainda tem as mesmas preocupações com a proteção de dados que teria com qualquer outra fonte de dados.
0:06:14.5 Max Havey: Com certeza, e nesse mesmo tipo de linha, por que os data lakes se tornaram uma superfície de ameaça cada vez mais importante para se proteger de agentes maliciosos e outras pessoas que estão tentando entrar lá ou envenenar esses dados? Por que isso está se tornando uma superfície de ameaça importante a ser lembrada pelos profissionais de segurança?
0:06:31.9 Troy Wilkinson: Sim, boa pergunta. Acho que, do ponto de vista dos dados, os agentes de ameaças estão sempre procurando dados para exfiltrar. Acho que vimos que, como um tema crescente entre os agentes de ameaças nos últimos anos, os recentes incidentes de flocos de neve que vimos em várias grandes organizações nos mostram que os agentes de ameaças estão procurando grandes fontes de dados para exfiltrar e, portanto, as proteções de dados são extremamente importantes. Certamente, a proteção de dados e a exfiltração estão no topo das ameaças livro, e por isso estamos sempre procurando protegê-lo. Acho que os agentes de ameaças realmente pretendem acessar os dados da empresa e os consideram muito valiosos. Costumávamos ver ataques de ransomware em que apenas criptografavam os servidores e mantinham as empresas como reféns. Agora, na verdade, elas estão exfiltrando esses dados. Portanto, são dados secundários e até terciários, ransomware, onde você diz: Se você não nos pagar, divulgaremos seus dados ao público, para que os dados se tornem uma mercadoria monetizada para que os agentes da ameaça continuem sendo um alvo.
0:07:24.6 Max Havey: Com certeza, e você viu que, com corporações ou organizações que tiveram grandes vazamentos de dados, especificamente da Nintendo, houve algum tipo de grande escala, como corporações de entretenimento e outras pessoas em todos os setores, ao longo dos anos, em que eles tiveram esse tipo de grande vazamento de dados, e acho que é um ponto interessante que existem esses tesouros de dados agora que talvez não existissem há 15, 20 anos, só porque somos capazes de controlá-la agora.
0:07:49.2 Troy Wilkinson: Ao analisarmos os conjuntos de dados, analisamos as informações de hackeamento e extração de filmes pela Sony. Veja os outros setores bancários em que eles estão tentando extrair informações dos clientes. Acho que cada conjunto de dados é igualmente único e precisa ser protegido, mas se você pensar nos lagos de dados de segurança de que estamos falando aqui na telemetria de segurança para operações de segurança, os agentes de ameaças poderiam ter uma visão muito ampla do que um cliente faz para se proteger, o que lhes daria um caminho para aproveitá-los ainda mais, em outras palavras, eles poderiam encontrar maneiras de se proteger para entrar em seus backups, em seus bancos de dados, em seus servidores, e assim a telemetria de segurança também é muito valiosa para os agentes de ameaças, por isso precisamos até mesmo colocar mais barreiras em torno de nossos data lakes.
0:08:29.4 Max Havey: Com certeza, e então, eu sei que falamos sobre a ideia de usar data lakes como algo para ajudar a treinar modelos de IA e coisas desse tipo. Sei que a ideia de envenenar dados é algo que representa um risco real quando se trata de treinamento, IA generativa e outros modelos de IA. Como isso é um problema e quais são algumas maneiras pelas quais as pessoas podem pensar em se proteger contra isso quando se trata de data lakes?
0:08:47.5 Troy Wilkinson: Então, quando analisamos grandes modelos de linguagem e outros tipos de modelos básicos para inteligência artificial que estamos alimentando, esse é um modelo que você está construindo e mantendo no local ou em sua própria nuvem. Acho muito importante entender que essa opção de envenenamento de dados existe para os agentes de ameaças aproveitarem. Você precisa ter validação de entrada, garantir que ninguém seja capaz de basicamente envenenar as entradas e também de exfiltrar. Mesmo que você tenha uma arquitetura de trapos ou uma arquitetura de referência para compartilhar um modelo de IA, você ainda pode ter um pouco da intoxicação de dados no nível de entrada e também pode ter uma exfiltração de dados, onde há uma troca entre a entrada do usuário e a troca com o modelo básico subjacente, então eu acho que é muito importante proteger todos os componentes disso.
0:09:32.9 Troy Wilkinson: E é um gênero diferente de segurança neste momento, em que estamos vendo a proteção da IA, protegendo o modelo básico, protegendo e detectando o envenenamento de dados e também o viés, e esse viés pode ser inerente ou desconhecido, em que o senhor nem percebe que seu modelo está se transformando em um grande algoritmo que o está levando para o caminho errado, Acho que estamos bastante seguros em relação a isso porque não estamos implementando ou instituindo modelos de IA em cima de nossos Data lakes de segurança em escala, mas há fornecedores que estão fazendo isso nos bastidores, portanto, eles teriam um grande desafio para proteger esses modelos subjacentes, mas para nós, acho que como profissionais de todo o setor, ser capaz de colocar todos os nossos dados em um Data lake central e implicar Advanced Analytics a ele ainda é o que eu consideraria aprendizado de máquina e algumas das pesquisas de correlação de segurança do tipo mais antigo. Agora, a melhor parte de um data lake, novamente, é ter seus dados em um esquema comum e em um local centralizado como esse, você pode mudar a análise. Portanto, se a próxima solução de IA surgir, digamos, nos pr