No mundo em rápida digitalização de hoje, a importância da segurança de dados tornou-se primordial. Com a crescente quantidade de informações confidenciais compartilhadas e armazenadas on-line, proteger informações contra ataques cibernéticos, violações e roubos tornou-se uma das principais prioridades de empresas de todos os portes. Data Loss Prevention (DLP) é uma parte essencial da plataforma de segurança do Netskope Intelligent Security Service Edge (SSE), que oferece a melhor segurança de dados da categoria aos nossos clientes.
As imagens geralmente contêm uma grande quantidade de dados valiosos e confidenciais. Documentos financeiros, identificação pessoal e comunicações comerciais confidenciais frequentemente incluem imagens que exigem o máximo de segurança. Na Netskope, desenvolvemos classificadores de visão computacional baseados em deep learning de última geração que podem analisar imagens e identificar informações confidenciais em uma ampla variedade de categorias, como passaportes, carteiras de motorista, cartões de crédito e capturas de tela. Recebemos quatro patentes dos EUA por nossa abordagem inovadora de segurança de dados. Neste artigo do blog, destacamos os recentes aprimoramentos em nossos classificadores de imagens que resultaram em maior precisão e melhor experiência do cliente.
Atualização da arquitetura da CNN
No centro de nossos modelos de classificação de imagens estão as redes neurais convolucionais (CNNs). Esses poderosos algoritmos de deep learning são projetados especificamente para tarefas de reconhecimento e classificação de imagens. Ao empregar uma técnica conhecida como aprendizado por transferência, aproveitamos as vantagens das CNNs pré-existentes que foram treinadas em conjuntos de dados de grande escala e as ajustamos usando um conjunto de dados menor de imagens rotuladas que contêm informações confidenciais. Como resultado, nossos classificadores são capazes de identificar rapidamente os padrões exclusivos associados às informações confidenciais, com alta precisão e tempo de treinamento reduzido.
Existem várias preocupações práticas na seleção dos modelos CNN pré-treinados. Como nossos classificadores são usados para examinar diariamente milhões de arquivos de clientes pela nossa plataforma SSE, é fundamental manter os falsos positivos o mais baixo possível para evitar sobrecarregar os clientes com alertas falsos. Ao mesmo tempo, como os verdadeiros positivos indicam um sério vazamento de dados, manter uma alta taxa de verdadeiros positivos é igualmente importante. Um desafio adicional está na criação de classificadores complexos o suficiente para atender às nossas metas de precisão, mas compactos o suficiente para atender aos nossos rigorosos requisitos de latência, já que são executados em tempo real na plataforma SSE. Por isso, consideramos apenas arquiteturas de modelo CNN pré-treinadas com menos de 10 milhões de parâmetros.
Em nossa última atualização de modelo, fizemos a transição para a arquitetura CNN pré-treinada da EfficientNet (modelada na figura acima). Isso levou a um aumento de 80% no número de parâmetros do modelo. O uso de um modelo pré-treinado maior acarretou um aumento modesto na latência, mas produziu um aumento significativo na precisão no mundo real.
Treinamento com dados reais na nuvem
Para minimizar os falsos positivos, é importante que nossos classificadores de imagens sejam expostos a uma ampla variedade de amostras negativas realistas. Para isso, obtivemos dezenas de milhares de imagens reais em nuvem de nossos próprios dados corporativos. Essa abordagem nos permite coletar um número substancial de imagens de treinamento genuínas e, ao mesmo tempo, manter nosso compromisso com a privacidade do cliente. Essas imagens foram rotuladas manualmente, sendo que a maioria delas são exemplos negativos ou capturas de tela típicas de dados de nuvem do mundo real.
Além desses exemplos negativos aleatórios, também incorporamos milhares de amostras adversas cuidadosamente selecionadas, reforçando ainda mais a resistência de nossos classificadores contra falsos positivos. Um tipo interessante de amostra adversa foram os rótulos de produtos eletrônicos. Devido a suas fontes em negrito e cores de alto contraste, eles podem ser confundidos com documentos confidenciais. Ao treinar nossos classificadores com esses exemplos contraditórios, podemos evitar com eficácia classificações incorretas no ambiente de produção.
Aprimoramento de dados personalizados
Além de obter dados reais na nuvem, empregamos um conjunto abrangente de técnicas de aumento de dados projetadas especificamente para aplicações de visão computacional, como rotação e corte. O que diferencia nossa abordagem é a personalização desses aumentos para garantir a máxima fidelidade com os dados de imagem encontrados em ambientes reais da nuvem. Um exemplo é o nosso aumento personalizado que integra perfeitamente documentos em fundos realistas, como uma carteira de motorista colada em uma captura de tela. Isso permite que nossos classificadores sejam treinados em documentos em uma variedade de configurações, aumentando significativamente sua versatilidade e desempenho em dados do mundo real.
Sumário
Em nossa busca pelo desenvolvimento de soluções de segurança de IA de ponta, nos esforçamos continuamente para refinar nossas metodologias e fontes de dados para criar modelos de segurança de dados avançados e adaptáveis, capazes de proteger o cenário digital em constante evolução.
Para saber mais sobre como a Netskope ajuda os clientes a protegerem seus dados confidenciais em qualquer lugar de toda a empresa, visite o site do Netskope Data Loss Prevention. E para acompanhar o que a equipe do AI Labs está escrevendo, visite a página do blog do AI Labs aqui.