En la era moderna, que da prioridad a la nube, los enfoques tradicionales de la tecnología de protección de datos luchan por mantenerse al día. Los datos crecen rápidamente en volumen, variedad y velocidad. Cada vez son más desestructurados y, por tanto, más difíciles de detectar y, en consecuencia, de proteger. La mayoría de las soluciones DLP actuales se basan únicamente en el análisis de datos textuales para detectar qué datos son sensibles, utilizando patrones regulares de caracteres y técnicas de correspondencia de contenidos aplicadas a tipos de datos "convencionales" (como documentos de Word y hojas de cálculo). Estas técnicas fueron revolucionarias en su día; hoy, se han quedado atrás.
No me malinterprete: es fundamental que la DLP esté equipada con tantas herramientas de análisis de texto como sea posible—al fin y al cabo, si es identificable, lo sensible es el contenido en sí. DLP debe ser capaz de reconocer miles de tipos de datos sensibles conocidos y expresiones regulares no ambivalentes, además de entender datos diferentes específicos de países e idiomas. En aras de la fiabilidad, DLP también debe estar equipada con motores de huellas dactilares de datos muy escalables que puedan memorizar y buscar coincidencias de información específica encontrada en bases de datos y documentos sensibles. El contenido textual debe ser claro y legible para que dichos motores puedan aprovecharlo. Para minimizar los falsos positivos, hoy en día también es fundamental aprovechar el contexto enriquecido, el aprendizaje profundo, el procesamiento del lenguaje natural (NLP) y otras técnicas automatizadas más recientes basadas en ML (aprendizaje automático) e IA.
Cuando se trata de fuentes de datos no estructurados, como las imágenes, tradicionalmente se utiliza el reconocimiento óptico de caracteres (OCR) para extraer el texto, que luego se escanea para identificar expresiones regulares (regex) o realizar un análisis de coincidencia exacta.
Debido a los rápidos ritmos de la comunicación empresarial moderna, los usuarios han desarrollado nuevos hábitos que hacen que la identificación tradicional de datos sea bastante poco fiable. Con el fin de compartir información rápidamente y con mayor frecuencia, los usuarios suelen compartir conjuntos de datos no estructurados, como imágenes, haciendo capturas de pantalla o sacando fotos a través de un teléfono inteligente para transmitir ideas rápidamente, mostrar pruebas visuales, proporcionar diagramas y diapositivas sobre la marcha o mostrar información de contacto a un colega desde un repositorio de datos como Salesforce. Son sólo algunos ejemplos.
En estos casos, ni siquiera el OCR puede funcionar bien en imágenes de baja calidad en las que el texto no es claramente legible. Con grandes cantidades de imágenes que procesar, el OCR y la correspondencia de datos también consumen recursos excesivos que introducen latencia en la respuesta frente a incidentes.
Evolución de la DLP moderna
Para el negocio moderno, la DLP tiene que evolucionar. Piense en la necesidad de una DLP moderna como si funcionara como un cerebro humano. Nuestro cerebro no tiene necesariamente que leer el texto de un documento como una identificación con foto para saber que el documento es en efecto una identificación con foto que contiene datos personales (PII). Ahora, la DLP moderna puede hacer lo mismo.
Para resolver los retos de la DLP moderna, Netskope ha sido pionera en la clasificación de imágenes con ML. Esta técnica hace uso del aprendizaje profundo y las redes neuronales convolucionales (CNN) para identificar con rapidez y precisión imágenes sensibles sin necesidad de extraer texto. Imita el córtex visual humano, reconociendo características visuales como formas y detalles para comprender la imagen en su conjunto (de forma parecida a como podemos reconocer que un pasaporte es un pasaporte sin leer necesariamente los detalles que contiene). El aprendizaje automático permite reconocer características incluso en imágenes de mala calidad, de forma similar a las capacidades del ojo humano. Esto es crucial, ya que las imágenes pueden estar borrosas, dañadas o descoloridas, y aun así contener información sensible.
La importancia de los clasificadores de datos personalizados
Los clasificadores ML de Netskope, líderes del sector, permiten la identificación automatizada de datos sensibles, revolucionando la categorización de imágenes y documentos con una precisión excepcional. Esta revolucionaria tecnología detecta y protege diversos tipos de datos sensibles, como código fuente, formularios fiscales, patentes, documentos de identificación como pasaportes y permisos de conducir, tarjetas de crédito y débito, así como capturas de pantalla completa y capturas de pantalla de aplicaciones. Los clasificadores ML funcionan junto con el análisis DLP basado en texto (como identificadores de datos, coincidencia exacta, huella digital de documentos, NLP basado en ML y aprendizaje profundo, etc.), complementando el análisis DLP de un archivo cuando el texto es indescifrable o difícil de extraer. Mejoran enormemente la precisión de la detección y ayudan a habilitar controles DLP en tiempo real.
Pero, ¿y si le dijera que un conjunto de plantillas de clasificación ML predefinidas puede no ser suficiente?
Hoy en día, las organizaciones también poseen tipos y plantillas de documentos propios, formularios personalizados y archivos específicos del sector que quedan fuera del ámbito de los clasificadores ML estándar. La tecnología Train Your Own Classifiers (entrene sus propios clasificadores o TYOC) de Netskope revoluciona la protección de datos al combinar la potencia de la IA, la adaptabilidad del ML y la comodidad de la automatización. TYOC identifica y categoriza automáticamente los nuevos datos basándose en un enfoque de "entrenar y olvidar". Considere esta analogía: su cerebro puede reconocer un documento conocido como un pasaporte o un formulario de impuestos, pero no identificará un nuevo tipo de documento con el que nunca se ha encontrado. Sin embargo, una vez que sus ojos lo ven y su cerebro aprende sus características, puede reconocerlo fácilmente en el futuro. Así es precisamente como funciona TYOC.
Con TYOC, Netskope ha democratizado la protección de datos mediante IA y ML, otorgando a los clientes el poder de la IA, la automatización y el aprendizaje adaptativo como parte de las capacidades de Netskope Intelligent SSE disponibles en la actualidad. Las organizaciones pueden adoptar estos avances de vanguardia para salvaguardar sus datos confidenciales y mantenerse a la vanguardia de los requisitos de protección de datos en constante evolución. Esta innovación permite a las organizaciones abordar con confianza los retos de protección de datos más formidables de hoy en día, al tiempo que libera a los administradores de políticas de la mayoría de las cargas manuales, lo que les permite centrar los recursos humanos en tareas más críticas.
TYOC forma parte de SkopeAI, el nuevo conjunto de innovaciones de inteligencia artificial y aprendizaje automático (AI/ML) de Netskope, ahora disponible en todo el portfolio SASE de Netskope. Las ofertas de SkopeAI utilizan IA/ML para ofrecer una protección de datos y una defensa frente a ciberamenazas modernas, superando las limitaciones de las tecnologías de seguridad tradicionales y ofreciendo técnicas de protección a la velocidad de la IA que no se encuentran en los productos de otros proveedores de SASE.
Si desea obtener más información, visite nuestra página dedicada a SkopeAI page o vea este vídeo con una conversación sobre IA con Krishna Narayanaswamy, CTO de Netskope: