El siguiente es un extracto del reciente libro blanco de Netskope “Cómo diseñar una estrategia de protección de datos en la nube”, escrito por James Christiansen y David Fairman.
Paso 1: Saber dónde están almacenados y ubicados los datos (o descubrimiento de datos)
Este es el proceso de descubrir/detectar/localizar todos los datos estructurados y no estructurados que posee una organización. Estos datos pueden estar almacenados en el hardware de la empresa (puntos finales, bases de datos), en los dispositivos BYOD de los empleados o en la nube.
Hay muchas herramientas disponibles para ayudar en el descubrimiento de datos (tanto en tránsito como en almacenamiento) y éstas varían entre los datos locales y los relacionados con la nube. Este proceso pretende asegurar que ningún dato quede desconocido y desprotegido. Este es el núcleo de la creación de una estrategia de protección de datos centrada en los datos, ya que una organización crea un inventario de todos sus datos. Este inventario es una aportación fundamental a una estrategia y práctica de gobierno de datos más amplia.
Los activos de información cambian constantemente y se añaden nuevos activos que harán que cualquier lista estática quede desfasada e ineficaz casi inmediatamente. Al establecer el proceso de descubrimiento de datos, asegúrese de utilizar la automatización. Es la única manera de mantener una visión activa de los activos de información y poder gestionar eficazmente el riesgo.
Paso 2: Conocer la sensibilidad de los datos (o clasificación de datos)
Una vez descubiertos los datos, hay que clasificarlos. La clasificación de datos es el proceso de analizar el contenido de los datos, buscar información personal, médica y otros datos sensibles, y clasificarlos en consecuencia. Un enfoque común es tener 3 o 4 niveles de clasificación, normalmente:
Política de 3 niveles:
- Públicos
- Privados / Internos
- Confidenciales
Política de 4 niveles:
- Públicos
- Privados / Internos
- Confidenciales
- Muy confidenciales / Restringido
Una vez creada la política, es necesario etiquetar los datos dentro de los metadatos (esta implementación de la política de clasificación de datos). Tradicionalmente, éste ha sido un proceso complejo y a menudo inexacto. Ejemplos de enfoques tradicionales han sido:
- Basado en reglas
- Expresiones regulares, coincidencia de palabras clave, diccionarios
- Huellas digitales y protección de la propiedad intelectual
- Coincidencia exacta de datos
- Reconocimiento óptico de caracteres
- Cumplimiento normativo
- Gestión de excepciones
Las estrategias de clasificación de datos han evolucionado y las organizaciones deben aprovechar las nuevas capacidades si quieren clasificar realmente el gran volumen de datos que crean y poseen. Algunos ejemplos son:
- La clasificación y el análisis de documentos basados en el aprendizaje automático (ML), incluida la capacidad de entrenar modelos y clasificadores utilizando conjuntos de datos propios con clasificadores ML predefinidos (lo que simplifica a las organizaciones la creación de clasificadores sin necesidad de conocimientos complejos de ciencia de datos). (Vea este análisis por parte de Netskope.)
- Procesamiento del lenguaje natural (NLP)
- Análisis de contexto
- Análisis y clasificación de imágenes
- Redacción y privacidad
Estos enfoques deben tener la capacidad de soportar servicios nativos en la nube basados en API para la clasificación automatizada y la integración de procesos. Esto permite a la organización construir una capacidad fundacional para utilizar procesos y tecnología de forma conjunta, incluyendo los modelos, para clasificar los datos que luego se convierten en un punto de datos para una inspección adicional si es necesario. El objetivo es proporcionar una capacidad de clasificación automatizada en tiempo real.
El escalado y la reducción de la clasificación es un método comúnmente utilizado para clasificar todos los datos descubiertos. Para cada objeto de datos que no haya sido clasificado, debe aplicarse una clasificación por defecto inyectando en los metadatos el nivel de clasificación por defecto (por ejemplo, si no está clasificado, por defecto confidencial o muy confidencial). Basándose en varias pruebas o criterios, la clasificación del objeto puede escalarse o reducirse lentamente hasta el nivel apropiado. Esto coincide con muchos principios de la Confianza Cero, que se está convirtiendo rápidamente, y será, en una capacidad fundamental para cualquier estrategia de protección de datos.
(Se puede encontrar más información sobre la confianza cero en el artículo de Netskope ¿Qué es la seguridad basada en confianza cero?)
Una nota sobre la determinación de las "joyas de la corona" y la priorización
La clasificación de los datos ayuda mucho a una organización a identificar sus joyas de la corona. En el tema que estamos tratando, las "joyas de la corona" se definen como los activos que acceden, almacenan, transfieren o eliminan los datos más relevantes para la organización. Al adoptar una estrategia centrada en los datos, es imperativo comprender los datos más importantes, evaluando tanto la sensibilidad como la criticidad. Esta determinación no se basa únicamente en la clasificación de los datos.
Un modelo práctico para determinar la importancia de los datos es tener en cuenta tres pilares de la seguridad —Clasificación, Integridad y Disponibilidad—asignando a cada uno una ponderación (1-4) alineada con las políticas o normas relacionadas. Una puntuación total de 12 (4+4+4) para cualquier objeto de datos indicaría que los datos son muy confidenciales, tienen altos requisitos de integridad y necesitan estar muy disponibles.
He aquí un ejemplo de los sistemas típicos que utiliza una empresa y las ponderaciones típicas.
Clasificación: Muy confidencial = 4 Confidencial = 3 Interno = 2 Publico = 1 | Integridad: Integridad alta = 4 Integridad media = 3 Integridad baja = 2 No hay requisito de integridad = 1 | Disponibilidad (basado en los procesos TI de planificación de continuidad de negocio y de recuperación ante desastres): Alta disponibilidad = 4 RTO* 0 - 4 h = 3 RTO 4 - 12 h = 2 RTO > 12 h = 1*RTO = Objetivo de tiempo de recuperación |
Clasificación | Integridad | Disponibilidad | Puntuación media | |
---|---|---|---|---|
Operaciones bancarias | 3 | 4 | 3 | 10 |
Compras | 3 | 2 | 2 | 7 |
Base de datos de informes | 3 | 3 | 1 | 7 |
Sistema de RRHH | 3 | 2 | 2 | 7 |
Bases de datos de marketing | 2 | 2 | 1 | 5 |
Contabilidad | 3 | 3 | 2 | 6 |
Una organización puede establecer, basándose en el apetito de riesgo, una puntuación total de 12 para cualquier objeto de datos, lo que indicaría que los datos son