cerrar
cerrar
Su red del mañana
Su red del mañana
Planifique su camino hacia una red más rápida, más segura y más resistente diseñada para las aplicaciones y los usuarios a los que da soporte.
          Descubra Netskope
          Get Hands-on With the Netskope Platform
          Here's your chance to experience the Netskope One single-cloud platform first-hand. Sign up for self-paced, hands-on labs, join us for monthly live product demos, take a free test drive of Netskope Private Access, or join us for a live, instructor-led workshops.
            Líder en SSE. Ahora es líder en SASE de un solo proveedor.
            Líder en SSE. Ahora es líder en SASE de un solo proveedor.
            Netskope debuta como Líder en el Cuadrante Mágico™ de Gartner® para Single-Vendor SASE
              Protección de la IA generativa para principiantes
              Protección de la IA generativa para principiantes
              Learn how your organization can balance the innovative potential of generative AI with robust data security practices.
                Modern data loss prevention (DLP) for Dummies eBook
                Prevención moderna de pérdida de datos (DLP) para Dummies
                Get tips and tricks for transitioning to a cloud-delivered DLP.
                  Libro SD-WAN moderno para principiantes de SASE
                  Modern SD-WAN for SASE Dummies
                  Deje de ponerse al día con su arquitectura de red
                    Entendiendo dónde está el riesgo
                    Advanced Analytics transforms the way security operations teams apply data-driven insights to implement better policies. With Advanced Analytics, you can identify trends, zero in on areas of concern and use the data to take action.
                        Los 6 casos de uso más convincentes para el reemplazo completo de VPN heredada
                        Los 6 casos de uso más convincentes para el reemplazo completo de VPN heredada
                        Netskope One Private Access is the only solution that allows you to retire your VPN for good.
                          Colgate-Palmolive Salvaguarda su "Propiedad Intelectual" con Protección de Datos Inteligente y Adaptable
                          Colgate-Palmolive Salvaguarda su "Propiedad Intelectual" con Protección de Datos Inteligente y Adaptable
                            Netskope GovCloud
                            Netskope logra la alta autorización FedRAMP
                            Elija Netskope GovCloud para acelerar la transformación de su agencia.
                              Let's Do Great Things Together
                              La estrategia de venta centrada en el partner de Netskope permite a nuestros canales maximizar su expansión y rentabilidad y, al mismo tiempo, transformar la seguridad de su empresa.
                                Soluciones Netskope
                                Netskope Cloud Exchange
                                Netskope Cloud Exchange (CE) provides customers with powerful integration tools to leverage investments across their security posture.
                                  Soporte técnico Netskope
                                  Soporte técnico Netskope
                                  Nuestros ingenieros de soporte cualificados ubicados en todo el mundo y con distintos ámbitos de conocimiento sobre seguridad en la nube, redes, virtualización, entrega de contenidos y desarrollo de software, garantizan una asistencia técnica de calidad en todo momento
                                    Vídeo de Netskope
                                    Netskope Training
                                    La formación de Netskope le ayudará a convertirse en un experto en seguridad en la nube. Estamos aquí para ayudarle a proteger su proceso de transformación digital y aprovechar al máximo sus aplicaciones cloud, web y privadas.

                                      Comprender los riesgos de los ataques de inyección de instrucciones en ChatGPT y otros modelos lingüísticos

                                      05 de junio de 2023

                                      Resumen

                                      Los modelos grandes de lenguaje (LLM), como ChatGPT, han ganado una gran popularidad por su capacidad para generar conversaciones similares a las humanas y ayudar a los usuarios con diversas tareas. Sin embargo, con su creciente uso, han surgido preocupaciones sobre posibles vulnerabilidades y riesgos de seguridad. Uno de ellos son los ataques de inyección de instrucciones, en los que actores malintencionados intentan manipular el comportamiento de los modelos lingüísticos mediante la creación estratégica de instrucciones de entrada. En este artículo, discutiremos el concepto de ataques de inyección de instrucciones, exploraremos sus implicaciones y esbozaremos algunas estrategias potenciales de mitigación.

                                      ¿Qué son los ataques de inyección de instrucciones?

                                      En el contexto de los modelos lingüísticos como ChatGPT, un prompt es el texto inicial o la instrucción dada al modelo para generar una respuesta. La instrucción establece el contexto y sirve de guía para que el modelo genere una respuesta coherente y pertinente.

                                      Los ataques de inyección de instrucciones consisten en crear instrucciones de entrada que manipulen el comportamiento del modelo para generar resultados sesgados, maliciosos o no deseados. Estos ataques explotan la flexibilidad inherente a los modelos lingüísticos, permitiendo a los adversarios influir en las respuestas del modelo modificando sutilmente las instrucciones de entrada o el contexto.

                                      Implicaciones y riesgos de estos ciberataques

                                      La inyección de instrucciones podría revelar las instrucciones previas de un modelo lingüístico y, en algunos casos, impedir que el modelo siga sus instrucciones originales. Esto permite a un usuario malintencionado eliminar las salvaguardas en torno a lo que el modelo está autorizado a hacer e incluso podría exponer información sensible. Algunos ejemplos de inyecciones de instrucciones para ChatGPT se publicaron aquí.

                                      Los riesgos de este tipo de ataques incluyen los siguientes:

                                      1. Propagación de información errónea o desinformación: Al inyectar mensajes falsos o engañosos, los atacantes pueden manipular los modelos lingüísticos para generar información plausible pero inexacta. Esto puede conducir a la propagación de información errónea o desinformación, lo que puede tener graves implicaciones sociales.
                                      2. Generación de resultados sesgados: Los modelos lingüísticos se entrenan con grandes cantidades de datos de texto, que pueden contener sesgos. Los ataques de inyección de mensajes pueden aprovecharse de estos prejuicios creando mensajes que generen resultados sesgados, reforzando o amplificando los prejuicios existentes.
                                      3. Inquietud sobre la privacidad: A través de los ataques de inyección de instrucciones, los adversarios pueden intentar extraer información sensible del usuario o explotar las vulnerabilidades de privacidad presentes en el modelo lingüístico, lo que puede conducir a violaciones de la privacidad y al uso indebido de datos personales.
                                      4. Explotación de sistemas posteriores: Muchas aplicaciones y sistemas dependen de los resultados de salida de los modelos lingüísticos como entrada. Si las respuestas de los modelos lingüísticos se manipulan mediante ataques de inyección de instrucciones, los sistemas posteriores pueden verse comprometidos, lo que conlleva más riesgos para la seguridad.

                                      Inversión del modelo

                                      Un ejemplo de ataque de inyección de instrucciones es la "inversión de modelo", en la que un atacante intenta explotar el comportamiento de los modelos de aprendizaje automático para exponer datos confidenciales o sensibles.

                                      La inversión del modelo es un tipo de ataque que aprovecha la información revelada por las salidas del modelo para reconstruir datos de entrenamiento privados u obtener información confidencial. Mediante el diseño cuidadoso de las consultas y el análisis de las respuestas del modelo, los atacantes pueden reconstruir características, imágenes o incluso texto que se parezcan mucho a los datos de entrenamiento originales.

                                      Las organizaciones que utilizan modelos de aprendizaje automático para procesar información confidencial se enfrentan al riesgo de fuga de datos confidenciales. Los atacantes pueden aplicar ingeniería inversa a secretos comerciales, propiedad intelectual o información confidencial aprovechando el comportamiento del modelo. También podría recuperarse información como historiales médicos o nombres y direcciones de clientes, aunque el modelo la haya anonimizado.

                                      Estrategias de mitigación para desarrolladores

                                      Al momento de escribir este artículo, no hay forma de que los desarrolladores e ingenieros eviten por completo los ataques de inyección rápida. Sin embargo, existen algunas estrategias de mitigación que deben tenerse en cuenta para cualquier organización que desee desarrollar aplicaciones de modelos de lenguaje:

                                      • Validación y filtrado de entrada: Implementar mecanismos estrictos de validación de entrada puede ayudar a identificar y filtrar instrucciones potencialmente maliciosas o dañinas. Esto puede implicar el análisis de la entrada en busca de patrones específicos o palabras clave asociadas a vectores de ataque conocidos. El uso del aprendizaje automático para validar las entradas es un enfoque emergente.
                                      • Pruebas adversarias: Someter periódicamente los modelos lingüísticos a pruebas adversarias puede ayudar a identificar vulnerabilidades y mejorar su solidez frente a los ataques de inyección de instrucciones. Se trata de crear y analizar entradas diseñadas específicamente para desencadenar comportamientos no deseados o explotar puntos débiles.
                                      • Formación de modelos y preprocesamiento de datos: Los desarrolladores deben intentar entrenar los modelos lingüísticos en conjuntos de datos diversos e imparciales, minimizando la presencia de sesgos inherentes. Un preprocesamiento cuidadoso de los datos y las técnicas de aumento pueden ayudar a reducir el riesgo de sesgos en los resultados de los modelos.

                                      Estrategias de mitigación para los usuarios

                                      No sólo es importante que los desarrolladores de modelos lingüísticos tengan en cuenta los riesgos de seguridad, sino también los consumidores. Algunas estrategias de mitigación para los usuarios son:

                                      • Bloqueo de tráfico no deseado: Una organización podría bloquear dominios relacionados con aplicaciones LLM que no se consideren seguras, o incluso bloquear el tráfico en el que se esté incluyendo información sensible.
                                      • Concienciación y educación de los usuarios: e debería educar a los usuarios sobre los riesgos asociados a los ataques de inyección de mensajes y animarlos a actuar con precaución mientras interactúan con los modelos lingüísticos. Las campañas de concienciación pueden ayudar a los usuarios a identificar posibles amenazas y evitar participar inadvertidamente en actividades maliciosas.

                                      Conclusión

                                      Las organizaciones se apresuran a implantar modelos lingüísticos en sus productos. Aunque estos modelos ofrecen grandes ventajas en la experiencia del usuario, todos debemos tener en cuenta los riesgos de seguridad asociados a ellos.  

                                      Deben implantarse y probarse controles mitigadores para garantizar el despliegue responsable y seguro de esta tecnología. En particular, los controles mitigadores en torno a la validación de entradas y las pruebas adversarias reducirán en gran medida el riesgo de exposición de datos sensibles a través de ataques de inyección de instrucciones.

                                      Los usuarios de modelos de IA deben evitar enviar cualquier dato privado, sensible o de propiedad debido al riesgo de que pueda ser expuesto a terceros.

                                      Si desea obtener más información sobre cómo Netskope ayuda a habilitar de forma segura la IA generativa, visite nuestra página aquí.

                                      author image
                                      Colin Estep
                                      Colin Estep tiene 16 años de experiencia en software, con 11 años centrados en la seguridad de la información. Es investigador en Netskope, donde se centra en la seguridad de AWS y GCP.
                                      Colin Estep tiene 16 años de experiencia en software, con 11 años centrados en la seguridad de la información. Es investigador en Netskope, donde se centra en la seguridad de AWS y GCP.

                                      ¡Mantente informado!

                                      Suscríbase para recibir lo último del blog de Netskope