La irrupción de modelos de procesamiento del lenguaje natural (NLP, Natural Language Processing) basado en transformadores, de grandes modelos de lenguaje (LLM, Large Language Model) y de modelos generativos ha hecho posible el acceso a sistemas avanzados de aprendizaje automático (ML) a través de herramientas como ChatGPT con tan solo disponer de una conexión a Internet. Desafortunadamente, los ciberdelincuentes también pueden utilizar estos modelos para crear mensajes de correo electrónico de phishing.
En esta publicación, explicaremos cómo protege Proofpoint frente a las amenazas de phishing generadas mediante inteligencia artificial (IA) y despliega modelos avanzados de aprendizaje automático en nuestros sistemas de detección.
Protección frente a amenazas de phishing generadas con IA
Hoy día, cualquiera con acceso a Internet puede aprovechar los recientes progresos en inteligencia artificial, aprendizaje automático y procesamiento del lenguaje natural. ChatGPT es un buen ejemplo de uno de estos avances.
Aunque los ciberdelincuentes utilizan sistemas como ChatGPT para diseñar mensajes de correo de phishing, estos modelos solo son capaces de generar texto. Algunos destinatarios pueden ser más propensos a hacer clic en enlaces de mensajes de correo electrónico de phishing generados mediante IA que en enlaces similares de mensajes escritos por una persona. Es posible que el estilo del texto pueda explicar el aumento de la predisposición a hacer clic. Estos modelos pueden generar un inglés comercial profesional con gramática inglesa estándar, lo que puede otorgar credibilidad al texto en comparación con los mensajes de phishing estereotipados con errores gramaticales y una redacción torpe.
A algunas personas les preocupa que los modelos generativos creen mensajes de phishing muy dirigidos, pero la amenaza se suele exagerarse. Incluso aunque estos modelos pueden ponerse poéticos sobre prácticamente cualquier tema, por el momento son incapaces de saber cómo redacta un determinado proveedor o su jefe, ni tampoco qué motivaría un destinatario concreto.
El texto generado por LLM tiende a ser genérico y carece del toque personalizado de interlocutores conocidos. Además, estos modelos no están entrenados sobre eventos actuales, lo que limita su capacidad para crear señuelos de phishing oportunos. Como consecuencia, estos modelos de dominio público no son todavía lo suficientemente avanzados como para suplantar de forma convincente su red profesional.
Asimismo, si bien los mensajes de phishing generados con IA pueden ser más correctos gramaticalmente respecto a los mensajes escritos por no angloparlantes nativos, es poco probable que mejoren de manera importante los ataques de phishing dirigido.
Figura 1. Un mensaje de phishing dirigido generado que no tiene el estilo que utilizaría nuestro CEO.
El texto que generan estos modelos es solo un aspecto de un mensaje del correo electrónico. Las soluciones de seguridad del correo electrónico completas consideran múltiples factores además del cuerpo, como URL peligrosas, adjuntos maliciosos y patrones de comunicación inusuales. Es importante tener en cuenta que sistemas como ChatGPT solo pueden crear el texto del mensaje de correo electrónico y tal vez formato HTML, pero no pueden enviar mensajes completos desde infraestructuras suplantadas.
El uso del estándar DMARC para la autenticación del remitente sigue siendo una herramienta eficaz para frustrar los intentos de suplantación. Para comprender mejor cómo pueden utilizarse los distintos elementos de un mensaje de correo electrónico para mejorar la detección, vea nuestro webinar sobre inteligencia artificial y aprendizaje automático en nuestro pipeline de detección. Proofpoint sigue siendo una defensa formidable frente a las amenazas de phishing generadas con IA.
Uso de modelos de transformador en Proofpoint
La “T” en ChatGPT (y en BERT, y otros) significa “transformador”. Estos modelos de aprendizaje automático están especializados en el proceso de lenguaje y texto, y adaptados para ello. En Proofpoint, utilizamos estos tipos de modelos junto con muchos otros. Por tanto, resulta útil ofrecer algunos ejemplos de dónde hemos encontrado útiles estos modelos.
Si bien servicios gratuitos como ChatGPT han hecho de acceso público los modelos basados en transformadores, Proofpoint lleva años utilizando modelos de transformador en sus productos. Sin profundizar demasiado en las cuestiones técnicas, es importante señalar que los modelos de transformador pueden gestionar secuencias de entrada de distintas longitudes y representar con precisión intrincadas relaciones entre las palabras de una secuencia.
Con este contexto, analizaremos algunas de las formas en las que Proofpoint incorpora transformadores en nuestros productos.
Para hacer posible evaluaciones de riesgos asociados a las personas más sólidas, creamos un clasificador de títulos que se conecta con Active Directory para conocer el cargo y la jerarquía de los empleados. Como los títulos de los directorios suelen ser cortos, la atención de los transformadores puede no parecer necesaria. Sin embargo, los transformadores permiten al clasificador de títulos aprovechar la posición y el contexto de los componentes del título. Por ejemplo, “jefe” adquiere distintas funciones en el cargo de “jefe de producto” que en el de “jefe de marketing”.
Los transformadores pueden procesar texto de distintas longitudes, desde cargos a mensajes de correo electrónico completos. De hecho, son particularmente adecuados para procesar mensajes de correo electrónico porque pueden gestionar eficazmente secuencias de longitud variables y capturar complejas relaciones entre las palabras de la secuencia. Esto las convierte en ideales para procesar las complejas y diversas estructuras existentes en texto de correo electrónico irregular.
Proofpoint utiliza modelos de transformador para crear productos de seguridad del correo electrónico sofisticados que identifican y protegen eficazmente contra los diversos tipos de amenazas, incluidos el phishing, el malware y el spam. Uno de esos modelos está integrado en nuestro producto Proofpoint Closed-Loop Email Analysis and Response (CLEAR). Proofpoint CLEAR permite a los usuarios denunciar los mensajes de correo electrónico de phishing con un solo clic y automatiza buena parte de la respuesta desde el centro de operaciones de seguridad (SOC). No todos los mensajes de correo electrónico que denuncian los usuarios son phishing, por lo que Proofpoint utiliza un modelo derivado de BERT para tener en cuenta el texto del mensaje y otros indicadores para identificar mensajes probablemente inofensivos y reducir la carga del SOC.
Proofpoint utiliza transformadores para mejorar las tareas de NLP, y también hemos creado nuevos modelos para procesar mejor el lenguaje del malware. Un ejemplo es la herramienta para el descubrimiento de campañas denominada CampDisco. Si bien modelos LLM como BERT y GPT han revolucionado el procesamiento del lenguaje natural, utilizan modelos tokenizadores rígidos. Mediante el uso de un tokenizador personalizado para análisis forense de malware, creamos una red neuronal más pequeña y eficiente que agrupa con precisión las campañas de malware.
CampDisco también demuestra un principio del aprendizaje automático en Proofpoint: el análisis humano y el aprendizaje automático funcionan mejor juntos. CampDisco es una herramienta que el equipo de investigación de amenazas de Proofpoint utiliza para comprender mejor el panorama de amenazas y acelerar el tiempo de detección.
Figura 2. Ejemplo de tokenizador personalizado de CampDisco en acción.
Cómo crear aprendizaje automático robusto a gran escala
Proofpoint utiliza aprendizaje automático en todos los aspectos de nuestros productos. Como una empresa centrada en los datos, está implícito en nuestro enfoque para encontrar soluciones innovadoras que protejan a nuestros clientes frente al panorama de amenazas en constante evolución. Los modelos de transformador son solo un aspecto de nuestro arsenal de aprendizaje automático, pero los principios que impulsan su éxito son similares en todos los sistemas.
Para conseguir resultados punteros, es fundamental disponer de modelos sólidos que sean capaces de procesar enormes cantidades de datos de manera eficaz y eficiente. Además, disponer de datos relevantes es fundamental para entrenar los modelos para que identifiquen con precisión las amenazas y sean capaces de distinguir entre actividades inofensivas y maliciosas. Esto también deben actualizarse continuamente para seguir el ritmo del cambiante panorama de amenazas.
Unos procesos operativos robustos también son fundamentales para desplegar y mantener eficazmente estos modelos a gran escala. Eso incluye supervisar el rendimiento de los modelos, validar la calidad de los datos que se utilizan y ajustar los modelos para garantizar su precisión y eficacia. Nuestros expertos en aprendizaje automático cuentan con años de experiencia y un profundo conocimiento de estos factores de éxito críticos, lo que permite a Proofpoint proporcionar soluciones innovadoras y eficaces a nuestros clientes.
Modelos
Los modelos de aprendizaje automático constituyen la base de cualquier programa de tratamiento de datos, y están ampliamente disponibles en implementaciones gratuitas y de código abierto. Sin embargo, lo que diferencia a un equipo de tratamiento de datos experto de uno inexperto es su capacidad para comprender cuándo y cómo utilizar estos modelos disponibles.
Un equipo experto tiene un profundo conocimiento de las distintas arquitecturas de modelos, sus puntos fuertes y sus debilidades. Saben cuándo utilizar un determinado modelo para un problema específico y cómo sacar el máximo partido de los datos utilizando el modelo adecuado. Además, saben perfectamente cómo ajustar los modelos para que satisfagan las necesidades de un caso de uso concreto, lo que puede mejorar enormemente el rendimiento del modelo.
Más allá de los programas de investigación internos, nuestros equipos de aprendizaje automático colaboran con universidades para impulsar las innovaciones en aprendizaje automático. Estos programas universitarios desarrollan arquitecturas de modelos sobre conjuntos de datos públicos que nuestros científicos de datos se encargan de incorporar a los sistemas de Proofpoint.
En equipo de expertos en aprendizaje automático de Proofpoint tiene una amplia experiencia en varios campos. La combinación de su experiencia y de su competencia nos ayuda a proporcionar soluciones personalizadas y de alta calidad a nuestros clientes. Utilizamos la experiencia de nuestro equipo en aprendizaje automático para sacar el máximo partido de los datos y proporcionar resultados que satisfagan las necesidades de cada proyecto.
Datos
La alta calidad de los datos es fundamental para desarrollar y desplegar modelos de aprendizaje automático eficaces. La calidad de los datos de entrenamiento tiene un enorme impacto en la precisión y en el rendimiento general del modelo resultante. Gracias a nuestra amplia red de clientes y el posicionamiento líder de nuestros productos respecto a la competencia, los conjuntos de datos de Proofpoint no tienen rival en el sector de la seguridad. Como proveedor líder de soluciones de seguridad, Proofpoint protege a muchas de las principales empresas del mundo y procesa miles de millones de datos y decenas de miles de millones de URL al día, lo que nos ofrece información en tiempo real sobre las últimas amenazas y tendencias del panorama de ciberseguridad.
Utilizamos estos datos para entrenar nuestros modelos de aprendizaje automático y asegurarnos de que están siempre actualizados con la última información sobre las amenazas emergentes. De esta forma, nuestros modelos son capaces de identificar y mitigar las amenazas de forma más eficaz, lo que se traduce en una mejor protección general para todos nuestros clientes. Gracias a esta vista de conjunto y a nuestro equipo de expertos en aprendizaje automático e investigadores de amenazas, Proofpoint se desmarca de otras empresas del sector y proporciona a nuestros clientes una solución de seguridad realmente integral.
Figura 3. Muestras de conjuntos de datos que utiliza el aprendizaje automático de Proofpoint.
Procesos
Sin embargo, no se suficientes con disponer de datos de calidad. Es necesario poder utilizarlos para crear modelos de aprendizaje automático de primer nivel. El proceso de aprendizaje automático de Proofpoint es otro de los factores clave del éxito del aprendizaje automático a gran escala. Consiste básicamente en dar respuestas adecuadas a las siguientes cuestiones:
- ¿Con qué rapidez podemos entrenar o desplegar nuevos modelos?
- ¿Con qué frecuencia se ponen en producción los nuevos modelos?
- ¿Cómo facilitan nuestros procesos la detección mediante aprendizaje automático de los nuevos ataques?
Para responder a estas preguntas (y a sus muchas variantes), Proofpoint mantiene un ciclo de mejora permanente. Nuestros científicos de datos, investigadores de amenazas y equipos en contacto directo con los clientes identifican oportunidades para las oportunidades de implementación de nuevos modelos o las mejoras que hay que hacer a los sistemas existentes. A partir de ahí nos aseguramos de la fiabilidad de nuestros datos de entrenamiento con una combinación de expertos humanos en etiquetado y de la función de etiquetado automático de Proofpoint Aegis, nuestra plataforma de protección contra amenazas.
Después de eso, podemos entrenar el modelo con pipelines automatizados y validarlos. Los criterios de éxito dependen del caso de uso del modelo. Por ejemplo, si el modelo se encarga de identificar URL potencialmente peligrosas para analizar de manera predictiva, podríamos priorizar la reevaluación de todas las amenazas a riesgo de realizar análisis inútiles. Pero si el modelo se ha diseñado para bloquear un mensaje de correo electrónico, es posible que sea necesario un mayor nivel de precisión de la predicción.
Una vez validado el nuevo modelo, podemos desplegarlo con solo pulsar un botón. La orquestación de este proceso se llama “MLOps” (Machine Learning Operations) u operaciones de aprendizaje automático.
Figura 4. Vista general del ciclo de vida de MLOps de Proofpoint.
Nuestra plataforma de MLOps simplificada optimiza nuestro recorrido de producción y maximiza el impacto de nuestros empleados, Hemos sistematizado este proceso con un conjunto de patrones comunes que aceleran el lanzamiento de nuevos modelos. Con una carga administrativa mínima, podemos materializar rápidamente el valor de nuestras innovaciones en beneficio de nuestros clientes. Este proceso allana el camino del aprendizaje automático a gran escala, y se pidió a Proofpoint que compartiera sus mejores prácticas de MLOps en el evento AWS re:Invent.
El proceso operativo para movilizar los datos y mejorar permanentemente los modelos es lo que diferencia a los equipos de aprendizaje automático de primer nivel. En Proofpoint, no solo combinamos experiencia humana y aprendizaje automático para la detección de amenazas, sino que también creamos mejores sistemas de protección de la información incorporando a personas en el bucle en nuestros productos de clasificación de datos.
Únase al equipo
Si está interesado en crear modelos de aprendizaje automático de primer nivel y al mismo tiempo luchar contra la ciberdelincuencia, únase al equipo de Proofpoint. En Proofpoint, los ingenieros e investigadores de aprendizaje automático colaboran con universidades como la Universidad Duke, la Universidad Estatal de Washington y el Harvey Mudd College para desarrollar soluciones innovadoras a problemas complejos. Gracias a sus datos de enorme calidad, a sus procesos y herramientas punteras, y sus equipos de expertos, Proofpoint está idealmente situada para poner en práctica el aprendizaje automático.
Si está interesado en conocer más información sobre las oportunidades de empleo en Proofpoint, visite esta página.