Esta semana IBM anunció que va a dedicar a la ciberseguridad una nueva versión basada en cloud de su tecnología cognitiva, Watson. Este sistema de inteligencia artificial (IA) se hizo famoso al competir en 2011 en un concurso en la televisión estadounidense de preguntas, Jeopardy!, y derrotar a sus dos oponentes humanos, como en 1997 lo hiciera DeepBLue a Gary Kaspárov jugando al ajedrez.
Watson será entrenado, con la ayuda de un puñado de universidades, en el lenguaje de la ciberseguridad. Su objetivo es aprender los detalles de los resultados de las distintas investigaciones en seguridad para descubrir patrones y evidencias de ataques encubiertos y amenazas ocultas que de otra forma pasarían desapercibidos. Con ello se pretende optimizar las capacidades de los analistas en seguridad utilizando sistemas cognitivos que automaticen la búsqueda de conexiones entre los datos, las amenazas emergentes y las distintas estrategias de protección. De esta forma, dicen, la “seguridad cognitiva” generará hipótesis, razonamientos basados en evidencias y recomendaciones para mejorar la toma de decisiones en tiempo real.
Pero no es la única iniciativa que aprovecha la inteligencia artificial y los métodos de aprendizaje automático (ML, del inglés Machine Learning) para mejorar la ciberseguridad. Samuel Greengard en un artículo (Cybersecurity gets Smart) en el último número (05/2015 vol. 59 , no 05) de la revista Communications of the ACM (DOI: 10.1145/2898969) hace un repaso de algunas de las más significativas innovaciones que en la actualidad utilizan tecnologías de big data, reconocimiento de patrones, computación cognitiva y deep learning (aprendizaje automático en varias etapas que puede utilizar supervisión humana en alguna de ellas) que simulan el funcionamiento del cerebro humano.
La idea central en estas investigaciones es crear sistemas que descubran nuevos ataques y adapten su respuesta dinámicamente. Para ello utilizan la computación cognitiva, analizando (con tecnologías de procesamiento del lenguaje natural, o PLN) el código y los datos de forma continua. Así es posible construir sistemas que mantengan y actualicen algoritmos cada vez más eficientes en la detección de ciberataques, utilizando tecnologías de deep learning.
Una de las compañías en vanguardia es la israelí Deep Instinct con un software de seguridad que usa redes neuronales artificiales para detectar mutaciones en el código malicioso. Para ello analiza patrones de millones de datos y ficheros maliciosos en busca de elementos críticos y parámetros para su clasificación, en rápidos clúster de GPU (Graphics Processing Unit). La red neuronal obtenida se distribuye a los ordenadores de analistas humanos (dotados con agentes ligeros) que los utilizan para identificar las amenazas en tiempo real y realimentar a su vez el sistema. De esta forma aprende y mejora continuamente su tasa de detección.
El proyecto del instituto de investigación Georgia Tech utiliza un algoritmo que analiza las relaciones entre ficheros que se comparten utilizando hashes relativos a la ubicación y minería de datos basada en gráficos (Graph mining) haciendo clústers de riesgos por probabilidad. Este método, patentado ahora por Symantec, determina si un fichero en concreto es malicioso o no.
Otro de sus proyectos se basa en las dinámicas de interacción del usuario con los dispositivos (tecleado, gestos, movimientos del ratón, …) como factor de autenticación (mencionadas en el artículo sobre identidad y acceso inteligentes del pasado mes de noviembre).
Investigadores en la Universidad Carnegie Mellon quieren crear un sistema autoadaptativo que cuando detecte un evento sospechoso basado en patrones de código, la hora, la dirección IP, etc. genere automáticamente un CAPTCHA o una petición de un segundo factor de autenticación. Con este sistema se podrá tanto detectar y reducir el efecto tanto del malware, como de errores humanos (por ejemplo al compartir datos confidenciales) o fugas de datos (por empleados descontentos, por ejemplo).
Lo que tienen en común estos proyectos es que persiguen una mayor eficiencia de los sistemas que, utilizando IA y ML, analizan situaciones de riesgo mejorando por una parte el reconocimiento de patrones y detección de anomalías en el lado preventivo; y la resiliencia, adaptabilidad y flexibilidad en el lado reactivo.
Por otra parte muchos de estos desarrollos van a necesitar un lenguaje común, unificando los formatos y estándares actuales, como el que proponen los investigadores de la Universidad de Maryland, en Baltimore EEUU en el paper presentado el pasado mes de febrero en el Congreso AAAI (Workshop on Artificial Intelligence for Cyber Security): “UCO: A Unified Cybersecurity Ontology” . Esta ontología unificada de ciberseguridad utiliza, a su vez, tecnologías de la web semántica para mapear un lenguaje que sirva de referencia para aplicaciones, empresas y comunidades de desarrolladores e investigadores.
Pero ¿quién será más rápido en adaptarse?, ¿estamos ya en la era en la que estas investigaciones adelantan al humano malicioso que hay detrás de los ataques?, o ¿utilizarán también los delincuentes esta tecnología para descubrir, a su vez, el riesgo de ser detectados y adaptarse en consecuencia?
pero aunque parece lógico esta mejora para mejorar en seguridad…entiendo que cada organización debera decidir hasta que nivel quiere rastrear para confirmar un acceso, un usuario o similar…pero volvemos a lo de siempre, ¿privacidad?
Una cosilla, es Watson, no Whatson…
Gracias por vuestros comentarios. Rodolfo tienes razón la privacidad está en juego en muchos casos. José, corregimos la errata.
Artículo muy interesante, bien redactado y bien documentado. ¡Muchas gracias por compartir!