Uso de Software Libre y Machine Learning para mejorar la Detección de Intrusos en una Red

Luis Eduardo Carrizo Garcia; María Daniela Álvarez Galarza

��

Uso de Software Libre y Machine Learning para mejorar la Detecci�n de Intrusos en una Red

Using Free Software and Machine Learning to Improve Intrusion Detection in a Network

Utiliza��o de Software Livre e Aprendizagem Autom�tica para melhorar a Detec��o de Intrus�es numa Rede

Correspondencia: luis.carrizogarcia7414@upse.edu.ec

Ciencias T�cnicas y Aplicadas

Art�culo de Investigaci�n

* Recibido: 12 de agosto de 2024 *Aceptado: 24 de septiembre de 2024 * Publicado: �07 de octubre de 2024

I. Universidad Estatal Pen�nsula de Santa Elena, Ecuador.

II. Universidad Estatal Pen�nsula de Santa Elena, Ecuador.

Resumen

Este estudio integra t�cnicas de Machine Learning (ML) con el sistema de detecci�n de intrusiones Snort para mejorar la identificaci�n de ataques DDoS. El objetivo es reducir los falsos positivos y aumentar la precisi�n en la detecci�n de amenazas en redes complejas. El m�todo consisti� en entrenar un modelo Random Forest utilizando el dataset CICIDS2017 y luego implementarlo junto a Snort en un entorno de red controlado. Los resultados mostraron un aumento en la precisi�n del 52.8% al 70.71%, y en la exactitud del 50.8% al 65.68%, con un incremento del F1-Score de 64.5% a 78.42%. Estos hallazgos demuestran que la integraci�n de ML con Snort mejora significativamente la capacidad de detecci�n y mitigaci�n de incidentes en tiempo real. Se recomienda investigar el uso de otros algoritmos de ML y probar en diferentes escenarios para continuar optimizando el sistema.

Palabras clave: machine learning; detecci�n de intrusiones; Snort, DDoS, ciberseguridad.

Abstract

This study integrates Machine Learning (ML) techniques with the Snort intrusion detection system to improve the identification of DDoS attacks. The goal is to reduce false positives and increase the accuracy of threat detection in complex networks. The method consisted of training a Random Forest model using the CICIDS2017 dataset and then deploying it alongside Snort in a controlled network environment. The results showed an increase in precision from 52.8% to 70.71%, and in accuracy from 50.8% to 65.68%, with an increase in the F1-Score from 64.5% to 78.42%. These findings demonstrate that integrating ML with Snort significantly improves the ability to detect and mitigate incidents in real time. It is recommended to investigate the use of other ML algorithms and test in different scenarios to continue optimizing the system.

Keywords: machine learning; intrusion detection; Snort, DDoS, cybersecurity.

Resumo

Este estudo integra t�cnicas de Machine Learning (ML) com o sistema de dete��o de intrus�o Snort para melhorar a identifica��o de ataques DDoS. O objetivo � reduzir os falsos positivos e aumentar a precis�o da dete��o de amea�as em redes complexas. O m�todo consistiu em treinar um modelo Random Forest utilizando o conjunto de dados CICIDS2017 e depois implement�-lo juntamente com o Snort num ambiente de rede controlado. Os resultados mostraram um aumento da precis�o de 52,8% para 70,71%, e da exatid�o de 50,8% para 65,68%, com um aumento do F1-Score de 64,5% para 78,42%. Estas descobertas demonstram que a integra��o do ML com o Snort melhora significativamente a dete��o de incidentes em tempo real e as capacidades de mitiga��o. Recomenda-se investigar a utiliza��o de outros algoritmos de ML e testar em diferentes cen�rios para continuar a otimizar o sistema.

Palavras-chave: aprendizagem autom�tica; dete��o de intrus�o; Snort, DDoS, ciberseguran�a.

Introducci�n

En el entorno actual de la ciberseguridad, los sistemas de informaci�n y las telecomunicaciones se enfrentan a amenazas y ataques cibern�ticos cada vez m�s sofisticados. Por lo que se requiere contar con una Arquitectura de Ciberseguridad robusta, dentro de esta se encuentran los denominados sistemas de detecci�n de intrusiones (IDS), los cuales desempe�an un papel importante en la protecci�n contra estas amenazas y ataques cibern�ticos (Leiva, 2015). Sin embargo, una limitaci�n com�n de muchos IDS es su dependencia de reglas predefinidas para detectar comportamientos an�malos y potencialmente maliciosos en el tr�fico de la red. Esta autonom�a los deja vulnerables a nuevos ataques que no saben que coinciden con las reglas almacenadas en sus bases de datos, lo que podr�a generar altos niveles de falsas alarmas o falsos positivos e incapacidad para detectar nuevas amenazas.

Seg�n (IBM, 2024), un sistema de detecci�n de intrusiones (IDS) act�a como un vigilante de la red, examinando constantemente el flujo de datos y los equipos conectados para identificar cualquier actividad que pueda indicar un ataque cibern�tico, un comportamiento an�malo o una violaci�n de las normas de seguridad establecidas.

Desarrollo

Clasificaci�n de los IDS

Seg�n Ahmad et al., (2021), Los IDS se clasifican en dos categor�as principales: por su implementaci�n y por su m�todo de detecci�n. A su vez, cada una de estas categor�as se subdivide en dos grupos adicionales: en la clasificaci�n por implementaci�n, encontramos los IDS basados en red y los basados en host; mientras que, en la clasificaci�n por detecci�n, se distinguen los IDS basados en firmas y los basados en anomal�as, a continuaci�n, en la Figura 1 se puede visualizar dicha clasificaci�n.

Figura 1: Clasificaci�n de los IDS.

Fuente: (Ahmad et al., 2021).

M�todo de implementaci�n basado en IDS

En cuanto el m�todo de implementaci�n los IDS se subclasifican como:

IDS Basado en Host (HIDS)

Est�n dise�ados para operar de manera aut�noma en cada dispositivo. Su funci�n principal es monitorear continuamente las acciones que se llevan a cabo dentro del sistema, compar�ndolas con las normas de seguridad establecidas. Sin embargo, la necesidad de desplegar un HIDS en cada equipo que se desee proteger implica una carga computacional adicional en cada nodo, lo que puede comprometer el desempe�o general del sistema de detecci�n de intrusiones (Kabiri & Ghorbani, 2005).

IDS Basado en Red (NIDS)

Act�an como centinelas digitales, desplegados en puntos estrat�gicos de la red para salvaguardar todos los dispositivos conectados. Estos sistemas analizan de forma continua el flujo de datos en busca de patrones que indiquen un posible ataque o una violaci�n de las pol�ticas de seguridad (Ahmad et al., 2021).

M�todo de detecci�n basado en IDS

En cuanto al m�todo de detecci�n se subdividen en:

Detecci�n basada en firmas (SIDS)

Funciona mediante la creaci�n de "huellas digitales" �nicas para cada tipo de ataque. Estas huellas se almacenan en una base de datos y se comparan con el tr�fico de la red en tiempo real. Si se encuentra una coincidencia, se genera una alerta (Axelsson, 2000).

Detecci�n basada en anomal�as (AIDS)

Establece un patr�n de comportamiento t�pico y saludable para la red. Cualquier acci�n que se desv�e significativamente de este patr�n se considera sospechosa y potencialmente maliciosa�(Filippo, 2000).

Arquitectura de un IDS

En la Figura 2, se observa la arquitectura b�sica de un Sistema de Detecci�n de Intrusiones (IDS), destacando el proceso desde la captura y an�lisis de paquetes de red, hasta la comparaci�n de estos con firmas o patrones de ataques conocidos, y la generaci�n de alertas cuando se detectan coincidencias, lo cual permite identificar y responder a posibles amenazas en la red.

Figura 2: Arquitectura de IDS.

Fuente: (Thakkar y Lohiya, 2020).

Tipos de NIDS en el mercado

Esta investigaci�n se enfoca en los NIDS porque representan una l�nea de defensa esencial en la protecci�n de redes, interceptando tr�fico malicioso antes de que pueda causar da�os. Los NIDS son especialmente �tiles en entornos donde la protecci�n de datos es primordial y donde la prevenci�n de intrusiones es clave para la continuidad operativa.

Por un lado, Snort es el sistema de prevenci�n de intrusiones de c�digo abierto l�der, que define la actividad maliciosa en la red mediante un conjunto de c�digos para identificar y alertar sobre paquetes coincidentes, y puede interceptar estos paquetes en l�nea. Sus tres principales aplicaciones son rastreadoras de paquetes, registrador de paquetes para depuraci�n y sistema completo de prevenci�n de intrusiones (Snort, 2024). Zeek, anteriormente conocido como Bro, fue desarrollado por Vern Paxson en los a�os 1990 y renombrado en 2018 para reflejar su crecimiento. A diferencia de dispositivos de seguridad din�micos, Zeek utiliza "sensores" para monitorear discretamente patrones de comunicaci�n, creando registros precisos para an�lisis manual o herramientas SIEM (zeek, 2024). Por otro lado, el sistema de prevenci�n denominado Suricata es un software de an�lisis de red y detecci�n de amenazas de alto rendimiento, de c�digo abierto, utilizado ampliamente en organizaciones para proteger sus activos (Suricata, 2024).

La importancia de este estudio radica en la necesidad urgente de mejorar los sistemas de detecci�n de intrusos para hacer frente a la evoluci�n constante de los ataques cibern�ticos. Los ataques son cada vez m�s sofisticados y variados, y los m�todos tradicionales basados en firmas no son suficientes para garantizar una protecci�n adecuada. Si se integran t�cnicas de Machine Learning con el sistema de detecci�n de intrusiones Snort, entonces se mejorar� la capacidad de detecci�n y mitigaci�n de incidentes, reduciendo la tasa de falsos positivos.

Estado del arte

Una revisi�n de la literatura sobre la aplicaci�n del aprendizaje autom�tico (ML) en sistemas de detecci�n de intrusiones (IDS) revela un creciente inter�s en su capacidad que mejora la precisi�n y escalabilidad de los IDS. Estudios previos demuestran que los algoritmos como m�quinas de vectores de soporte (SVM), redes neuronales artificiales (ANN) y aprendizaje profundo (DL) son efectivos para detectar comportamientos anormales en el tr�fico de red (Elshafie et al., 2020).

AbdulRaheem et al. (2024) encuentran mejoras notables en la precisi�n de detecci�n de ataques DDoS al integrar ML con Snort y Zeek. El Aeraj y Leghris (2024) confirman que ML logra reducir las falsas alarmas y mejorar la detecci�n de amenazas emergentes con Snort.

Otros estudios, como el de Fang y Liu (2011), muestran c�mo los sistemas basados en ML pueden aprender continuamente, mejorando la detecci�n en entornos din�micos. Enigo et al. (2020) proponen un marco h�brido de ML que mejora la detecci�n y reducci�n de falsos positivos. Faizi et al. (2022) comparan t�cnicas de ML en Snort, encontrando que algunas ofrecen mejor precisi�n y velocidad en la detecci�n de amenazas en tiempo real.

Amador et al. (2006) demuestran la capacidad de ML para detectar patrones an�malos en escaneos de puertos, mientras que Janampa Patilla et al. (2021) muestran mejoras en la seguridad de redes empresariales con ML y Snort. Guijarro Rodr�guez et al. (2024) y Perdig�n Llanes (2022) destan la efectividad de ML en la protecci�n de infraestructuras cr�ticas y redes empresariales, respectivamente.

Montes Vallejo (2023) y Chen y Lai (2023) revisan el uso de IA y ML en ciberseguridad, y la efectividad de ML en la detecci�n de ataques DDoS en plataformas espec�ficas. Coscia et al. (2024) mencionan que, mejoran la efectividad de IDS con reglas basadas en �rboles de decisi�n, y Garba et al. (2024) proponen un marco que combina t�cnicas tradicionales de ML con Snort para proteger dispositivos IoT y controladores SDN (Software-Defined Networking) que gestionan el tr�fico de red de manera programable y centralizada contra ataques DDoS.

Pantoja et al., (2021) comparan t�cnicas de ML, destacando la reducci�n de falsas alarmas y la mejora en la detecci�n de amenazas. Estos estudios demuestran la capacidad de ML para mejorar los IDS, aunque la mayor�a se centra en aspectos te�ricos o escenarios de prueba, indicando una necesidad de estudios pr�cticos para validar la integraci�n de ML y Snort en entornos reales.

SNORT

Para entender la posici�n destacada de ciertas herramientas en la detecci�n y prevenci�n de intrusiones, resulta relevante examinar estudios espec�ficos que eval�an su desempe�o bajo condiciones de ataque. En este sentido, el estudio realizado por Prabowo et al. (2023), confirma que Snort es la mejor opci�n entre las herramientas de Sistemas de Detecci�n de Intrusiones (IDS) evaluadas debido a su excelente desempe�o en la detecci�n de intrusiones a nivel de red y sus capacidades de mitigaci�n significativa de ataques de seguridad (DDoS).

Snort demuestra ser eficaz en el monitoreo de la calidad del servicio (QoS), mostrando un rendimiento excepcional en t�rminos de rendimiento, baja latencia, baja fluctuaci�n y bajas tasas de p�rdida de paquetes durante los ataques Flood. Esta capacidad destaca la capacidad de Snort para preservar la integridad de la red y reducir el rendimiento en condiciones de alta carga, posicion�ndola como la herramienta m�s eficaz para la protecci�n DDoS seg�n el an�lisis del estudio (Prabowo et al., 2023).

Snort procesa registros (logs) y eventos mediante la captura y registro del tr�fico de red, generando alertas basadas en reglas configuradas. Los registros de eventos se pueden almacenar en una variedad de formatos, como archivos de texto, archivos binarios (pcap) o bases de datos (CSV), lo que facilita un an�lisis integral de los datos capturados (Snort, 2024). Adem�s, Snort ofrece formas sencillas de administrar estos registros, permiti�ndole almacenarlos localmente, cargarlos en un servidor remoto o integrarlos con un sistema de monitoreo centralizado de administraci�n de eventos y seguridad (SIEM).

En comparaci�n con otros IDS, Snort destaca por su variedad de reglas y firmas que son actualizadas peri�dicamente, lo que mejora enormemente la detecci�n de amenazas conocidas. Su capacidad de personalizaci�n y flexibilidad le permite ajustar y crear reglas espec�ficas adaptadas a las necesidades de la red administrada, algo que no siempre es posible con otros IDS. Adem�s, la extensa comunidad de usuarios y desarrolladores de Snort aporta constantemente nuevo c�digo y mejoras, proporcionando un s�lido soporte gratuito. Tambi�n permite integrarla con otras herramientas de seguridad lo que permite aumentar su capacidad de respuesta y eficiencia durante incidentes (Snort, 2024).

Incidentes de seguridad

Un incidente de seguridad es cualquier evento que compromete la integridad, confidencialidad o disponibilidad de la informaci�n�(Chicano Tejada, 2023). Los incidentes de seguridad se pueden clasificar como se observa en la siguiente Figura 3

��

Figura 3: Tipo e incidentes de seguridad.

Fuente: (Chicano Tejada, 2023).

Estad�sticas de los tipos de incidentes

La elecci�n de hackmageddon.com como referencia para esta investigaci�n se fundamenta en la confiabilidad y la continuidad de este proyecto, debido a que se ha documentado ataques cibern�ticos desde hace m�s de una d�cada. Adem�s, la accesibilidad de los datos en formato bruto, ofrecidas directamente por el autor, permite que los investigadores obtengan informaci�n valiosa y actualizada sobre los tipos y frecuencias de ataques. Esta referencia es especialmente relevante debido a la falta de otras fuentes que mantengan una colecci�n tan extensa y bien organizada de datos hist�ricos de ataques cibern�ticos.

Figura 4: Cantidad de ataques Q1 2024.

Fuente: https://www.hackmageddon.com/2024/08/27/16-31-may-2024-cyber-attacks-timeline/

Seg�n la Figura 4 elaborado con los datos por hackmageddon.com sobre las t�cnicas de ataque m�s comunes en el primer trimestre de 2024, se observa que los Malware representan la mayor proporci�n de los ataques, constituyendo el 20% del total. Le sigue el Ransomware con un 17%, lo que refleja la prevalencia de estos ataques en el panorama de ciberseguridad actual.

La explotaci�n de vulnerabilidades ocupa el tercer lugar con un 14%, seguida de los ataques de toma de control de cuentas con un 11% y los ataques dirigidos con un 8%. Por otro lado, los ataques DDoS y las estafas (Scam) representan 3% y 3% respectivamente, mostrando una menor incidencia en comparaci�n con las t�cnicas dominantes (Passeri, 2024).

Dataset

CICIDS2017 (Canadian Institute for Cybersecurity Intrusion Detection System 2017) es un conjunto de datos ampliamente utilizado en la investigaci�n y desarrollo de sistemas de detecci�n de intrusiones (IDS). Fue creado por el Canadian Institute for Cybersecurity y dise�ado para proporcionar una referencia est�ndar en el an�lisis y evaluaci�n de t�cnicas de detecci�n de intrusiones, incluyendo enfoques basados en machine learning y deep learning (Montes et al., 2023).

El dataset incluye varios tipos de ataques; sin embargo, este art�culo se enfoca �nicamente en los ataques DoS/DDoS. El conjunto de datos se reduce a un total de 79 atributos (incluyendo el atributo de clase) y 225745 instancias sin entrar en la etapa de procesamiento.

Un NIDS desarrollado con m�todos de Machine Learning (ML) generalmente sigue tres fases principales:

� Fase 1: Procesamiento de datos.

� Fase 2: Entrenamiento.

� Fase 3: Prueba.

En la fase de preprocesamiento, el conjunto de datos se transforma al formato adecuado mediante codificaci�n, normalizaci�n, y limpieza de datos faltantes o duplicados. Posteriormente, los datos se dividen en un conjunto de entrenamiento (80%) y un conjunto de prueba (20%). Durante la fase de entrenamiento, el algoritmo ML var�a el tiempo de entrenamiento seg�n el tama�o del conjunto de datos y la complejidad del modelo. Finalmente, el modelo entrenado se eval�a usando el conjunto de prueba para predecir si el tr�fico de red pertenece a la clase benigno (normal) o maligno (ataque) (Ahmad et al., 2021).

Figura 5: Metodolog�a de sistema de detecci�n de intrusos basados en red (NIDS) y en aprendizaje autom�tico (ML).

Fuente: (Ahmad et al., 2021).

M�todos de IA para NIDS

En la Figura 6, se visualiza los algoritmos de aprendizaje autom�tico (ML) y aprendizaje profundo (DL) utilizados en los sistemas de detecci�n de intrusiones basados en red (NIDS). Los algoritmos de ML com�nmente utilizados incluyen �rboles de decisi�n (DT), algoritmos de aprendizaje autom�tico (K-vecino o KNN), redes neuronales artificiales (ANN), m�quinas de vectores de soporte (SVM) y agrupaci�n en cl�steres K-Mean. En particular, el �rbol de decisi�n clasifica y devuelve datos a trav�s de una estructura de �rbol que toma decisiones basadas en atributos, lo que facilita la interpretaci�n del proceso de clasificaci�n (Y. Xin et al., 2018). En este sentido, El algoritmo Random Forest basado en diferentes �rboles de decisi�n mejora la precisi�n al combinar predicciones de diferentes modelos, lo que ayuda a reducir el riesgo de sobreajuste y mejorar la robustez (K. Rai et al., 2015).

Por otro lado, los algoritmos de Deep Learning (DL), como, redes neuronales recurrentes (RNN), redes neuronales para aprender representaciones de datos como autoEncoders (AE), redes neuronales profundas (DNN), redes neuronales convolucionales (CNN) y redes de creencias profundas (DBN) (Ahmad et al., 2021). Son utilizados por los IDS para mejorar la capacidad de identificar y responder amenazas y/o ataques cibern�ticos, �gil y eficazmente.

Figura 6: Taxonom�a para modelos de ML y DL basados en NIDS.

Fuente: (Ahmad et al., 2021).

Evaluaci�n de NIDS con la matriz de confusi�n

La matriz de confusi�n es una herramienta importante para evaluar el rendimiento de las t�cnicas de Machine Learning (ML) y Deep Learning (DL) utilizadas en los Sistemas de Detecci�n de Intrusos (NIDS). Esta matriz bidimensional proporciona informaci�n sobre las predicciones del modelo en relaci�n con los resultados reales, dividiendo los resultados en cuatro categor�as (Ahmad et al., 2021):

1. True Positive (TP): Instancias correctamente clasificadas como ataques por el modelo.

2. False Negative (FN): Instancias de ataque que fueron clasificadas incorrectamente como normales.

3. False Positive (FP): Instancias normales clasificadas err�neamente como ataques.

4. True Negative (TN): Instancias normales correctamente identificadas como tales.

Precisi�n:

�� (1)

Recall o Tasa de detecci�n:

�� (2)

Tasa de falsas alarmas:

�� (3)

Tasa de negativos verdaderos:

�� (4)

Accuracy:

�� (5)

La diagonal de la matriz de confusi�n consta de valores True Positive (TP) y True Negative (TN), que representan la predicci�n correcta del modelo, es decir, cuando el modelo identific� correctamente un ataque o distribuy� el tr�fico normal en el lugar correcto. Por otro lado, los valores fuera de la diagonal son False Negative (FN) y False Positive (FP), indican un error en el modelo cuando no detecta ataques (FN) o cuando no distribuye el tr�fico normal (Deng et al., 2016).

Tabla 1: Matriz de confusi�n.

Predicci�n/Clase Real	Predicci�n: Ataque	Predicci�n: Normal
Real: Ataque	True Positive (TP)	False Negative (FN)
Real: Normal	False Positive (FP)	True Negative (TN)

Fuente: (Deng et al., 2016).

Este estudio tiene como objetivo integrar t�cnicas de aprendizaje autom�tico (ML) con Snort para mejorar su capacidad de detecci�n de intrusiones. Se busca desarrollar un sistema h�brido que combine las reglas predefinidas de Snort con la adaptabilidad y precisi�n de los modelos de ML. La investigaci�n pretende demostrar que esta integraci�n puede reducir significativamente las falsas alarmas o falsos positivos y mejorar la detecci�n de nuevas amenazas, proporcionando una defensa m�s robusta y din�mica contra los ataques cibern�ticos.

Metodolog�a

En este estudio se utilizaron dos enfoques de investigaci�n. Por un lado, el enfoque experimental se aplic� durante la fase de pruebas, en la cual los sistemas NIDS fueron evaluados en un entorno de red controlado mediante simulaciones de ataques reales y el uso de t�cnicas de aprendizaje autom�tico, lo que permiti� medir variables como la precisi�n y la sensibilidad. Por otro lado, el enfoque descriptivo permiti� documentar el comportamiento de los NIDS a lo largo de los experimentos, realizando una comparaci�n de las herramientas empleadas y su respuesta frente a diversas amenazas. Esto facilit� la evaluaci�n de su eficacia y permiti� sugerir mejoras para su implementaci�n.

Preguntas de investigaci�n

Q1: �C�mo afecta la integraci�n de Machine Learning a la precisi�n de Snort en la detecci�n de intrusos?

Q2: �Qu� diferencias de comportamiento se observan en la detecci�n de intrusiones con y sin la integraci�n de Machine Learning?

Herramientas y software

Se ha seleccionado a la herramienta Snort para este estudio, debido a que, es uno de los sistemas de detecci�n de intrusiones m�s conocidos y confiables, y su capacidad para reconocer tr�fico potencialmente malicioso a trav�s de la red lo hace ideal para detectar amenazas (Adiwal et al., 2023).

Configuraci�n de red

Para la configuraci�n de red, se utiliza un servidor f�sico con un CPU de 2 n�cleos y 16 GB de memoria RAM, ejecutando el sistema operativo Ubuntu Server 24.04.1, en el cual se encontraba instalado el NIDS Snort en su versi�n 2.9.15.1. La v�ctima fue una m�quina f�sica con el sistema operativo Ubuntu Server 24.04.1, mientras que el atacante oper� desde un sistema con Kali Linux, ubicado en un segmento de red diferente. Todo el entorno se desarroll� en un escenario real pero controlado, con direcciones IP p�blicas expuestas a Internet, asignadas tanto a la m�quina de la v�ctima como al atacante, cada una en segmentos de red distintos. La configuraci�n se detalla en la Figura 7.

Figura 7: Topolog�a f�sica de la red.

Fuente: Elaboraci�n propia.

Tabla 2: Configuraci�n de cada sistema.

Nombre del sistema	CPU	Memoria	Sistema Operativo
Sistema de Gesti�n Institucional (Victima)	Intel� Xeon� serie 5400	16 GB	Ubuntu Server 24.04.1
NIDS Snort 2.9.15.1	Intel� Xeon� serie 5100	16 GB	Ubuntu Server 24.04.1
Kali Linux	Intel� Core� I5	12 Gb	Kali Linux

Fuente: Elaboraci�n propia.

Fases de procesamiento, entrenamiento y prueba del DataSet con Machine Learning

Los algoritmos de aprendizaje autom�tico (ML), especialmente los �rboles de decisi�n son importantes en los sistemas de detecci�n de intrusiones en la red (NIDS). En este estudio se utiliz� un modelo Random Forest con 100 �rboles para detectar ataques DDoS, permitiendo la selecci�n autom�tica de caracter�sticas relevantes y evitando la sobrecarga mediante t�cnicas de poda, todo este proceso se realiz� con la ayuda de la librer�a scikit-learn presente en el script en Python. Con ello, se proces� el grupo de datos del conjunto del DataSet CICIDS2017, y se separaron las variables predictivas y las variables objetivo normalizaron los valores utilizando StandardScaler. Esto result� en un DataFrame listo para el entrenamiento del modelo.

Durante la fase de entrenamiento, los datos se dividieron en conjuntos de entrenamiento y prueba, utilizando el algoritmo Random Forest para entrenar el modelo y monitoreando su desempe�o con una matriz de confusi�n e informes de clasificaci�n. Este estudio incorpor� par�metros claves como precisi�n, recall y F1-score, as� como el tiempo de respuesta del modelo, asegurando as� la medici�n de la eficiencia en tiempo real a trav�s de un script en Python.

Pruebas con ataques DDoS

Pruebas sin ML en snort

En el proceso de prueba sin Machine Learning (ML), se utiliz� Snort en su configuraci�n tradicional basada en reglas est�ticas para detectar posibles intrusiones. El tr�fico de red fue generado simulando tr�fico benigno normal en la red como ataques maliciosos DDoS con la ayuda de la herramienta Hping3 durante un tiempo definido. Snort analiz� el tr�fico en tiempo real utilizando las reglas predefinidas, que est�n dise�adas para detectar patrones espec�ficos asociados a ataques conocidos. Las alertas generadas por Snort fueron registradas en el archivo de alerta snort.alert.fast. Est� prueba se enfoc� en observar c�mo Snort maneja el tr�fico sin la ayuda de t�cnicas de ML para identificar anomal�as o intrusiones y, con un script en Python se evalu� el tr�fico de red capturado para determinar su eficacia con la matriz de confusi�n.

Pruebas con ML en snort

La prueba de integraci�n de Machine Learning (ML) en Snort consisti� en tomar ya el modelo entrenado y probado con Random Forest y el DataSet de CICIDS2017 con el tr�fico etiquetado en formato CSV, los cuales fueron procesados para eliminar valores nulos y normalizar sus caracter�sticas. Luego, mediante un script en Python se analiz� el tr�fico de red en tiempo real, extrayendo las mismas caracter�sticas (columnas) utilizadas durante la fase de entrenamiento del modelo y clasificando los datos que registraron ataques DDoS. Se procedi� con la puesta en marcha del script en Python y en paralelo se gener� tr�fico benigno y maligno como en la prueba anterior, el tr�fico fue evaluado por el modelo ML, y cuando se detect� tr�fico malicioso (DDoS), el sistema NIDS gener� alertas y nuevas reglas din�micas que se almacenaron en el archivo local.rules. Esto permiti� automatizar la detecci�n de ataque en tiempo real. Se realiz� nuevamente la evaluaci�n de la eficacia a trav�s de la matriz de confusi�n con el script en Python.

Para la integraci�n de Machine Learning en Snort, se utilizaron varias librer�as de Python. La principal fue scikit-learn, que permiti� entrenar y evaluar un modelo de Random Forest para la clasificaci�n del tr�fico de red. Tambi�n se us� pandas para manipular los datos y procesar el conjunto de datos CICIDS2017, que se utiliz� para entrenar el modelo. Finalmente, joblib facilit� la tarea de guardar y cargar el modelo entrenado para que pudiera reutilizarse en Snort sin necesidad de reentrenarlo cada vez. Estas herramientas fueron claves para mejorar la capacidad de detecci�n de intrusiones de Snort.

Discusi�n de resultados

Desempe�o del modelo en su fase de prueba

A trav�s de la matriz de confusi�n se pudo visualizar el desempe�o del modelo en su fase de prueba en donde se obtuvieron los resultados que se observan en la siguiente tabla:

Tabla 3: Matriz de confusi�n en la fase de prueba del modelo.

Predicci�n/Clase Real	Predicci�n: Ataque	Predicci�n: Normal
Real: Ataque	25657 (TP)	6 (FN)
Real: Normal	0 (FP)	18954 (TN)

Fuente: Elaboraci�n propia.

El modelo realiz� 18,954 predicciones correctas al clasificar adecuadamente los casos que no eran ataques DDoS (True Negative). No cometi� ning�n error al predecir ataques cuando en realidad no los hab�a (False Positive). Sin embargo, se equivoc� 6 veces al clasificar como no ataque DDoS cuando en realidad s� lo era (False Negative). Adem�s, acert� en 25,657 casos al identificar correctamente los ataques DDoS (True Positive).

En el informe de clasificaci�n se pudo visualizar c�mo se desempe�� el modelo de Machine Learning en la fase de prueba. La precisi�n (1.00) indica que todas las predicciones positivas fueron correctas, mientras que el recall (1.00) significa que el modelo identific� correctamente todas las instancias positivas. El F1-score (1.00) refleja un equilibrio perfecto entre precisi�n y recall. En el support se pudo visualizar, cu�ntas instancias reales hay en cada clase. La exactitud (1.00) indica que el modelo clasific� correctamente todas las instancias. Las m�tricas de promedio macro y promedio ponderado (ambos en 1.00) sugieren que el modelo tiene un rendimiento excelente en general, sin importar el tama�o de las clases. En conjunto, estos resultados indican que el modelo clasific� todas las instancias de manera correcta.

Tabla 4: Informe del desempe�o del modelo (fase 3 de prueba).

	precision	recall	F1-score	support
False	1.00	1.00	1.00	18954
True	1.00	1.00	1.00	25663
Accuracy			1.00	44617
macro avg	1.00	1.00	1.00	44617
weighted avg	1.00	1.00	1.00	44617

Fuente: Elaboraci�n propia.

Desempe�o de Snort Sin ML

Se identificaron correctamente 22 instancias de tr�fico benigno, clasific�ndolas como tal (True Negative). Sin embargo, cometi� 142 errores al clasificar incorrectamente tr�fico benigno como ataques (False Positive). Adem�s, no detect� 33 ataques, clasific�ndolos como benignos (False Negative). Por otro lado, logr� identificar correctamente 159 ataques como maliciosos (True Negative). Como se visualiza en la Tabla 5.

Tabla 5: Matriz de confusi�n sin ML.

Predicci�n/Clase Real	Predicci�n: Ataque	Predicci�n: Normal
Real: Ataque	159 (TP)	33 (FN)
Real: Normal	142 (FP)	22 (TN)

Fuente: Elaboraci�n propia.

Como se observa en la Tabla 6, el desempe�o sin ML alcanz� una precisi�n de 52.82%, lo que indica que, de todas las instancias clasificadas como ataques, poco m�s de la mitad realmente lo eran. La exactitud fue del 50.84%, lo que significa que un poco m�s de la mitad de las predicciones fueron correctas en general. El recall, o sensibilidad, fue del 82.81%, ello implica que, snort fue capaz de detectar la mayor�a de los ataques reales. Finalmente, el F1-Score, que equilibra la precisi�n y el recall, fue de 64.50%, reflejando un desempe�o moderado en la clasificaci�n de ataques cibern�ticos.

Tabla 6: Informe de desempe�o sin ML.

	Resultados	%
Precision	0.528	52.8
Accuracy	0.508	50.8
Recall	0.828	82.8
F1-score	0.645	64.5

Fuente: Elaboraci�n propia.

Desempe�o de Snort con ML

Snort con ML clasific� correctamente 9 instancias de tr�fico benigno como benignas (True Negative). Sin embargo, cometi� 70 errores al clasificar incorrectamente tr�fico benigno como ataques (False Positive). Adem�s, no detect� 23 ataques, clasific�ndolos incorrectamente como benignos (False Negative). Por otro lado, logr� identificar correctamente 169 ataques como maliciosos (True Positive).

Tabla 7: Matriz de confusi�n con ML.

Predicci�n/Clase Real	Predicci�n: Ataque	Predicci�n: Normal
Real: Ataque	169 (TP)	23 (FN)
Real: Normal	90 (FP)	9 (TN)

Fuente: Elaboraci�n propia.

Con la integraci�n de Machine Learning, Snort alcanz� una precisi�n del 70.71%, lo que significa que el sistema genera relativamente pocos falsos positivos. En cuanto a la exactitud fue del 65.68%, lo que indica que m�s de la mitad de las predicciones fueron correctas. El recall fue del 88.02%, lo que refleja una alta capacidad del sistema para detectar la mayor�a de los ataques. Finalmente, el F1-Score se ubic� en 78.42%, mostrando un buen equilibrio entre precisi�n y recall, lo que indica un desempe�o efectivo en la clasificaci�n de intrusiones.

Tabla 8: Informe de desempe�o con ML.

	Resultados	%
Precision	0.707	70.7
Accuracy	0.656	65.6
Recall	0.880	88.0
F1-score	0.784	78.4

Fuente: Elaboraci�n propia.

Comparaci�n del desempe�o

Al comparar el sistema con y sin Machine Learning en Snort, se observan mejoras significativas. La precisi�n aumenta del 52.8% sin ML al 70.71% con ML, lo que indica que el sistema redujo considerablemente los falsos positivos. la exactitud se eleva del 50.8% al 65.68%, y demuestra que el sistema fue mucho m�s efectivo en la clasificaci�n correcta de las instancias con ML. el recall se mantiene alto, experimenta una ligera mejora con la integraci�n de ML. Finalmente, El F1-Score muestra un incremento notable, pasando de 64.5% a 78.42%, lo que refleja un mejor equilibrio entre la detecci�n de ataques cibern�ticos y la reducci�n de falsos positivos con ML.

Figura 8: Comparaci�n del desempe�o de Snort sin y con ML

Fuente: Elaboraci�n propia.

Conclusiones

Los resultados obtenidos demuestran mejoras significativas en la detecci�n de ataques DDoS al integrar Machine Learning en el sistema Snort. La precisi�n del modelo mejor� notablemente, pasando de un 52.8% a un 70.71%, lo que indica una reducci�n efectiva de los falsos positivos. El F1-Score tambi�n present� un aumento significativo, reflejando un mejor equilibrio entre la detecci�n de ataques y la clasificaci�n de tr�fico benigno. La exactitud general del sistema se increment� del 50.8% al 65.68%, validando la eficacia de la integraci�n de t�cnicas de aprendizaje autom�tico.

Este estudio contribuye al campo de la ciberseguridad al mostrar c�mo la implementaci�n de Machine Learning en sistemas de detecci�n de intrusiones como Snort puede mejorar significativamente la detecci�n de amenazas y ataques cibern�ticos, especialmente en entornos de red complejos donde es esencial minimizar tanto los falsos positivos como los falsos negativos. Al optimizar la precisi�n y el balance entre la detecci�n de ataques cibern�ticos y la reducci�n de errores, este trabajo aporta una soluci�n pr�ctica y escalable para mejorar la seguridad en redes.

Para investigaciones futuras, se sugiere explorar la combinaci�n de diferentes algoritmos de Machine Learning para lograr un mayor nivel de precisi�n y recall. Adem�s, ser�a valioso realizar pruebas en entornos m�s diversos, con diferentes tipos de ataques y vol�menes de tr�fico, para evaluar el rendimiento del sistema en otras condiciones. Tambi�n se podr�a considerar la implementaci�n de t�cnicas de aprendizaje profundo para optimizar a�n m�s la detecci�n y respuesta a incidentes en tiempo real.

Referencias

1. Ahmad, Z., Shahid Khan, A., Wai Shiang, C., Abdullah, J., & Ahmad, F. (2021). Network intrusion detection system: A systematic study of machine learning and deep learning approaches. Transactions on Emerging Telecommunications Technologies, 32(1). https://doi.org/10.1002/ett.4150

2. AbdulRaheem, M., Oladipo, I. D., Imoize, A. L., Awotunde, J. B., Lee, C. C., Balogun, G. B., & Adeoti, J. O. (2024). Machine learning assisted snort and zeek in detecting DDoS attacks in software-defined networking. International Journal of Information Technology, 16(3), 1627-1643.

3. Adiwal, S., Rajendran, B., Shetty D., P., & Sudarsan, S. (2023). DNS Intrusion Detection (DID) � A SNORT-based solution to detect DNS Amplification and DNS Tunneling attacks. ELSEIVER, 1-10.

4. Amador, S., Arboleda, A. Y., & Bed�n, C. (2006). Utilizando Inteligencia Artificial para la detecci�n de Escaneos de Puertos.

5. Chen, C. L., & Lai, J. L. (2023). An Experimental Detection of Distributed Denial of Service Attack in CDX 3 Platform Based on Snort. Sensors, 23(13). https://doi.org/10.3390/s23136139

6. Chicano Tejada, E. (2023). Gesti�n de incidentes de seguridad inform�tica. M�laga: IC.

7. Coscia, A., Dentamaro, V., Galantucci, S., Maci, A., & Pirlo, G. (2024). Automatic decision tree-based NIDPS ruleset generation for DoS/DDoS attacks. Journal of Information Security and Applications, 82. https://doi.org/10.1016/j.jisa.2024.103736

8. Deng, X., Liu, Q., Deng, Y., & Mahadevan, S. (2016). An improved method to construct basic probability assignment based on the confusion matrix for classification problem. sciencedirect, 250-261.

9. El Aeraj, O., & Leghris, C. (2024). Analysis of the SNORT intrusion detection system using machine learning. International Journal of Information Science and Technology, 8(1), 1-9.

10. Elshafie, H. M., Mahmoud, T. M., & Ali, A. A. (2020). An efficient Snort NIDSaaS based on danger theory and machine learning. Applied Mathematics, 14(5), 891-900.

11. Enigo, V. S. F., Ganesh, K. T., Raj, N. N. V., & Sandeep, D. (2020). Hybrid intrusion detection system for detecting new attacks using machine learning. In 2020 5th International Conference on Communication and Electronics Systems (ICCES) (pp. 567-572). IEEE.

12. Faizi, A. H. N., Priambodo, D. F., & Rahmawati, F. D. (2022). Comparison of machine learning techniques on Snort for predicting realtime DoS and probe attack. In 2022 International Conference on Informatics Multimedia Cyber and Information System (ICIMCIS) (pp. 224-229). IEEE.

13. Fang, X., & Liu, L. (2011). Integrating artificial intelligence into Snort IDS. In 2011 3rd International Workshop on Intelligent Systems and Applications (pp. 1-4). IEEE.

14. Filippo, N. (2000). Comparing local search with respect to genetic evolution to detect intrusions in computer networks. Proceedings of the 2000 Congress on Evolutionary Computation.

15. Garba, U. H., Toosi, A. N., Pasha, M. F., & Khan, S. (2024). SDN-based detection and mitigation of DDoS attacks on smart homes. Computer Communications, 221, 29�41. https://doi.org/10.1016/j.comcom.2024.04.001

16. Guijarro Rodr�guez, A. A., J�come Morales, G. C., Gonzalez Mestanza, V., Ter�n Zurita, E., & Torres Mart�nez, D. E. (2024). 2022. Detecci�n de amenazas de seguridad en una red corporativa utilizando algoritmos de machine learning. Serie Cient�fica de La Universidad de Las Ciencias Inform�ticas, 15, 1�11.

17. IBM. (15 de julio de 2024). https://www.ibm.com/. Obtenido de https://www.ibm.com/es-es/topics/intrusion-detection-system

18. Janampa Patilla, H., Huamani Santiago, H. L., & Meneses Conislla, Y. (2021). Snort Open Source como detecci�n de intrusos para la seguridad de la infraestructura de red Snort Open Source as intrusion detection for network infrastructure security Hubner Janampa Patilla 1* https://orcid.org/0000-0003-3110-194X. Revista Cubana de Ciencias Inform�ticas, 15(3). http://rcci.uci.cuP�g.55-73https://orcid.org/0000-0002-8197-9956YudithMenesesConislla3https://orcid.org/0000-0002-7646-5512

19. Leiva, E. A. (2015). Estrategias nacionales de ciberseguridad: Estudio comparativo basado en enfoque top-down desde una visi�n global a una visi�n local. Archivo de la Revista Latinoamericana de Ingenier�a de Software, 3(4), 161-176.

20. Montes Vallejo, C. F. (2023). Inteligencia Artificial y el Aprendizaje Autom�tico en la Ciberseguridad.

21. Montes Gil, J. A., Isaza Cadavid, G., & Duque M�ndez, N. D. (2023). Efecto de la selecci�n de atributos en el desempe�o de un IDS basado en machine learning para detecci�n de intrusos en ataques DDoS. South Florida Journal of Developmen, 1-11.

22. Pantoja, N. D., Donado, S. A., Villalba, K. M., & Mart�nez Flor, E. U. (2021). 2021. Determinaci�n de t�cnica de inteligencia para la detecci�n de un tipo de ataque en un IDS. Revista Ib�rica de Sistemas e Tecnologias de Informa��o, 317�329.

23. Passeri, P. (09 de 07 de 2024). https://www.hackmageddon.com/. Obtenido de https://www.hackmageddon.com/2024/07/09/q1-2024-cyber-attacks-statistics/

24. Perdig�n Llanes, R. (2022). Suricata como detector de intrusos para la seguridad en redes de datos empresariales. Ciencia UNEMI, 15(39), 44�53. https://doi.org/10.29076/issn.2528-7737vol15iss39.2022pp44-53p

25. Prabowo, W. A., Fauziah, K., Nahrowi, A. S., Faiz, M. N., & Muhammad, A. W. (2023). Strengthening Network Security: Evaluation of Intrusion Detection and Prevention Systems Tools in Networking Systems. International Journal of Advanced Computer Science and Applications, 1-10.

26. Rai, K., Devi, M. S., & Guleria, A. (2015). Decision tree based algorithm for intrusion detection. International Journal of Advanced Networking and Applications, 7(4), 2828.

27. Sharafaldin, I., Lashkari, A. H., & Ghorbani, A. A. (2018). Toward generating a new intrusion detection dataset and intrusion traffic characterization. ICISSp, 1, 108-116.

28. Snort. (2024). https://www.snort.org/. Obtenido de https://www.snort.org/

29. Suricata. (2024). https://suricata.io/. Obtenido de https://suricata.io/

30. Y. Xin et al., "Machine Learning and Deep Learning Methods for Cybersecurity," in IEEE Access, vol. 6, pp. 35365-35381, 2018, doi: 10.1109/ACCESS.2018.2836950.

31. Zeek. (2024). https://zeek.org/. Obtenido de https://zeek.org/

� 2024 por los autores. Este art�culo es de acceso abierto y distribuido seg�n los t�rminos y condiciones de la licencia Creative Commons Atribuci�n-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

Enlaces de Referencia

Por el momento, no existen enlaces de referencia

Polo del Conocimiento

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo

Manta - Ecuador

Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/

Normas para los Autores

Manual para subir artículos en OJS

REGÍSTRATE

INFORMACIÓN

Enlaces de Referencia

Nombre de usuario
Clave
Recordar mis datos