Clasificación y etiquetado de tweets de Ecuador para determinar qué tema tratan, utilizando un modelo Transformer

César Humberto Espin-Riofrio, Kerlly Vera-Guamán, Ricardo Yela-García


El presente artículo tiene como uno de sus objetivos el estudio y establecimiento del estado de arte del Procesamiento de Lenguaje Natural, así como también identificar los métodos más utilizados para la tarea de clasificación y etiquetado de textos basados en el idioma español a través de la revisión y comparación de diferentes artículos científicos de relevancia y trabajos académicos relacionados. Se procederá a experimentar con el modelo Transformer Selectra-Medium para clasificación de textos cortos, utilizando mensajes de la red social Twitter de usuarios de Ecuador como fuente de datos en idioma español, los mismos serán almacenados, procesados, clasificados y finalmente etiquetados para poder identificar de qué temas tratan de forma automática.  A través de la utilización del modelo se establecen categorías previamente definidas como sociedad, economía, entretenimiento, salud, deportes y delincuencia sobre las cuales procede la clasificación. Se busca obtener una proyección de los temas de interés que tratan los usuarios agilitando tareas de análisis de textos, dichos resultados podrán ser beneficiosos como aporte a las investigaciones sobre el tema.

Palabras clave

Procesamiento de Lenguaje Natural; Transformers; Selectra; Clasificación de textos.

