Clasificación de artículos académicos sobre la pandemia de COVID-19 a través de la técnica de minería de texto Word Embeddings

Bayron Fernando Vásquez Vanegas; Marcos Patricio Orellana Cordero

��

Clasificaci�n de art�culos acad�micos sobre la pandemia de COVID-19 a trav�s de la t�cnica de miner�a de texto Word Embeddings

Classification of academic articles on the COVID-19 pandemic through the Word Embeddings text mining technique

Classifica��o de artigos acad�micos sobre a pandemia de COVID-19 por meio da t�cnica de minera��o de texto Word Embeddings

Correspondencia: bayron.vasquezv@hotmail.com

Ciencias de la Educaci�n ��

Art�culo de Investigaci�n

��

* Recibido: 23 de octubre de 2022 *Aceptado: 12 de noviembre de 2022 * Publicado: 5 de diciembre de 2022

Ingeniero en Sistemas; Analista de Tecnolog�as de la Informaci�n y Comunicaciones; Regional del Instituto Nacional de Patrimonio Cultural, Investigador independiente, Ecuador.
Ingeniero de Sistemas; Docente-Investigador en las l�neas de Ciencia de los Datos e Inteligencia Artificial; Master en Gesti�n de Sistemas de Informaci�n e Inteligencia de Negocios; Master en Docencia Universitaria; Profesional con amplia experiencia en bases de datos y direcci�n de departamentos de TI; Desarrollador de Sistemas de Informaci�n Transaccionales y de Inteligencia de Negocios; Docente y Coordinador de la Escuela de Ingenier�a de Sistemas y Telem�tica de la Universidad del Azuay; Responsable del programa de Inform�tica y Director del Laboratorio de Investigaci�n y Desarrollo en Inform�tica (LIDI), Universidad del Azuay, Ecuador.

Resumen

La enfermedad de COVID-19, se introdujo y extendi� r�pidamente como una pandemia global, que necesitaba ser tratada con respuestas inmediatas, oportunas e integradas a los sistemas. Con la presencia de este virus SARS-CoV-2, la comunidad cient�fica, las organizaciones, los individuos y la sociedad en general, han visto la necesidad de obtener informaci�n que pueda aportar conocimiento sobre la evoluci�n de la enfermedad, posibles causas, consecuencias, tratamientos, prevenci�n, entre otros aspectos. El presente art�culo propone realizar la clasificaci�n de art�culos cient�ficos publicados sobre la pandemia de COVID-19, con la aplicaci�n de t�cnicas de Machine Learning, a trav�s de mecanismos de representaci�n sem�ntica de palabras como el Word Embeddings y tecnolog�as basadas en redes neuronales; utilizando el an�lisis y procesamiento de los abstracts de art�culos cient�ficos disponibles en las fuentes de informaci�n como LitCovid. Los resultados describen los distintos mecanismos y metodolog�as de clasificaci�n de texto y las maneras de representar el mismo, con el objeto de construir un modelo de clasificaci�n fundamentado en la t�cnica de miner�a de texto Word Embeddings y en redes neuronales basadas en la arquitectura LSTM; obteni�ndose la metodolog�a a seguir para clasificar art�culos cient�ficos, as� como, los resultados de desempe�o de los modelos propuestos. Se concluye que, no se logr� una predicci�n con resultados favorables en todas las clases, debido a que los datos est�n desbalanceados y existen clases muy mayoritarias en comparaci�n a otras, por lo que las predicciones se vieron afectadas.

Palabras Clave: Procesamiento de Lenguaje Natural; Word Embedding; Machine Learning; Redes Neuronales; Clasificaci�n de art�culos; COVID-19.

Abstract

The COVID-19 disease was rapidly introduced and spread as a global pandemic, which needed to be treated with immediate, timely and systems-integrated responses. With the presence of this SARS-CoV-2 virus, the scientific community, organizations, individuals and society in general have seen the need to obtain information that can provide knowledge about the evolution of the disease, possible causes, consequences, treatments, prevention, among other aspects. This article proposes to carry out the classification of scientific articles published on the COVID-19 pandemic, with the application of Machine Learning techniques, through mechanisms of semantic representation of words such as Word Embeddings and technologies based on neural networks; using the analysis and processing of the abstracts of scientific articles available in information sources such as LitCovid. The results describe the different text classification mechanisms and methodologies and the ways of representing it, in order to build a classification model based on the Word Embeddings text mining technique and on neural networks based on the LSTM architecture; obtaining the methodology to follow to classify scientific articles, as well as the performance results of the proposed models. It is concluded that a prediction with favorable results was not achieved in all classes, because the data is unbalanced and there are very majority classes compared to others, so the predictions were affected.

Keywords: Natural Language Processing; Word Embedding; machine learning; Neural Networks; Article classification; COVID-19.

Resumo

A doen�a COVID-19 foi rapidamente introduzida e disseminada como uma pandemia global, que precisava ser tratada com respostas imediatas, oportunas e integradas aos sistemas. Com a presen�a deste v�rus SARS-CoV-2, a comunidade cient�fica, organiza��es, indiv�duos e a sociedade em geral t�m visto a necessidade de obter informa��es que possam fornecer conhecimento sobre a evolu��o da doen�a, poss�veis causas, consequ�ncias, tratamentos, preven��o, entre outros aspectos. Este artigo prop�e realizar a classifica��o de artigos cient�ficos publicados sobre a pandemia de COVID-19, com aplica��o de t�cnicas de Machine Learning, por meio de mecanismos de representa��o sem�ntica de palavras como Word Embeddings e tecnologias baseadas em redes neurais; utilizando a an�lise e tratamento dos resumos de artigos cient�ficos dispon�veis em fontes de informa��o como o LitCovid. Os resultados descrevem os diferentes mecanismos e metodologias de classifica��o de texto e as formas de represent�-lo, de forma a construir um modelo de classifica��o baseado na t�cnica de minera��o de texto Word Embeddings e em redes neurais baseadas na arquitetura LSTM; obter a metodologia a seguir para classificar os artigos cient�ficos, bem como os resultados de desempenho dos modelos propostos. Conclui-se que n�o foi alcan�ada uma previs�o com resultados favor�veis em todas as classes, pois os dados est�o desbalanceados e h� classes muito majorit�rias em rela��o �s outras, ent�o as previs�es foram afetadas.

Palavras-chave: Processamento de linguagem natural; Incorpora��o de palavras; aprendizado de m�quina; Redes neurais; classifica��o do artigo; COVID-19.

Introducci�n

La pandemia de COVID-19 pertenece a la familia de los anteriores virus coronavirus, cuyas cepas produc�an la gripe com�n. Sin embargo, en el a�o 2003 surge la primera mutaci�n, dando origen al SARS que tuvo sus inicios en China, con m�s de ocho mil cuatrocientos pacientes en veintisiete pa�ses diferentes, con una letalidad del diez por ciento. M�s adelante, en el a�o 2012 aparece otra nueva cepa mutante de coronavirus en Arabia Saudita, conocida como MERS-CoV, con un registro de m�s de dos mil cuatrocientos enfermos y una letalidad del treinta y siete por ciento (Thompson, 2003; BMJ Best Practice, 2020).

El actual coronavirus, conocido como COVID-19, surgi� en Wuhan, China y se extendi� por todo el mundo; tiene predilecci�n por el �rbol respiratorio, de modo que, al penetrar causa una respuesta inmune anormal con caracter�sticas inflamatorias e incremento de las citoquinas, agravando al paciente y causando m�ltiples da�os org�nicos (Magui�a et al, 2020). An�lisis gen�micos han revelado que el SARS-CoV-2 est� asociado con los virus de murci�lagos, que son similares al s�ndrome respiratorio agudo severo. La fuente intermedia de origen y transmisi�n a humanos se desconoce, no obstante, lo que s� est� confirmada es la r�pida transferencia de humano a humano (Muhammad, et al, 2020).

Sea cual fuere su origen, lo cierto es que el mundo en general se ha visto grandemente afectado por los efectos producidos por la COVID-19. A la fecha, casi todos los pa�ses registran miles de infectados, decesos, secuelas f�sicas y mentales, as� como, graves problemas en la econom�a. El surgimiento de la reciente enfermedad, ha llevado al mundo a una de las mayores crisis de la historia, en los �mbitos econ�mico, social y de salud, nunca antes visto, afectando m�ltiples aspectos de la vida cotidiana (Ministerio de Sanidad, 2020).

Ante esta nueva realidad, la comunidad cient�fica ha puesto su mayor esfuerzo en hacerle frente a la pandemia, estudiando y entendiendo el origen del nuevo virus, su comportamiento, y los efectos en la salud y la vida del ser humano, para, de esta manera, poder establecer medidas de prevenci�n eficaces, administrar tratamientos adecuados, desarrollar vacunas, e implementar pol�ticas p�blicas para la gesti�n y control de la pandemia. Como resultado de ello, la producci�n de conocimiento cient�fico acerca de la COVID-19 y el nuevo coronavirus ha crecido a un ritmo sin precedentes.

Seg�n estudios realizados por Wang & Lo (2021), �se han publicado m�s de 50000 art�culos sobre COVID-19 desde principios de 2020 y se siguen publicando varios cientos de art�culos nuevos todos los d�as� (p. 781). Esta enorme tasa de productividad cient�fica sobre COVID-19 lleva a una sobrecarga de informaci�n, dificultando que los m�dicos, enfermeros, bioanalistas, funcionarios de salud p�blica, gobiernos e investigadores, est�n al d�a con los �ltimos hallazgos sobre la tem�tica; siendo imprescindible que se mantengan actualizados en lo que respecta a dicha literatura (Wang y Lo, 2021).

Desde el mismo momento que se notific� el primer caso de COVID-19 se inici� la publicaci�n de una gran cantidad de estudios, intentado aclarar ciertas inc�gnitas sobre s�ntomas, pruebas de detecci�n, medidas preventivas y tratamiento. De hecho, la manera r�pida en la que se fue propagando el virus y la repercusi�n inmediata que tuvo en el individuo y la sociedad, cre� la necesidad de tomar medidas serias a nivel mundial, desde el punto de vista de la salud, con base en las evidencias disponibles hasta el momento (Greenhalgh et al, 2020).

De manera que, la pandemia de COVID-19 empez� a dar lugar a un estallido de informaci�n recogida en publicaciones cient�ficas, donde cada quince d�as se van duplicando las referencias; tal y como lo menciona Torres-Salinas (2020), cuando se�ala que con la llegada de la pandemia, el primer problema que ha debido afrontar al universo de la publicaci�n es la avalancha de preprints y art�culos cient�ficos, as� como, la necesidad de que estos lleguen a ser accesibles . Cabe acotar que, una de las respuestas por parte de editoriales fue la creaci�n de centros de recursos para unificar en una �nica web y que sea de acceso abierto, todo lo que se vaya publicando acerca de la COVID-19.

En este mismo orden de ideas, seg�n Torres-Salinas (2020), la tasa de crecimiento bibliom�trico seg�n el an�lisis realizado en la base de datos Dimensions se calcula en , el mismo que determina que la cantidad de publicaciones realizadas es de alrededor de quinientos art�culos diarios. Sin duda, toda esta cantidad de informaci�n es el reflejo de los esfuerzos de la comunidad cient�fica para hacer frente a esta crisis sanitaria que ha afectado a m�ltiples aspectos de la vida cotidiana alrededor del mundo.

Toda esta cantidad de publicaciones son de naturaleza multidisciplinar, siendo as� que cualquier entidad o persona interesada en realizar investigaci�n sobre COVID-19 con base a un criterio de inter�s particular debe realizar la b�squeda e ir clasificando los resultados obtenidos de manera manual. Esto supone un alto costo en t�rminos de tiempo, siendo ahora m�s que nunca el recurso tiempo un factor primordial para hacer frente a la pandemia.

El principal inter�s de los investigadores es extraer informaci�n a partir de art�culos cient�ficos, con base en un criterio u objetivo determinado, seg�n el �rea de inter�s; por lo que herramientas que permitan realizar una clasificaci�n autom�tica de tal informaci�n son cada vez m�s importantes y requeridas por parte de la comunidad cient�fica (Chandrasekaran y Fernandes, 2020). Por este motivo, la utilizaci�n de t�cnicas inform�ticas de procesamiento y clasificaci�n de datos, permitir�an obtener informaci�n espec�fica en las distintas bases cient�ficas, y lo m�s importante, que est�n clasificadas.

Por lo antes dicho, se requiere el uso de t�cnicas inform�ticas que faciliten la b�squeda, lectura y clasificaci�n de un determinado documento; de forma r�pida y precisa ante el exceso de informaci�n existente (Wang y Lo, 2021). Esto es importante, pues extraer informaci�n de inter�s particular puede llevar mucho esfuerzo y tiempo, ya que cada uno de los art�culos de investigaci�n sobre cierta tem�tica en particular, pertenecen a distintas fuentes y dominios, como la medicina y atenci�n m�dica, el reconocimiento de patrones, la miner�a de datos, el aprendizaje autom�tico, entre otros (Sonbhadra et al, 2020).

De hecho, organizaciones, editoriales, bibliotecas virtuales, redes acad�micas, cat�logos, directorios acad�micos, revistas cient�ficas, entre otros, se han esforzado por organizar la informaci�n sobre COVID-19 de tal manera que sea encontrada y por ende de utilidad a la comunidad cient�fica. Por ejemplo, la Organizaci�n Panamericana de la Salud ha compilado publicaciones cient�ficas, gu�as t�cnicas, recomendaciones y protocolos de investigaci�n en curso de Am�rica y el resto del mundo, relacionados con la pandemia actual; siendo esto de utilidad para autoridades, profesionales de la salud, investigadores, y la sociedad en general (Organizaci�n Panamericana de la Salud, 2022).

Se habla entonces de una t�cnica denominada miner�a de textos, la cual, una de sus principales �reas de aplicaci�n biom�dica es la gesti�n de la sobrecarga de informaci�n (Ananiadou et al, 2006; Kilicoglu, 2018; Zweigenbaum et al, 2007). La miner�a de textos se centra en resolver problemas espec�ficos como recuperar documentos relevantes o extraer parte de la informaci�n de dichos documentos. Puede utilizar t�cnicas para la recuperaci�n, extracci�n y clasificaci�n de la informaci�n; adem�s de aprovechar m�todos de campos relacionados, como el lenguaje de procesamiento y la construcci�n de bases de conocimientos (Cohen & Hersh, 2005).

Hoy m�s que nunca, es imprescindible tener una visi�n completa del estado del arte de la literatura relacionada con la COVID-19, debido a razones tales como: organizar y categorizar la literatura; explorar temas de investigaci�n; identificar prioridades y necesidades para generar oportunidades de investigaci�n; entender la evoluci�n de la pandemia; reconocer a los l�deres de la investigaci�n en esta �rea, como investigadores, institutos y centro de investigaciones, pa�ses l�deres, entre otros; y explorar conexiones entre temas y �reas de investigaci�n.

En este sentido, la clasificaci�n de documentos representa un �rea admirada de investigaci�n en reconocimiento de patrones y miner�a de datos. Hoy d�a, la presencia de repositorios de investigaci�n en l�nea masivos, llevan a que la b�squeda de art�culos de investigaci�n de temas espec�ficos o de inter�s para el usuario, se convierta en un proceso que demanda mucho tiempo. Los motores de b�squeda disponibles para encontrar documentos mediante palabras clave, son �tiles, no obstante, a veces representan una tarea limitante y desafiante (Sonbhadra et al, 2020).

Por lo tanto, este art�culo propone una metodolog�a que se enfoca en realizar categorizaciones de art�culos cient�ficos publicados sobre COVID-19, mediante la aplicaci�n de t�cnicas de PNL como el Word Embedding. Este procesamiento de lenguaje natural se ha venido aplicando a documentos m�dicos que se redactan en textos libres a fin de construir bases de datos que programas computarizados puedan no solo entender, sino tambi�n analizar (Friedman & Johnson, 2006).

Con base en lo anterior, cabe acotar que una clasificaci�n autom�tica de documentaci�n mediante la aplicaci�n de t�cnicas de Procesamiento de Lenguaje Natural (PLN), puede tener un gran impacto al momento de organizar y clasificar art�culos de inter�s por campos y temas; facilitando la tarea de b�squeda de informaci�n y brindando soporte a las tareas de investigaci�n para �sta nueva tem�tica sobre COVID-19.

Si bien varios estudios e investigaciones realizadas como Jimenez et al (2020), Jelodar et al (2020) y Dynomant et al (2019), han abordado el tema de la problem�tica de clasificar art�culos o documentos de texto acerca del COVID-19 y problemas de salud en general, es importante conocer si la t�cnica de PLN conocida como Word Embedding puede brindar una clasificaci�n de art�culos que permitan extraer conocimientos relevantes, y brindar soporte a la investigaci�n cient�fica. El word embedding ha demostrado ser una t�cnica �til en diversas tareas del PLN aparte de la similitud de textos; por lo que en la actualidad tienen gran popularidad (Collobert, et al, 2011; Zou, et al, 2013).

Con la llegada de la pandemia, surgieron proyectos para abordar la problem�tica antes descrita, como el COVIDScholar; un proyecto que nace del esfuerzo por afrontar los problemas aplicando t�cnicas de PLN, para agregar, analizar y buscar literatura de investigaci�n acerca del COVID-19, mediante la implementaci�n de una infraestructura automatizada y escalable para buscar e integrar investigaciones recientes tal como �stas aparecen, logrando as�, levantar un corpus de m�s de 81,000 art�culos cient�ficos y dem�s documentos relacionados al COVID-19 (Trewartha et al., 2020).

Por otra parte, para afrontar el desaf�o que ha provocado la pandemia de COVID-19 en m�ltiples aspectos, se est�n empleando mecanismos de PLN y aprendizaje autom�tico sobre los art�culos de investigaci�n de la Organizaci�n Mundial de la Salud (OMS), con el fin de generar conocimiento que pueda guiar tanto las pol�ticas del COVID-19, investigaciones y desarrollo (Awasthi, et al, 2020). Se aplican enfoques de resumen de texto y los modelos entrenados de Word Embeddings para resumir la informaci�n publicada, dando como resultado la herramienta CovidNLP.

Un abordaje te�rico sobre Procesamiento de Lenguaje Natural (PNL), Machine Learning (ML) y Word Embeddings (WE)

Actualmente es de inter�s realizar tareas que procesan el lenguaje natural, es decir, la lengua o idioma hablado o escrito por humanos para prop�sitos generales de comunicaci�n, mediante el empleo de t�cnicas o m�todos de aprendizaje autom�tico. El objetivo del Procesamiento de Lenguaje Natural (PLN), es estudiar, analizar y emplear algoritmos y metodolog�as para desarrollar modelos computacionales que puedan ser capaces de procesar idiomas en lenguaje natural, que permitan o faciliten la comunicaci�n entre humanos y m�quinas o realicen el procesamiento del habla o texto (Jurafsky & Martin, 2020).

Los enfoques de PLN actualmente incorporan algoritmos de Machine Learning (ML) o aprendizaje autom�tico, este enfoque desarrolla t�cnicas y algoritmos los mismos que aprenden a realizar ciertas tareas en particular mediante el uso de datos o informaci�n que no han sido programados para dicho prop�sito, esto quiere decir que son capaces de desarrollar un modelo generalizado con un grupo de datos y hacer predicciones sobre datos nuevos (Daud et al, 2017).

Machine Learning (ML) o aprendizaje autom�tico, es una rama de la Inteligencia Artificial, que permite lidiar con el problema de grandes cantidades de informaci�n que resultan dif�ciles de analizar, facilitando la entrega de informaci�n confiable y r�pida, y la toma de decisiones, en especial de organizaciones de salud (Pedrero et al, 2021). Por tanto, el Machine Learning tiene como objetivo desarrollar mecanismos y algoritmos que partiendo de un conjunto de datos puedan realizar tareas espec�ficas, sin que hayan sido programados espec�ficamente para ello.

En otro orden de ideas, una de las principales tareas de la clasificaci�n de texto dentro de las tareas de PLN, es la representaci�n del mismo, teniendo como objetivo representar de manera num�rica los documentos de texto para que luego puedan ser procesados computacionalmente, para ello, es necesario representar los elementos textuales de los documentos como son palabras, caracteres, n-gramas de palabras o incluso informaci�n morfol�gica como categor�as gramaticales etc. Usualmente existen dos tipos de representaci�n que son One-Hot y Representaci�n distribuida o Embeddings.

El mayor avance m�todos de representaci�n de palabras llega con el trabajo realizado en 2013 por Mikolov, et al., llamados modelos predictivos. Estos modelos tratan de predecir palabras a partir de las palabras que est�n cercanas a �stas en t�rminos de vectores m�s peque�os y densos. Estos m�todos basan su concepto en que si se puede predecir el contexto en el cual aparece una palabra, entonces se entiende el significado de �sta en su contexto. Por lo que palabras sem�nticamente similares estar�n cerca entre s� en sus representaciones de espacios vectoriales. A estos m�todos se los denomina Word Embeddings. (Mikolov, et al, 2013)

Las t�cnicas de Word Embedding se han convertido en las principales herramientas dentro de los modelos de PLN, capturando el significado de las palabras y convirti�ndolas a una codificaci�n que puede ser utilizada para todo tipo de redes neuronales. Entre las principales aplicaciones de �sta t�cnica son: sistemas de traducci�n; an�lisis de opini�n de textos; generaci�n de textos; chatbox; entre otros.

Algunas t�cnicas para el PLN son el Word2Vec, el FastText y el Glove. El primero, Word2vec, es un grupo de varios modelos relacionados utilizados para producir word embeddings; que generan representaciones de palabras en vectores, los cuales almacenan la relaci�n sem�ntica entre las mismas; estos vectores resultantes son empleados en distintas tareas de PLN, por lo general tienen cientos de dimensiones para cada una de las palabras en el corpus. Una vez que el modelo se ha entrenado, �ste puede detectar sin�nimos de palabras o sugerencias de las mismas para una oraci�n. (Mikolov, et al, 2013)

El segundo, FastText, representa una palabra mediante la suma de sus composiciones de caracteres llamados n-grams.� Por ejemplo, el vector de la palabra "apple" consiste en la suma de los vectores n-gram �<ap, app, appl, apple, apple>, ppl, pple, pple>, ple, ple>, le>�. En consecuencia, aplicando �sta t�cnica, se obtiene una mejor representaci�n de las palabras "raras" que pocas veces aparecen en el cuerpo del texto, y as� generar vectores para palabras que no existen en el vocabulario de los Word Embeddings. (Bojanowski, et al, 2017)

El tercero, Glove, es un modelo basado en conteo, en el cual se genera una matriz de gran tama�o que almacena la informaci�n de la concurrencia entre palabras y contextos. Es decir, para cada palabra se realiza un conteo de las veces que �sta aparece en alg�n contexto. El objetivo de entrenamiento de dicha matriz es aprender vectores de forma que el producto escalar entre las palabras sea igual al logaritmo de la probabilidad de co-ocurrencia entre las palabras. El n�mero de contextos es muy alto, por lo tanto, se realiza una factorizaci�n de dicha matriz para obtener una de menores dimensiones, dando como resultado mejores representaciones de palabras o Word Embeddings (Pennington, et al, 2014)

Materiales y M�todos

Para el presente estudio en la clasificaci�n de texto se propone un modelo basado en redes neuronales, mediante el empleo de arquitectura LSTM, se emplea este enfoque debido a la ventaja que tienen este tipo de redes de almacenar informaci�n para la siguiente iteraci�n y controlar la informaci�n que llega de entrada y de salida, de la misma manera como se mencion� previamente en el an�lisis de las redes neuronales, las redes neuronales de tipo RNN, son empleadas mayormente para tareas de PLN por brindar mejores resultados en dichas tareas.

Adem�s, se utiliza un entorno Google Colab, que es una herramienta de Google Research, la cual permite codificar y ejecutar c�digo en lenguaje Python desde el navegador web, esto con el objetivo de obtener las librer�as que se requieren para la realizar tareas de PLN. Asimismo, el estudio propone tres modelos de clasificaci�n que emplean la combinaci�n de un modelo de Word Embedding junto con un modelo de red neuronal para la clasificaci�n, a saber,

● Modelo I - Word2Vec + LSTM Bidireccional

● Modelo II - FastText + LSTM Bidireccional

● Modelo III - Glove + LSTM Bidireccional

Para que el texto pueda ser procesado computacionalmente, �ste debe ser transformado a una representaci�n que el computador pueda entenderlo, es decir, de forma num�rica; para ello, el texto de an�lisis debe pasar por un proceso de manera que se logre conseguir una representaci�n lo m�s aceptable y �ptima posible, para que el modelo de aprendizaje profundo pueda realizar de mejor manera las predicciones deseadas. La figura a continuaci�n muestra una representaci�n del proceso a seguir para la metodolog�a propuesta de clasificaci�n de art�culos cient�ficos.

Figura 1. Metodolog�a de Clasificaci�n

Metodolog�a propuesta de clasificaci�n de art�culos

1. Selecci�n de Conjunto de Datos o DataSet:

El Dataset o conjunto de datos de LitCovid es una recopilaci�n de art�culos recientemente publicados, cuyas tem�ticas est�n relacionadas con la literatura actual del Coronavirus. �ste conjunto de datos contiene m�s de 23.000 art�culos y en promedio se agregan 2.000 nuevos art�culos semanalmente, siendo as� un recurso integral para que la comunidad cient�fica pueda actualizarse con informaci�n acerca de la crisis que ha provocado la pandemia de la COVID-19. (Jim�nez, et al, 2020)

Cada uno de los art�culos contenidos en el conjunto de datos de LitCovid, son etiquetados en una de las siguientes tem�ticas: Prevenci�n, Tratamiento, Diagn�stico, Mecanismo, Reporte de casos, Transmisi�n, Pron�stico, General. La mayor�a de estos art�culos pueden ser etiquetados con varias de �stas etiquetas, sin embargo, alrededor del 76% ha sido etiquetado solo con una.

LitCovid se actualiza diariamente con nuevos art�culos relacionados con COVID-19 identificados en PubMed y categorizados en Tratamiento, Diagn�stico, Prevenci�n e Infecciones. Inicialmente, toda la recopilaci�n de datos y el almacenamiento de documentos se realizaban de manera manual con poca ayuda de las m�quinas. Sin embargo, a medida que avanzaba la pandemia, se implementaron enfoques automatizados para dar soporte al refinado manual y maximizar la productividad de la refinaci�n para mantener al d�a con la literatura en r�pido crecimiento.

Los art�culos se afinan o depuran a diario, permitiendo que los usuarios puedan navegar de manera r�pida por el entorno de la investigaci�n de temas acerca del COVID-19 con un alto nivel, geolocalizaci�n y organizaciones relacionadas. La informaci�n afinada integra la b�squeda entre datos y conocimiento, lo que permite el descubrimiento de conocimientos en aplicaciones posteriores, como la s�ntesis de pruebas y la reutilizaci�n de f�rmacos. As� tambi�n, permite descubrir informaci�n a trav�s de funciones de b�squeda avanzadas como clasificaci�n de relevancia, b�squeda de frases, entre otras.

Cabe se�alar que LitCovid es una fuente de datos abierta por lo que se puede descargar libremente para la investigaci�n, as� como para tareas de procesamiento autom�tico. La tarea de afinaci�n o depuraci�n de los art�culos de LitCovid se realiza de la siguiente manera:

Los art�culos candidatos son seleccionados utilizando consultas de palabras clave de PubMed por medio de la herramienta E-Utils de NCBI.
Los art�culos seleccionados se examinan y clasifican como relevantes o irrelevantes.
Los art�culos relevantes de COVID-19 se afinan a profundidad.

Se les asigna uno o m�s de los ocho temas generales que correspondan.
Se extrae la geolocalizaci�n y las menciones de drogas o sustancias qu�micas en el t�tulo y el abstract.

Los art�culos relevantes son indexados mediante Solr, una plataforma de b�squeda empresarial independiente de c�digo abierto.

2. An�lisis Exploratorio de los Datos:

El An�lisis Exploratorio de Datos o EDA por sus siglas en ingl�s (Exploratory Data Analysis), permite revisar c�mo est�n los datos antes de crear el modelo, este paso es importante ya que al realizar la inspecci�n del conjunto de datos permite revisar qu� distribuci�n tienen sobre ciertas caracter�sticas, si existen datos que aporten a la construcci�n del modelo o que deban ser descartados, normalizados, entre otros.

Para realizar la experimentaci�n se toma como base el conjunto de datos descritos previamente LitCovid de entrenamiento actualizada hasta el 12-09-2021 (Qingyu, et al, 2021), la misma que consta de un total de 24,960 art�culos de LitCovid. Si el an�lisis exploratorio de los datos o EDA por sus siglas en ingl�s (Exploratory Data Analysis), no se realiza adecuadamente, pueden darse problemas o dificultades en las etapas o fases siguientes durante la construcci�n del modelo de ML. Entre los pasos que se emplean para realizar �ste an�lisis se encuentran:

● Revisi�n de la cantidad de datos, lo que permite determinar si existen los suficientes recursos para el procesamiento de los mismos.

● Identificar si existen filas o columnas en blanco, ya que si estos datos son parte de la construcci�n del modelo podr�an introducir ruido y afectar el c�lculo del modelo.

● Identificar el tipo de datos, es decir, si la informaci�n a analizar comprende �nicamente texto o tambi�n se componen de otro tipo de datos n�meros como enteros, decimales, alfanum�ricos, etc.

● Tener siempre claro qu� tipo de tarea es la que se va a realizar, es decir, si la tarea consiste en abordar un problema supervisado, si es de salida binaria o multiclase, ya que esto permitir� seleccionar la arquitectura adecuada para la construcci�n del modelo.

● Visualizaci�n del corpus en una nube de palabras (representaci�n gr�fica de la frecuencia de las palabras en un texto), esta representaci�n gr�fica puede proveer una descripci�n general del corpus de texto, permitiendo visualizar si el texto a ser analizado contiene los temas de inter�s.

● Revisi�n de la distribuci�n de los datos, esto permite revisar c�mo se distribuyen los mismos en relaci�n a cierta caracter�stica a lo largo del dataset.

A continuaci�n, se muestran algunas im�genes del proceso EDA realizado sobre el conjunto de datos, compuesto de 24,960 registros.

Tabla 1. Descripci�n del Conjunto de Datos

#	Columna	Cant. No-Null
0	Pmid	24,960 non-null
1	Journal	24,960 non-null
2	Title	24,960 non-null
3	Abstract	24,960 non-null
4	Keywords	18,968 non-null
5	pub_type	24,960 non-null
6	Authors	24,859 non-null
7	Doi	24,406 non-null
8	Label	24,960 non-null

Como se puede observar, algunos de estos datos no est�n completos como el campo de �keywords�, �authors� y �doi�, sin embargo, estos datos no son representativos, ya que el presente estudio se enfoca en el an�lisis del abstract. Con �sta informaci�n inicial se puede empezar a trabajar sobre la tarea a desarrollarse, ya que por la inspecci�n realizada el conjunto de datos seleccionado no contienen vac�os o datos de tipo null en el abstract, sobre el cual se va a realizar la construcci�n del modelo de contexto o modelo de Word embeddings y sobre el que se va a realizar la clasificaci�n.

3. Pre-procesamiento:

El pre-procesamiento del texto antes de ejecutar cualquier tarea de PLN es un proceso importante, para el presente estudio se abordan las siguientes subtareas de pre-procesamiento: eliminaci�n de stopwords o palabras vac�as, eliminaci�n de signos o caracteres especiales, normalizaci�n y Stemming. Debido a que el conjunto de datos se compone de informaci�n de varias fuentes poseen distintas caracter�sticas, lo que hace necesario estandarizar todas estas caracter�sticas de manera que el modelo que va a realizar la predicci�n para la clasificaci�n de texto contenga �nicamente informaci�n que sea relevante.

Es importante destacar que no existe un m�todo estandarizado para realizar el pre-procesamiento, ya que muchos de estos procedimientos pueden utilizarse dependiendo del tipo de tarea a realizar y del texto que vaya a ser analizado, ya que podr�a ser el caso que, para ciertas tareas de PLN, puede requerir realizar ciertos procedimientos de pre-procesamiento y para otras tareas no.

● Filtrado de Datos: Para lograr el objetivo de realizar una clasificaci�n de art�culos se toma �nicamente los art�culos que contengan �ste atributo en el conjunto de datos, ya que pueden existir diversos documentos que no contengan �ste atributo, pudiendo introducir ruido al momento de realizar el an�lisis de texto y podr�a provocar una mala precisi�n del modelo de clasificaci�n. El conjunto de datos est� compuesto de 24,960 art�culos, una vez aplicado el filtro los art�culos resultantes para el an�lisis son 16,814.

Figura 2. Filtro de datos

● Eliminaci�n de caracteres especiales y puntuaci�n: La tarea de clasificaci�n que se propone en el presente proyecto se basa en la aplicaci�n de enfoque de word embedding, y en vista que estas representaciones vectoriales de texto no proporcionan representaciones para signos de puntuaci�n y caracteres especiales, estos deben eliminarse.

● Eliminaci�n de enlaces o URLs: De la misma manera que los caracteres especiales las direcciones web o urls no aportan informaci�n sem�ntica o sint�ctica para establecer relaci�n del texto, por lo que debe eliminarse �ste tipo de contenido.

● Eliminaci�n de stopword o palabras vac�as: El lenguaje natural est� conformado de dos clases de palabras las que contienen significado asociado entre ellas y palabras funcionales que no contienen ning�n significado. Las stopwords o palabras vac�as, son t�rminos utilizados para identificar palabras funcionales y no necesitan ser parte del procesamiento de tareas de PLN por su bajo aporte al an�lisis. Las stopwords o palabras vac�as son palabras funcionales que carecen de sentido en el contexto de tareas de clasificaci�n de texto. Estas deben ser eliminadas con el prop�sito de reducir el tama�o del texto y analizar palabras que �nicamente aportan al contexto dentro del corpus.

� Identificaci�n de n-grams: El proceso de identificaci�n de n-grams permite identificar caracter�sticas dentro del documento como, por ejemplo, determinar conjuntos de palabras que ocurren con frecuencia, para el caso del presente estudio se ha definido la identificaci�n de unigrams, bigrams y trigrams; por ejemplo: Unigram: �coronavirus�, Bigrams: �coronavirus pandemic� y Trigrams: �test positive coronavirus�.

● Tokenizaci�n: La identificaci�n de ngram tokenizaci�n no es m�s que el proceso de dividir el texto en unidades textuales m�s peque�as, se puede interpretar como dividir un conjunto de informaci�n en s�mbolos, es decir los token o s�mbolos de una palabra son cada una de sus letras; de un p�rrafo un s�mbolo o token podr�a ser toda una oraci�n.

4. Representaci�n sem�ntica de palabras:

La representaci�n del texto debe ser capaz de mantener la similitud sem�ntica entre las palabras que componen el texto, la representaci�n por Word Embedding es generar vectores de manera que las palabras que sean similares entre s� sem�nticamente, est�n cerca una de las otras en el espacio vectorial. Con esto se logra que los vectores resultantes de �ste modelo puedan ser utilizados como entrada para el modelo de clasificaci�n y tengan un mejor rendimiento, al momento de realizar las predicciones de clasificaci�n.

A pesar de que existen ya modelos pre-establecidos de vectores por Word Embeddings generalizados para tareas de PLN, para el presente estudio se realiza la construcci�n de un modelo de contexto propio a partir del corpus del conjunto de datos seleccionado, por lo que se obtienen tres modelos de contexto con las distintas arquitecturas antes mencionadas: Word2Vec, FastText y Glove.

Para la construcci�n de los mencionados modelos de contexto se tienen que establecer ciertos hiper par�metros, los cuales afectan la calidad de entrenamiento, as� como la velocidad del mismo. Para los modelos de Word2Vec y FastText se han determinado los siguientes hiper par�metros para el presente estudio:

● MIN_COUNT: Este par�metro se utiliza para delimitar el n�mero de veces que la palabra se repite dentro del corpus, �ste valor por defecto es 5, sin embargo, depende mucho del tama�o del conjunto de datos para entrenar.

● SIZE: Este par�metro determina el tama�o del vector resultante que va representar cada palabra; para el presente estudio se configura con un tama�o de 300, ya que son los tama�os por defecto que maneja �sta arquitectura.

● WINDOW: La ventana o tama�o de ventana significa que la palabra del centro es la palabra objetivo y las dem�s son las palabras de contexto, para el presente estudio se ha considerado un valor de 5.

● SG: este par�metro indica que arquitectura de Word2Vec se utiliza, para el caso de Skip-Gram es 1 y para CBOW es 0.

En el caso del modelo Glove, se define �nicamente el hiper par�metro NO_COMPONENT, el mismo que indica la dimensi�n que van a tener los vectores para cada palabra, lo que equivale al hiper par�metro SIZE, del modelo anterior. La tabla a continuaci�n muestra la informaci�n del modelo de contexto obtenido mediante el empleo de la arquitectura Word2Vec con la arquitectura Skip-Gram.

Tabla 2. Descripci�n del Modelo Word Embedding - Word2Vec

Descripci�n de elemento	Valor
N�mero de Documentos	24,960
Tama�o del Corpus	3191,187� total words
Tama�o del Vocabulario	83,439
Tiempo de entrenamiento	564.44 segundos
P�rdidas en el entrenamiento	0.0
�pocas	30
Tama�o del vector	300
Arquitectura	Skip-Gram

Como se puede observar, se han generado vectores de palabras de trecientas dimensiones, esto quiere decir que, para cada palabra dentro del corpus, existe un vector donde cada una de sus dimensiones representa una relaci�n que tiene �sta palabra con el resto de palabras del texto, como se muestra en la siguiente ilustraci�n:

Figura 3. Representaci�n de Vectores de Palabras por Word Embedding

5. Generaci�n de Secuencias:

Se transforma el corpus de texto en secuencias rellenas de identificadores de palabras para obtener una matriz de caracter�sticas, cabe resaltar que el relleno de las secuencias se determina con base al tama�o de la secuencia de mayor tama�o, por lo que, secuencias de menor tama�o son rellenadas con cero, hasta lograr un tama�o igual a la secuencia mayor, para el presente estudio, el art�culo con mayor n�mero de palabras dentro del abstract es de 847 palabras, por lo que las secuencias de los dem�s abstracts de menor tama�o ser�n rellenados con cero, hasta completar el tama�o mencionado.

6. Divisi�n de Datos de Entrenamiento y Prueba:

Una vez obtenidas las secuencias para cada uno de los abstracts del corpus, se procede a dividir el conjunto de datos de las secuencias obtenidas en datos de entrenamiento y prueba. Los art�culos o datos de entrenamiento son los que aportan a la identificaci�n de patrones en los datos, tambi�n en �sta etapa se reducen las tasas de error para la etapa de prueba y evaluaci�n del rendimiento del modelo. Algunos estudios como Khan, et al (2010), indican que, para realizar el entrenamiento de modelos de ML, es necesario contar con un subconjunto representativo lo suficiente para evitar el sobreentrenamiento. Del conjunto de datos seleccionado, el 70% de ellos se consideran como datos de entrenamiento y el 30% como datos de prueba del modelo.

7. Creaci�n de Matriz de Embeddings�

Esta matriz act�a como una matriz de pesos, donde el vector de la palabra �se ubica en la fila , esto se logra mediante la tokenizaci�n, que se realiz� en la etapa de Pre-procesamiento, donde se obtuvo un diccionario para cada palabra dentro del corpus. Este diccionario contiene un �ndice de cada palabra, el mismo que sirve para ubicar cada vector de palabra en la fila correspondiente a dicho �ndice. La figura a continuaci�n muestra el proceso de generaci�n de la matriz de embeddings.

Figura 4. Matriz de Embeddings

●

8. Modelo de Red Neuronal

Por �ltimo, el modelo de red neuronal es creado con la matriz de pesos de cada una de las palabras en el vector de secuencias correspondiente. El objetivo es desarrollar un modelo de clasificaci�n basado en redes neuronales basado en la arquitectura LSTM, un tipo especial de redes recurrentes; las cuales tienen un mejor desempe�o al momento de procesar secuencias de datos, y predecir la salida.

La arquitectura de la red neuronal utilizada en el presente estudio consiste en una red neuronal recurrente LSTM bidireccional, la misma que consta de capas hacia adelante y hacia atr�s que est�n conectadas juntas a la capa de salida, de esta manera, tales redes neuronales mantienen la informaci�n contextual en ambas direcciones, lo que es precisamente �til para el caso de tareas de clasificaci�n de texto.

Para entenderlo de mejor manera, la celda RNN toma como valor de entrada un estado oculto o vector, y un vector de palabra, luego esta celda produce como salida el siguiente estado oculto, esta celda RNN tiene algunos pesos que se autoajustan mediante backpropagation de las p�rdidas. Adem�s, a todas las palabras se aplica la misma celda para que los pesos se compartan.

Una red neuronal RNN tradicional, para una secuencia longitud determinada proporciona el mismo n�mero de salidas que se pueden vincular y luego esta pasarse a la capa de densidad hacia adelante. Por otra parte, la diferencia con las redes LSTM Bidireccionales es que toma la secuencia de entrada tanto en su forma inicial, as� como inversa (forward y backward); se aplican dos RNN en paralelo y se obtiene una salida del doble de tama�o de la entrada. Una vez obtenida esta salida se env�a a la capa de densidad para luego aplicar una funci�n softmax y obtener el clasificador de texto. (Abduljabbar, et al, 2021).

Teniendo en cuenta este tipo de red neuronal, se ha construido el modelo de clasificaci�n para el presente estudio de la siguiente manera:

● La capa de embedding toma las secuencias como entrada y los vectores de palabras como pesos.

● Dos capas de red neuronal LSTM Bidireccional, que tienen como objetivo modelar el orden de palabras en una secuencia en ambas direcciones.

● Dos capas finales de densidad que lo que hacen es predecir la probabilidad de cada una de las distintas categor�as.

● Debido a que es un problema multiclase, se emplea una funci�n softmax, �sta funci�n devuelve valores entre 0 y 1, los cuales representan las probabilidades para cada categor�a.

Figura 5. Modelo de Clasificaci�n basado en una Red Neuronal LSTM Bidireccional

De la misma manera que para la construcci�n de los modelos de contexto o word embeddings se establecieron ciertos hiper par�metros, as� tambi�n, se debe realizar para el modelo de clasificaci�n basado en redes neuronales. La siguiente tabla muestra los hiper par�metros utilizados en el modelo neuronal del presente estudio junto con una descripci�n de cada uno de ellos.

Tabla 3. Hiper Par�metros del Modelo de Clasificaci�n

Hyper Par�metro	Valor	Descripci�n
Neuronas en capas BiDirectional LSTM	32	N�mero de neuronas en cada una de las capas de la red neuronal
N�mero de capas	2	N�mero de capas ocultas de la red neuronal
Tama�o de vocabulario	83,439	Tama�o del vocabulario del corpus de texto, palabras �nicas.
Tama�o de vectores	300	Tama�o del vector de cada palabra obtenido en el modelo
Dropout	0.2	T�cnica para regularizar el sobreajuste en modelos de redes neuronales
Optimizador	adam
Activaci�n	Softmax	Funci�n de activaci�n brinda la probabilidad de cada clase en la salida

An�lisis y discusi�n de resultados

El desarrollo de la experimentaci�n se realiza en dos partes. La primera consiste en el an�lisis de los datos directamente, empleando el modelo propuesto sin considerar la distribuci�n de los datos y aplicando la metodolog�a propuesta. Para la segunda parte de la experimentaci�n se considera la distribuci�n del conjunto de datos, y en vista que los mismos tienen una distribuci�n desbalanceada, donde existen clases muy minoritarias, las predicciones del modelo pueden verse afectadas al tener �ste tipo de distribuci�n.

Con el objetivo de afrontar �ste fen�meno se aplica la t�cnica de muestreo estratificado, la cual consiste en dividir los datos de forma aleatoria en grupos o muestras del mismo tama�o, estos grupos o muestras son utilizados para entrenar el modelo. Se han obtenido los resultados de clasificaci�n con base a los tres modelos propuestos (Mikolov, et al, 2013; Bojanowski, et al, 2017; Pennington, et al, 2014); para la clasificaci�n de art�culos cient�ficos mediante el an�lisis de los abstracts de cada uno de �stos art�culos.

La Figura a continuaci�n visualiza el desempe�o de los tres modelos propuestos, aplicando las t�cnicas de evaluaci�n de ML, las cuales, de acuerdo con Pedrero et al (2021), permiten lidiar con el problema de grandes cantidades de informaci�n que resultan dif�ciles de analizar, facilitando la entrega de informaci�n confiable y r�pida, y la toma de decisiones. Los tres modelos presentan un desempe�o de las m�tricas de precision, recall y f1-score superiores al 80%, lo que se puede entender como un rendimiento aceptable de las predicciones realizadas.

Figura 6. M�tricas de Evaluaci�n

�

Para determinar la exactitud o accuracy de cada uno de los modelos, se eval�a mediante la precisi�n equilibrada, que no es m�s que la media aritm�tica sobre la m�trica recall, obtenida para cada clase, �sta medida se aplica en vista de que se tiene el conjunto de datos desbalanceado, entonces la m�trica recall, brinda el porcentaje de clasificaciones acertadas que el modelo es capaz de realizar. La siguiente figura muestra la exactitud de cada uno de los modelos.

Figura 7. Exactitud de los modelos

Tal como se observa en la imagen anterior, la exactitud o accuracy de los modelos que emplean Word2Vec y FastText est� entre el 72% y 74% respectivamente, mientras que en el caso del modelo empleando Glove se encuentra en el 65%. Esta evaluaci�n de cada modelo muestra qu� tan eficientes son cada uno de ellos, sin embargo, al ser una tarea de clasificaci�n de tipo multiclase es importante conocer cu�l es el desempe�o que los modelos tienen al predecir cada una de las clases. A continuaci�n, se presentan las distintas m�tricas para cada uno de los modelos desarrollados.

Tabla 4. M�tricas de Clase de Modelo Word2Vec

	M�tricas
Clase	precision	recall	f1-score
Case Report	0,72	0,93	0,81
Diagnosis	0,88	0,82	0,85
Epidemic Forecasting	0,45	0,83	0,58
Mechanism	0,90	0,70	0,79
Prevention	0,97	0,93	0,95
Transmission	0,00	0,00	0,00
Treatment	0,83	0,86	0,85

Tabla 5. M�tricas de Clase de Modelo FastText

	M�tricas
Clase	precision	recall	f1-score
Case Report	0,81	0,86	0,83
Diagnosis	0,87	0,89	0,88
Epidemic Forecasting	0,63	0,75	0,68
Mechanism	0,73	0,84	0,78
Prevention	0,96	0,94	0,95
Transmission	1,00	0,02	0,04
Treatment	0,84	0,87	0,86

Tabla 6. M�tricas de Clase de Modelo Glove

	M�tricas
Clase	precision	recall	f1-score
Case Report	0,77	0,83	0,80
Diagnosis	0,83	0,85	0,84
Epidemic Forecasting	0,61	0,34	0,43
Mechanism	0,78	0,66	0,71
Prevention	0,95	0,94	0,94
Transmission	0,00	0,00	0,00
Treatment	0,81	0,90	0,85

Como se puede observar en las tablas anteriormente presentadas, los resultados de las m�tricas de evaluaci�n para cada clase son similares, sin embargo, la m�trica de precision, para el caso del modelo que emplea FastText es del 100% en el caso de la clase Transmission, mientras que los modelos de Word2Vec y Glove son de 0% para dicha clase. Esto se debe a que el conjunto de datos est� desbalanceado y existen clases muy mayoritarias en comparaci�n con otras, por lo que los resultados de la clasificaci�n realizada se ven afectados por �ste fen�meno. Tal como se observ� en la etapa de preprocesamiento y an�lisis exploratorio de datos, la clase Transmission representa apenas el 0.79% de art�culos etiquetados con esta clase, por lo que las predicciones al entrenar los modelos afectan.�

Esto tambi�n puede visualizarse de mejor manera mediante las matrices de confusi�n de cada modelo, donde se analizan los valores reales de cada clase versus los valores predichos.

��

Figura 8. Matriz de confusi�n Modelo: Word2Vec

Figura 9. Matriz de confusi�n Modelo: FastText

Figura 10. Matriz de confusi�n Modelo: Glove

Como muestran las figuras anteriores sobre las matrices de confusi�n de cada modelo, el mayor n�mero de art�culos que se han logrado clasificar efectivamente corresponde a la clase de Prevention, siendo las siguientes clases con mejor cantidad de art�culos clasificados las de Diagnosis, Treatment y Case Report, por otra parte las clases minoritarias la cantidad de art�culos clasificados se ven muy afectados, tal es el caso para la clase Transmission, en donde el modelo que emplea FastText realiza una sola predicci�n correcta mientras que los otros dos modelos no realizan ninguna.

Con base en el an�lisis anteriormente planteado, puede observarse que el presente estudio se ha centrado en la clasificaci�n de art�culos acad�micos sobre la pandemia de COVID-19 a trav�s de la t�cnica de miner�a de texto Word Embedding; algo muy �til hoy d�a debido a la avalancha de informaci�n publicada que ha tra�do consigo la pandemia. As� lo afirman Wang & Lo (2021) al mencionar que se han publicado m�s de cincuenta mil art�culos sobre COVID-19 desde principios de 2020 y se siguen publicando varios cientos de art�culos nuevos todos los d�as. Esta enorme tasa de productividad cient�fica, lleva a una sobrecarga de informaci�n, dificultando que los m�dicos, enfermeros, bioanalistas, funcionarios de salud p�blica, gobiernos e investigadores, est�n al d�a con los �ltimos hallazgos sobre la tem�tica.

La metodolog�a analizada parte del procedimiento para la clasificaci�n multiclase, del conjunto de entrenamiento de LitCovid, que, seg�n Jim�nez, et al (2020) representa una recopilaci�n de art�culos recientemente publicados, cuyas tem�ticas est�n relacionadas con la literatura actual del Coronavirus. Este conjunto de datos contiene m�s de 23.000 art�culos y en promedio se agregan 2.000 nuevos art�culos semanalmente, siendo as� un recurso integral para que la comunidad cient�fica pueda actualizarse con informaci�n acerca de la crisis que ha provocado la pandemia de la COVID-19.

Se desarrolla la metodolog�a a seguir para la clasificaci�n de art�culos cient�ficos, mediante la aplicaci�n de t�cnicas de Deep Learning como lo es Word Embedding, un modelo que, de acuerdo con Mikolov, et al (2013), predice palabras a partir de t�rminos que est�n cercanos a �stas en funci�n a vectores m�s peque�os y densos. Este tipo de m�todos basan su concepto en que si se puede predecir el contexto en el cual aparece una palabra, entonces se entiende el significado de �sta en su contexto. Por lo que palabras sem�nticamente similares estar�n cerca entre s� en sus representaciones de espacios vectoriales.

Se evaluaron tres modelos propuestos que se basan en tres arquitecturas diferentes de Word Embeddings, a saber, Word2Vec, el FastText y el Glove (Mikolov, et al, 2013; Bojanowski, et al, 2017; Pennington, et al, 2014), con la arquitectura LSTM Bidireccional. La comparaci�n de los resultados de rendimiento obtenidos para cada modelo mostr� que la exactitud o accuracy de cada modelo se encuentran en un rango del 65% al 74%, siendo el modelo que emplea FastText el que alcanz� el mayor porcentaje de exactitud mientras que el modelo que emplea Glove alcanz� la menor exactitud de los tres.

Sin embargo, al analizar los resultados obtenidos por cada uno de los modelos se observa que no se logr� una predicci�n con resultados favorables en todas las clases, esto debido a que los datos est�n desbalanceados y existen clases muy mayoritarias en comparaci�n a otras, por lo que las predicciones se ven afectadas por estas clases.

Conclusiones

A modo de conclusi�n, debido a la avalancha de informaci�n visible en la web sobre COVID-19, es imprescindible la clasificaci�n de art�culos cient�ficos publicados sobre la mencionada tem�tica, para lo cual pueden aplicarse t�cnicas de Machine Learning, a trav�s de mecanismos de representaci�n sem�ntica de palabras como el Word Embeddings y tecnolog�as basadas en redes neuronales; utilizando el an�lisis y procesamiento de los abstracts de art�culos cient�ficos disponibles en las fuentes de informaci�n como LitCovid.

Con la aplicaci�n de la propuesta del modelo de clasificaci�n, se puede concluir que al analizar los resultados obtenidos por cada uno de los modelos se observa que no se logr� una predicci�n con resultados favorables en todas las clases, esto debido a que los datos est�n desbalanceados y existen clases muy mayoritarias en comparaci�n a otras, por lo que las predicciones se ven afectadas por estas clases.

Por lo tanto, se concluye que, si bien los resultados obtenidos han demostrado que la clasificaci�n de los art�culos acad�micos de tipo multiclase es posible realizarla aplicando la metodolog�a propuesta, es necesario se�alar que se puede mejorar el rendimiento de los modelos aplicando otras t�cnicas de selecci�n de datos para aminorar el problema que se presenta con el desbalance en la distribuci�n de los mismos. Adem�s, a fin de obtener una mayor calidad la representaci�n sem�ntica de las palabras, pudiera emplearse no solo el an�lisis del abstract, sino tambi�n de partes de segmentos de mayor tama�o, como, por ejemplo, la introducci�n u otros apartados del documento.

Referencias

1. Abduljabbar, R., Dia, H., & Tsai, P. (2021). Modelos LSTM unidireccionales y bidireccionales para la predicci�n del tr�fico a corto plazo . Journal of Advanced Transportation , 2021(5589075). doi: https://doi.org/10.1155/2021/5589075

2. Ananiadou, S., Kell, D., & Tsujii, J. (2006). Text mining and its potential applications in systems biology. Trends Biotechnol (24), 571�579.

3. Awasthi, R., Pal, R., Singh, P., Nagori, A., Reddy, S., Gulati, A., . . . Sethi, T. (2020). CovidNLP: A Web Application for Distilling Systemic Implications of COVID-19 Pandemic with Natural Language Processing. MedRxiv.

4. BMJ Best Practice. (17 de agosto de 2020). Visi�n general de los coronavirus. (B. P. Group, Ed.) Obtenido de https://bestpractice.bmj.com: https://bestpractice.bmj.com/topics/eses/3000165/

5. Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics, 5, 135-146. doi:https://doi.org/10.1162/tacl_a_00051

6. Chandrasekaran, B., & Fernandes, S. (january de 2020). Target specific mining of COVID-19 scholarly articles using one-class approach. Diabetes Metab Syndr, 14(4), 337�339.

7. Cohen, A., & Hersh, W. (2005). A survey of current work in biomedical text mining. Brief Bioinform(6), 57-71.

8. Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural language processing (almost) from scratch. J. Mach. Learn. Res.(12), 2493�2537.

9. Daud, A., Khan, W., & Che, D. (2017). Urdu language processing: a survey. . Artificial Intelligence Review, 47(3), 279�311. doi:https://doi.org/10.1007/s10462-016-9482-x

10. Friedman, C., & Johnson, S. (2006). Natural language and text processing in biomedicine. . En E. Shortliffe, & J. Cimino, Biomedical informatics: computer applications in health care and biomedicine (Third ed., p�gs. 312 - 343). New York: Springer.

11. Greenhalgh, T., Choon, G., & Koh, H. (2020). Covid-19: una evaluaci�n remota en atenci�n primaria. Practice(368:m1182), 1-5. doi:doi: 10.1136/bmj.m1182

12. Jim�nez, B., Zeng, J., Zhang, D., Zhang, P., & Su, Y. (2020). Clasificaci�n de documentos para la literatura COVID-19. En A. d. Computacional (Ed.), En Hallazgos de la Asociaci�n de Ling��stica Computacional: : EMNLP 2020 (p�gs. 3715-3722). doi:10.18653/v1/2020.hallazgos-emnlp.332

13. Jurafsky, D., & Martin, J. (2020). Speech and Language Processing: An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition (Third Edition ed.).

14. Khan, A., Baharudin, B., Hong, L., & khan, K. (2010). A Review of Machine Learning Algorithms for Text-Documents Classification. ournal of Advances in Information Technology, 1(1). doi:https://doi.org/10.4304/jait.1.1.4-20

15. Kilicoglu, H. (2018). Biomedical text mining for research rigor and integrity: tasks, challenges, directions. Brief Bioinform (19), 1400-1414.

16. Magui�a, C., Gastelo, R., & Tequen, A. (2020). El nuevo Coronavirus y la pandemia del Covid-19. Revista Medica Herediana, 31(2), 125-131. Obtenido de https://doi.org/10.20453/rmh.v31i2.3776

17. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (16 de January de 2013). Efficient estimation of word representations in vector space. En C. University (Ed.), 1st International Conference on Learning Representations, ICLR 2013 - Workshop Track Proceedings. Obtenido de https://arxiv.org/abs/1301.3

18. Ministerio de Sanidad. (2020). Neumon�a por nuevo coronavirus (2019-nCoV) en Wuhan, provincia de Hubei, (China). Informe Actualizaci�n n� 13, Ministerio de Sanidad, Madrid. Obtenido de https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos/Actualizacion_13_2019-nCoV_China.pdf

19. Muhammad, A., Suliman, K., Abeer, K., Nadia, B., & Rabeea, S. (2020). COVID-19 infection: Emergence, transmission, and characteristics of human coronaviruses. Journal ofAdvanced Research(24), 91-98.

20. Organizaci�n Panamericana de la Salud. (2022). Art�culos cient�ficos y recursos sobre la COVID-19. Revista Panamericana de Salud P�blica(N�meros Especiales).

21. Pedrero, V., Reynaldos-Grand�n, K., Ureta-Achurra, J., & Cortez-Pinto, E. (2021). Generalidades del Machine Learning y su aplicaci�n en la gesti�n sanitaria en Servicios de Urgencia. Revista m�dica de Chile, 149(2), 248-254. doi:https://dx.doi.org/10.4067/s0034-98872021000200248

22. Pennington, J., Socher, R., & Manning, C. (2014). GloVe: Global Vectors for Word Representation. Actas de la Conferencia de 2014 sobre m�todos emp�ricos en el procesamiento del lenguaje natural (EMNLP) (p�gs. 1532-1543). Doha, Qatar: Asociaci�n de Ling��stica Computacional.

23. Qingyu, C., Alexis, A., & Zhiyong, L. (2021). LitCovid: una base de datos abierta de literatura sobre COVID-19. Nucleic Acids Research, 49(D1), D1534-D1540. doi:https://doi.org/10.1093/nar /gkaa952

24. Sonbhadra, S., Agarwal, S., & Nagabhushan, P. (2020). Apunte a la extracci�n espec�fica de art�culos acad�micos sobre el COVID-19 utilizando un enfoque de clase �nica. Caos, solitones y fractales(140 , 110155). Obtenido de https://doi.org/10.1016/j.chaos.2020.110155

25. Thompson, L. (2003). Inicio de una nueva epidemia, SARS. Rev Med Hered, 14(2), 49.

26. Torres-Salinas, D. (2020). Ritmo de crecimiento diario de la producci�n cient�fica sobre Covid-19. An�lisis en bases de datos y repositorios en acceso abierto. El profesional de la informacion(29:e290215). doi:10.3145/epi.2020.mar.15

27. Wang, L., & Lo, K. (2021). Text mining approaches for dealing with the rapidly expanding literature on COVID-19 . Briefings in Bioinformatics, 22(2), 781�799. Obtenido de https://doi.org/10.1093/bib/bbaa296

28. Zou, W., Socher, R., Cer, D., & Manning, C. (2013). Bilingual word embeddings for phrase-based machine translation. EMNLP, 1393 - 1398.

29. Zweigenbaum, P., Demner-Fushman, D., Yu, H., & al, e. (2007). Frontiers of biomedical text mining: current progress. Brief Bioinform (8), 358-375.

� 2022 por los autores. Este art�culo es de acceso abierto y distribuido seg�n los t�rminos y condiciones de la licencia Creative Commons Atribuci�n-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

Enlaces de Referencia

Por el momento, no existen enlaces de referencia

Polo del Conocimiento

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo

Manta - Ecuador

Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/

Normas para los Autores

Manual para subir artículos en OJS

REGÍSTRATE

INFORMACIÓN

Enlaces de Referencia

Nombre de usuario
Clave
Recordar mis datos