���������������������������������������������������������������������������������

 

 

Identificaci�n de ideolog�a pol�tica mediante un modelo Transformer para estilometr�a y Clasificaci�n por votos en Machine Learning

 

Identification of political ideology through a Transformer model for stylometry and Classification by votes in Machine Learning

 

Identifica��o de ideologia pol�tica atrav�s de um modelo Transformer para estilometria e classifica��o por votos em Machine Learning

 

C�sar Esp�n-Riofrio I
cesar.espinr@ug.edu.ec
https://orcid.org/0000-0001-8864-756X

,William Ferruzola-S�nchez II
william.ferruzolas@ug.edu.ec
https://orcid.org/0000-0002-5388-1337
Abel Aspiazu-Torres III
abel.aspiazut@ug.edu.ec
https://orcid.org/0000-0003-1918-1385

,Ver�nica Mendoza-Mor�n IV
veronica.mendozam@ug.edu.ec
https://orcid.org/0000-0001-7520-3505
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Correspondencia: cesar.espinr@ug.edu.ec

 

 

Ciencias T�cnicas y Aplicadas �

Art�culo de Investigaci�n

 

* Recibido: 23 de julio de 2022 *Aceptado: 12 de agosto de 2022 * Publicado: 12 de septiembre de 2022

 

 

         I.            Mag�ster en Sistemas de Informaci�n Gerencial, Universidad de Guayaquil, Ecuador.

       II.            Universidad de Guayaquil, Ecuador.

     III.            Universidad de Guayaquil, Ecuador.

    IV.            Mag�ster Universitario en Software y Sistemas, Universidad de Guayaquil, Ecuador.

 

 

 

 


 

Resumen

El objetivo principal de este art�culo es la determinaci�n de la inclinaci�n ideol�gica de usuarios de Twitter en Ecuador. Los datos recopilados se obtuvieron de la plataforma Twitter, estos se almacenaron en Datasets, se procesaron y etiquetaron para alimentar los m�todos clasificadores los cuales entrenaron para realizar la predicci�n de ideolog�a pol�tica a trav�s del uso de modelos Transformer y Voting Classifier en Machine Learning, se usar� Validaci�n Cruzada para potenciar y evaluar durante el entrenamiento a modelos clasificadores como Logistic Regression, Random Forest, Decision Tree, Multilayer Perceptron y Gradient Boosting. Se ejecutar� el modelo Transformer pre-entrenado para el espa�ol llamado Roberta-large-bne destinado para la extracci�n de caracter�sticas estilom�tricas halladas en textos, adem�s se tendr� caracter�sticas fraseol�gicas como MeanWordLen, LexicalDiversity, MeanSentenceLen, StdevSentenceLen, MeanParagraphLen, DocumentLen y, de palabras de uso frecuente tomadas del corpus en espa�ol llamado CREA, este proceso permiti� formar un vector final de caracter�sticas los cuales servir�n para el entrenamiento. Se busca clasificar la ideolog�a pol�tica en base a textos cortos tomados de Twitter y analizar los resultados de cada clasificador para validar cual es el m�s adecuado para la tarea de clasificaci�n y predicci�n, dichos resultados servir�n como indicador de factibilidad para estudios similares en un futuro.

Palabras clave: Transformers; Ideolog�a pol�tica; Estilometr�a; Machine Learning.

 

Abstract

The main objective of this article is the determination of the ideological inclination of Twitter users in Ecuador. The collected data were obtained from the Twitter platform, these were stored in Datasets, processed and labeled to feed the classifier methods which trained to perform the prediction of political ideology through the use of Transformer and Voting Classifier models in Machine Learning, Cross Validation will be used to enhance and evaluate during training classifier models such as Logistic Regression, Random Forest, Decision Tree, Multilayer Perceptron and Gradient Boosting. The pre-trained Transformer model for Spanish called Roberta-large-bne will be executed for the extraction of stylometric features found in texts, in addition to phraseological features such as MeanWordLen, LexicalDiversity, MeanSentenceLen, StdevSentenceLen, MeanParagraphLen, DocumentLen and frequently used words taken from the Spanish corpus called CREA, this process allowed to form a final vector of features which will be used for training. The aim is to classify political ideology based on short texts taken from Twitter and analyze the results of each classifier to validate which is the most suitable for the classification and prediction task, these results will serve as a feasibility indicator for similar studies in the future.

Keywords: Transformers; Political Ideology; Stylometry; Machine Learning.

 

Resumo

O objetivo principal deste artigo � determinar a inclina��o ideol�gica dos usu�rios do Twitter no Equador. Os dados coletados foram obtidos da plataforma Twitter, estes foram armazenados em Datasets, processados ​​e rotulados para alimentar os m�todos classificat�rios que foram treinados para prever a ideologia pol�tica atrav�s do uso de modelos Transformer e Voting Classifier em Machine Learning, utilizar� Cross Validation para impulsionar e avaliar modelos de classificador como Regress�o Log�stica, Floresta Aleat�ria, �rvore de Decis�o, Perceptron Multicamada e Aumento de Gradiente durante o treinamento. Ser� executado o modelo Transformer pr�-treinado para espanhol chamado Roberta-large-bne, destinado � extra��o de caracter�sticas estilom�tricas encontradas em textos, bem como caracter�sticas fraseol�gicas como MeanWordLen, LexicalDiversity, MeanSentenceLen, StdevSentenceLen, MeanParagraphLen, DocumentLen e, de palavras de uso frequente retiradas do corpus em espanhol denominado CREA, este processo permitiu formar um vetor final de caracter�sticas que ser�o utilizadas para o treinamento. Busca classificar a ideologia pol�tica com base em pequenos textos retirados do Twitter e analisar os resultados de cada classificador para validar qual � o mais adequado para a tarefa de classifica��o e previs�o, esses resultados servir�o como indicador de viabilidade para estudos semelhantes no futuro.

Palavras-chave: Transformadores; Ideologia pol�tica; Estilometria; aprendizado de m�quina

 

Introducci�n

En la actualidad, la Inteligencia Artificial (IA) se utiliza para un sin n�mero de tareas y es tan prometedora dado que est� impulsando la productividad como nunca, la raz�n de esto es que esta tecnolog�a permite que las m�quinas comprendan y alcancen objetivos espec�ficos con mayor eficiencia y reduciendo la posibilidad de errores al m�nimo. Machine Learning (ML) es un t�rmino muy nombrado dentro del campo de la Inteligencia Artificial, y de hecho estos est�n estrechamente relacionados, sin embargo, no son lo mismo, debido a que el ML es una rama o subcategor�a que pertenece a la IA, ahora bien, dentro de esta tecnolog�a, contamos principalmente con 2 tipos de aprendizajes, el supervisado y no supervisado.

La estilometr�a surge por consecuencia del comienzo de la Atribuci�n de Autor�a en el siglo XIX, donde expertos enfocados en el campo ling��stico lograban determinar a qu� autor corresponden textos y documentos desconocidos aplicando m�todos basados en expertos, clasificando caracter�sticas importantes dentro del texto o el habla de una persona. El primer m�todo propuesto para identificar autores basado �nicamente en el estilo de escritura es el m�todo Chi-cuadrado, que consiste en generar una curva para cada archivo en cuesti�n, reflejando as� la relaci�n entre la longitud de palabra y su frecuencia (Mendenhall, 1889). Posteriormente, en el siglo XX, se comenzaron a utilizar m�todos estad�sticos para determinar la distribuci�n de una auditor�a, como el m�todo de frecuencia relativa que permite identificar la autor�a en funci�n �nicamente del n�mero de apariciones de palabras en un texto (Kingsley Zipf, 1932). Debido al uso de m�todos estad�sticos y sus problemas al aplicarlos en la identificaci�n de un autor determinado, (Mosteller & Wallace, 2012) lograron adoptar un enfoque de investigaci�n multivariante en los "Federalist Papers" analiz� palabras de uso frecuente como 'a', 'y', etc. Luego usaron 30 palabras y un clasificador Naive Bayes para resolverlo, que comienza asignando la autor�a desde un �rea computacional. Posteriormente se ide� un nuevo enfoque basado en el aprendizaje autom�tico, teniendo en cuenta el aprendizaje supervisado, basado en un proceso que permite entrenar a trav�s de las caracter�sticas y etiquetas de un texto dado, para finalmente poder hacer predicciones basadas en caracter�sticas conocidas con anterioridad, donde (Rosenblatt, 1958) demostr� que el algoritmo Multilayer Perceptron provee predicciones r�pidas despu�s del entrenamiento con datos de grandes longitudes.

Transformer fue popular gracias al documento de Google �Attention is All You Need� (Vaswani et al., 2017), donde han logrado mejoras significativas en el desempe�o de varias tareas de aprendizaje en el Procesamiento del Lenguaje Natural (PLN) y la visi�n por computadora, reemplazando a los modelos neuronales convolucionales y recurrentes. Como indica (Gardner et al., 2018) la estructura de Transformers fue inspirada en la biblioteca pionera tensor2tensor y el c�digo fuente original de BERT, surge del concepto de proporcionar un almacenamiento en cach� f�cil para modelos previamente entrenados presentado de AllenNLP, iniciando con el primer modelo transformer denominado Generative Pretrained Transformer, tambi�n conocido como GPT, creado por (Openai et al., 2018), Posteriormente GoogleAI cre� el modelo Bidirectional Encoder Representations from Transformer o BERT el cual (Devlin et al., 2019) describe como un modelo que interpreta con precisi�n todos los elementos de una consulta de b�squeda en contexto. OpenAI crea un modelo mejorado perteneciente a la serie GPT denominado GPT-3 donde (Floridi & Chiriatti, 2020) establecen como un modelo de lenguaje autorregresivo que utiliza el aprendizaje profundo para generar textos que imitan la escritura humana. Con el tiempo, la arquitectura de Transformer ha demostrado ser particularmente beneficiosa para la capacitaci�n previa en un gran corpus de documentos, lo que resulta en aumentos significativos en la precisi�n para tareas posteriores como clasificaci�n de texto, comprensi�n del idioma, traducci�n autom�tica, centrado, resoluci�n normal y resumen, entre otros (Wolf et al., 2020).

Figura 1: Timeline de modelos Transformers

 

La presente investigaci�n se orienta hacia el aprendizaje de tipo supervisado, dado que provee t�cnicas que nos permitir�n realizar predicciones en base a datos etiquetados suministrados previamente. La investigaci�n girar� en torno a este tipo de implementaci�n de Machine Learning ya que se pretende clasificar a los usuarios de la red social Twitter en Ecuador, de acuerdo con su afinidad pol�tica binaria (izquierda y derecha) y multiclase (izquierda moderada, izquierda, derecha moderada, derecha), esperando tener resultados que indiquen qu� movimiento pol�tico tiene mayor cantidad de partidarios. Por otra parte, es importante mencionar la utilizaci�n de un listado exhaustivo de palabras m�s utilizadas del idioma espa�ol, llamado CREA (Corpus de Referencia del Espa�ol Actual) referido por la Real Academia Espa�ola, este ser� empleado durante el an�lisis de publicaciones, para determinar la frecuencia de utilizaci�n de palabras que componen los textos, un factor fundamental a tomar en cuenta durante el estudio estilom�trico. Otro aspecto importante a mencionar es la utilizaci�n de la biblioteca desarrollada por Jeff Potter (Jpotts18 (Jeff Potter) � GitHub, n.d.), ubicada en un repositorio de Github, esta fue destinada para la extracci�n de caracter�sticas fraseol�gicas contenidas en los textos.� La importancia de llevar a cabo un estudio de este tipo surge gracias a la necesidad de conocer el favoritismo de la ciudadan�a, la inclinaci�n pol�tica de nuestra poblaci�n objetivo, Ecuador. Puesto que tener acceso a esta informaci�n, seg�n (Proa�o et al., 2018) permite �la toma de decisiones r�pidas y acertadas�, lo cual a su vez conlleva a una notable mejora en la propuesta de los candidatos, considerando que lo que generalmente buscan determinadas organizaciones o grupos pol�ticos es enterarse del curso que toma la sociedad en tiempos de campa�a electoral y de acuerdo a este dato, ofrecer a la poblaci�n lo que esta desea, lo anteriormente expuesto se da gracias al uso de los sistemas de informaci�n que sirven de apoyo con el proceso de toma de decisiones. A su vez, determinar hac�a qu� partido pol�tico se inclina un individuo, comprende un impacto considerable en el �mbito sociopol�tico de una naci�n, ya que estar al tanto de la afinidad pol�tica de una persona o usuario, mediante sus publicaciones de texto en la red social Twitter, permitir� predecir elecciones presidenciales o, en su defecto, determinar el partido pol�tico con mayor popularidad o cantidad de partidarios en el Ecuador. El presente proyecto de investigaci�n pretende dar cumplimiento a la identificaci�n y clasificaci�n de ideolog�as pol�ticas binarias y multiclases de usuarios pol�ticos de Twitter en el Ecuador empleando t�cnicas de estilometr�a, modelo Transformer ROBERTA-large-bne y m�todos de clasificaci�n en ML, es as� como se obtendr�n resultados de los cuales nos podremos valer para presentar de manera gr�fica y posteriormente determinar qu� afinidades pol�ticas son m�s influyentes en las plataformas de red social y en nuestra poblaci�n.

 

Metodolog�a

Para este trabajo, se implement� la investigaci�n bibliogr�fica, ya que se va a recopilar informaci�n a partir de materiales publicados en l�nea, o incluso recursos m�s habituales, cl�sicos o tradicionales como libros, peri�dicos, informes o revistas referentes a investigaciones de clasificaci�n, entrenamiento y predicci�n de texto.

Para el estudio de este trabajo de investigaci�n se emple� algoritmos de aprendizaje supervisado enfocados en los m�todos de clasificaci�n, tales como Logistic Regression propuesto por (Berkson, 1944) el cual define como un m�todo de an�lisis estad�stico que predice resultados binarios, bas�ndose en observaciones previas de un conjunto de datos, (Pranckevičius & Marcinkevičius, 2017) demostraron mediante resultados de clasificaci�n de multiclase que el m�todo Logistic Regression lograba mayor precisi�n en los resultados en comparaci�n con los m�todos de clasificaci�n Na�ve Bayes, Random Forest, Decision Tree y Support Vector Machine. Por otro lado, el m�todo Decision Tree introducido por (Quinlan, 1986) define como una forma de an�lisis de variables m�ltiples las cuales permiten predecir, explicar, describir o clasificar un resultado. (Charbuty & Abdulazeez, 2021) Demostraron que el algoritmo Decision tree en contraste a otros algoritmos de clasificaci�n crean una colecci�n de reglas eficiente y sencilla de entender realizadas en el �rea de clasificaci�n de textos. Otro m�todo de clasificaci�n son los Random Forest propuesto por (Laboratories et al., 1995), donde (Shah et al., 2020) evaluaron diferentes algoritmos de clasificaci�n tales como Logistic Regression, Random Forests y K-Nearest Neighbour, teniendo resultados �ptimos en el algoritmo Random Forests en la clasificaci�n de texto. Adem�s otro algoritmo de clasificaci�n es el Multilayer Perceptron propuesto por (Rosenblatt, 1958) el cual consta de tres tipos de capas: la capa de entrada, la capa de salida y la capa oculta donde la capa de entrada recibe la se�al de entrada para ser procesada, la capa de salida realiza la predicci�n y la clasificaci�n. Donde (Kamath et al., 2018) aplic� el algoritmo Multilayer Perceptron enfocados en la clasificaci�n de texto, los resultados del algoritmo fueron prometedores tanto en documentos brutos como procesados.

Para dar cumplimiento a la investigaci�n experimental se implement� un m�todo de extracci�n de tweets para su posterior preprocesamiento, se extrajeron 3 diferentes tipos de caracter�sticas de texto, para el aprendizaje de los m�todos de clasificaci�n mencionados anteriormente y su posterior predicci�n.

El m�todo para seguir en este trabajo de investigaci�n es el siguiente:

Figura 2: M�todo implementado en la investigaci�n

 

Extracci�n de datos

Para la extracci�n de datos se utiliz� la API Tweepy de Twitter logrando as� la extracci�n de 6000 tweets de 120 usuarios pol�ticos del Ecuador, obteniendo 50 tweets por usuario, formando as� dos datasets, uno destinado al entrenamiento constituido por 100 usuarios y 5000 tweets y otro conjunto de datos de prueba con 20 usuarios resultando en 1000 tweets, como se muestra en las Figuras 2 y 3.


 

Fuente: Para Train/entrenamiento:

Interfaz de usuario gr�fica, Texto, Chat o mensaje de texto

Descripci�n generada autom�ticamente

Figura 3: Extracci�n 5000 tweets de 100 usuarios pol�ticos.

 

Fuente: Para Test/prueba:

Figura 4: Extracci�n 1000 tweets de 20 usuarios pol�ticos.

 

Preprocesamiento de datos

Para ejecutar el respectivo preprocesamiento de datos, primero se llevar� a cabo la limpieza de los tweets extra�dos tanto para el dataset train, como tambi�n para el dataset test, para ello se eliminar� enlaces, retweets, emojis y caracteres especiales, y posteriormente se deber� agrupar los 50 tweets de cada usuario en un nuevo dataset. En las Figuras 4 y 5 se muestran los dataset preprocesados.

Para train:����

 

Interfaz de usuario gr�fica, Aplicaci�n

Descripci�n generada autom�ticamente

Figura 5: Preprocesamiento de 5000 tweets para 100 usuarios pol�ticos.

 

Para test:����

Imagen que contiene Interfaz de usuario gr�fica

Descripci�n generada autom�ticamente

Figura 6: Preprocesamiento de 1000 tweets para 20 usuarios pol�ticos.

 

Extracci�n de caracter�sticas

Para la extracci�n de caracter�sticas de los tweets se usaron 3 tipos de t�cnicas: Fraseol�gicas (MeanWordLen, LexicalDiversity, MeanSentenceLen, StdevSentenceLen, MeanParagraphLen, DocumentLen), dada por la librer�a creada por Jeff Potter ubicada en un repositorio de Github, sumado al uso de palabras frecuentes tomada del Corpus de Referencia del Espa�ol Actual (CREA), y por �ltimo el modelo de Transformer RoBERTa-large-bne. De las cuales se van a crear 3 vectores con sus caracter�sticas respectivas. Estos vectores se van a unir en un solo vector el cual se normaliza con el m�todo MinMaxScaler, para crear un vector final y poder realizar el entrenamiento mediante los m�todos clasificadores de Machine Learning

 

Figura 7: Vector final normalizado con caracter�sticas fraseol�gicas, CREA y Transformer.

 

Entrenamiento de m�todos clasificadores

Para el entrenamiento de los m�todos clasificadores mediante el dataset de train, se aplic� la librer�a Voting Classifier (hard voting classifier) de Scikit-Learn, para potenciar la clasificaci�n a manera de m�todo de conjunto heterog�neo para lograr un mejor rendimiento predictivo, adem�s se obtuvieron m�tricas de evaluaci�n utilizando Cross Validation. Los algoritmos usados para alimentar el clasificador por votos fueron Logistic Regression, Random Forest, Decision Tree, Multilayer Perceptron y Gradient Boosting.

 

 

Texto

Descripci�n generada autom�ticamente

Figura 8: Ejecuci�n de Voting Classifier, Cross Validation y m�todos de la librer�a sklearn empleados en esta investigaci�n.

 

Predicci�n

Para la predicci�n mediante el dataset de train, se utiliz� el m�todo predict, tal como lo muestra la siguiente imagen.

 

Figura 9: Predicci�n a trav�s del m�todo predict

 

Resultados

Luego de realizar la valoraci�n de resultados, qued� evidenciado que el algoritmo Gradient Boosting tuvo un alto desempe�o con respecto a la etiqueta de ideolog�a binaria en comparaci�n con los otros algoritmos utilizados en este trabajo de investigaci�n respecto de la determinaci�n de inclinaci�n pol�tica-ideol�gica de los usuarios en Twitter, este algoritmo produjo el m�s alto resultado con un 60% de accuracy en el entrenamiento. Por otra parte, el algoritmo Multilayer Perceptron tuvo un mayor nivel con respecto a los dem�s algoritmos en la etiqueta de ideolog�a multiclase, reflejando un porcentaje de 37%, los algoritmos empleados, en conjunto con sus resultados, se detallan a continuaci�n en las siguientes tablas.

 

Gr�fico, Gr�fico de l�neas

Descripci�n generada autom�ticamente

Figura 10: M�tricas de los algoritmos clasificadores para ideolog�a binaria.

 

Gr�fico, Gr�fico de l�neas

Descripci�n generada autom�ticamente

Figura 11: M�tricas de los algoritmos clasificadores para ideolog�a multiclase.

 

Finalizado el entrenamiento de nuestro dataset train, se realizaron pruebas con el dataset test de los cuales obtuvimos los siguientes resultados de predicci�n:

Figura 12: Resultados de predicci�n para ideolog�a binaria.

 

Donde la precisi�n obtenida por parte de la etiqueta de ideolog�a binaria en el dataset test fue un 75%.

 

Figura 13: Resultados de predicci�n para ideolog�a multiclase.

 

Donde la precisi�n obtenida por la etiqueta de ideolog�a multiclase en el dataset test fue un 20%.

Terminando as� el proceso de entrenamiento y predicci�n para posteriormente crear un archivo dataframe con las predicciones hechas por el algoritmo y compararlo con el dataset test original, como se muestra en la siguiente figura.

 

Figura 14: Dataset Test ubicado en el lado izquierdo, la Predicci�n del lado derecho.

 

Los resultados expuestos anteriormente, demuestran que los algoritmos adoptados en este trabajo de investigaci�n logran cumplir el funcionamiento por el cual fueron elegidos en un principio, la cual consiste en la clasificaci�n de Tweets y posterior predicci�n. Lograron resultados muy favorables alcanzando un rendimiento �ptimo para los algoritmos de clasificaci�n especialmente en ideolog�a binaria, sino adem�s se consigui� corroborar la hip�tesis planteada inicialmente la cual plantea la posibilidad de revelar la ideolog�a pol�tica por la cual se inclina una persona de acuerdo con el an�lisis de sus tweets.

 

Discusi�n

Para poder predecir la afinidad pol�tica de las personas o usuarios, mediante sus tweets es necesario tener presente que las caracter�sticas estilom�tricas de cada persona son �nicas, y por ende, se deber� llevar a cabo un estudio exhaustivo de dichas caracter�sticas, es ah� donde la implementaci�n de t�cnicas estilom�tricas para Machine Learning nos facilitan el trabajo para obtener dichas caracter�sticas, por tanto se decidi� emplear el modelo Transformer RoBERTa-large-bne, caracter�sticas fraseol�gicas y de palabras de uso frecuente, para as� poder enriquecer las caracter�sticas que servir�n como suministro a los modelos de clasificaci�n propuestos en este proyecto de investigaci�n, permitiendo as� potenciar la predicci�n de la afinidad pol�tica de los usuarios para obtener mejores resultados.

Teniendo en cuenta tambi�n que, si se logra entrenar mediante un dataset m�s extenso, podr�an mejorar significativamente los resultados de la predicci�n, esto se debe a que el nivel de precisi�n de los modelos a entrenar es directamente proporcional a la cantidad de datos y caracter�sticas estilom�tricas extra�das de los tweets/textos, esto por lo tanto reflejar� una notable variaci�n positiva en los resultados. Por otra parte, se ha usado 3 tipos de caracter�sticas estilom�tricas, pero esto no significa que sean la �nica o mejor opci�n, es muy probable que se obtengan mejores resultados con otros tipos de caracter�sticas que beneficien en el entrenamiento y sean m�s precisos en la predicci�n.

 

Conclusiones

Con el an�lisis de contribuciones cient�ficas relacionadas al estado del arte de los modelos Transformer y m�todos de clasificaci�n de Machine Learning para estilometr�a, se determin� que los algoritmos clasificadores Logistic Regression, Decision Tree, Multilayer Perceptron, Gradient Booster y Random Forest tuvieron un impacto positivo en cuanto a los resultados para la predicci�n pol�tica mediante la clasificaci�n de texto, dando como el mejor resultado para ideolog�a binaria al clasificador Gradient Boosting con un 60%, seguido de Logistic Regression con un 54%, Multilayer Perceptron con un 53%, Decision Tree con un 52%, y por �ltimo Random Forests con un 45%, en cuanto a la ideolog�a multiclase Multilayer Perceptron fue el m�s �ptimo con un 37%, seguido de Random Forests con un 36%, Logistic Regression con un 35%, Gradient Boosting con un 26%, y por �ltimo Decision Tree con un 22%, evidenciando as� que los clasificadores Gradient Boosting y Multilayer Perceptron fueron los m�s recomendable y �ptimo al momento de predecir la afinidad pol�tica mediante tweets. Adem�s, estos resultados pueden ser mejorados enriqueciendo los tweets del dataset entrenado. Importante de se�alar es que al tratarse de tema pol�tico y por los resultados obtenidos se hace evidente experimentar con otras caracter�sticas estilom�tricas como pudiera ser el uso de un lexic�n de palabras de uso pol�tico, seguramente se obtendr�an mejores resultados en especial en ideolog�a multiclase.

 

Referencias

  1. Berkson, J. (1944). Application of the Logistic Function to Bio-Assay. Journal of the American Statistical Association, 39(227), 357�365. https://doi.org/10.1080/01621459.1944.10500699
  2. Charbuty, B., & Abdulazeez, A. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends, 2(01), 20�28. https://doi.org/10.38094/jastt20165
  3. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference (Vol. 1).
  4. Floridi, L., & Chiriatti, M. (2020). GPT-3: Its Nature, Scope, Limits, and Consequences. 30, 681�694. https://doi.org/10.1007/s11023-020-09548-1
  5. jpotts18 (Jeff Potter) � GitHub. (n.d.). Retrieved August 25, 2022, from https://github.com/jpotts18
  6. Kamath, C. N., Bukhari, S. S., & Dengel, A. (2018). Comparative study between traditional machine learning and deep learning approaches for text classification. Proceedings of the ACM Symposium on Document Engineering 2018, DocEng 2018. https://doi.org/10.1145/3209280.3209526
  7. Kingsley Zipf, G. (1932). Selected Studies of the Principle of Relative Frequency in Language. Selected Studies of the Principle of Relative Frequency in Language. https://doi.org/10.4159/HARVARD.9780674434929/HTML
  8. Laboratories, T. B., Avenue, M., & Murray, U. H. (1995). Random Decision Forests.
  9. Mosteller, F., & Wallace, D. L. (2012). Inference in an Authorship Problem. Http://Dx.Doi.Org/10.1080/01621459.1963.10500849, 58(302), 275�309. https://doi.org/10.1080/01621459.1963.10500849
  10. Pranckevičius, T., & Marcinkevičius, V. (2017). Comparison of Naive Bayes, Random Forest, Decision Tree, Support Vector Machines, and Logistic Regression Classifiers for Text Reviews Classification. Baltic Journal of Modern Computing, 5(2), 221�232. https://doi.org/10.22364/bjmc.2017.5.2.05
  11. Proa�o, M., Orellana, S., & Martillo, I. (2018). Los sistemas de informaci�n y su importancia en la transformaci�n digital de la empresa actual. Espacios, 39(45), 3�7.
  12. Quinlan, J. R. (1986). Induction of Decision Trees. In Machine Learning (Vol. 1).
  13. Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386�408.
  14. Shah, K., Patel, H., Sanghvi, D., & Shah, M. (2020). A Comparative Analysis of Logistic Regression, Random Forest and KNN Models for the Text Classification. Augmented Human Research, 5(1). https://doi.org/10.1007/s41133-020-00032-0

 

 

 

 

 

 

 

� 2022 por los autores. Este art�culo es de acceso abierto y distribuido seg�n los t�rminos y condiciones de la licencia Creative Commons Atribuci�n-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).x

 

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/