Identificación de ideología política mediante un modelo Transformer para estilometría y Clasificación por votos en Machine Learning
Resumen
El objetivo principal de este artículo es la determinación de la inclinación ideológica de usuarios de Twitter en Ecuador. Los datos recopilados se obtuvieron de la plataforma Twitter, estos se almacenaron en Datasets, se procesaron y etiquetaron para alimentar los métodos clasificadores los cuales entrenaron para realizar la predicción de ideología política a través del uso de modelos Transformer y Voting Classifier en Machine Learning, se usará Validación Cruzada para potenciar y evaluar durante el entrenamiento a modelos clasificadores como Logistic Regression, Random Forest, Decision Tree, Multilayer Perceptron y Gradient Boosting. Se ejecutará el modelo Transformer pre-entrenado para el español llamado Roberta-large-bne destinado para la extracción de características estilométricas halladas en textos, además se tendrá características fraseológicas como MeanWordLen, LexicalDiversity, MeanSentenceLen, StdevSentenceLen, MeanParagraphLen, DocumentLen y, de palabras de uso frecuente tomadas del corpus en español llamado CREA, este proceso permitió formar un vector final de características los cuales servirán para el entrenamiento. Se busca clasificar la ideología política en base a textos cortos tomados de Twitter y analizar los resultados de cada clasificador para validar cual es el más adecuado para la tarea de clasificación y predicción, dichos resultados servirán como indicador de factibilidad para estudios similares en un futuro.
Palabras clave
Referencias
Berkson, J. (1944). Application of the Logistic Function to Bio-Assay. Journal of the American Statistical Association, 39(227), 357–365. https://doi.org/10.1080/01621459.1944.10500699
Charbuty, B., & Abdulazeez, A. (2021). Classification Based on Decision Tree Algorithm for Machine Learning. Journal of Applied Science and Technology Trends, 2(01), 20–28. https://doi.org/10.38094/jastt20165
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference (Vol. 1).
Floridi, L., & Chiriatti, M. (2020). GPT-3: Its Nature, Scope, Limits, and Consequences. 30, 681–694. https://doi.org/10.1007/s11023-020-09548-1
jpotts18 (Jeff Potter) · GitHub. (n.d.). Retrieved August 25, 2022, from https://github.com/jpotts18
Kamath, C. N., Bukhari, S. S., & Dengel, A. (2018). Comparative study between traditional machine learning and deep learning approaches for text classification. Proceedings of the ACM Symposium on Document Engineering 2018, DocEng 2018. https://doi.org/10.1145/3209280.3209526
Kingsley Zipf, G. (1932). Selected Studies of the Principle of Relative Frequency in Language. Selected Studies of the Principle of Relative Frequency in Language. https://doi.org/10.4159/HARVARD.9780674434929/HTML
Laboratories, T. B., Avenue, M., & Murray, U. H. (1995). Random Decision Forests.
Mosteller, F., & Wallace, D. L. (2012). Inference in an Authorship Problem. Http://Dx.Doi.Org/10.1080/01621459.1963.10500849, 58(302), 275–309. https://doi.org/10.1080/01621459.1963.10500849
Pranckevičius, T., & Marcinkevičius, V. (2017). Comparison of Naive Bayes, Random Forest, Decision Tree, Support Vector Machines, and Logistic Regression Classifiers for Text Reviews Classification. Baltic Journal of Modern Computing, 5(2), 221–232. https://doi.org/10.22364/bjmc.2017.5.2.05
Proaño, M., Orellana, S., & Martillo, I. (2018). Los sistemas de información y su importancia en la transformación digital de la empresa actual. Espacios, 39(45), 3–7.
Quinlan, J. R. (1986). Induction of Decision Trees. In Machine Learning (Vol. 1).
Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386–408.
Shah, K., Patel, H., Sanghvi, D., & Shah, M. (2020). A Comparative Analysis of Logistic Regression, Random Forest and KNN Models for the Text Classification. Augmented Human Research, 5(1). https://doi.org/10.1007/s41133-020-00032-0
DOI: https://doi.org/10.23857/pc.v7i9.4642
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/