Deep Learning y la arquitectura Transformer: Evaluación del Desempeño de RoBERTa-large-bne en la Predicción de la Complejidad Léxica en Textos Estatales Ecuatorianos
Resumen
En el ámbito de las instituciones públicas, la accesibilidad y comprensión de los documentos gubernamentales suelen verse afectadas por la complejidad léxica y el uso de lenguaje técnico especializado. Este problema impacta tanto a ciudadanos como a funcionarios, generando malentendidos que pueden reducir la transparencia y dificultar la participación ciudadana. En este estudio, se analiza el desempeño del modelo RoBERTa-large-bne, basado en la arquitectura Transformer, en la predicción de la complejidad léxica en textos estatales ecuatorianos. Para ello, se implementó un ajuste fino del modelo con el fin de optimizar su rendimiento en esta tarea específica. Se llevó a cabo una evaluación comparativa con otros modelos de lenguaje pre-entrenados aplicados en el corpus GovAIEc, cuyos textos corresponden a instituciones estatales del Ecuador. Los resultados obtenidos buscan sentar las bases para el desarrollo de herramientas que faciliten la simplificación de documentos públicos, mejorando su accesibilidad y promoviendo una interacción más eficiente entre la ciudadanía y las instituciones gubernamentales.
Palabras clave
Referencias
Azucena, H., & Yanet, S. (2021). La educación inclusiva desde el marco legal educativo en el Ecuador. 6(3). Obtenido de https://doi.org/10.5281/ZENODO.5512949
Baeldung. (2024). Training and Validation Loss in Deep Learning. Obtenido de https://www.baeldung.com/cs/training-validation-loss-deep-learning
Beltagy, I., Peters, M., & Cohan, A. (2020). Longformer: The Long-Document Transformer. Obtenido de https://arxiv.org/pdf/2004.05150
Bender, E. (2023). Transformer Models: From Architecture to Impact in NLP. SADIO Electronic Journal. Obtenido de https://publicaciones.sadio.org.ar/index.php/EJS/article/download/465/393/.
Calero Sánchez, M., González González, J., Sánchez Berriel, I., Burillo-Putze, G., & Roda García, J. (2024). El Procesamiento de Lenguaje Natural en la revisión. Obtenido de https://www.reue.org/wp-content/uploads/2024/07/184-195.pdf?utm_source
Cesteros, J. (2023). Aproximaciones a la simplificaci´on l´exica mediante. Obtenido de https://apidspace.linhd.uned.es/server/api/core/bitstreams/24152488-5e9b-4185-904d-9e0b0346162b/content
Clark, K., Luong, M., Le, Q., & Maning, C. (2020). ELECTRA: PRE-TRAINING TEXT ENCODERS. Obtenido de https://arxiv.org/pdf/2003.10555
Cornell University. (26 de Febrero de 2021). Exploring Transformers in Natural Language Generation: GPT, BERT, and XLNet. Obtenido de https://arxiv.org/abs/2102.08036?utm_source
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Obtenido de https://arxiv.org/abs/1810.04805
Duchitanga, R., & León-Paredes, G. (21 de Mayo de 2023). An Approach to the Presumptive Detection of Road Incidents in Cuenca, Ecuador Using the Data from the Social Media Twitter and Spanish Natural Language Processing. Obtenido de https://link.springer.com/chapter/10.1007/978-3-031-32213-6_17
Face, H. (2020). Transformers. Obtenido de https://huggingface.co/docs/transformers/index
Geng, S., Lebret, R., & Aberer, K. (2023). Legal Transformer Models May Not Always Help. Obtenido de https://ugye-my.sharepoint.com/personal/kendrick_villotav_ug_edu_ec/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fkendrick%5Fvillotav%5Fug%5Fedu%5Fec%2FDocuments%2FBIBLIOGRAFIAS%2FBIBLIOGRAFIAS%2Ffiles%2F110%2FGeng%20et%20al%2E%20%2D%202021%20%2D%20Legal%20T
Grimmelikhujisen, S., & Welch, E. (8 de Junio de 2012). Developing and Testing a Theoretical Framework for Computer-Mediated Transparency of Local Governments. Obtenido de https://onlinelibrary.wiley.com/doi/10.1111/j.1540-6210.2011.02532.x
IBM TechXchange. (21 de Octubre de 2024). ¿Qué es el PLN (procesamiento del lenguaje natural)? Obtenido de https://www.ibm.com/es-es/topics/natural-language-processing?utm_source
Lenin, M. (2024). Aplicación de Modelos Transformers para Clasificar Textos en Idioma Español [Universidad Estatal Península de Santa Elena]. Obtenido de https://repositorio.upse.edu.ec/bitstream/46000/11875/1/UPSE-TTI-2024-0035.pdf?utm_source
Lu, Xu, & Wei. (2023). Understanding the effects of the textual complexity on government communication: Insights from China’s online public service platform. Obtenido de https://www.sciencedirect.com/science/article/abs/pii/S0736585323000928
Ministerio de Telecomunicaciones y de la Sociedad de la Información. (2022). Obtenido de MINTEL-MINTEL: https://ugye-my.sharepoint.com/personal/kendrick_villotav_ug_edu_ec/_layouts/15/onedrive.aspx?ga=1&id=%2Fpersonal%2Fkendrick%5Fvillotav%5Fug%5Fedu%5Fec%2FDocuments%2FBIBLIOGRAFIAS%2FBIBLIOGRAFIAS%2Ffiles%2F109%2FMINTEL%2DMINTEL%2D2022%2D0034%2Epdf&parent=
Mo, Y., Qin, H., Dog, Y., Zhu, Z., & Li, Z. (24 de Abril de 2024). Large Language Model (LLM) AI text generation detection based on transformer deep learning algorithm. Obtenido de https://arxiv.org/abs/2405.06652
Moscoso Lozano, D. F., & Pacheco Fares, J. O. (2024). Trabajo de Titulación. Obtenido de https://ugye-my.sharepoint.com/personal/kendrick_villotav_ug_edu_ec/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fkendrick%5Fvillotav%5Fug%5Fedu%5Fec%2FDocuments%2FBIBLIOGRAFIAS%2FBIBLIOGRAFIAS%2Ffiles%2F108%2FSistema%20de%20recomendaci%C3%B3n%20de%20cursos%
Nasimba, F. (2023). "Attention is all you need". Arquitectura Transformers: descripción y aplicaciones. Obtenido de https://dspace.umh.es/bitstream/11000/30273/1/TFG-Nasimba%20Tipan%2c%20Alexis%20Fabian.pdf
Olmos, M. (2021). PROCESAMIENTO DE LENGUAJE NATURAL APLICADO A LOS DISCURSOS DE JUAN DOMINGO PERÓN ENTRE 1943 Y 1955. Obtenido de https://ri.itba.edu.ar/server/api/core/bitstreams/b2074780-d8af-4326-beb2-2830b39ff56b/content
Ormaechea, L., Tsourakis, N., Schwab, D., Bouillon, P., & Lecouteux, B. (2023). Simple, Simpler and Beyond: A Fine-Tuning BERT-Based Approach to Enhance Sentence Complexity Assessment for Text Simplification.
Ortiz Zambrano, J., & Montejo-Ráez, A. (2017). A corpus of videos and transcriptions for research in the Reading Comprehension of University Students. Obtenido de https://doi.org/10.1007/978-3-030-32022-5_16
Ortiz Zambrano, J., & Varela Tapia, E. (2019). Reading Comprehension in University Texts: The Metrics of Lexical Complexity in Corpus Analysis in Spanish. Obtenido de https://doi.org/10.1007/978-3-030-12018-4_9
Ortiz-Zambrano, J., & Montejo-Raez, A. (2021). CLexIS2: A New Corpus for Complex Word Identification Research in Computing Studies. Obtenido de https://doi.org/10.26615/978-954-452-072-4_121
Ortiz-Zambrano, J., & Montejo-Raez, A. (2021). SINAI at SemEval-2021 Task 1: Complex word identification using Word-level features. Obtenido de https://ugye-my.sharepoint.com/personal/kendrick_villotav_ug_edu_ec/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fkendrick%5Fvillotav%5Fug%5Fedu%5Fec%2FDocuments%2FBIBLIOGRAFIAS%2FBIBLIOGRAFIAS%2Ffiles%2F20%2FOrtiz%2DZambrano%20y%20Montejo%2DR%C3%A1ez%20%2D%
Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-Ráez, A. (2022). Transformers for Lexical Complexity Prediction in Spanish Language. Obtenido de https://doi.org/10.26342/2022-69-15
Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-Ráez, A. (2023). Combining Transformer Embeddings with Linguistic Features for Complex Word Identification. Obtenido de https://doi.org/10.3390/electronics12010120
Ortiz-Zambrano, J., Espín-Riofrio, C., & Montejo-Ráez, A. (2023). LegalEc: Un nuevo corpus para la investigación de la identificación de palabras complejas en los estudios de Derecho en español ecuatoriano. Obtenido de https://doi.org/10.26342/2023-71-19
Ortiz-Zambrano, J., Espín-Riofrío, C., & Montejo-Ráez, A. (2024). Deep Encodings vs. Linguistic Features in Lexical Complexity Prediction. Obtenido de https://doi.org/10.1007/s00521-024-10662-9
Ortiz-Zambrano, J., Espín-Riofrío, C., & Montejo-Ráez, A. (2024). Enhancing Lexical Complexity Prediction Through Few-Shot Learning with GPT-3. Obtenido de https://ugye-my.sharepoint.com/personal/kendrick_villotav_ug_edu_ec/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fkendrick%5Fvillotav%5Fug%5Fedu%5Fec%2FDocuments%2FBIBLIOGRAFIAS%2FBIBLIOGRAFIAS%2Ffiles%2F24%2FOrtiz%2DZambrano%20et%20al%2E%20%2D%202024%20%2D%
Soneji, S., Hoesing, M., Koujalgi, S., & Dodge, J. (17 de Abril de 2024). Demystifying Legalese: An Automated Approach for Summarizing and Analyzing Overlaps in Privacy Policies and Terms of Service. Obtenido de https://arxiv.org/abs/2404.13087
Wold, S., Maehlum, P., & Hove, O. (1 de Abril de 2024). Estimating Lexical Complexity from Document-Level Distribution. Obtenido de https://arxiv.org/abs/2404.01196
Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., & Moi, A. (2020). HuggingFace's Transformers: State-of-the-art Natural Language Processing. Obtenido de https://arxiv.org/abs/1910.03771
Yamada, I., Asai, A., Shindo, H., Takeda, H., & Matsumoto, Y. (2023). LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention. Obtenido de https://arxiv.org/pdf/2010.01057
DOI: https://doi.org/10.23857/pc.v10i2.8920
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/