Deep Learning y la arquitectura Transformer: Evaluacin del Desempeo de RoBERTa-large-bne en la Prediccin de la Complejidad Lxica en Textos Estatales Ecuatorianos

 

Deep Learning and Transformer Architecture: Evaluating the Performance of RoBERTa-large-bne in Predicting Lexical Complexity in Ecuadorian State Texts

 

Aprendizagem profunda e arquitetura de transformadores: avaliando o desempenho de RoBERTa-large-bne na previso da complexidade lexical em textos estaduais equatorianos

 

Jenny Alexandra Ortiz-Zambrano I
jenny.ortizz@ug.edu.ec
https://orcid.org/0000-0001-6708-4470
Arturo Montejo-Rez II
amontejo@ujaen.es
http://orcid.org/0000-0002-8643-2714
 

 

 

 

 

 

 

 

 

 


Correspondencia: jenny.ortizz@ug.edu.ec

 

Ciencias Tcnicas y Aplicadas

Artculo de Investigacin

 

 

* Recibido: 01 de diciembre de 2024 *Aceptado: 24 de enero de 2025 * Publicado: 11 de febrero de 2025

 

        I.            Doctorante en Tecnologas de la Informacin y Comunicacin por la Universidad de Jan, Espaa.

      II.            Doctor en Ciencias de la Computacin, Ecuador.

 


Resumen

En el mbito de las instituciones pblicas, la accesibilidad y comprensin de los documentos gubernamentales suelen verse afectadas por la complejidad lxica y el uso de lenguaje tcnico especializado. Este problema impacta tanto a ciudadanos como a funcionarios, generando malentendidos que pueden reducir la transparencia y dificultar la participacin ciudadana. En este estudio, se analiza el desempeo del modelo RoBERTa-large-bne, basado en la arquitectura Transformer, en la prediccin de la complejidad lxica en textos estatales ecuatorianos. Para ello, se implement un ajuste fino del modelo con el fin de optimizar su rendimiento en esta tarea especfica. Se llev a cabo una evaluacin comparativa con otros modelos de lenguaje pre-entrenados aplicados en el corpus GovAIEc, cuyos textos corresponden a instituciones estatales del Ecuador. Los resultados obtenidos buscan sentar las bases para el desarrollo de herramientas que faciliten la simplificacin de documentos pblicos, mejorando su accesibilidad y promoviendo una interaccin ms eficiente entre la ciudadana y las instituciones gubernamentales.

Palabras clave: Aprendizaje profundo; Complejidad lxica; Textos estatales; Arquitectura Transforme; Prediccin.

 

Abstract

In the field of public institutions, the accessibility and understanding of government documents are often affected by lexical complexity and the use of specialized technical language. This problem impacts both citizens and officials, generating misunderstandings that can reduce transparency and hinder citizen participation. In this study, the performance of the RoBERTa-large-bne model, based on the Transformer architecture, is analyzed in the prediction of lexical complexity in Ecuadorian state texts. To do so, a fine-tuning of the model was implemented in order to optimize its performance in this specific task. A comparative evaluation was carried out with other pre-trained language models applied to the GovAIEc corpus, whose texts correspond to state institutions in Ecuador. The results obtained seek to lay the foundations for the development of tools that facilitate the simplification of public documents, improving their accessibility and promoting a more efficient interaction between citizens and government institutions.

Keywords: Deep learning; Lexical complexity; State texts; Transformer architecture; Prediction.

 

Resumo

No domnio das instituies pblicas, a acessibilidade e a compreenso dos documentos governamentais so frequentemente afetadas pela complexidade lexical e pela utilizao de linguagem tcnica especializada. Este problema afeta tanto os cidados como as autoridades, gerando mal-entendidos que podem reduzir a transparncia e dificultar a participao dos cidados. Neste estudo, o desempenho do modelo RoBERTa-large-bne, baseado na arquitetura Transformer, analisado na previso da complexidade lexical em textos estaduais equatorianos. Para tal, foi implementado um ajuste fino do modelo de forma a otimizar o seu desempenho nesta tarefa especfica. Foi realizada uma avaliao comparativa com outros modelos de linguagem pr-treinados aplicados no corpus GovAIEc, cujos textos correspondem a instituies estatais do Equador. Os resultados obtidos procuram lanar as bases para o desenvolvimento de ferramentas que facilitem a simplificao dos documentos pblicos, melhorando a sua acessibilidade e promovendo uma interao mais eficiente entre os cidados e as instituies governamentais.

Palavras-chave: Aprendizagem profunda; Complexidade lexical; Textos do Estado; Transformar Arquitetura; Previso.

 

Introduccin

Si bien los textos son los principales portadores de informacin para la toma de decisiones gubernamentales, pocos estudios han examinado el papel de la complejidad textual en la comunicacin entre el gobierno y los ciudadanos (Lu et al., 2023). Sin embargo, la complejidad lxica y el uso de un lenguaje tcnico especializado representan un obstculo significativo para muchas personas. Esta barrera afecta tanto a los ciudadanos, quienes pueden tener dificultades para comprender informacin clave sobre sus derechos y obligaciones, como a las instituciones pblicas, que buscan comunicar de manera clara y efectiva sus polticas y procedimientos. (Wold et al., 2024).

La dificultad de comprensin no solo disminuye la claridad de la comunicacin, sino que tambin puede generar malentendidos, reduciendo la transparencia y limitando la participacin ciudadana. Tal como lo seala la investigacin, "la complejidad de las palabras, la lgica y las emociones en el texto aumentan la dificultad del procesamiento de la informacin, por lo que la complejidad a menudo se considera la encarnacin de la baja calidad de la informacin" (Alter y Oppenheimer, 2009; Graf et al., 2018, como se cit en Lu et al. 2023). Estos factores dificultan que los ciudadanos comprendan los documentos gubernamentales, lo que genera una desconexin en la interaccin entre la poblacin y las instituciones pblicas. Adems, los estudios han mostrado que "un texto simple puede lograr una mayor participacin", mientras que la complejidad puede reducir la interaccin y el entendimiento en contextos donde es crucial que la comunicacin sea clara (Markowitz y Shulman, 2021, como se cit en Lu et al., 2023).

A pesar de estos hallazgos, en Ecuador no se ha explorado suficientemente el uso de tecnologas avanzadas, como los modelos basados en la arquitectura Transformer, para predecir y abordar la complejidad lxica en textos pblicos. Los modelos Transformer, como GPT-3 y BERT, han demostrado un rendimiento sobresaliente en tareas de Procesamiento de Lenguaje Natural, incluyendo la generacin de textos realistas y coherentes, y la clasificacin de secuencias textuales. Estos modelos pueden ser aplicados para identificar trminos complejos y ayudar a simplificar el lenguaje de los documentos gubernamentales, lo que mejorara su accesibilidad. Dada la capacidad de los Transformers para capturar dependencias de largo alcance en los textos mediante mecanismos de atencin multi-cabezal, estos modelos ofrecen una herramienta prometedora para abordar la complejidad lxica de manera efectiva (Mo et al., 2024).

Este estudio pretende evaluar la complejidad lxica de los textos pblicos ecuatorianos mediante la ejecucin de los modelos BERT, y RoBERTa para determinar la complejidad de las palabras, y analizar el performance (rendimiento) de los modelos en un conjunto de datos en espaol. Esta investigacin es una contribucin al campo del Procesamiento del Lenguaje Natural como apoyo de la accesibilidad de los ciudadanos a la informacin gubernamental, fomentando as una interaccin ms inclusiva y efectiva entre las instituciones y la ciudadana.

La investigacin de Azucena y Yanet (2021) se enfoca en la educacin inclusiva en Ecuador, examinndola tanto desde la perspectiva legal como educativa. El estudio analiza las barreras del lenguaje y la terminologa presentes en las leyes actuales, mostrando cmo la complejidad del lenguaje legal puede entorpecer la comprensin y aplicacin de las leyes, especialmente para personas con niveles educativos ms bajos. Los autores enfatizan la necesidad de simplificar el lenguaje legal y crear herramientas que faciliten la interpretacin de las leyes, buscando un acceso igualitario a la educacin y a la informacin legal. Adicionalmente, proponen estrategias pedaggicas y metodolgicas para optimizar la interaccin entre los ciudadanos y las instituciones gubernamentales.

De acuerdo con Ortiz et al. (2022) presentan una contribucin a la prediccin de la complejidad de palabras simples en espaol mediante la combinacin de mltiples caractersticas. Se emplearon modelos basados en Transformers, como BERT, XLM-RoBERTa y RoBERTa-large-BNE, ejecutados en algoritmos de regresin. Los mejores resultados se obtuvieron con el modelo BERT refinado y el algoritmo Random Forest Regressor, logrando un MAE de 0.1598 y un coeficiente de Pearson de 0.9883. Como trabajo futuro, se propone experimentar con ms conjuntos de datos en espaol y modelos Transformers avanzados para mejorar la prediccin de la complejidad lxica.

El Ministerio de Telecomunicaciones de la Repblica del Ecuador - (MINTEL) emiti en 2022 la "Norma Tcnica para la Priorizacin y Simplificacin de Trmites". Este proyecto busc optimizar los procesos administrativos mediante la eliminacin de redundancias y la digitalizacin de servicios pblicos. Aunque se centr en la estructura de los procedimientos, incluy la necesidad de evaluar la claridad lingstica de las normativas. Sin embargo, no se incorporaron herramientas avanzadas de Procesamiento de Lenguaje Natural (PLN). Esto evidencia un rea de oportunidad para implementar tecnologas como Transformers, que podran automatizar la identificacin de trminos complejos y contribuir a una mayor accesibilidad de estos textos (Ministerio de Telecomunicaciones y de la Sociedad de la Informacin, 2022).

Segn Ortiz (2023) en este estudio introducen a LegalEc, un nuevo corpus anotado de lxico complejo basado en textos legales en espaol ecuatoriano, con detalles sobre su proceso de compilacin y anotacin. Como recurso para avanzar en la investigacin sobre simplificacin lxica en espaol, se realizaron experimentos de prediccin de palabras complejas utilizando 23 caractersticas lingsticas combinadas con codificaciones generadas por modelos como XLM-RoBERTa y RoBERTa-BNE. Los resultados demuestran que esta combinacin mejora la prediccin de la complejidad lxica.

El estudio "BERT for Legal Texts: Training and Fine-tuning in a New Language" abord el desafo de aplicar BERT en el mbito legal mediante su ajuste a lenguajes especficos y la adaptacin al contexto jurdico, entrenando el modelo en un corpus extenso de documentos legales en mltiples idiomas, como ingls, alemn y francs. La metodologa incluy el fine-tuning del modelo BERT en datos legales para tareas como la clasificacin de sentencias y la segmentacin de contratos, adems de una evaluacin basada en mtricas como F1-score y precisin para medir su efectividad en tareas especficas. Los resultados mostraron una mejora del 12% en la clasificacin de documentos legales en comparacin con mtodos tradicionales, con ajustes que permitieron identificar trminos complejos y relaciones semnticas propias del mbito legal. Esto valida el uso de Transformers en textos especializados y demuestra que los ajustes contextuales pueden mejorar significativamente la precisin en tareas especficas, lo que resulta especialmente relevante para proyectos enfocados en la aplicacin de modelos de lenguaje en dominios tcnicos (Soneji et al., 2024).

Si bien modelos como GPT-3 y GPT-4 han mostrado un gran potencial en la prediccin de trminos complejos mediante las tcnicas de zero-shot learning y few-shot learning, BERT y RoBERTa ofrecen oportunidades nicas en la clasificacin de secuencias y prediccin de complejidad lxica mediante ajuste fino. Como lo demuestran (Devlin, et al., 2019) estos modelos, basados en la arquitectura Transformer, han demostrado ser altamente efectivos en tareas de clasificacin y prediccin de complejidad lxica, lo que podra mejorar significativamente la accesibilidad de los textos gubernamentales mediante tcnicas de simplificacin y adaptacin lxica de acuerdo a los estudios realizados por (Ortiz et al., 2024).

Para Moscoso y Pacheco (2024) desarrollaron en la Universidad de Cuenca proyectos enfocados en la adaptacin de modelos de PLN al espaol ecuatoriano. En particular, han trabajado con modelos como BERT para el anlisis de sentimientos y clasificacin de textos, demostrando su efectividad en contextos locales. Aunque no especficamente orientados a textos pblicos, estos avances han puesto en evidencia la necesidad de ajustar los modelos a las particularidades lingsticas y culturales del espaol hablado en Ecuador, como variaciones lxicas y construcciones sintcticas nicas.

Segn Ortiz y Montejo (2024) en este estudio, se presenta un mtodo innovador para la prediccin de la complejidad lxica (LCP) que integra un conjunto diverso de propiedades lingsticas con codificaciones de redes neuronales profundas. Para ello, se combinan 23 caractersticas lingsticas artesanales junto con las representaciones generadas por dos modelos de lenguaje de amplia adopcin: BERT y XLM-RoBERTa. El procedimiento consiste en concatenar dichas caractersticas antes de introducirlas en diversos algoritmos de aprendizaje automtico, que abarcan desde SVM y Random Forest hasta modelos transformadores ajustados.

Para Soneji et al. (2024) en su estudio utiliz RoBERTa para analizar y simplificar polticas de privacidad y trminos legales complejos mediante su entrenamiento con un corpus especializado de trminos legales y polticas de privacidad. La metodologa incluy la implementacin de mecanismos de atencin para identificar las frases ms relevantes en cada documento y la validacin de las predicciones al compararlas con resmenes generados por expertos. Los resultados mostraron que RoBERTa logr un 85 % de concordancia con resmenes manuales, adems de reducir la redundancia en los textos legales y mejorar su accesibilidad para usuarios no especializados. Este antecedente subraya la capacidad de los Transformers para abordar el lenguaje tcnico en documentos legales y facilitar su comprensin, lo que resulta relevante para proyectos enfocados en simplificar contenidos complejos.

 

Materiales y mtodos

En el marco de esta investigacin, se utilizan mtodos estadsticos e informticos avanzados para la recopilacin y el anlisis de datos cientficos. Como destacan Zhang, et al. (2016):

La evaluacin de modelos de lenguaje en tareas especficas, como la comprensin de textos, requiere no solo la recoleccin de datos, sino tambin la aplicacin de tcnicas analticas rigurosas que permitan identificar patrones complejos y medir la eficacia de los modelos. Este enfoque asegura la obtencin de resultados confiables y una interpretacin contextualizada de los hallazgos.

Este enfoque es fundamental para nuestra investigacin, ya que nos permiti evaluar sistemticamente el rendimiento de modelos como BERT o RoBERTa y otros sistemas basados en arquitecturas Transformer en un conjunto representativo de documentos pblicos. Esto no solo garantiz la confiabilidad de los resultados, sino que tambin facilit su generalizacin a un espectro ms amplio de textos institucionales y gubernamentales.

 

Materiales

Conjunto De Datos

Para el tratamiento de los datos, se emple el corpus GovAIEc como fuente documental, permitiendo obtener acerca de los textos pblicos ecuatorianos. Durante este proceso, se aplic el cdigo necesario para analizar la complejidad de las palabras en los documentos oficiales, as como la generacin de mtricas asociadas a la complejidad lxica.

Adicionalmente, el proceso incluy la divisin del conjunto de datos en dos proporciones: una destinada a la fase de entrenamiento del modelo y otra reservada para la fase de evaluacin. Esto permiti medir de manera efectiva el desempeo de los modelos en contextos controlados. Como el objetivo de esta investigacin es explorar el impacto de las caractersticas lingsticas aadidas, se llevaron a cabo ejecuciones tanto con el conjunto de datos original (sin caractersticas lingsticas) como con una versin enriquecida que incorpora 17 nuevas caractersticas lingsticas adicionales (LF) a las 23 caractersticas que contena GovAIEc al inicio de su creacin. Estas caractersticas buscan proporcionar al modelo un mejor entendimiento del contexto, optimizando su capacidad predictiva y mejorando los resultados generales.

 

Estructura del Corpus

GovAIEc es un corpus especializado en textos administrativos y legales provenientes de cinco fuentes gubernamentales ecuatorianas:

      1.            ATM[i] - Autoridad de Trnsito Municipa. Sitio web oficial: https://www.atm.gob.ec/

      2.            CNE[ii] - Consejo Nacional Electoral. Sitio web oficial: https://www.cne.gob.ec/

      3.            CNT[iii] - Corporacin Nacional de Telecomunicacin. Sitio web oficial: https://www.cnt.com.ec/

      4.            Muy ilustre municipalidad de guayaquil[iv]. Sitio web oficial: https://guayaquil.gob.ec/

      5.            SRI[v] - Servicio de Rentas Internas. Sitio web oficial: https://www.sri.gob.ec/web/intersri/home

El archivo principal del dataset contiene 7.813 registros, cada uno etiquetado con informacin relevante para la tarea de prediccin de la complejidad lxica.

 

Estructura del Dataset

Cada registro dentro de GovAIEc est compuesto por los siguientes campos:

         ID: Identificador nico asignado a cada registro.

         CORPUS: Fuente especfica del registro dentro del dataset.

         SENTENCE: Prrafo donde se encuentra la palabra identificada como compleja.

         TOKEN: Palabra especfica marcada para el anlisis de complejidad lxica.

         COMPLEXITY: Valor numrico que representa el nivel de complejidad de la palabra segn los etiquetadores.

 

Criterios de Evaluacin y Comparacin

Las experimentaciones realizadas con el modelo RoBERTa-large-bne pretenden analizar el rendimiento de bajo dos configuraciones:

      1.            Sin caractersticas lingsticas, donde el modelo aprende exclusivamente de los datos textuales sin informacin adicional.

      2.            Con caractersticas lingsticas (LF), incorporando informacin lingstica adicional para mejorar la prediccin de la complejidad lxica.

 

Tabla1: Registro

ID

CORPUS

SENTENCE

TOKEN

COMPLEXITY

5667

Municipio - Tramites - TEXTO 0028 REQUISISTOS PARA LA CREACION DE URBANIZACIONES.txt

REQUISISTOS PARA LA CREACION DE URBANIZACIONES Tal situacin debe contemplarse en el Plano Definitivo del Proyecto Urbanstico, as como en el Reglamento Interno de la Urbanizacin correspondiente, que se anexar en las escrituras de transferencia de dominio de los solares afectados, a efectos de consolidar la certeza jurdica de las propiedades a adquirirse

contemplarse

0.333

2502

CNE - Tramites - TEXTO 0073 REGLAMENTO DE PROMOCION ELECTORAL.txt

REGLAMENTO DE PROMOCION ELECTORAL, Adems, se prohbe durante la campaa electoral la contratacin y difusin de propaganda y publicidad por parte de sujetos de derecho privado referente al proceso electoral en prensa escrita, radio, televisin, vallas publicitarias, medios digitales y cualquier otro medio de comunicacin social

sujetos

0.333

7364

SRI - Tramites - TEXTO 0055 GUA PARA CONTRIBUYENTES INGRESO DE TRMITES Y ANEXOS A TRAVS DE SRI EN LNEA.txt

GUA PARA CONTRIBUYENTES INGRESO DE TRMITES Y ANEXOS A TRAVS DE SRI EN LNEA Paso 4 Notificacin A continuacin, ingrese los campos de direccin si no son correctos los que vienen precargados y si es necesario active la opcin de notificacin en el Casillero judicial

precargados

0.666

Nota: Esta tabla ofrece una descripcin detallada del tipo de datos empleados en el entrenamiento y evaluacin de los modelos, as como de la metodologa utilizada para asignar los valores de complejidad lxica a las palabras dentro del corpus. Elaboracin: Molina Vargas Jorge y Villota Viteri Kendrick. Fuente: Propia

 

El ID corresponde a un identificador nico asignado a cada registro. El campo CORPUS indica la fuente de origen de cada ejemplo. SENTENCE representa el prrafo en el que se encuentra la palabra etiquetada como compleja, mientras que TOKEN identifica la palabra seleccionada para el anlisis de complejidad. Finalmente, COMPLEXITY es un valor numrico que representa el grado de complejidad asignado por los etiquetadores. La siguiente tabla presenta la escala de complejidad lxica utilizada para clasificar los textos en el dataset segn su nivel de dificultad. Se emple una escala de Likert, la cual asigna valores numricos a las palabras o frases en funcin de su complejidad dentro del contexto del texto. La clasificacin se organiza en tres categoras principales:

         Moderadamente Difcil (Moderately Difficult): Rango de 0 a 0.333. Las palabras o frases en esta categora presentan cierta complejidad, pero suelen ser comprensibles dentro del contexto en el que aparecen.

         Difcil (Difficult): Rango de 0.333 a 0.666. Estas palabras o frases poseen un nivel de complejidad considerable y pueden requerir un mayor grado de comprensin o conocimientos especficos para su adecuada interpretacin.

Muy Difcil (Very Difficult): Rango de 0.666 a 1. Las palabras o frases en esta categora presentan un alto grado de complejidad, lo que puede representar un desafo significativo para la comprensin.

Adems, el corpus GovAIEc incorpora un total de 40 caractersticas lingsticas adicionales diseadas para mejorar las predicciones de los modelos de aprendizaje. Estas caractersticas proporcionan informacin contextual y estructural que permite a los modelos comprender mejor la complejidad lxica de las palabras. Las caractersticas lingsticas son las siguientes: Frecuencia absoluta, Frecuencia relativa, Longitud de la palabra, Nmero de silabas, Posicin del token, Nmero de palabras en la oracin, Part of speech, Frecuencia relativa de la palabra antes de la palabra objetivo (token), Frecuencia relativa de la palabra despus de la palabra objetivo (token), Longitud de la palabra anterior, Longitud de la palabra que sigue, Medida de diversidad lxica textual, Nmero de sinnimos, Nmero de hipnimos, Nmero de hipernimos, Nmero de sustantivos singular o plural, Nmero de verbos auxiliares, Nmero de adverbios, Nmero de smbolos, Nmero de expresiones numricas, Nmero de verbos, Nmero de sustantivos, Nmero de pronombres, Nmero de morfemas, Longitud del lema, Is stopword (Es una palabra vaca), Nmero de sentidos de una palabra, ndice de legibilidad de Flesch, ndice de Gunning-Fog, ndice de SMOG, ndice RIX, n-gramas de caracteres, WordNet synset size, WordNet nomber of synset, Language model sentence probability, Average n-gram frecuency, Degree of Polyseny o nmero de sentidos de la palabra objetivo en WordNet, Nmero de vocales, Word complexity lexicn, Phrase lenght in terms of words and characters.

 

Procesamiento de la informacin

Para el anlisis de la complejidad lxica, se emple el corpus GovAIEc junto con los modelos RoBERTa (con sus respectivas configuraciones) para generar predicciones de complejidad lxica. Con los valores obtenidos de las predicciones y los valores asignados a cada palabra en el corpus, se utilizaron mtricas de evaluacin como Validation Loss, Training Loss, MAE (Error Absoluto Medio), MSE (Error Cuadrtico Medio), RMSE (Raz del Error Cuadrtico Medio) y R (Coeficiente de Determinacin) para contrastar los resultados obtenidos con los valores de referencia.

 

Mtricas Utilizadas

Validation Loss

La prdida de validacin (validation loss) es una mtrica utilizada en el entrenamiento de modelos de aprendizaje automtico y aprendizaje profundo para evaluar el rendimiento del modelo en un conjunto de datos de validacin. Se calcula aplicando la funcin de prdida al conjunto de validacin despus de cada iteracin o poca de entrenamiento. Su propsito es monitorear si el modelo est generalizando correctamente a datos no vistos y detectar problemas como el sobreajuste (overfitting) (Baeldung, Training and Validation Loss in Deep Learning, 2024).

Training Loss

La prdida de entrenamiento (training loss) es una mtrica utilizada para evaluar qu tan bien un modelo de aprendizaje automtico se ajusta a los datos de entrenamiento. Se calcula utilizando una funcin de prdida especfica despus de cada iteracin o poca del entrenamiento. Una disminucin en el training loss indica que el modelo est aprendiendo patrones a partir de los datos (Goodfellow et al., 2017).

Mean Absolute Error (MAE)

El Error Absoluto Medio (Mean Absolute Error, MAE) es una mtrica utilizada en modelos de regresin para medir el promedio de los errores absolutos entre las predicciones del modelo y los valores reales. Se calcula mediante la siguiente frmula:

Donde:

representa el valor real.

es la prediccin del modelo.

es el nmero total de observaciones.

El MAE proporciona una medida directa de la magnitud del error en unidades de la variable de salida sin considerar la direccin del error (positiva o negativa) (Willmott y Matsuura, 2005).

Mean Squared Error (Mse)

El Error Cuadrtico Medio (Mean Squared Error, MSE) es una mtrica de evaluacin utilizada en modelos de regresin que mide el promedio de los errores al cuadrado entre los valores reales y las predicciones del modelo. Se define mediante la siguiente frmula:

Donde:

representa el valor real.

es la prediccin del modelo.

es el nmero total de observaciones.

El MSE eleva los errores al cuadrado, lo que penaliza ms los errores grandes en comparacin con los errores pequeos. (Chai & Draxler, 2014)

Root Mean Squared Error (Rmse)

El Error Cuadrtico Medio de Raz (Root Mean Squared Error, RMSE) es una mtrica utilizada para evaluar la precisin de modelos de regresin, proporcionando una medida de la diferencia promedio entre los valores reales y las predicciones. Se calcula como la raz cuadrada del Error Cuadrtico Medio (Mean Squared Error, MSE)

Donde:

representa el valor real.

es la prediccin del modelo.

es el nmero total de observaciones.

El RMSE mide el error en las mismas unidades que la variable objetivo, lo que facilita su interpretacin. (Chai y Draxler, 2014)

Coeficiente de Determinacin (R^2)

El Coeficiente de Determinacin (R^2), tambin conocido como el coeficiente de explicacin, es una mtrica utilizada para evaluar el desempeo de modelos de regresin. Indica qu proporcin de la variabilidad en la variable dependiente (γ) es explicada por las variables independientes (X) en el modelo. (Palma, 2022)

 

Resultados y discusin

El anlisis se centr en la comparacin del modelo evaluado, examinando su desempeo en distintas configuraciones de pocas de entrenamiento (30, 50, 70) para determinar cmo el nmero de iteraciones impacta su rendimiento en la prediccin de la complejidad lxica dentro del corpus GovAIEc. A continuacin, la tabla 2 presenta los resultados finales alcanzados tras la ejecucin del modelo roberta-large-bne alcanzando su mejor rendimiento con el conjunto de datos conformado por las caractersticas lingsticas.

 

Tabla 2: Modelos Predictivos Aplicados

EPOCHS

MODELO

MAE

MSE

RMSE

R2

50

roberta-large-bne +LF

0,204512

0,053927

0,232223

0,039591

70

roberta-large-bne + LF

0,205496

0,053931

0,23223

0,039526

30

roberta-large-bne +LF

0,206888

0,053906

0,232176

0,039977

Nota: El modelo incluido es RoBERTa-large-bne con la inclusin de caractersticas lingsticas (LF). La tabla ilustra cmo el nmero de pocas (30, 50, 70) y la inclusin de LF impactan en el rendimiento de los modelos.

 

A continuacin, se describen los resultados alcanzados:

  • Ejecucin con 50 pocas (epochs): Esta configuracin logra el mejor rendimiento general con los menores valores de MAE (0,204512) y MSE (0,053927). Adems, alcanza un RMSE de 0.232223 y un R de 0,039591, lo que indica un buen equilibrio entre precisin y capacidad explicativa.
  • Ejecucin con 70 pocas (epochs): Aunque mantiene un rendimiento similar al de 50 pocas, no logra mejorar significativamente las mtricas clave. El MAE aumenta levemente a 0,205496, y el R disminuye a 0,039526, lo que sugiere que el modelo alcanza una saturacin al entrenar por ms tiempo.
  • Ejecucin con 30 pocas (epochs): Presenta resultados competitivos, con el mejor R (0,039977) y un MSE ligeramente menor (0,053906). Sin embargo, el MAE ms alto (0,206888) indica una menor precisin en las predicciones.

 

Tabla 3: Resultados de la mejor configuracin del modelo alcanzados con 50 pocas

Epoch

Training Loss

Validation Loss

MAE

MSE

RMSE

R2

1

0,1186

0,071007

0,232025

0,070902

0,266274

-0,262713

2

0,1013

0,083054

0,250094

0,082998

0,288093

-0,478131

3

0,0941

0,067434

0,227909

0,067317

0,259455

-0,198867

4

0,0893

0,062287

0,223068

0,062135

0,249269

-0,106581

5

0,0811

0,068457

0,228509

0,068336

0,261411

-0,217009

6

0,0802

0,070329

0,230048

0,070216

0,264983

-0,250499

7

0,0781

0,062365

0,222919

0,062209

0,249417

-0,107896

8

0,0722

0,055097

0,211709

0,05487

0,234243

0,022806

9

0,0728

0,060072

0,219854

0,059905

0,244754

-0,066861

10

0,0689

0,057378

0,216287

0,057189

0,239142

-0,018492

33

0.0572

0.054196

0.204512

0.053927

0.232223

0.039591

48

0,0567

0,05474

0,210431

0,054511

0,233476

0,029197

49

0,0563

0,054621

0,209963

0,054389

0,233215

0,031367

50

0,0562

0,054595

0,209852

0,054362

0,233157

0,031851

Nota: Se ilustra en la tabla los resultados del entramiento del mejor modelo.

 

Los resultados obtenidos muestran que el modelo roberta-large-bne + LF (FEATURES) con 50 pocas logr un desempeo consistente y eficiente a lo largo del entrenamiento. Durante las primeras 10 pocas, el modelo experimenta una reduccin significativa en las mtricas de error, con el MAE disminuyendo de 0,232025 (en la poca 1) a 0,216287 (en la poca 10). Esto refleja un aprendizaje rpido en las etapas iniciales. De manera similar, el MSE muestra una disminucin notable, pasando de 0,070902 a 0,057189 en el mismo intervalo.

A partir de la poca 30, las mtricas clave como MAE y MSE comienzan a estabilizarse. El MAE oscila alrededor de 0,206-0,208, mientras que el MSE se mantiene cercano a 0,0539. Esto indica que el modelo alcanza un equilibrio entre precisin y generalizacin. En particular, la poca 33 representa el punto ptimo del modelo, alcanzando un MAE de 0,204512 y un MSE de 0,053927, los valores ms bajos registrados. Adems, el coeficiente R en esta poca es de 0,039591, lo que sugiere una ligera mejora en la capacidad de explicar la variabilidad de los datos.

El rendimiento global del modelo demuestra robustez, con el RMSE permaneciendo estable alrededor de 0,232 durante las ltimas pocas. Aunque los valores de R no son altos, la mejora progresiva desde valores negativos (-0,262713 en la poca 1) hasta positivos (0,039591 en la poca 33) indica un refinamiento constante en la capacidad explicativa del modelo. Entrenar ms all de la poca 33 no aporta mejoras significativas, como lo reflejan las mtricas consistentes en las ltimas epocas, lo que tambin sugiere que continuar el entrenamiento podra resultar en un uso ineficiente de recursos computacionales.

El modelo roberta-large-bne + LF (FEATURES) se destac por su capacidad de lograr un equilibrio entre precisin y estabilidad. Su rendimiento ptimo, alcanzado en la poca 33, demuestra su eficacia para la prediccin de complejidad lxica, justificando su eleccin como la configuracin final para esta tarea.

 

Anlisis de la prdida de entramiento y prdida de validacin aplicando 50 pocas

 

Figura 1: Training Loss y Validation Loss (roberta-large-bne + LF, 50 Epochs)

Nota: Se ilustra un grfico comparativo de los resultados del training y validation loss en el modelo roberta-large-bne con caractersticas linguisticas aplicando 50 ciclos.

 

Comportamiento General de los Valores de Loss

Training Loss:

         Comienza en 0,1186 en la primera poca y desciende progresivamente hasta estabilizarse en torno a 0,056 hacia las ltimas pocas.

         Esto indica que el modelo est aprendiendo de manera consistente durante el entrenamiento, reduciendo su error en los datos de entrenamiento con cada ciclo.

 

Validation Loss

Inicia en 0,071007 en la primera poca y desciende hasta estabilizarse cerca de 0,054, mostrando un comportamiento similar al Training Loss. El Validation Loss se estabiliza aproximadamente a partir de la poca 15, lo que sugiere que el modelo alcanza un punto donde mejora solo marginalmente en los datos de validacin.

 

Convergencia entre Training y Validation Loss

Diferencia Inicial

En las primeras pocas, hay una notable diferencia entre el Training Loss y el Validation Loss. Por ejemplo:

poca 1: Training Loss = 0,1186, Validation Loss = 0,071007.

Esto es normal al inicio del entrenamiento, ya que el modelo an est ajustndose a los datos.

 

Reduccin de la Brecha

A medida que avanzan los ciclos, las diferencias entre ambos se reducen. Por ejemplo:

                    poca 30: Training Loss = 0,0573, Validation Loss = 0,054255.

                    poca 50: Training Loss = 0,0562, Validation Loss = 0,054595.

Esto indica que el modelo logra un buen equilibrio entre su capacidad para ajustarse a los datos de entrenamiento y generalizar a los datos de validacin.

 

 

 

Ausencia de Sobreajuste

Si el Training Loss disminuyera constantemente mientras el Validation Loss comenzara a aumentar, indicara que el modelo est sobreajustndose (memoriza los datos de entrenamiento, pero no generaliza bien). En este caso:

         Ambos valores (Training Loss y Validation Loss) se estabilizan en niveles similares hacia el final del entrenamiento (50 pocas).

         Esto sugiere que el modelo no muestra signos significativos de sobreajuste, lo que es un comportamiento deseable.

 

Estabilizacin del Modelo

Ambos valores de prdida se estabilizan a partir de la poca 30, con cambios marginales en las ltimas pocas.

Por ejemplo:

                    poca 30: Training Loss = 0,0573, Validation Loss = 0,054255.

                    poca 50: Training Loss = 0,0562, Validation Loss = 0,054595.

Esto sugiere que entrenar ms all de 30-40 pocas podra no aportar mejoras significativas y, por tanto, podra ser una oportunidad para reducir el tiempo de entrenamiento.

 

Interpretacin de los Valores Finales

En la poca 50:

                    Training Loss: 0,0562.

                    Validation Loss: 0,054595.

Estos valores bajos y cercanos entre s indican que el modelo tiene una alta precisin en los datos de entrenamiento y generaliza bien en los datos de validacin.

 

Conclusiones

Las mejores ejecuciones se obtuvieron ejecutando roberta-large-bne + LF con 50 pocas, el cual tuvo el mejor rendimiento general, logrando un MAE = 0,204512 y un MSE = 0,053927, lo que indica su capacidad para predecir la complejidad lxica con mayor precisin. La inclusin de caractersticas lingsticas (+LF) mejora significativamente el rendimiento del modelo, al proporcionar informacin adicional sobre la estructura y el contexto de las palabras. Esto permite al modelo capturar patrones complejos que no son evidentes nicamente a partir del texto, incrementando la precisin y estabilidad de las predicciones. Adems, entrenar por ms de 50 epochs no proporciona beneficios significativos y, en algunos casos, puede llevar a un rendimiento subptimo debido al sobreajuste.

Los resultados muestran que el modelo roberta-large-bne con 50 pocas y caractersticas lingsticas (+LF) logra el mejor equilibrio entre precisin y generalizacin. Mientras que un mayor nmero de pocas (70) puede reducir levemente el MAE, tambin puede generar una ligera degradacin en la estabilidad del modelo, como lo evidencia el comportamiento del R. Estos hallazgos refuerzan la importancia de ajustar cuidadosamente el nmero de ciclos de entrenamiento y la inclusin de caractersticas lingsticas para optimizar el rendimiento del modelo.

 

Recomendaciones

Recomendamos la optimizacin del nmero de pocas por modelo y configuracin, ya que, consideramos que entrenar por ms de 50 pocas no mostr mejoras significativas y, en algunos casos, llev al sobreajuste, se recomienda realizar experimentos adicionales para determinar de forma ms precisa el nmero ptimo de ciclos de entrenamiento para diferentes arquitecturas y configuraciones del modelo. Esto podra incluir anlisis adaptativos donde el entrenamiento se detenga automticamente al alcanzar una convergencia en las mtricas de validacin.

Sugerimos la exploracin de nuevas caractersticas lingsticas, Aunque las caractersticas lingsticas utilizadas (+LF) demostraron mejorar significativamente el rendimiento de los modelos, se sugiere explorar nuevas caractersticas relacionadas con semntica, sintaxis o complejidad cognitiva de los textos. Esto permitira enriquecer an ms las representaciones de los modelos y podra contribuir a una mayor precisin en la prediccin de la complejidad lxica.

Es necesario la ampliacin del corpus y validacin en diversos contextos, dado que el corpus utilizado (GovAIEc) se basa en textos pblicos ecuatorianos, sera valioso ampliar el anlisis a textos de otros pases o contextos institucionales. Esto permitira evaluar la capacidad de generalizacin de los modelos en diferentes dominios lingsticos y validar la efectividad de las caractersticas lingsticas en otros escenarios.

 

 

Referencias

      1.            Azucena, H., & Yanet, S. (2021). La educacin inclusiva desde el marco legal educativo en el Ecuador. 6(3). Obtenido de https://doi.org/10.5281/ZENODO.5512949

      2.            Baeldung. (2024). Training and Validation Loss in Deep Learning. Obtenido de https://www.baeldung.com/cs/training-validation-loss-deep-learning

      3.            Beltagy, I., Peters, M., & Cohan, A. (2020). Longformer: The Long-Document Transformer. Obtenido de https://arxiv.org/pdf/2004.05150

      4.            Bender, E. (2023). Transformer Models: From Architecture to Impact in NLP. SADIO Electronic Journal. Obtenido de https://publicaciones.sadio.org.ar/index.php/EJS/article/download/465/393/.

      5.            Calero Snchez, M., Gonzlez Gonzlez, J., Snchez Berriel, I., Burillo-Putze, G., & Roda Garca, J. (2024). El Procesamiento de Lenguaje Natural en la revisin. Obtenido de https://www.reue.org/wp-content/uploads/2024/07/184-195.pdf?utm_source

      6.            Cesteros, J. (2023). Aproximaciones a la simplificacion lexica mediante. Obtenido de https://apidspace.linhd.uned.es/server/api/core/bitstreams/24152488-5e9b-4185-904d-9e0b0346162b/content

      7.            Clark, K., Luong, M., Le, Q., & Maning, C. (2020). ELECTRA: PRE-TRAINING TEXT ENCODERS. Obtenido de https://arxiv.org/pdf/2003.10555

      8.            Cornell University. (26 de Febrero de 2021). Exploring Transformers in Natural Language Generation: GPT, BERT, and XLNet. Obtenido de https://arxiv.org/abs/2102.08036?utm_source

      9.            Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Obtenido de https://arxiv.org/abs/1810.04805

  10.            Duchitanga, R., & Len-Paredes, G. (21 de Mayo de 2023). An Approach to the Presumptive Detection of Road Incidents in Cuenca, Ecuador Using the Data from the Social Media Twitter and Spanish Natural Language Processing. Obtenido de https://link.springer.com/chapter/10.1007/978-3-031-32213-6_17

  11.            Face, H. (2020). Transformers. Obtenido de https://huggingface.co/docs/transformers/index

  12.            Geng, S., Lebret, R., & Aberer, K. (2023). Legal Transformer Models May Not Always Help. Obtenido de https://ugye-my.sharepoint.com/personal/kendrick_villotav_ug_edu_ec/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fkendrick%5Fvillotav%5Fug%5Fedu%5Fec%2FDocuments%2FBIBLIOGRAFIAS%2FBIBLIOGRAFIAS%2Ffiles%2F110%2FGeng%20et%20al%2E%20%2D%202021%20%2D%20Legal%20T

  13.            Grimmelikhujisen, S., & Welch, E. (8 de Junio de 2012). Developing and Testing a Theoretical Framework for Computer-Mediated Transparency of Local Governments. Obtenido de https://onlinelibrary.wiley.com/doi/10.1111/j.1540-6210.2011.02532.x

  14.            IBM TechXchange. (21 de Octubre de 2024). Qu es el PLN (procesamiento del lenguaje natural)? Obtenido de https://www.ibm.com/es-es/topics/natural-language-processing?utm_source

  15.            Lenin, M. (2024). Aplicacin de Modelos Transformers para Clasificar Textos en Idioma Espaol [Universidad Estatal Pennsula de Santa Elena]. Obtenido de https://repositorio.upse.edu.ec/bitstream/46000/11875/1/UPSE-TTI-2024-0035.pdf?utm_source

  16.            Lu, Xu, & Wei. (2023). Understanding the effects of the textual complexity on government communication: Insights from Chinas online public service platform. Obtenido de https://www.sciencedirect.com/science/article/abs/pii/S0736585323000928

  17.            Ministerio de Telecomunicaciones y de la Sociedad de la Informacin. (2022). Obtenido de MINTEL-MINTEL: https://ugye-my.sharepoint.com/personal/kendrick_villotav_ug_edu_ec/_layouts/15/onedrive.aspx?ga=1&id=%2Fpersonal%2Fkendrick%5Fvillotav%5Fug%5Fedu%5Fec%2FDocuments%2FBIBLIOGRAFIAS%2FBIBLIOGRAFIAS%2Ffiles%2F109%2FMINTEL%2DMINTEL%2D2022%2D0034%2Epdf&parent=

  18.            Mo, Y., Qin, H., Dog, Y., Zhu, Z., & Li, Z. (24 de Abril de 2024). Large Language Model (LLM) AI text generation detection based on transformer deep learning algorithm. Obtenido de https://arxiv.org/abs/2405.06652

  19.            Moscoso Lozano, D. F., & Pacheco Fares, J. O. (2024). Trabajo de Titulacin. Obtenido de https://ugye-my.sharepoint.com/personal/kendrick_villotav_ug_edu_ec/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fkendrick%5Fvillotav%5Fug%5Fedu%5Fec%2FDocuments%2FBIBLIOGRAFIAS%2FBIBLIOGRAFIAS%2Ffiles%2F108%2FSistema%20de%20recomendaci%C3%B3n%20de%20cursos%

  20.            Nasimba, F. (2023). "Attention is all you need". Arquitectura Transformers: descripcin y aplicaciones. Obtenido de https://dspace.umh.es/bitstream/11000/30273/1/TFG-Nasimba%20Tipan%2c%20Alexis%20Fabian.pdf

  21.            Olmos, M. (2021). PROCESAMIENTO DE LENGUAJE NATURAL APLICADO A LOS DISCURSOS DE JUAN DOMINGO PERN ENTRE 1943 Y 1955. Obtenido de https://ri.itba.edu.ar/server/api/core/bitstreams/b2074780-d8af-4326-beb2-2830b39ff56b/content

  22.            Ormaechea, L., Tsourakis, N., Schwab, D., Bouillon, P., & Lecouteux, B. (2023). Simple, Simpler and Beyond: A Fine-Tuning BERT-Based Approach to Enhance Sentence Complexity Assessment for Text Simplification.

  23.            Ortiz Zambrano, J., & Montejo-Rez, A. (2017). A corpus of videos and transcriptions for research in the Reading Comprehension of University Students. Obtenido de https://doi.org/10.1007/978-3-030-32022-5_16

  24.            Ortiz Zambrano, J., & Varela Tapia, E. (2019). Reading Comprehension in University Texts: The Metrics of Lexical Complexity in Corpus Analysis in Spanish. Obtenido de https://doi.org/10.1007/978-3-030-12018-4_9

  25.            Ortiz-Zambrano, J., & Montejo-Raez, A. (2021). CLexIS2: A New Corpus for Complex Word Identification Research in Computing Studies. Obtenido de https://doi.org/10.26615/978-954-452-072-4_121

  26.            Ortiz-Zambrano, J., & Montejo-Raez, A. (2021). SINAI at SemEval-2021 Task 1: Complex word identification using Word-level features. Obtenido de https://ugye-my.sharepoint.com/personal/kendrick_villotav_ug_edu_ec/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fkendrick%5Fvillotav%5Fug%5Fedu%5Fec%2FDocuments%2FBIBLIOGRAFIAS%2FBIBLIOGRAFIAS%2Ffiles%2F20%2FOrtiz%2DZambrano%20y%20Montejo%2DR%C3%A1ez%20%2D%

  27.            Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-Rez, A. (2022). Transformers for Lexical Complexity Prediction in Spanish Language. Obtenido de https://doi.org/10.26342/2022-69-15

  28.            Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-Rez, A. (2023). Combining Transformer Embeddings with Linguistic Features for Complex Word Identification. Obtenido de https://doi.org/10.3390/electronics12010120

  29.            Ortiz-Zambrano, J., Espn-Riofrio, C., & Montejo-Rez, A. (2023). LegalEc: Un nuevo corpus para la investigacin de la identificacin de palabras complejas en los estudios de Derecho en espaol ecuatoriano. Obtenido de https://doi.org/10.26342/2023-71-19

  30.            Ortiz-Zambrano, J., Espn-Riofro, C., & Montejo-Rez, A. (2024). Deep Encodings vs. Linguistic Features in Lexical Complexity Prediction. Obtenido de https://doi.org/10.1007/s00521-024-10662-9

  31.            Ortiz-Zambrano, J., Espn-Riofro, C., & Montejo-Rez, A. (2024). Enhancing Lexical Complexity Prediction Through Few-Shot Learning with GPT-3. Obtenido de https://ugye-my.sharepoint.com/personal/kendrick_villotav_ug_edu_ec/_layouts/15/onedrive.aspx?id=%2Fpersonal%2Fkendrick%5Fvillotav%5Fug%5Fedu%5Fec%2FDocuments%2FBIBLIOGRAFIAS%2FBIBLIOGRAFIAS%2Ffiles%2F24%2FOrtiz%2DZambrano%20et%20al%2E%20%2D%202024%20%2D%

  32.            Soneji, S., Hoesing, M., Koujalgi, S., & Dodge, J. (17 de Abril de 2024). Demystifying Legalese: An Automated Approach for Summarizing and Analyzing Overlaps in Privacy Policies and Terms of Service. Obtenido de https://arxiv.org/abs/2404.13087

  33.            Wold, S., Maehlum, P., & Hove, O. (1 de Abril de 2024). Estimating Lexical Complexity from Document-Level Distribution. Obtenido de https://arxiv.org/abs/2404.01196

  34.            Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., & Moi, A. (2020). HuggingFace's Transformers: State-of-the-art Natural Language Processing. Obtenido de https://arxiv.org/abs/1910.03771

  35.            Yamada, I., Asai, A., Shindo, H., Takeda, H., & Matsumoto, Y. (2023). LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention. Obtenido de https://arxiv.org/pdf/2010.01057

 

 

2025 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

 



 

 

 

 

 

 

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/