GPT-4 and its successor models in the prediction of lexical complexity in Ecuadorian public texts using Few-Shot Learning
GPT-4 e seus modelos sucessores na previso da complexidade lexical em textos pblicos equatorianos usando Few-Shot Learning
![]() |
|||
![]() |
Correspondencia: jenny.ortizz@ug.edu.ec
Ciencias Tcnicas y Aplicadas
Artculo de Investigacin
* Recibido: 03 de diciembre de 2024 *Aceptado: 25 de enero de 2025 * Publicado: 11 de febrero de 2025
I. Doctorante en Tecnologas de la Informacin y Comunicacin por la Universidad de Jan, Espaa.
II. Doctor en ciencias de la computacin, Ecuador.
Resumen
Evaluar la complejidad lxica en documentos utilizando los modelos Generative Pre-trained Transformer (GPT-4, GPT-4o y GPT-4 Turbo) permiti analizar su impacto en la comprensin del lenguaje especficamente en textos estatales ecuatorianos en espaol. Se aplic la tcnica de few-shot learning en todos los modelos, tomando el conjunto de datos GovAIEc. El enfoque aplicado de la investigacin es cuantitativo y descriptivo, con un diseo cuasi experimental. Los modelos se evalan mediante mtricas del error comn: MAE, MSE, RMSE. El objetivo de esta investigacin es evaluar el rendimiento del modelo GPT-4 y sus modelos sucesores en la prediccin de la complejidad lxica en textos pblicos ecuatorianos mediante Few-Shot Learning. Los resultados indican que el modelo GPT-4 obtiene un mayor rendimiento frente a sus sucesores con un MAE = 0.2464, mientras que GPT-4o presenta un MAE = 0.3889, y finalmente los resultados aplicando el modelo GPT-4 Turbo dieron un MAE = 0.2540.
Palabras clave: GPT-4; GPT-4 Turbo; GPT-4; few-shot learning; prediccin; complejidad lxica.
Abstract
Evaluating lexical complexity in documents using the Generative Pre-trained Transformer models (GPT-4, GPT-4o and GPT-4 Turbo) allowed us to analyze its impact on language comprehension specifically in Ecuadorian state texts in Spanish. The few-shot learning technique was applied to all models, taking the GovAIEc data set. The applied research approach is quantitative and descriptive, with a quasi-experimental design. The models are evaluated using common error metrics: MAE, MSE, RMSE. The objective of this research is to evaluate the performance of the GPT-4 model and its successor models in predicting lexical complexity in Ecuadorian public texts using Few-Shot Learning. The results indicate that the GPT-4 model obtains greater performance compared to its successors with a MAE = 0.2464, while GPT-4o presents a MAE = 0.3889, and finally the results applying the GPT-4 Turbo model gave a MAE = 0.2540.
Keywords: GPT-4; GPT-4 Turbo; GPT-4; few-shot learning; prediction; lexical complexity.
Resumo
A avaliao da complexidade lexical em documentos utilizando os modelos Generative Pre-trained Transformer (GPT-4, GPT-4o e GPT-4 Turbo) permitiu analisar seu impacto na compreenso da linguagem especificamente em textos estaduais equatorianos em espanhol. A tcnica de aprendizagem de poucos disparos foi aplicada a todos os modelos, utilizando o conjunto de dados GovAIEc. A abordagem da pesquisa aplicada quantitativa e descritiva, com desenho quase experimental. Os modelos so avaliados usando mtricas de erro comuns: MAE, MSE, RMSE. O objetivo desta pesquisa avaliar o desempenho do modelo GPT-4 e seus modelos sucessores na previso da complexidade lexical em textos pblicos equatorianos usando Few-Shot Learning. Os resultados indicam que o modelo GPT-4 obtm maior desempenho em relao aos seus sucessores com um MAE = 0,2464, enquanto o GPT-4o apresenta um MAE = 0,3889, e por fim os resultados aplicando o modelo GPT-4 Turbo deram um MAE = 0,2540.
Palavras-chave: GPT-4; GPT-4Turbo; GPT-4; aprendizagem em poucas tentativas; previso; complexidade lexical.
Introduccin
La comprensin de textos en documentos pblicos es esencial para la participacin ciudadana y la transparencia en sociedades democrticas. El acceso a la informacin es un derecho fundamental que fortalece la democracia y promueve la rendicin de cuentas, lo que es crucial para combatir la corrupcin (Roque, 2024).
Sin embargo, el lenguaje complejo de estos documentos dificulta su comprensin, especialmente para personas con bajos niveles de alfabetizacin. En Ecuador, el censo de 2022 report 472,228 personas en condicin de analfabetismo (El Universo, 2024), lo que limita su acceso a informacin clara y afecta su participacin en decisiones de inters general, como establece el artculo 4 de la Ley Orgnica de Transparencia y acceso a la
Informacin Publica (LOTAIP, 2004).
Es necesario explorar herramientas que evalen la complejidad del lenguaje en estos documentos. La prediccin de la complejidad lxica mediante modelos de GPT-4 se presenta como una solucin prometedora. Estudios han demostrado que estos modelos son efectivos para la simplificacin lxica y pueden identificar trminos complejos, mejorando as la comprensin de textos (Cesteros, 2023; Ortiz et al., 2024). Adems, la complejidad textual se ve influenciada por factores culturales y el conocimiento previo del lector, lo que resalta la importancia de considerar tanto caractersticas lingsticas como contextos culturales al evaluar la complejidad lxica (Ortiz y Montejo, 2020).
En este contexto, el objetivo de este estudio es evaluar el rendimiento del modelo GPT-4 y sus sucesores en la prediccin de la complejidad lxica en textos pblicos ecuatorianos mediante la tcnica de Few-Shot Learning. Esta evaluacin permitir determinar la efectividad de estos modelos en la mejora de la comprensin de textos, contribuyendo as a la inclusin de personas con bajos niveles de alfabetizacin en el acceso a la informacin pblica.
En estos ltimos aos, ha habido un considerable volumen de investigacin en el rea de la prediccin de la complejidad textual y el procesamiento del lenguaje natural. A continuacin, se mencionan investigaciones significativas que tratan estos aspectos:
Para el estudio de Ortiz et al. (2020) en donde se mostr la creacin de un corpus multimodal que fusiona vdeos educativos y sus transcripciones, anotndolos con un nivel de complejidad del texto. Se concluy que, el corpus VYTEDU se present como una herramienta til para analizar la complejidad de los textos en contextos educativos, facilitando un estudio comparativo del discurso oral y escrito.
En este contexto, el estudio de Ortiz y Montejo (2021) se utilizaron datos de SemEval-2020 Task 1 para identificar palabras complejas en ingls, extrayendo caractersticas como longitud, frecuencia y embeddings preentrenados. Un clasificador Random Forest realiza la prediccin, evaluando el rendimiento con el F1-Score. El modelo alcanz un rendimiento competitivo en la identificacin de palabras complejas, logrando una puntuacin F1 de 0,85 en el conjunto de datos de evaluacin, destacndose por la importancia de las caractersticas de frecuencia y embeddings.
Asimismo, el estudio de Ortiz et al. (2022) propone un enfoque para predecir la complejidad lxica en espaol utilizando modelos transformadores como BERT, XLM-RoBERTa y RoBERTa-large-BNE, entrenados con el corpus CLexIS2. Se combinan caractersticas manuales (frecuencia, longitud, categoras POS) con embeddings de modelos preentrenados. El modelo BERT ajustado alcanz el rendimiento ms destacado, con un MAE de 0.1592 y una correlacin de Pearson de 0.9883. XLM-RoBERTa y RoBERTa-large-BNE igualmente mejoraron despus del ajuste, aunque BERT result ser superior.
De la misma manera, la investigacin de Ortiz et al. (2023) en donde se aplic los sucesores davinci-002 y davinci-003 del Modelo GPT-3 para la clasificacin de la complejidad de las palabras y se utiliz el enfoque de aprendizaje few-shot, donde se proporcionaron ejemplos limitados al modelo para ayudar en la clasificacin. El mejor rendimiento fue del modelo davinci-003 con un MAE de 0.0882, en la prediccin de la complejidad se observaron coincidencias y discrepancias entre las categoras asignadas por GPT-3 y las del corpus Complex. Por ltimo, se identificaron oportunidades para explorar nuevos modelos como Claude 2 y GPT-4 en la prediccin de la complejidad lxica.
Adems, el estudio de Ortiz et al. (2024) en donde se emple el modelo GPT-4 Turbo centrndose en dos subtareas: Sub-task 2.1 para la identificacin de trminos y asignaciones de niveles de dificultad y Sub-task 2.2 para la generacin de definiciones y explicaciones de trminos considerados como difciles. Los resultados indicaron que GPT-4 Turbo mostro un rendimiento notable en la evaluacin de la complejidad lxica sin necesidad de entrenamiento adicional. Para los resultados de Sub-task 2.1 se logr una buena capacidad para identificar trminos relevantes y su dificultad y para Sub-task 2.2 las definiciones y explicaciones generadas fueron efectivas en trminos difciles mejorando la comprensin de los textos cientficos.
En este mismo ao, Ortiz et al. (2024) en su estudio combin caractersticas lingsticas con codificaciones de modelos de lenguaje profundos (BERT, XLM-RoBERTa) en datatsets en ingls y espaol, en los cuales se aplicaron varios algoritmos de aprendizaje automtico. El modelo en ingls logr un MAE de 0.0683, mejorando un 29.2%, en cambio para el modelo en espaol se alcanz un MAE de 0.1323, con una mejora del 19.4%.
En el presente ao, el estudio de Prada et al. (2025) se desarroll un sistema de calificacin automtica de textos acadmicos utilizando tcnicas de procesamiento de lenguaje natural y modelos de aprendizaje profundo. La investigacin incluy tres iteraciones: exploracin de representaciones de texto con Word Embeddings y Transformers, entrenamiento directo con Transformers en un flujo unificado, y Fine-tuning del modelo RoBERTa evaluando clasificacin y regresin. En la primera iteracin, RoBERTa alcanz un QWK de 0.7479 en regresin ordinal. En la segunda iteracin, logr un QWK de 0.796, y en la tercera con el enfoque de clasificacin obtuvo un QWK de 0.80238, teniendo dificultades en la categora 6. Finalmente, con el enfoque de regresin mejor a un QWK de 0.81639, clasificando correctamente algunos textos de la categora 6.
Para Taboada (2024) realiz una revisin histrica de la evolucin del PLN en ciencias sociales, una gua prctica con pasos para su aplicacin y un anlisis de los desafos que enfrentan estas disciplinas al implementar PLN. Se identificaron herramientas y software accesibles para investigadores sociales, como R, Python, Orange Data Mining y RapidMiner. Las fuentes de datos se clasifican en analgicos, transcritos y digitales, subrayando la importancia de la digitalizacin. Tambin se presentan tcnicas de anlisis como la tokenizacin, eliminacin de las palabras vacas y algoritmos de aprendizaje automtico.
Adems, Godnez y Rosas (2024a) realizaron un estudio cuantitativo y cualitativo con 12 estudiantes universitarios para analizar la relacin entre perfil lingstico, autoeficacia y complejidad textual en la produccin escrita en espaol, utilizando cuestionarios y herramientas de anlisis de texto. Los hablantes con la lengua de herencia tuvieron una mayor facilidad temtica, mientras que los no hablantes enfrentaron desafos gramaticales. La autoeficacia se correlacion con la complejidad textual, sugiriendo estrategias pedaggicas para atender las necesidades de cada perfil lingstico.
Asimismo, la investigacin de Salgado y Trujillo (2024) en donde se realiz una investigacin de la literatura sobre el anlisis de los sentimientos en datos de redes sociales utilizando tcnicas de procesamiento de LPN y ML, y una bsqueda en BD acadmicas claves, con el objetivo de identificar y analizar aplicaciones, desafos y tendencias emergentes en estas tecnologas. Se destaco la necesidad de adaptar continuamente los modelos a los cambios en la dinmica lingstica y culturas, con respecto a las fuentes de datos, se identificaron como primordiales las redes sociales, representando hasta un 85% de las interacciones analizadas.
Finalmente, el estudio de Emanuel et al. (2024) en donde se comparan algoritmos de machine learning para el LPN en tareas de clasificacin y anlisis de texto, se evaluaron cuatro algoritmos; regresin lgica, arboles de decisin, mquinas de vectores de soporte (SVM) y redes neuronales, se emplearon mtricas estndar de evaluacin (precisin, exhaustividad, puntuacin F1 y exactitud) para comparar el rendimiento de los algoritmos en el conjunto de datos de tweets etiquetados. El mejor rendimiento lo tuvo Random Forest con una precisin del 98.17% y una puntuacin de F1 de 0.9813, con respecto a la Regresin Logstica su precisin fue del 87.74% y un F1 de 0.885, para el rbol de Decisin la precisin fue del 96.22% y su F1 de 0.9606, y por ltimo Naive Bayes con el menor rendimiento, con una precisin del 71.75% y una puntuacin F1 de 0.7755.
Por los motivos anteriormente expuestos, el objetivo de la investigacin se centr en GPT-4 y sus modelos sucesores en la prediccin de la complejidad lxica en textos pblicos ecuatorianos mediante Few-Shot Learning, la cual respondi a la interrogante: Cmo pueden GPT-4 y sus modelos sucesores, mediante el uso de Few-Shot Learning, predecir eficazmente la complejidad lxica en textos pblicos ecuatorianos para mejorar la comprensin del pblico?
Materiales y mtodos
La metodologa de investigacin empleada en este estudio sobre la prediccin de la complejidad lxica de textos en documentos pblicos, utilizando GPT-4 y modelos sucesores, ha sido diseada para abordar de manera integral el objetivo planteado. Esta investigacin es de carcter aplicado, ya que busca utilizar conocimientos existentes en procesamiento de lenguaje natural y anlisis de modelos de inteligencia artificial para resolver un problema prctico: evaluar la complejidad lxica de documentos pblicos y mejorar su accesibilidad para los ciudadanos.
Segn Godnez y Rosas (2024) esta modalidad incluye cualquier esfuerzo sistemtico y socializado para resolver problemas o intervenir en situaciones, abarcando tanto la innovacin tcnica como la investigacin cientfica. De este modo, la investigacin vincula la teora con la prctica, generando un impacto directo en la comprensin y uso de textos administrativos emitidos por las instituciones pblicas de Guayaquil. El tipo de investigacin es cuantitativa y descriptiva, con un enfoque cuasi-experimental. Se considera cuantitativa porque busca medir y analizar numricamente la complejidad lxica de los textos, as como evaluar el desempeo de los modelos GPT-4 y sus sucesores a travs de mtricas especficas como precisin, fluidez y coherencia.
El enfoque cuasi-experimental se utiliza para examinar las relaciones entre una o ms variables independientes y la variable dependiente o de respuesta (Bono, 2012). Este enfoque es adecuado, ya que se realizarn pruebas controladas con un corpus especfico de documentos, simulando escenarios reales para evaluar los modelos en condiciones controladas.
La unidad de estudio corresponde a cada registro individual dentro del dataset GovAIEc que contiene un total de 7,813 registros, el cual est compuesto por notificaciones e instrucciones relacionadas con trmites legales, en general oraciones seleccionadas de documentos de las entidades pblicas gubernamentales que pertenecen a Ecuador, especficamente de la ciudad de Guayaquil, las cuales son: CNT, SRI, CNE, Municipio y ATM.
Cada registro tiene los siguientes campos:
id: Identificador nico para cada registro.
corpus: Institucin pblica gubernamental (Fuente).
sentence: Oracin que contiene la palabra etiquetada como compleja.
token: Palabra identificada como compleja por etiquetadores.
complexity: Valor numrico que representa la complejidad asignada por los etiquetadores.
Tabla 1
Dataset GovAIEc
id |
corpus |
Sentence |
token |
complexity |
6075 |
Municipio - Tramites - TEXTO 0060 TRAMITES EN LA BIBLIOTECA MUNICIPAL.txt |
TRAMITES EN LA BIBLIOTECA MUNICIPAL Si en el stock existe el libro pedido, se emite Comprobante de la Publicacin para que el comprador proceda a |
comprobante |
0,333333333 |
7719 |
SRI - Tramites - TEXTO 0130 REQUERIMIENTOS Y JUSTIFCACIONES DEL PROCESO INCONSITENCIAS.txt |
REQUERIMIENTOS Y JUSTIFCACIONES DEL PROCESO INCONSITENCIAS Si el Servicio de Rentas Internas detectare inconsistencias en las declaraciones o en los anexos que presente el contribuyente, siempre que no generen |
sustitutivo |
0,666666667 |
2734 |
CNE - Tramites - TEXTO 0091 REGLAMENTO PARA CONFORMACION DE ALIANZAS ELECTORALES.txt |
REGLAMENTO PARA CONFORMACION DE ALIANZAS ELECTORALES la Constitucin de la Repblica dispone en el artculo 112, que los partidos y movimientos
|
militantes |
1 |
Nota: La tabla muestra un conjunto de registros extrados de documentos legales de diversas instituciones pblicas de Guayaquil, con el objetivo de identificar palabras complejas dentro de los textos relacionados con trmites legales. Estos datos se utilizarn para calcular caractersticas lingsticas y entrenar el modelo
La escala de complejidad tiene los siguientes niveles:
Moderately difficult: Rango de complejidad entre 0 y 0.3333. Las palabras u oraciones en este rango son algo complejas, pero se pueden entender en su contexto.
Difficult: Desde 0.3334 a 0.6666. Las palabras u oraciones en este nivel son bastante complejas y pueden necesitar un mayor nivel de comprensin o conocimientos tcnicos.
Very difficult: Desde 0.6667 a 1. Las palabras u oraciones en esta categora son muy complejas, lo que puede hacer que sean difciles de entender.
Tabla 2
Escala de complejidad
Etiqueta |
Rango |
moderately difficult |
(0, 0.3333) |
difficult |
(0.3334, 0.6666) |
very difficult |
(0.6667, 1) |
Nota: Esta escala se utiliza para evaluar el nivel de complejidad de las palabras en el prompt, aplicando la tcnica de few-shot learning en los modelos GPT-4. Adems, esta escala fue empleada por los anotadores para asignar un valor a cada palabra identificada como compleja (token), el cual se registr en la columna complexity
En el tratamiento de los datos para la identificacin de palabras complejas del datatset GovAIEc, se utiliz un enfoque basado en el modelo de lenguaje GPT-4, aplicando la tcnica de few-shot learning. Este enfoque se emple para predecir la complejidad textual de las palabras en funcin de su contexto dentro de las oraciones extradas de documentos legales gubernamentales. El proceso de tratamiento de los datos consisti en los siguientes pasos:
1. Lectura y preprocesamiento de datos: Los datos se leyeron desde el archivo GovAIEc.xlsx, que contena oraciones y palabras identificadas como complejas en documentos legales de instituciones pblicas. Las columnas relevantes para el anlisis fueron id, sentence, token y complexity, las cuales se utilizaron para calcular las predicciones del modelo y mostrar los resultados.
2. Generacin de predicciones de complejidad: Para clasificar las palabras segn su complejidad, se emplearon modelos basados en la arquitectura Transformer, especficamente GPT-4, GPT-4 Turbo y GPT-4o. Estos modelos se aplicaron para identificar el nivel de complejidad de las palabras dentro de las oraciones de los documentos legales. Se utiliz el enfoque de few-shot learning, ya que permite a los modelos aprender con pocos ejemplos proporcionados en el prompt. En este caso, se incluyeron un total de 20 ejemplos, con el objetivo de mejorar la precisin de las predicciones. El modelo GPT-4 y sus sucesores clasificaron cada palabra identificada como compleja en una de las tres categoras de complejidad: Moderately difficult, Difficult y Very difficult.
3. Formato del prompt de prediccin: El modelo recibi como entrada un prompt especfico que estableci el contexto de la tarea. A continuacin, se muestra el formato del prompt utilizado para realizar las predicciones de complejidad mediante few-shot learning:
Figura 1
Prompt Few-Shot Learning
Nota: El fragmento de cdigo muestra parte del prompt utilizado para clasificar palabras complejas en tres categoras de dificultad basndose en el contexto de la oracin. Esta clasificacin se realiza mediante Few-Shot Learning
1. Evaluacin y resultados: Una vez que el modelo genera las predicciones de complejidad, los resultados se almacenan en un archivo Excel para su posterior anlisis.
2. Resumen final: Tras obtener todos los resultados, se genera un archivo Excel como resumen final, que incluye las mtricas calculadas para cada modelo y la tcnica aplicada. Este archivo se guarda con el nombre resumen_metricas.xlsx.
Mtricas del error comn
Las mtricas aplicadas en esta investigacin corresponden a mtricas de evaluacin utilizadas para medir la precisin y calidad de las predicciones realizadas por el modelo GPT-4 y sus sucesores, GPT-4 Turbo y GPT-4o. A continuacin, se detalla cada una de ellas:
MAE (Mean Absolute Error): Puede utilizarse si los valores atpicos representan partes corruptas de los datos. (Chicco et al., 2021)
Ecuacin 1 Mean Absolute Error
Tomado de: (Chicco et al., 2021)
MSE (Mean Squared Error): Se emplea el error cuadrtico medio (MSE) para evaluar la exactitud de un modelo de prediccin, ya que mide la diferencia entre los valores detectados y los valores estimados por el modelo. Tambin puede utilizarse para detectar valores atpicos, ya que, debido a la norma L2, el MSE otorga un mayor peso a estos puntos. Si el modelo produce una nica prediccin muy mala, la parte cuadrtica de la funcin incrementa el error. (Chicco et al., 2021)
Ecuacin 2 Mean Squared Error
Tomado de: (Chicco et al., 2021)
RMSE (Root Mean Squared Error): MSE y RMSE mantienen una relacin monotnica, es decir, por medio de la raz cuadrada. Una ordenacin de los modelos de regresin basada en el MSE ser idntica a una ordenacin de los modelos basada en el RMSE. (Chicco et al., 2021)
Ecuacin 3 Root Mean Squared Error
Tomado de: (Reyes, 2024)
R (R-squared): El coeficiente de determinacin puede interpretarse como la proporcin de la varianza de la variable dependiente que puede predecirse a partir de las variables independientes. (Chicco et al., 2021, p. 5)
Ecuacin 4 R-squared
Tomado de: (Chicco et al., 2021)
Se evala el modelo GPT-4 y sus sucesores utilizando mtricas que permiten determinar su rendimiento en la identificacin de la complejidad lxica. Estas mtricas se calculan comparando los valores reales de complejidad con los valores predichos por el modelo. Esto es fundamental para entender la efectividad del modelo y realizar ajustes si es necesario. Adems, la evaluacin permite comparar el rendimiento de GPT-4 con sus sucesores, identificando cul es el ms efectivo en la tarea de identificacin de palabras complejas.
Para evaluar la diferencia relativa entre los modelos en trminos de porcentaje, se utilizar la frmula de diferencia porcentual, mencionada por (Yuen et al., 2024), la cual se expresa de la siguiente manera:
Ecuacin 5 Diferencia porcentual
En donde:
representa el valor final.
representa el valor inicial.
Resultados y discusin
Aplicacin del modelo GPT-4 y sus sucesores GPT-4 Turbo y GPT-4o
A continuacin, se presentan tablas que contienen un extracto de los resultados obtenidos al aplicar la tcnica de few-shot learning a cada modelo. Se han seleccionado las palabras clasificadas como difciles en la columna "up to 5 difficult terms retrieved by GPT-4 " por el modelo GPT-4 y sus sucesores para cada una de las instituciones pblicas gubernamentales. Es decir, el modelo evala la dificultad de comprensin del texto y selecciona hasta 5 palabras que considera difciles de entender para una persona promedio. Estas palabras son las que se presentan en las tablas.
En primera instancia, se muestran las palabras complejas identificadas por el modelo GPT-4 utilizando la tcnica de few-shot learning.
Tabla 3
Palabras complejas GPT-4 / Few-Shot Learning
Institucin |
Palabras complejas |
Municipio |
Ocurre, Registrada, Convenio, Dbito, Vigente |
CNE |
Calificar, Organizaciones, Solicitudes, Contratacin, Publicidad |
SRI |
Requerimientos, Justificaciones, Proceso, Contribuyente, Tributaria |
CNT |
Institucin, Irrevocable, Verdica, Ostentar, Cesionaria |
ATM |
Tacmetro, Sonmetro, Frenmetro, Luxmetro, Regloscopio |
Nota: La tabla presenta algunas palabras que el modelo GPT-4 clasific como complejas
Para GPT-4 Turbo, se presentan las siguientes palabras:
Tabla 4
Palabras complejas GPT-4 Turbo / Few-Shot Learning
Institucin |
Palabras complejas |
Municipio |
Comisario, Municipal, Compromiso, Determinado, Subsanar |
CNE |
Ratifico, Autorizacin, Expiracin, Notificar, Cancelar |
SRI |
Requerimientos, Justificaciones, Resolucin, Carcter, Informacin |
CNT |
Telecomunicaciones, Tranquilidad, Autorizacin, Determinadas, Propaguen |
ATM |
Estupefacientes, Psicotrpicas, Teraputico, Rehabilitacin, Infracciones |
Nota: La tabla presenta algunas palabras que el modelo GPT-4 Turbo clasific como complejas
Por ltimo, para el modelo GPT-4o, se identificaron las siguientes palabras como difciles:
Tabla 5
Palabras complejas GPT-4o / Few-Shot Learning
Institucin |
Palabras complejas |
Municipio |
Prstamo, Consultado, Instalaciones, Reteniendo, Identificacin |
CNE |
Desafiliacin, Renuncia, Escaneado, Nulidad, Seguimiento |
SRI |
Conformacin, Organizaciones, Discriminatorias, Funcionamiento, Garantizara |
CNT |
Prestacin, Establecidos, Reparaciones, Situaciones, Fortuito |
ATM |
Inminente, Seguridad, Ocupantes, Obligacin, Comprobar
|
Nota: La tabla presenta algunas palabras que el modelo GPT-4o clasific como complejas
Resultados de las mtricas de evaluacin
A continuacin, se presentan tablas que resumen los resultados de las predicciones de los modelos GPT-4, GPT-4 Turbo y GPT-4o en la identificacin de palabras complejas, utilizando la tcnica de few-shot learning. Cada fila corresponde a un registro del corpus, donde se comparan las predicciones del modelo con los valores reales de complejidad.
Las columnas de las tablas incluyen:
id: Identificador nico del registro.
token: Palabra identificada como compleja.
Respuesta GPT-4: Categora de complejidad predicha por el modelo.
Rango GPT-4: Rango de complejidad asignado por el modelo.
Complejidad GPT-4: Valor numrico de la complejidad predicha.
complexity: Valor numrico de la complejidad real.
escala: Categora de complejidad real.
comparacin: Indica si la prediccin coincide con el valor real (S/No).
Tabla 6
Predicciones del modelo GPT-4
id |
token |
Respuesta GPT-4 |
Rango GPT-4 |
Complejidad GPT-4 |
complexity |
escala |
comparacin |
6075 |
comprobante |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333333 |
moderately difficult |
No |
6076 |
recaudadoras |
difficult |
(0.3334, 0.6666) |
0,5 |
1 |
very difficult |
No |
6077 |
stock |
moderately difficult |
(0, 0.3333) |
0,16665 |
1 |
very difficult |
No |
6093 |
sealando |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333333 |
moderately difficult |
No |
6094 |
bibliogrfico |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333333 |
moderately difficult |
Si |
6095 |
autorizacin |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,666667 |
difficult |
No |
6096 |
donarse |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6059 |
devolucin |
difficult |
(0.3334, 0.6666) |
0,5 |
1 |
very difficult |
No |
6060 |
instalaciones |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6061 |
identificacin |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333 |
moderately difficult |
No |
Nota: La tabla muestra un extracto de los resultados de las mtricas de evaluacin para el modelo GPT-4
Tabla 7
Predicciones del modelo GPT-4 Turbo
id |
token |
Respuesta GPT-4 |
Rango GPT-4 |
Complejidad GPT-4 |
complexity |
escala |
comparacin |
6075 |
comprobante |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6076 |
recaudadoras |
difficult |
(0.3334, 0.6666) |
0,5 |
1 |
very difficult |
No |
6077 |
stock |
moderately difficult |
(0, 0.3333) |
0,16665 |
1 |
very difficult |
No |
6093 |
sealando |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6094 |
bibliogrfico |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333 |
moderately difficult |
No |
6095 |
autorizacin |
difficult |
(0.3334, 0.6666) |
0,5 |
0,666667 |
difficult |
Si |
6096 |
donarse |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6059 |
devolucin |
moderately difficult |
(0, 0.3333) |
0,16665 |
1 |
very difficult |
No |
6060 |
instalaciones |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6061 |
identificacin |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333 |
moderately difficult |
No |
Nota: La tabla muestra un extracto de los resultados de las mtricas de evaluacin para el modelo GPT-4 Turbo
Tabla 8
Predicciones del modelo GPT-4o
id |
token |
Respuesta GPT-4 |
Rango GPT-4 |
Complejidad GPT-4 |
complexity |
escala |
comparacin |
6075 |
comprobante |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6076 |
recaudadoras |
difficult |
(0.3334, 0.6666) |
0,5 |
1 |
very difficult |
No |
6077 |
stock |
moderately difficult |
(0, 0.3333) |
0,16665 |
1 |
very difficult |
No |
6093 |
sealando |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6094 |
bibliogrfico |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333 |
moderately difficult |
No |
6095 |
autorizacin |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,666667 |
difficult |
No |
6096 |
donarse |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6059 |
devolucin |
moderately difficult |
(0, 0.3333) |
0,16665 |
1 |
very difficult |
No |
6060 |
instalaciones |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6061 |
identificacin |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
Nota: La tabla muestra un extracto de los resultados de las mtricas de evaluacin para el modelo GPT-4
A continuacin, se presentan los resultados obtenidos a manera de resumen de la aplicacin de los sucesores GPT-4 Turbo, GPT-4o y el modelo GPT-4 en la identificacin de palabras complejas.
Tabla 9
Resultado de los sucesores
Modelo |
MAE |
MSE |
RMSE |
R2 |
Coincidencia |
GPT-4_few_shot |
0.2464 |
0.0888 |
0.2980 |
-0.5935 |
37,59 % |
GPT-4Turbo_few_shot |
0.2540 |
0.0915 |
0.3025 |
-0.6420 |
51,67 % |
GPT-4o_few_shot |
0.2593 |
0.0963 |
0.3103 |
-0.7278 |
53,44 % |
Nota: Los resultados presentados en esta tabla muestran la precisin del modelo GPT-4 y sus sucesores GPT-4 Turbo y GPT-4o en la prediccin de palabras complejas, evaluadas a travs de mtricas estadsticas como MAE, MSE, RMSE, R y el porcentaje de coincidencia permitiendo una comparacin cuantitativa de su rendimiento en la tarea de simplificacin del lenguaje
Evaluacin de la prediccin de la complejidad lxica
Para la evaluacin de los resultados, se realiz una comparativa entre los diferentes modelos. A cada modelo se le proporcionaron 20 ejemplos en el prompt para entrenarlo en la clasificacin de palabras segn su nivel de dificultad: 1. Moderately difficult, 2. Difficult y 3. Very difficult (incluyendo 2 ejemplos de esta ltima categora), lo que suma un total de 4 ejemplos por cada institucin gubernamental pblica.
Como se observa en la tabla de resultados, la diferencia del MAE entre los modelos es pequea pero significativa. Segn (Tatachar, 2021) el MAE es una mtrica que proporciona el promedio de la diferencia absoluta, lo que la hace menos sensible a valores atpicos. Esto permite evaluar la precisin de los modelos en el contexto de la identificacin de palabras complejas, ya que ofrece una mejor comprensin del error promedio de las predicciones sobre la complejidad lxica.
Con el objetivo de entender la diferencia del MAE entre los modelos, se calcul la diferencia porcentual utilizando la Ecuacin 5 Diferencia porcentual. Sabiendo que el modelo GPT-4 tuvo un MAE de 0.24641, el GPT-4 Turbo un MAE de 0.254051 y el GPT-4o un MAE de 0.259385, se obtuvieron los siguientes resultados:
Entre GPT-4 y GPT-4 Turbo:
Entre GPT-4 y GPT-4o:
Como resultado, se observa que el incremento porcentual en el MAE entre los modelos GPT-4 y GPT-4 Turbo es de aproximadamente 3.10%, mientras que entre los modelos GPT-4 y GPT-4o es de 5.27%. Esto indica que el GPT-4 realiza predicciones ms precisas en promedio en la identificacin de palabras complejas en comparacin con el GPT-4 Turbo. En el caso del GPT-4o, la diferencia en precisin es ms notable, lo que podra sugerir mejoras o variaciones en su entrenamiento. En resumen, tanto el GPT-4 Turbo como el GPT-4o tienen un MAE mayor que el GPT-4, pero con incrementos relativamente pequeos, siendo el GPT-4o el que presenta el mayor incremento.
Con respecto al MSE, (Tatachar, 2021) menciona que esta mtrica representa la diferencia al cuadrado entre los valores reales y los predichos. Es decir, el MSE indica cun cerca est la lnea de mejor ajuste de un conjunto de puntos. En este caso, el GPT-4 tiene un valor de 0.088819, el GPT-4 Turbo de 0.091523 y el GPT-4o de 0.096301, con diferencias porcentuales de:
Entre GPT-4 y GPT-4 Turbo:
Entre GPT-4 y GPT-4o:
Esto indica que la diferencia entre los valores reales y los predichos entre los modelos GPT-4 y GPT-4 Turbo es del 3.21%, mientras que entre los modelos GPT-4 y GPT-4o es del 8.43%. Esto significa que el MAE del GPT-4 Turbo es un 3.04% mayor que el del GPT-4, y el MAE del GPT-4o es un 8.13% mayor que el del GPT-4. En otras palabras, el GPT-4 tiene un rendimiento ligeramente superior en trminos de precisin y un ajuste ms cercano a los valores reales en comparacin con el GPT-4o y el GPT-4 Turbo.
Para el caso con el RMSE, segn el autor (Hodson, 2022) tomar la raz no afecta los rangos relativos de los modelos, pero produce una mtrica con las mismas unidades que (y), lo que representa convenientemente el error tpico o estndar para errores distribuidos normalmente. En este contexto, el modelo GPT-4 tiene un RMSE de 0.298025, el GPT-4 Turbo de 0.302527 y el GPT-4o de 0.310325, con diferencias porcentuales de:
Entre GPT-4 y GPT-4 Turbo:
Entre GPT-4 y GPT-4o:
La diferencia porcentual entre los modelos GPT-4 y GPT-4 Turbo es del 1.51%, lo que indica que el GPT-4 tiene un rendimiento ligeramente superior al del GPT-4 Turbo. Por otro lado, la diferencia entre el GPT-4 y el GPT-4o es del 4.13%, lo que sugiere que el GPT-4o realiza predicciones menos precisas en comparacin con el GPT-4. Segn (Reyes, 2024) el R mide la proporcin de varianza explicada por las variables independientes en un sentido estadstico. Sin embargo, esta medida no refleja necesariamente la importancia de las variables en el modelo. Un R de 1.00 no implica que se haya encontrado una explicacin vlida para el fenmeno estudiado. En este caso, el modelo GPT-4 tiene un valor de R de -0.593562, el GPT-4 Turbo de -0.64207 y el GPT-4o de -0.727808, con diferencias porcentuales de:
Entre GPT-4 y GPT-4 Turbo:
Entre GPT-4 y GPT-4o:
Los valores en ambas comparaciones sugieren que los modelos tienen predicciones deficientes y, aunque no estn ajustando bien los datos, el modelo GPT-4 Turbo es un 8.18% peor en trminos de ajuste en comparacin con el modelo GPT-4. Adems, la diferencia del 22.61% indica que el GPT-4o tiene un rendimiento significativamente inferior al del GPT-4. Por ltimo, en cuanto a la coincidencia entre los modelos, el GPT-4o presenta un 53.44%, lo que sugiere que tiene una mayor precisin en sus predicciones en comparacin con el GPT-4 y el GPT-4 Turbo. Esto indica que el GPT-4o es ligeramente ms preciso al predecir valores cercanos a los reales en relacin con los otros dos modelos.
Evaluacin del porcentaje de coincidencia
En cuanto a los resultados de porcentaje de coincidencias entre los modelos GPT-4, GPT-4 Turbo y GPT-4o con few-shot learning, se presentan en el siguiente grfico donde se puede visualizar el resultado de cada ejecucin:
Figura 2
Porcentaje de coincidencias de los modelos
Nota: Resultados de los porcentajes de coincidencias de las ejecuciones realizadas en el modelo GPT-4 y sus sucesores, utilizando la tcnica de few-shot learning
Como se puede visualizar en el grfico anterior, GPT-4o utilizando few-shot learning es el modelo con ms coincidencias con el corpus a diferencia de los otros modelos, con el 53.44% de coincidencias. Aunque las otras ejecuciones no estn tan alejadas de este resultado, presentan un desempeo ligeramente inferior, seguido de GPT-4 Turbo que alcanz un 51.67% de coincidencias, mientras que GPT-4 tiene el porcentaje de coincidencias ms bajo con 37.59% de coincidencias.
Rendimiento de los modelos en funcin del MAE
Figura 3
Rendimiento de los modelos en funcin del MAE
Nota: Resultados del rendimiento del modelo GPT-4 y sus sucesores en funcin al MAE con la tcnica de few-shot learning
Con respecto al rendimiento de los modelos en funcin del MAE, el modelo GPT-4_few_shot (0.2464) presenta el MAE ms bajo, lo que indica una mayor precisin en la prediccin de la complejidad lxica. El modelo GPT-4Turbo_few_shot, con un MAE de 0.2540, se sita en un punto intermedio, superando al GPT-4o_few_shot (0.2593) pero sin alcanzar la precisin del GPT-4. Esto sugiere que, aunque el modelo Turbo tiene un desempeo aceptable, an no iguala al GPT-4 en trminos de exactitud. Por otro lado, el GPT-4o_few_shot, con el MAE ms alto, muestra un rendimiento inferior, evidenciando que la tcnica few-shot learing no siempre garantiza mejoras en la precisin.
En resumen, los resultados se pueden sintetizar de la siguiente manera:
Mejor modelo en precisin (MAE): GPT-4_few_shot (MAE: 0.2464).
Mejor modelo en coincidencia: GPT-4o_few_shot (53.44%).
Peor modelo en precisin (MAE): GPT-4o_few_shot (MAE: 0.2593).
Peor modelo en ajuste (R): GPT-4o_few_shot (R: -0.7278).
Aunque el GPT-4_few_shot es el ms preciso segn el MAE, el GPT-4o_few_shot destaca en coincidencia, lo que sugiere un mayor acierto en sus predicciones. Sin embargo, todos los modelos presentan un R negativo, indicando una mala explicacin de la variabilidad de los datos y posible sobreajuste.
Conclusiones
Se observa una diferencia significativa en el desempeo de los modelos GPT-4, GPT-4o y GPT-4 Turbo al aplicar la tcnica de few-shot learning, siendo el modelo GPT-4 el que presenta el mayor porcentaje de coincidencias con el corpus de referencia. En trminos del error absoluto medio (Mean Absolute Error, MAE), los resultados indican que el modelo GPT-4 con few-shot learning obtuvo el MAE ms bajo (0.2464), lo que sugiere que sus predicciones son ms cercanas a los valores reales en comparacin con los dems modelos evaluados. Estos hallazgos evidencian que la tcnica few-shot learning mejora significativamente la precisin de los modelos en la tarea de prediccin de complejidad lxica.
Finalmente, si bien el desarrollo de una herramienta basada en GPT-4 para la simplificacin de documentos pblicos resulta viable, su implementacin efectiva requiere la combinacin de modelos de IA con revisin humana. Este enfoque hbrido es fundamental para garantizar que la informacin generada sea accesible sin comprometer su precisin y relevancia.
Recomendaciones
Realizar ejecuciones variando el prompt original para explorar cmo estas modificaciones afectan el rendimiento de los modelos. Esto permitir identificar qu formulaciones generan mejores resultados en trminos de coincidencia y precisin.
Continuar evaluando el rendimiento de los modelos sucesores actuales de GPT en relacin con la complejidad lxica de textos provenientes de instituciones pblicas. Comparar estos resultados con textos de otros dominios para obtener una visin ms amplia de su desempeo.
Finalmente, se recomienda ejecutar el corpus con otros modelos basados en la misma arquitectura Transformer. Esto facilitar el anlisis del comportamiento de diferentes LLMs (Large Language Models) y permitir identificar caractersticas que puedan mejorar la precisin y la relevancia de las predicciones.
Referencias
1. Bono Cabr, R. (2012). Diseos cuasi-experimentales y longitudinales. OMADO (Objectes i MAterials DOcents). https://diposit.ub.edu/dspace/handle/2445/30783
2. Chicco, D., Warrens, M. J., & Jurman, G. (2021). The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation. PeerJ Computer Science, 7, 124. https://doi.org/10.7717/PEERJ-CS.623
3. Emanuel, Y., Solis, C., & Rivas, H. H. (2024). Comparison of machine learning algorithms for natural language processing (Vol. 11). https://orcid.org/0000-0002-2650-8932
4. Godnez Lpez, E. M., & Rosas-Mayen, N. (2024a). Produccin Escrita en Espaol L2: Influencia de la Autoeficacia y el Perfil Lingstico en la Complejidad Textual. Revista Veritas de Difuso Cientfica, 5(3), 12631287. https://doi.org/10.61616/rvdc.v5i3.267
5. Godnez Lpez, E. M., & Rosas-Mayen, N. (2024b). Produccin Escrita en Espaol L2: Influencia de la Autoeficacia y el Perfil Lingstico en la Complejidad Textual. Revista Veritas de Difuso Cientfica, 5(3), 12631287. https://doi.org/10.61616/rvdc.v5i3.267
6. Hodson, T. O. (2022). Root-mean-square error (RMSE) or mean absolute error (MAE): when to use them or not. In Geoscientific Model Development (Vol. 15, Issue 14, pp. 54815487). Copernicus GmbH. https://doi.org/10.5194/gmd-15-5481-2022
7. LOTAIP. (2004). LEY ORGANICA DE TRANSPARENCIA Y ACCESO A LA INFORMACION PUBLICA. 2004. https://www.educacionsuperior.gob.ec/wp-content/uploads/downloads/2014/09/LOTAIP.pdf
8. Ortiz Zambrano, J., MontejoRez, A., Lino Castillo, K. N., Gonzalez Mendoza, O. R., & Caizales Perdomo, B. C. (2020). VYTEDU-CW: Difficult Words as a Barrier in the Reading Comprehension of University Students. Advances in Intelligent Systems and Computing, 1066, 167176. https://doi.org/10.1007/978-3-030-32022-5_16
9. Ortiz-Zambrano, J. A., Espn-Riofro, C. H., & Montejo-Rez, A. (2024). Deep Encodings vs. Linguistic Features in Lexical Complexity Prediction. Neural Computing and Applications. https://doi.org/10.1007/s00521-024-10662-9
10. Ortiz-Zambrano, J. A., & Montejo-Rez, A. (2020). Overview of ALexS 2020: First Workshop on Lexical Analysis at SEPLN. https://www.ujaen.es/
11. Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-Rez, A. (2022). Transformers for Lexical Complexity Prediction in Spanish Language. Procesamiento Del Lenguaje Natural, 69, 177188. https://doi.org/10.26342/2022-69-15
12. Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-Rez, A. (2023). SINAI Participation in SimpleText Task 2 at CLEF 2023: GPT-3 in Lexical Complexity Prediction for General Audience Notebook for the SimpleText Lab at CLEF 2023. http://ceur-ws.org
13. Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-Rez, A. (2024). SINAI Participation in SimpleText Task 2 at CLEF 2024: Zero-shot Prompting on GPT-4-Turbo for Lexical Complexity Prediction Notebook for the SimpleText Lab at CLEF 2024. https://openai.com/
14. Ortiz-Zambrano, J., & Montejo-Rez, A. (2021). SINAI at SemEval-2021 Task 1: Complex word identification using Word-level features. https://pypi.
15. Prada, V., Santiago, D., Martinez, L., & Enrique, F. (2025). Optimizacin de la evaluacin acadmica mediante procesamiento de lenguaje natural: desarrollo de un sistema de calificacin automtica para textos en educacin superior.
16. Reyes, S. (2024). Aplicacin de la espectroscopa NIR y herramientas Quimiomtricas para la determinacin de componentes qumicos del caf verde especial producido en la provincia de Charqu, Panam.
17. Roque Lpez Vernica Montserrat. (2024). Estudios multidisciplinarios: Transparencia y esquemas anticorrupcin.
18. Salgado Reyes, N. I., & Elizabeth Trujillo Moreno, G. I. (2024). Sentiment Analysis in Social Network Data: Application of natural language processing and machine learning techniques to analyze opinions and feelings in social network data in the context of information systems. Nm. 1. Enero-Marzo, 10, 314327. https://doi.org/10.23857/dc.v10i1.3714
19. Taboada Villamarn, A. (2024). Big data en ciencias sociales. Una introduccin a la automatizacin de anlisis de datos de texto mediante procesamiento de lenguaje natural y aprendizaje automtico. Revista CENTRA de Ciencias Sociales, 3(1). https://doi.org/10.54790/rccs.51
20. Tatachar, A. V. (2021). Comparative Assessment of Regression Models Based On Model Evaluation Metrics. International Research Journal of Engineering and Technology. www.irjet.net
2025 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
(https://creativecommons.org/licenses/by-nc-sa/4.0/).
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/