����������������������������������������������������������������������������������
GPT-4 and its successor models in the prediction of lexical complexity in Ecuadorian public texts using Few-Shot Learning
GPT-4 e seus modelos sucessores na previs�o da complexidade lexical em textos p�blicos equatorianos usando Few-Shot Learning
![]() |
|||
![]() |
Correspondencia: jenny.ortizz@ug.edu.ec
Ciencias T�cnicas y Aplicadas
Art�culo de Investigaci�n
* Recibido: 03 de diciembre de 2024 *Aceptado: 25 de enero de 2025 * Publicado: �11 de febrero de 2025
I. Doctorante en Tecnolog�as de la Informaci�n y Comunicaci�n por la Universidad de Ja�n, Espa�a.
II. Doctor en ciencias de la computaci�n, Ecuador.
Resumen
Evaluar la complejidad l�xica en documentos utilizando los modelos Generative Pre-trained Transformer (GPT-4, GPT-4o y GPT-4 Turbo) permiti� analizar su impacto en la comprensi�n del lenguaje espec�ficamente en textos estatales ecuatorianos en espa�ol. Se aplic� la t�cnica de few-shot learning en todos los modelos, tomando el conjunto de datos GovAIEc. El enfoque aplicado de la investigaci�n es cuantitativo y descriptivo, con un dise�o cuasi experimental. Los modelos se eval�an mediante m�tricas del error com�n: MAE, MSE, RMSE. El objetivo de esta investigaci�n es evaluar el rendimiento del modelo GPT-4 y sus modelos sucesores en la predicci�n de la complejidad l�xica en textos p�blicos ecuatorianos mediante Few-Shot Learning. Los resultados indican que el modelo GPT-4 obtiene un mayor rendimiento frente a sus sucesores con un MAE = 0.2464, mientras que GPT-4o presenta un MAE = 0.3889, y finalmente los resultados aplicando el modelo GPT-4 Turbo dieron un MAE = 0.2540.
Palabras clave: GPT-4; GPT-4 Turbo; GPT-4�; few-shot learning; predicci�n; complejidad l�xica.
Abstract
Evaluating lexical complexity in documents using the Generative Pre-trained Transformer models (GPT-4, GPT-4o and GPT-4 Turbo) allowed us to analyze its impact on language comprehension specifically in Ecuadorian state texts in Spanish. The few-shot learning technique was applied to all models, taking the GovAIEc data set. The applied research approach is quantitative and descriptive, with a quasi-experimental design. The models are evaluated using common error metrics: MAE, MSE, RMSE. The objective of this research is to evaluate the performance of the GPT-4 model and its successor models in predicting lexical complexity in Ecuadorian public texts using Few-Shot Learning. The results indicate that the GPT-4 model obtains greater performance compared to its successors with a MAE = 0.2464, while GPT-4o presents a MAE = 0.3889, and finally the results applying the GPT-4 Turbo model gave a MAE = 0.2540.
Keywords: GPT-4; GPT-4 Turbo; GPT-4�; few-shot learning; prediction; lexical complexity.
Resumo
A avalia��o da complexidade lexical em documentos utilizando os modelos Generative Pre-trained Transformer (GPT-4, GPT-4o e GPT-4 Turbo) permitiu analisar seu impacto na compreens�o da linguagem especificamente em textos estaduais equatorianos em espanhol. A t�cnica de aprendizagem de poucos disparos foi aplicada a todos os modelos, utilizando o conjunto de dados GovAIEc. A abordagem da pesquisa aplicada � quantitativa e descritiva, com desenho quase experimental. Os modelos s�o avaliados usando m�tricas de erro comuns: MAE, MSE, RMSE. O objetivo desta pesquisa � avaliar o desempenho do modelo GPT-4 e seus modelos sucessores na previs�o da complexidade lexical em textos p�blicos equatorianos usando Few-Shot Learning. Os resultados indicam que o modelo GPT-4 obt�m maior desempenho em rela��o aos seus sucessores com um MAE = 0,2464, enquanto o GPT-4o apresenta um MAE = 0,3889, e por fim os resultados aplicando o modelo GPT-4 Turbo deram um MAE = 0,2540.
Palavras-chave: GPT-4; GPT-4Turbo; GPT-4�; aprendizagem em poucas tentativas; previs�o; complexidade lexical.
Introducci�n
La comprensi�n de textos en documentos p�blicos es esencial para la participaci�n ciudadana y la transparencia en sociedades democr�ticas. El acceso a la informaci�n es un derecho fundamental que fortalece la democracia y promueve la rendici�n de cuentas, lo que es crucial para combatir la corrupci�n (Roque, 2024).
Sin embargo, el lenguaje complejo de estos documentos dificulta su comprensi�n, especialmente para personas con bajos niveles de alfabetizaci�n. En Ecuador, el censo de 2022 report� 472,228 personas en condici�n de analfabetismo (El Universo, 2024), lo que limita su acceso a informaci�n clara y afecta su participaci�n en decisiones de inter�s general, como establece el art�culo 4 de la Ley Org�nica de Transparencia y acceso a la
Informaci�n Publica (LOTAIP, 2004).
Es necesario explorar herramientas que eval�en la complejidad del lenguaje en estos documentos. La predicci�n de la complejidad l�xica mediante modelos de GPT-4 se presenta como una soluci�n prometedora. Estudios han demostrado que estos modelos son efectivos para la simplificaci�n l�xica y pueden identificar t�rminos complejos, mejorando as� la comprensi�n de textos (Cesteros, 2023; Ortiz et al., 2024). Adem�s, la complejidad textual se ve influenciada por factores culturales y el conocimiento previo del lector, lo que resalta la importancia de considerar tanto caracter�sticas ling��sticas como contextos culturales al evaluar la complejidad l�xica (Ortiz y Montejo, 2020).
En este contexto, el objetivo de este estudio es evaluar el rendimiento del modelo GPT-4 y sus sucesores en la predicci�n de la complejidad l�xica en textos p�blicos ecuatorianos mediante la t�cnica de Few-Shot Learning. Esta evaluaci�n permitir� determinar la efectividad de estos modelos en la mejora de la comprensi�n de textos, contribuyendo as� a la inclusi�n de personas con bajos niveles de alfabetizaci�n en el acceso a la informaci�n p�blica.
En estos �ltimos a�os, ha habido un considerable volumen de investigaci�n en el �rea de la predicci�n de la complejidad textual y el procesamiento del lenguaje natural. A continuaci�n, se mencionan investigaciones significativas que tratan estos aspectos:
Para el estudio de Ortiz et al. (2020) en donde se mostr� la creaci�n de un corpus multimodal que fusiona v�deos educativos y sus transcripciones, anot�ndolos con un nivel de complejidad del texto. Se concluy� que, el corpus �VYTEDU� se present� como una herramienta �til para analizar la complejidad de los textos en contextos educativos, facilitando un estudio comparativo del discurso oral y escrito.
En este contexto, el estudio de Ortiz y Montejo (2021) se utilizaron datos de SemEval-2020 Task 1 para identificar palabras complejas en ingl�s, extrayendo caracter�sticas como longitud, frecuencia y embeddings preentrenados. Un clasificador Random Forest realiza la predicci�n, evaluando el rendimiento con el F1-Score. El modelo alcanz� un rendimiento competitivo en la identificaci�n de palabras complejas, logrando una puntuaci�n F1 de 0,85 en el conjunto de datos de evaluaci�n, destac�ndose por la importancia de las caracter�sticas de frecuencia y embeddings.
Asimismo, el estudio de Ortiz et al. (2022) propone un enfoque para predecir la complejidad l�xica en espa�ol utilizando modelos transformadores como BERT, XLM-RoBERTa y RoBERTa-large-BNE, entrenados con el corpus CLexIS2. Se combinan caracter�sticas manuales (frecuencia, longitud, categor�as POS) con embeddings de modelos preentrenados. El modelo BERT ajustado alcanz� el rendimiento m�s destacado, con un MAE de 0.1592 y una correlaci�n de Pearson de 0.9883. XLM-RoBERTa y RoBERTa-large-BNE igualmente mejoraron despu�s del ajuste, aunque BERT result� ser superior.
De la misma manera, la investigaci�n de Ortiz et al. (2023) en donde se aplic� los sucesores davinci-002 y davinci-003 del Modelo GPT-3 para la clasificaci�n de la complejidad de las palabras y se utiliz� el enfoque de aprendizaje few-shot, donde se proporcionaron ejemplos limitados al modelo para ayudar en la clasificaci�n. El mejor rendimiento fue del modelo davinci-003 con un MAE de 0.0882, en la predicci�n de la complejidad se observaron coincidencias y discrepancias entre las categor�as asignadas por GPT-3 y las del corpus Complex. Por �ltimo, se identificaron oportunidades para explorar nuevos modelos como Claude 2 y GPT-4 en la predicci�n de la complejidad l�xica.
Adem�s, el estudio de Ortiz et al. (2024) en donde se emple� el modelo GPT-4 Turbo centr�ndose en dos subtareas: Sub-task 2.1 para la identificaci�n de t�rminos y asignaciones de niveles de dificultad y Sub-task 2.2 para la generaci�n de definiciones y explicaciones de t�rminos considerados como dif�ciles. Los resultados indicaron que GPT-4 Turbo mostro un rendimiento notable en la evaluaci�n de la complejidad l�xica sin necesidad de entrenamiento adicional. Para los resultados de Sub-task 2.1 se logr� una buena capacidad para identificar t�rminos relevantes y su dificultad y para Sub-task 2.2 las definiciones y explicaciones generadas fueron efectivas en t�rminos dif�ciles mejorando la comprensi�n de los textos cient�ficos.
En este mismo a�o, Ortiz et al. (2024) en su estudio combin� caracter�sticas ling��sticas con codificaciones de modelos de lenguaje profundos (BERT, XLM-RoBERTa) en datatsets en ingl�s y espa�ol, en los cuales se aplicaron varios algoritmos de aprendizaje autom�tico. El modelo en ingl�s logr� un MAE de 0.0683, mejorando un 29.2%, en cambio para el modelo en espa�ol se alcanz� un MAE de 0.1323, con una mejora del 19.4%.
En el presente a�o, el estudio de Prada et al. (2025) se desarroll� un sistema de calificaci�n autom�tica de textos acad�micos utilizando t�cnicas de procesamiento de lenguaje natural y modelos de aprendizaje profundo. La investigaci�n incluy� tres iteraciones: exploraci�n de representaciones de texto con Word Embeddings y Transformers, entrenamiento directo con Transformers en un flujo unificado, y Fine-tuning del modelo RoBERTa evaluando clasificaci�n y regresi�n. En la primera iteraci�n, RoBERTa alcanz� un QWK de 0.7479 en regresi�n ordinal. En la segunda iteraci�n, logr� un QWK de 0.796, y en la tercera con el enfoque de clasificaci�n obtuvo un QWK de 0.80238, teniendo dificultades en la categor�a 6. Finalmente, con el enfoque de regresi�n mejor� a un QWK de 0.81639, clasificando correctamente algunos textos de la categor�a 6.
Para Taboada (2024) realiz� una revisi�n hist�rica de la evoluci�n del PLN en ciencias sociales, una gu�a pr�ctica con pasos para su aplicaci�n y un an�lisis de los desaf�os que enfrentan estas disciplinas al implementar PLN. Se identificaron herramientas y software accesibles para investigadores sociales, como R, Python, Orange Data Mining y RapidMiner. Las fuentes de datos se clasifican en anal�gicos, transcritos y digitales, subrayando la importancia de la digitalizaci�n. Tambi�n se presentan t�cnicas de an�lisis como la tokenizaci�n, eliminaci�n de las palabras vac�as y algoritmos de aprendizaje autom�tico.
Adem�s, God�nez y Rosas (2024a) realizaron un estudio cuantitativo y cualitativo con 12 estudiantes universitarios para analizar la relaci�n entre perfil ling��stico, autoeficacia y complejidad textual en la producci�n escrita en espa�ol, utilizando cuestionarios y herramientas de an�lisis de texto. Los hablantes con la lengua de herencia tuvieron una mayor facilidad tem�tica, mientras que los no hablantes enfrentaron desaf�os gramaticales. La autoeficacia se correlacion� con la complejidad textual, sugiriendo estrategias pedag�gicas para atender las necesidades de cada perfil ling��stico.
Asimismo, la investigaci�n de Salgado y Trujillo (2024) en donde se realiz� una investigaci�n de la literatura sobre el an�lisis de los sentimientos en datos de redes sociales utilizando t�cnicas de procesamiento de LPN y ML, y una b�squeda en BD acad�micas claves, con el objetivo de identificar y analizar aplicaciones, desaf�os y tendencias emergentes en estas tecnolog�as. Se destaco la necesidad de adaptar continuamente los modelos a los cambios en la din�mica ling��stica y culturas, con respecto a las fuentes de datos, se identificaron como primordiales las redes sociales, representando hasta un 85% de las interacciones analizadas.
Finalmente, el estudio de Emanuel et al. (2024) en donde se comparan algoritmos de machine learning para el LPN en tareas de clasificaci�n y an�lisis de texto, se evaluaron cuatro algoritmos; regresi�n l�gica, arboles de decisi�n, m�quinas de vectores de soporte (SVM) y redes neuronales, se emplearon m�tricas est�ndar de evaluaci�n (precisi�n, exhaustividad, puntuaci�n F1 y exactitud) para comparar el rendimiento de los algoritmos en el conjunto de datos de tweets etiquetados. El mejor rendimiento lo tuvo Random Forest con una precisi�n del 98.17% y una puntuaci�n de F1 de 0.9813, con respecto a la Regresi�n Log�stica su precisi�n fue del 87.74% y un F1 de 0.885, para el �rbol de Decisi�n la precisi�n fue del 96.22% y su F1 de 0.9606, y por �ltimo Naive Bayes con el menor rendimiento, con una precisi�n del 71.75% y una puntuaci�n F1 de 0.7755.
Por los motivos anteriormente expuestos, el objetivo de la investigaci�n se centr� en GPT-4 y sus modelos sucesores en la predicci�n de la complejidad l�xica en textos p�blicos ecuatorianos mediante Few-Shot Learning, la cual respondi� a la interrogante: �C�mo pueden GPT-4 y sus modelos sucesores, mediante el uso de Few-Shot Learning, predecir eficazmente la complejidad l�xica en textos p�blicos ecuatorianos para mejorar la comprensi�n del p�blico?
Materiales y m�todos
La metodolog�a de investigaci�n empleada en este estudio sobre la predicci�n de la complejidad l�xica de textos en documentos p�blicos, utilizando GPT-4 y modelos sucesores, ha sido dise�ada para abordar de manera integral el objetivo planteado. Esta investigaci�n es de car�cter aplicado, ya que busca utilizar conocimientos existentes en procesamiento de lenguaje natural y an�lisis de modelos de inteligencia artificial para resolver un problema pr�ctico: evaluar la complejidad l�xica de documentos p�blicos y mejorar su accesibilidad para los ciudadanos.
Seg�n God�nez y Rosas (2024) esta modalidad incluye cualquier esfuerzo sistem�tico y socializado para resolver problemas o intervenir en situaciones, abarcando tanto la innovaci�n t�cnica como la investigaci�n cient�fica. De este modo, la investigaci�n vincula la teor�a con la pr�ctica, generando un impacto directo en la comprensi�n y uso de textos administrativos emitidos por las instituciones p�blicas de Guayaquil. El tipo de investigaci�n es cuantitativa y descriptiva, con un enfoque cuasi-experimental. Se considera cuantitativa porque busca medir y analizar num�ricamente la complejidad l�xica de los textos, as� como evaluar el desempe�o de los modelos GPT-4 y sus sucesores a trav�s de m�tricas espec�ficas como precisi�n, fluidez y coherencia.
El enfoque cuasi-experimental se utiliza para examinar las relaciones entre una o m�s variables independientes y la variable dependiente o de respuesta (Bono, 2012). Este enfoque es adecuado, ya que se realizar�n pruebas controladas con un corpus espec�fico de documentos, simulando escenarios reales para evaluar los modelos en condiciones controladas.
La unidad de estudio corresponde a cada registro individual dentro del dataset GovAIEc que contiene un total de 7,813 registros, el cual est� compuesto por notificaciones e instrucciones relacionadas con tr�mites legales, en general oraciones seleccionadas de documentos de las entidades p�blicas gubernamentales que pertenecen a Ecuador, espec�ficamente de la ciudad de Guayaquil, las cuales son: CNT, SRI, CNE, Municipio y ATM.
Cada registro tiene los siguientes campos:
� id: Identificador �nico para cada registro.
� corpus: Instituci�n p�blica gubernamental (Fuente).
� sentence: Oraci�n que contiene la palabra etiquetada como compleja.
� token: Palabra identificada como compleja por etiquetadores.
� complexity: Valor num�rico que representa la complejidad asignada por los etiquetadores.
Tabla 1
Dataset GovAIEc
id |
corpus |
Sentence |
token |
complexity |
6075 |
Municipio - Tramites - TEXTO 0060 TRAMITES EN LA BIBLIOTECA MUNICIPAL.txt |
TRAMITES EN LA BIBLIOTECA MUNICIPAL Si en el stock existe el libro pedido, se emite Comprobante de la Publicaci�n para que el comprador proceda a � |
comprobante |
0,333333333 |
7719 |
SRI - Tramites - TEXTO 0130 REQUERIMIENTOS Y JUSTIFCACIONES DEL PROCESO INCONSITENCIAS.txt |
REQUERIMIENTOS Y JUSTIFCACIONES DEL PROCESO INCONSITENCIAS Si el Servicio de Rentas Internas detectare inconsistencias en las declaraciones o en los anexos que presente el contribuyente, siempre que no generen � |
sustitutivo |
0,666666667 |
2734 |
CNE - Tramites - TEXTO 0091 REGLAMENTO PARA CONFORMACION DE ALIANZAS ELECTORALES.txt |
REGLAMENTO PARA CONFORMACION DE ALIANZAS ELECTORALES la Constituci�n de la Rep�blica dispone en el art�culo 112, que los partidos y movimientos �
|
militantes |
1 |
Nota: La tabla muestra un conjunto de registros extra�dos de documentos legales de diversas instituciones p�blicas de Guayaquil, con el objetivo de identificar palabras complejas dentro de los textos relacionados con tr�mites legales. Estos datos se utilizar�n para calcular caracter�sticas ling��sticas y entrenar el modelo
La escala de complejidad tiene los siguientes niveles:
� Moderately difficult: Rango de complejidad entre 0 y 0.3333. Las palabras u oraciones en este rango son algo complejas, pero se pueden entender en su contexto.
� Difficult: Desde 0.3334 a 0.6666. Las palabras u oraciones en este nivel son bastante complejas y pueden necesitar un mayor nivel de comprensi�n o conocimientos t�cnicos.
� Very difficult: Desde 0.6667 a 1. Las palabras u oraciones en esta categor�a son muy complejas, lo que puede hacer que sean dif�ciles de entender.
Tabla 2
Escala de complejidad
Etiqueta |
Rango |
moderately difficult |
(0, 0.3333) |
difficult |
(0.3334, 0.6666) |
very difficult |
(0.6667, 1) |
Nota: Esta escala se utiliza para evaluar el nivel de complejidad de las palabras en el prompt, aplicando la t�cnica de few-shot learning en los modelos GPT-4. Adem�s, esta escala fue empleada por los anotadores para asignar un valor a cada palabra identificada como compleja (token), el cual se registr� en la columna complexity
En el tratamiento de los datos para la identificaci�n de palabras complejas del datatset GovAIEc, se utiliz� un enfoque basado en el modelo de lenguaje GPT-4, aplicando la t�cnica de few-shot learning. Este enfoque se emple� para predecir la complejidad textual de las palabras en funci�n de su contexto dentro de las oraciones extra�das de documentos legales gubernamentales. El proceso de tratamiento de los datos consisti� en los siguientes pasos:
1. Lectura y preprocesamiento de datos: Los datos se leyeron desde el archivo GovAIEc.xlsx, que conten�a oraciones y palabras identificadas como complejas en documentos legales de instituciones p�blicas. Las columnas relevantes para el an�lisis fueron id, sentence, token y complexity, las cuales se utilizaron para calcular las predicciones del modelo y mostrar los resultados.
2. Generaci�n de predicciones de complejidad: Para clasificar las palabras seg�n su complejidad, se emplearon modelos basados en la arquitectura Transformer, espec�ficamente GPT-4, GPT-4 Turbo y GPT-4o. Estos modelos se aplicaron para identificar el nivel de complejidad de las palabras dentro de las oraciones de los documentos legales. Se utiliz� el enfoque de few-shot learning, ya que permite a los modelos aprender con pocos ejemplos proporcionados en el prompt. En este caso, se incluyeron un total de 20 ejemplos, con el objetivo de mejorar la precisi�n de las predicciones. El modelo GPT-4 y sus sucesores clasificaron cada palabra identificada como compleja en una de las tres categor�as de complejidad: Moderately difficult, Difficult y Very difficult.
3. Formato del prompt de predicci�n: El modelo recibi� como entrada un prompt espec�fico que estableci� el contexto de la tarea. A continuaci�n, se muestra el formato del prompt utilizado para realizar las predicciones de complejidad mediante few-shot learning:
Figura� 1
Prompt Few-Shot Learning
Nota: El fragmento de c�digo muestra parte del prompt utilizado para clasificar palabras complejas en tres categor�as de dificultad bas�ndose en el contexto de la oraci�n. Esta clasificaci�n se realiza mediante Few-Shot Learning
1. Evaluaci�n y resultados: Una vez que el modelo genera las predicciones de complejidad, los resultados se almacenan en un archivo Excel para su posterior an�lisis.
2. Resumen final: Tras obtener todos los resultados, se genera un archivo Excel como resumen final, que incluye las m�tricas calculadas para cada modelo y la t�cnica aplicada. Este archivo se guarda con el nombre resumen_metricas.xlsx.
M�tricas del error com�n
Las m�tricas aplicadas en esta investigaci�n corresponden a m�tricas de evaluaci�n utilizadas para medir la precisi�n y calidad de las predicciones realizadas por el modelo GPT-4 y sus sucesores, GPT-4 Turbo y GPT-4o. A continuaci�n, se detalla cada una de ellas:
MAE (Mean Absolute Error): Puede utilizarse si los valores at�picos representan partes corruptas de los datos. (Chicco et al., 2021)
Ecuaci�n 1 Mean Absolute Error
Tomado de: (Chicco et al., 2021)
MSE (Mean Squared Error): Se emplea el error cuadr�tico medio (MSE) para evaluar la exactitud de un modelo de predicci�n, ya que mide la diferencia entre los valores detectados y los valores estimados por el modelo. Tambi�n puede utilizarse para detectar valores at�picos, ya que, debido a la norma L2, el MSE otorga un mayor peso a estos puntos. Si el modelo produce una �nica predicci�n muy mala, la parte cuadr�tica de la funci�n incrementa el error. (Chicco et al., 2021)
Ecuaci�n 2 Mean Squared Error
Tomado de: (Chicco et al., 2021)
RMSE (Root Mean Squared Error): MSE y RMSE mantienen una relaci�n monot�nica, es decir, por medio de la ra�z cuadrada. Una ordenaci�n de los modelos de regresi�n basada en el MSE ser� id�ntica a una ordenaci�n de los modelos basada en el RMSE. (Chicco et al., 2021)
Ecuaci�n 3 Root Mean Squared Error
Tomado de: (Reyes, 2024)
R� (R-squared): �El coeficiente de determinaci�n puede interpretarse como la proporci�n de la varianza de la variable dependiente que puede predecirse a partir de las variables independientes.� (Chicco et al., 2021, p. 5)
Ecuaci�n 4 R-squared
Tomado de: (Chicco et al., 2021)
Se eval�a el modelo GPT-4 y sus sucesores utilizando m�tricas que permiten determinar su rendimiento en la identificaci�n de la complejidad l�xica. Estas m�tricas se calculan comparando los valores reales de complejidad con los valores predichos por el modelo. Esto es fundamental para entender la efectividad del modelo y realizar ajustes si es necesario. Adem�s, la evaluaci�n permite comparar el rendimiento de GPT-4 con sus sucesores, identificando cu�l es el m�s efectivo en la tarea de identificaci�n de palabras complejas.
Para evaluar la diferencia relativa entre los modelos en t�rminos de porcentaje, se utilizar� la f�rmula de diferencia porcentual, mencionada por (Yuen et al., 2024), la cual se expresa de la siguiente manera:
Ecuaci�n 5 Diferencia porcentual
En donde:
���
representa el valor final.
����
representa el valor inicial.
Resultados y discusi�n
Aplicaci�n del modelo GPT-4 y sus sucesores GPT-4 Turbo y GPT-4o
A continuaci�n, se presentan tablas que contienen un extracto de los resultados obtenidos al aplicar la t�cnica de few-shot learning a cada modelo. Se han seleccionado las palabras clasificadas como dif�ciles en la columna "up to 5 difficult terms retrieved by GPT-4 " por el modelo GPT-4 y sus sucesores para cada una de las instituciones p�blicas gubernamentales. Es decir, el modelo eval�a la dificultad de comprensi�n del texto y selecciona hasta 5 palabras que considera dif�ciles de entender para una persona promedio. Estas palabras son las que se presentan en las tablas.
En primera instancia, se muestran las palabras complejas identificadas por el modelo GPT-4 utilizando la t�cnica de few-shot learning.
Tabla 3
Palabras complejas GPT-4 / Few-Shot Learning
Instituci�n |
Palabras complejas |
Municipio |
Ocurre, Registrada, Convenio, D�bito, Vigente |
CNE |
Calificar�, Organizaciones, Solicitudes, Contrataci�n, Publicidad |
SRI |
Requerimientos, Justificaciones, Proceso, Contribuyente, Tributaria |
CNT |
Instituci�n, Irrevocable, Ver�dica, Ostentar, Cesionaria |
ATM |
Tac�metro, Son�metro, Fren�metro, Lux�metro, Regloscopio |
Nota: La tabla presenta algunas palabras que el modelo GPT-4 clasific� como complejas
Para GPT-4 Turbo, se presentan las siguientes palabras:
Tabla 4
Palabras complejas GPT-4 Turbo / Few-Shot Learning
Instituci�n |
Palabras complejas |
Municipio |
Comisario, Municipal, Compromiso, Determinado, Subsanar |
CNE |
Ratifico, Autorizaci�n, Expiraci�n, Notificar, Cancelar |
SRI |
Requerimientos, Justificaciones, Resoluci�n, Car�cter, Informaci�n |
CNT |
Telecomunicaciones, Tranquilidad, Autorizaci�n, Determinadas, Propaguen |
ATM |
Estupefacientes, Psicotr�picas, Terap�utico, Rehabilitaci�n, Infracciones |
Nota: La tabla presenta algunas palabras que el modelo GPT-4 Turbo clasific� como complejas
Por �ltimo, para el modelo GPT-4o, se identificaron las siguientes palabras como dif�ciles:
Tabla 5
Palabras complejas GPT-4o / Few-Shot Learning
Instituci�n |
Palabras complejas |
Municipio |
Pr�stamo, Consultado, Instalaciones, Reteniendo, Identificaci�n |
CNE |
Desafiliaci�n, Renuncia, Escaneado, Nulidad, Seguimiento |
SRI |
Conformaci�n, Organizaciones, Discriminatorias, Funcionamiento, Garantizara |
CNT |
Prestaci�n, Establecidos, Reparaciones, Situaciones, Fortuito |
ATM |
Inminente, Seguridad, Ocupantes, Obligaci�n, Comprobar
|
Nota: La tabla presenta algunas palabras que el modelo GPT-4o clasific� como complejas
Resultados de las m�tricas de evaluaci�n
A continuaci�n, se presentan tablas que resumen los resultados de las predicciones de los modelos GPT-4, GPT-4 Turbo y GPT-4o en la identificaci�n de palabras complejas, utilizando la t�cnica de few-shot learning. Cada fila corresponde a un registro del corpus, donde se comparan las predicciones del modelo con los valores reales de complejidad.
Las columnas de las tablas incluyen:
� id: Identificador �nico del registro.
� token: Palabra identificada como compleja.
� Respuesta GPT-4: Categor�a de complejidad predicha por el modelo.
� Rango GPT-4: Rango de complejidad asignado por el modelo.
� Complejidad GPT-4: Valor num�rico de la complejidad predicha.
� complexity: Valor num�rico de la complejidad real.
� escala: Categor�a de complejidad real.
� comparaci�n: Indica si la predicci�n coincide con el valor real (S�/No).
Tabla 6
Predicciones del modelo GPT-4
id |
token |
Respuesta GPT-4 |
Rango GPT-4 |
Complejidad GPT-4 |
complexity |
escala |
comparaci�n |
6075 |
comprobante |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333333 |
moderately difficult |
No |
6076 |
recaudadoras |
difficult |
(0.3334, 0.6666) |
0,5 |
1 |
very difficult |
No |
6077 |
stock |
moderately difficult |
(0, 0.3333) |
0,16665 |
1 |
very difficult |
No |
6093 |
se�alando |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333333 |
moderately difficult |
No |
6094 |
bibliogr�fico |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333333 |
moderately difficult |
Si |
6095 |
autorizaci�n |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,666667 |
difficult |
No |
6096 |
donarse |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6059 |
devoluci�n |
difficult |
(0.3334, 0.6666) |
0,5 |
1 |
very difficult |
No |
6060 |
instalaciones |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6061 |
identificaci�n |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333 |
moderately difficult |
No |
Nota: La tabla muestra un extracto de los resultados de las m�tricas de evaluaci�n para el modelo GPT-4
Tabla 7
Predicciones del modelo GPT-4 Turbo
id |
token |
Respuesta GPT-4 |
Rango GPT-4 |
Complejidad GPT-4 |
complexity |
escala |
comparaci�n |
6075 |
comprobante |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6076 |
recaudadoras |
difficult |
(0.3334, 0.6666) |
0,5 |
1 |
very difficult |
No |
6077 |
stock |
moderately difficult |
(0, 0.3333) |
0,16665 |
1 |
very difficult |
No |
6093 |
se�alando |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6094 |
bibliogr�fico |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333 |
moderately difficult |
No |
6095 |
autorizaci�n |
difficult |
(0.3334, 0.6666) |
0,5 |
0,666667 |
difficult |
Si |
6096 |
donarse |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6059 |
devoluci�n |
moderately difficult |
(0, 0.3333) |
0,16665 |
1 |
very difficult |
No |
6060 |
instalaciones |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6061 |
identificaci�n |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333 |
moderately difficult |
No |
Nota: La tabla muestra un extracto de los resultados de las m�tricas de evaluaci�n para el modelo GPT-4 Turbo
Tabla 8
Predicciones del modelo GPT-4o
id |
token |
Respuesta GPT-4 |
Rango GPT-4 |
Complejidad GPT-4 |
complexity |
escala |
comparaci�n |
6075 |
comprobante |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6076 |
recaudadoras |
difficult |
(0.3334, 0.6666) |
0,5 |
1 |
very difficult |
No |
6077 |
stock |
moderately difficult |
(0, 0.3333) |
0,16665 |
1 |
very difficult |
No |
6093 |
se�alando |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6094 |
bibliogr�fico |
difficult |
(0.3334, 0.6666) |
0,5 |
0,333333 |
moderately difficult |
No |
6095 |
autorizaci�n |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,666667 |
difficult |
No |
6096 |
donarse |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6059 |
devoluci�n |
moderately difficult |
(0, 0.3333) |
0,16665 |
1 |
very difficult |
No |
6060 |
instalaciones |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
6061 |
identificaci�n |
moderately difficult |
(0, 0.3333) |
0,16665 |
0,333333 |
moderately difficult |
Si |
Nota: La tabla muestra un extracto de los resultados de las m�tricas de evaluaci�n para el modelo GPT-4�
A continuaci�n, se presentan los resultados obtenidos a manera de resumen de la aplicaci�n de los sucesores GPT-4 Turbo, GPT-4o y el modelo GPT-4 en la identificaci�n de palabras complejas.
Tabla 9
Resultado de los sucesores
Modelo |
MAE |
MSE |
RMSE |
R2 |
Coincidencia |
GPT-4_few_shot |
0.2464 |
0.0888 |
0.2980 |
-0.5935 |
37,59 % |
GPT-4Turbo_few_shot |
0.2540 |
0.0915 |
0.3025 |
-0.6420 |
51,67 % |
GPT-4o_few_shot |
0.2593 |
0.0963 |
0.3103 |
-0.7278 |
53,44 % |
Nota: Los resultados presentados en esta tabla muestran la precisi�n del modelo GPT-4 y sus sucesores GPT-4 Turbo y GPT-4o en la predicci�n de palabras complejas, evaluadas a trav�s de m�tricas estad�sticas como MAE, MSE, RMSE, R� y el porcentaje de coincidencia permitiendo una comparaci�n cuantitativa de su rendimiento en la tarea de simplificaci�n del lenguaje
Evaluaci�n de la predicci�n de la complejidad l�xica
Para la evaluaci�n de los resultados, se realiz� una comparativa entre los diferentes modelos. A cada modelo se le proporcionaron 20 ejemplos en el prompt para entrenarlo en la clasificaci�n de palabras seg�n su nivel de dificultad: 1. Moderately difficult, 2. Difficult y 3. Very difficult (incluyendo 2 ejemplos de esta �ltima categor�a), lo que suma un total de 4 ejemplos por cada instituci�n gubernamental p�blica.
Como se observa en la tabla de resultados, la diferencia del MAE entre los modelos es peque�a pero significativa. Seg�n (Tatachar, 2021) el MAE es una m�trica que proporciona el promedio de la diferencia absoluta, lo que la hace menos sensible a valores at�picos. Esto permite evaluar la precisi�n de los modelos en el contexto de la identificaci�n de palabras complejas, ya que ofrece una mejor comprensi�n del error promedio de las predicciones sobre la complejidad l�xica.
Con el objetivo de entender la diferencia del MAE entre los modelos, se calcul� la diferencia porcentual utilizando la Ecuaci�n 5 Diferencia porcentual. Sabiendo que el modelo GPT-4 tuvo un MAE de 0.24641, el GPT-4 Turbo un MAE de 0.254051 y el GPT-4o un MAE de 0.259385, se obtuvieron los siguientes resultados:
Entre GPT-4 y GPT-4 Turbo:
Entre GPT-4 y GPT-4o:
Como resultado, se observa que el incremento porcentual en el MAE entre los modelos GPT-4 y GPT-4 Turbo es de aproximadamente 3.10%, mientras que entre los modelos GPT-4 y GPT-4o es de 5.27%. Esto indica que el GPT-4 realiza predicciones m�s precisas en promedio en la identificaci�n de palabras complejas en comparaci�n con el GPT-4 Turbo. En el caso del GPT-4o, la diferencia en precisi�n es m�s notable, lo que podr�a sugerir mejoras o variaciones en su entrenamiento. En resumen, tanto el GPT-4 Turbo como el GPT-4o tienen un MAE mayor que el GPT-4, pero con incrementos relativamente peque�os, siendo el GPT-4o el que presenta el mayor incremento.
Con respecto al MSE, (Tatachar, 2021) menciona que esta m�trica representa la diferencia al cuadrado entre los valores reales y los predichos. Es decir, el MSE indica cu�n cerca est� la l�nea de mejor ajuste de un conjunto de puntos. En este caso, el GPT-4 tiene un valor de 0.088819, el GPT-4 Turbo de 0.091523 y el GPT-4o de 0.096301, con diferencias porcentuales de:
Entre GPT-4 y GPT-4 Turbo:
Entre GPT-4 y GPT-4o:
Esto indica que la diferencia entre los valores reales y los predichos entre los modelos GPT-4 y GPT-4 Turbo es del 3.21%, mientras que entre los modelos GPT-4 y GPT-4o es del 8.43%. Esto significa que el MAE del GPT-4 Turbo es un 3.04% mayor que el del GPT-4, y el MAE del GPT-4o es un 8.13% mayor que el del GPT-4. En otras palabras, el GPT-4 tiene un rendimiento ligeramente superior en t�rminos de precisi�n y un ajuste m�s cercano a los valores reales en comparaci�n con el GPT-4o y el GPT-4 Turbo.
Para el caso con el RMSE, seg�n el autor (Hodson, 2022) tomar la ra�z no afecta los rangos relativos de los modelos, pero produce una m�trica con las mismas unidades que (y), lo que representa convenientemente el error t�pico o est�ndar para errores distribuidos normalmente. En este contexto, el modelo GPT-4 tiene un RMSE de 0.298025, el GPT-4 Turbo de 0.302527 y el GPT-4o de 0.310325, con diferencias porcentuales de:
Entre GPT-4 y GPT-4 Turbo:
Entre GPT-4 y GPT-4o:
La diferencia porcentual entre los modelos GPT-4 y GPT-4 Turbo es del 1.51%, lo que indica que el GPT-4 tiene un rendimiento ligeramente superior al del GPT-4 Turbo. Por otro lado, la diferencia entre el GPT-4 y el GPT-4o es del 4.13%, lo que sugiere que el GPT-4o realiza predicciones menos precisas en comparaci�n con el GPT-4. Seg�n (Reyes, 2024) el R� mide la proporci�n de varianza explicada por las variables independientes en un sentido estad�stico. Sin embargo, esta medida no refleja necesariamente la importancia de las variables en el modelo. Un R� de 1.00 no implica que se haya encontrado una explicaci�n v�lida para el fen�meno estudiado. En este caso, el modelo GPT-4 tiene un valor de R� de -0.593562, el GPT-4 Turbo de -0.64207 y el GPT-4o de -0.727808, con diferencias porcentuales de:
Entre GPT-4 y GPT-4 Turbo:
Entre GPT-4 y GPT-4o:
Los valores en ambas comparaciones sugieren que los modelos tienen predicciones deficientes y, aunque no est�n ajustando bien los datos, el modelo GPT-4 Turbo es un 8.18% peor en t�rminos de ajuste en comparaci�n con el modelo GPT-4. Adem�s, la diferencia del 22.61% indica que el GPT-4o tiene un rendimiento significativamente inferior al del GPT-4. Por �ltimo, en cuanto a la coincidencia entre los modelos, el GPT-4o presenta un 53.44%, lo que sugiere que tiene una mayor precisi�n en sus predicciones en comparaci�n con el GPT-4 y el GPT-4 Turbo. Esto indica que el GPT-4o es ligeramente m�s preciso al predecir valores cercanos a los reales en relaci�n con los otros dos modelos.
Evaluaci�n del porcentaje de coincidencia
En cuanto a los resultados de porcentaje de coincidencias entre los modelos GPT-4, GPT-4 Turbo y GPT-4o con few-shot learning, se presentan en el siguiente gr�fico donde se puede visualizar el resultado de cada ejecuci�n:
Figura 2
Porcentaje de coincidencias de los modelos
Nota: Resultados de los porcentajes de coincidencias de las ejecuciones realizadas en el modelo GPT-4 y sus sucesores, utilizando la t�cnica de few-shot learning
Como se puede visualizar en el gr�fico anterior, GPT-4o utilizando few-shot learning es el modelo con m�s coincidencias con el corpus a diferencia de los otros modelos, con el 53.44% de coincidencias. Aunque las otras ejecuciones no est�n tan alejadas de este resultado, presentan un desempe�o ligeramente inferior, seguido de GPT-4 Turbo que alcanz� un 51.67% de coincidencias, mientras que GPT-4 tiene el porcentaje de coincidencias m�s bajo con 37.59% de coincidencias.
Rendimiento de los modelos en funci�n del MAE
Figura 3
Rendimiento de los modelos en funci�n del MAE
Nota: Resultados del rendimiento del modelo GPT-4 y sus sucesores en funci�n al MAE con la t�cnica de few-shot learning
Con respecto al rendimiento de los modelos en funci�n del MAE, el modelo GPT-4_few_shot (0.2464) presenta el MAE m�s bajo, lo que indica una mayor precisi�n en la predicci�n de la complejidad l�xica. El modelo GPT-4Turbo_few_shot, con un MAE de 0.2540, se sit�a en un punto intermedio, superando al GPT-4o_few_shot (0.2593) pero sin alcanzar la precisi�n del GPT-4. Esto sugiere que, aunque el modelo Turbo tiene un desempe�o aceptable, a�n no iguala al GPT-4 en t�rminos de exactitud. Por otro lado, el GPT-4o_few_shot, con el MAE m�s alto, muestra un rendimiento inferior, evidenciando que la t�cnica few-shot learing no siempre garantiza mejoras en la precisi�n.
En resumen, los resultados se pueden sintetizar de la siguiente manera:
� Mejor modelo en precisi�n (MAE): GPT-4_few_shot (MAE: 0.2464).
� Mejor modelo en coincidencia: GPT-4o_few_shot (53.44%).
� Peor modelo en precisi�n (MAE): GPT-4o_few_shot (MAE: 0.2593).
� Peor modelo en ajuste (R�): GPT-4o_few_shot (R�: -0.7278).
Aunque el GPT-4_few_shot es el m�s preciso seg�n el MAE, el GPT-4o_few_shot destaca en coincidencia, lo que sugiere un mayor acierto en sus predicciones. Sin embargo, todos los modelos presentan un R� negativo, indicando una mala explicaci�n de la variabilidad de los datos y posible sobreajuste.
Conclusiones
Se observa una diferencia significativa en el desempe�o de los modelos GPT-4, GPT-4o y GPT-4 Turbo al aplicar la t�cnica de few-shot learning, siendo el modelo GPT-4 el que presenta el mayor porcentaje de coincidencias con el corpus de referencia. En t�rminos del error absoluto medio (Mean Absolute Error, MAE), los resultados indican que el modelo GPT-4 con few-shot learning obtuvo el MAE m�s bajo (0.2464), lo que sugiere que sus predicciones son m�s cercanas a los valores reales en comparaci�n con los dem�s modelos evaluados. Estos hallazgos evidencian que la t�cnica few-shot learning mejora significativamente la precisi�n de los modelos en la tarea de predicci�n de complejidad l�xica.
Finalmente, si bien el desarrollo de una herramienta basada en GPT-4 para la simplificaci�n de documentos p�blicos resulta viable, su implementaci�n efectiva requiere la combinaci�n de modelos de IA con revisi�n humana. Este enfoque h�brido es fundamental para garantizar que la informaci�n generada sea accesible sin comprometer su precisi�n y relevancia.
Recomendaciones
Realizar ejecuciones variando el prompt original para explorar c�mo estas modificaciones afectan el rendimiento de los modelos. Esto permitir� identificar qu� formulaciones generan mejores resultados en t�rminos de coincidencia y precisi�n.
Continuar evaluando el rendimiento de los modelos sucesores actuales de GPT en relaci�n con la complejidad l�xica de textos provenientes de instituciones p�blicas. Comparar estos resultados con textos de otros dominios para obtener una visi�n m�s amplia de su desempe�o.
Finalmente, se recomienda ejecutar el corpus con otros modelos basados en la misma arquitectura Transformer. Esto facilitar� el an�lisis del comportamiento de diferentes LLMs (Large Language Models) y permitir� identificar caracter�sticas que puedan mejorar la precisi�n y la relevancia de las predicciones.
Referencias
1. Bono Cabr�, R. (2012). Dise�os cuasi-experimentales y longitudinales. OMADO (Objectes i MAterials DOcents). https://diposit.ub.edu/dspace/handle/2445/30783
2. Chicco, D., Warrens, M. J., & Jurman, G. (2021). The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation. PeerJ Computer Science, 7, 1�24. https://doi.org/10.7717/PEERJ-CS.623
3. Emanuel, Y., Solis, C., & Rivas, H. H. (2024). Comparison of machine learning algorithms for natural language processing (Vol. 11). https://orcid.org/0000-0002-2650-8932
4. God�nez L�pez, E. M., & Rosas-Mayen, N. (2024a). Producci�n Escrita en Espa�ol L2: Influencia de la Autoeficacia y el Perfil Ling��stico en la Complejidad Textual. Revista Veritas de Difus�o Cient�fica, 5(3), 1263�1287. https://doi.org/10.61616/rvdc.v5i3.267
5. God�nez L�pez, E. M., & Rosas-Mayen, N. (2024b). Producci�n Escrita en Espa�ol L2: Influencia de la Autoeficacia y el Perfil Ling��stico en la Complejidad Textual. Revista Veritas de Difus�o Cient�fica, 5(3), 1263�1287. https://doi.org/10.61616/rvdc.v5i3.267
6. Hodson, T. O. (2022). Root-mean-square error (RMSE) or mean absolute error (MAE): when to use them or not. In Geoscientific Model Development (Vol. 15, Issue 14, pp. 5481�5487). Copernicus GmbH. https://doi.org/10.5194/gmd-15-5481-2022
7. LOTAIP. (2004). LEY ORGANICA DE TRANSPARENCIA Y ACCESO A LA INFORMACION PUBLICA. 2004. https://www.educacionsuperior.gob.ec/wp-content/uploads/downloads/2014/09/LOTAIP.pdf
8. Ortiz Zambrano, J., MontejoR�ez, A., Lino Castillo, K. N., Gonzalez Mendoza, O. R., & Ca�izales Perdomo, B. C. (2020). VYTEDU-CW: Difficult Words as a Barrier in the Reading Comprehension of University Students. Advances in Intelligent Systems and Computing, 1066, 167�176. https://doi.org/10.1007/978-3-030-32022-5_16
9. Ortiz-Zambrano, J. A., Esp�n-Riofr�o, C. H., & Montejo-R�ez, A. (2024). Deep Encodings vs. Linguistic Features in Lexical Complexity Prediction. Neural Computing and Applications. https://doi.org/10.1007/s00521-024-10662-9
10. Ortiz-Zambrano, J. A., & Montejo-R�ez, A. (2020). Overview of ALexS 2020: First Workshop on Lexical Analysis at SEPLN. https://www.ujaen.es/
11. Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-R�ez, A. (2022). Transformers for Lexical Complexity Prediction in Spanish Language. Procesamiento Del Lenguaje Natural, 69, 177�188. https://doi.org/10.26342/2022-69-15
12. Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-R�ez, A. (2023). SINAI Participation in SimpleText Task 2 at CLEF 2023: GPT-3 in Lexical Complexity Prediction for General Audience Notebook for the SimpleText Lab at CLEF 2023. http://ceur-ws.org
13. Ortiz-Zambrano, J., Espin-Riofrio, C., & Montejo-R�ez, A. (2024). SINAI Participation in SimpleText Task 2 at CLEF 2024: Zero-shot Prompting on GPT-4-Turbo for Lexical Complexity Prediction Notebook for the SimpleText Lab at CLEF 2024. https://openai.com/
14. Ortiz-Zambrano, J., & Montejo-R�ez, A. (2021). SINAI at SemEval-2021 Task 1: Complex word identification using Word-level features. https://pypi.
15. Prada, V., Santiago, D., Martinez, L., & Enrique, F. (2025). Optimizaci�n de la evaluaci�n acad�mica mediante procesamiento de lenguaje natural: desarrollo de un sistema de calificaci�n autom�tica para textos en educaci�n superior.
16. Reyes, S. (2024). Aplicaci�n de la espectroscop�a NIR y herramientas Quimiom�tricas para la determinaci�n de componentes qu�micos del caf� verde especial producido en la provincia de Charqu�, Panam�.
17. Roque L�pez Ver�nica Montserrat. (2024). Estudios multidisciplinarios: Transparencia y esquemas anticorrupci�n.
18. Salgado Reyes, N. I., & Elizabeth Trujillo Moreno, G. I. (2024). Sentiment Analysis in Social Network Data: Application of natural language processing and machine learning techniques to analyze opinions and feelings in social network data in the context of information systems. N�m. 1. Enero-Marzo, 10, 314�327. https://doi.org/10.23857/dc.v10i1.3714
19. Taboada Villamar�n, A. (2024). Big data en ciencias sociales. Una introducci�n a la automatizaci�n de an�lisis de datos de texto mediante procesamiento de lenguaje natural y aprendizaje autom�tico. Revista CENTRA de Ciencias Sociales, 3(1). https://doi.org/10.54790/rccs.51
20. Tatachar, A. V. (2021). Comparative Assessment of Regression Models Based On Model Evaluation Metrics. International Research Journal of Engineering and Technology. www.irjet.net
� 2025 por los autores. Este art�culo es de acceso abierto y distribuido seg�n los t�rminos y condiciones de la licencia Creative Commons Atribuci�n-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
(https://creativecommons.org/licenses/by-nc-sa/4.0/).
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/