Identificando cambios de autor en un texto mediante codificacin de embeddings de tokens iniciales de las capas de atencin.

 

Identifying author changes in a text by encoding embeddings of initial tokens from the attention layers.

 

Identificar alteraes de autor em um texto codificando incorporaes de tokens iniciais das camadas de ateno.

Csar Espn-Riofrio I
cesar.espinr@ug.edu.ec
https://orcid.org/0000-0001-8864-756X
,Fernando Alvear-Ferrn II
fernando.alvearf@ug.edu.ec
https://orcid.org/0009-0009-4813-2532
Bolvar Pazmio-Bermdez III
bolivar.pazminob@ug.edu.ec
https://orcid.org/0009-0008-3102-1740
,Tania Peralta-Guaraca IV
tania.peraltag@ug.edu.ec
https://orcid.org/0000-0002-4879-6824
Roco Carchi-Encalada V
rocio.carchie@ug.edu.ec  
https://orcid.org/0009-0009-6343-2939
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

Correspondencia: https://orcid.org/0000-0001-8864-756X

 

Ciencias de la Computacin

Artculo de Investigacin

* Recibido: 23 de junio de 2023 *Aceptado: 12 de julio de 2023 * Publicado: 30 de agosto de 2023

 

  1. Magister, Universidad de Guayaquil, Ecuador
  2. Universidad de Guayaquil, Ecuador
  3. Universidad de Guayaquil, Ecuador
  4. Magister, Universidad de Guayaquil, Ecuador
  5. Mster, Universidad de Guayaquil, Ecuador

Resumen

La determinacin de autora es una herramienta esencial en la deteccin de plagio y atribucin errnea de autor en diversas reas. En este trabajo, se aborda la problemtica de determinar cambios de autor en un texto. Tradicionalmente, muchas investigaciones utilizan la salida final de codificacin de las capas de atencin en tareas de clasificacin de textos. Proponemos extraer los embeddings de codificacin de los tokens iniciales de las capas de atencin de modelos Transformer pre entrenados basados en BERT, aplicando aprendizaje por transferencia para realizar un ajuste fino del modelo y luego proceder a la prediccin. Los modelos mDeBERTa y DeBERTa se seleccionan para la experimentacin. El enfoque se valida utilizando un dataset de las campaas PAN 2023 para determinar cambios de autor, que contiene pares de textos en ingls de distintos dominios. Este estudio tiene una importancia significativa en diversas disciplinas que requieran la verificacin de autora. Si bien los resultados obtenidos no fueron los esperados, el mtodo propuesto es un prometedor punto de partida para futuras investigaciones sobre el tema.

Palabras Clave: Cambios de autor; Procesamiento de Lenguaje Natural; Modelos Transformers; Embeddings de tokens iniciales.

 

Abstract

The determination of authorship is an essential tool in the detection of plagiarism and erroneous author attribution in various areas. In this paper, the problem of determining author changes in a text is addressed. Traditionally, many investigations use the final encoding output of attentional layers in text classification tasks. We propose to extract the encoding embeddings of the initial tokens from the attention layers of pre-trained BERT-based Transformer models, applying transfer learning to fine tune the model and then proceed to prediction. The mDeBERTa and DeBERTa models are selected for experimentation. The approach is validated using a dataset from the PAN 2023 campaigns to determine author changes, which contains pairs of texts in English from different domains. This study has significant importance in various disciplines that require verification of authorship. Although the results obtained were not as expected, the proposed method is a promising starting point for future research on the subject.

Keywords: Author changes; Natural Language Processing; Transformer models; Initial token embeddings.

 

Resumo

A determinao da autoria uma ferramenta essencial na deteco de plgio e atribuio errnea de autores em diversas reas. Neste artigo, abordado o problema de determinar mudanas de autor em um texto. Tradicionalmente, muitas investigaes utilizam a sada final de codificao de camadas de ateno em tarefas de classificao de texto. Propomos extrair os embeddings de codificao dos tokens iniciais das camadas de ateno de modelos Transformer pr-treinados baseados em BERT, aplicando aprendizagem de transferncia para ajustar o modelo e ento prosseguir para a previso. Os modelos mDeBERTa e DeBERTa so selecionados para experimentao. A abordagem validada utilizando um conjunto de dados das campanhas PAN 2023 para determinar mudanas de autor, que contm pares de textos em ingls de diferentes domnios. Este estudo tem importncia significativa em diversas disciplinas que exigem verificao de autoria. Embora os resultados obtidos no tenham sido os esperados, o mtodo proposto um ponto de partida promissor para futuras pesquisas sobre o tema.

Palavras-chave: Mudanas de autor; Processamento de linguagem natural; Modelos de transformadores; Incorporaes de token iniciais.

Introduccin

En la era digital, con la proliferacin de informacin en lnea, la atribucin de autora se ha vuelto un campo de relevancia para la deteccin de cambio de autores, la desinformacin y el contenido generado automticamente. Esto lo hace una herramienta clave para verificar la autenticidad de la informacin y protegerse contra la manipulacin y fraude, lo que da relevancia al presente artculo que se enfoca en la verificacin de autora de textos de diferentes tipos usando modelos de lenguaje basados en Transformers.

El Procesamiento del Lenguaje Natural (PLN) se encuentra inmerso en el reconocimiento de discursos, entendimiento del lenguaje, establece como objetivo principal que las computadoras entiendan el lenguaje y lo procesen de la misma forma que los humanos (Beltrn & Rodrguez Mojica, 2021).

La verificacin de autora ha tomado mucho poder, a travs de esta es posible determinar si un texto pertenece a un autor, han disminuido las formas de plagio, y tambin se ha aplicado en otras reas como la seguridad ya que es posible detectar y obtener informacin de personas que expresan violencia u odio en Internet. La verificacin de autora aplica diversas tcnicas y mtodos para determinar a qu autor pertenece un texto, recoge las caractersticas de estos autores, su eleccin de palabras, su forma de escribir oraciones, la aplicacin de signos de puntuacin. La clasificacin de textos se basa en insertar de manera correcta a un texto dentro de una categora, bajo las diversas caractersticas que presente. (Minaee et al., 2021).

Existen varios estudios que abordan la deteccin de cambio de autor usando diversas tcnicas de clasificacin, entre los cuales podemos destacar a (Barlas & Stamatatos, 2020) donde proponen verificar cambio de autora en un texto utilizando Multi Neural Network (MNN) combinado con modelos pre entrenados BERT, ELMo, ULMFiT y GPT-2, donde los resultados demuestran que BERT y ELMo contienen los enfoques ms estables. (Fabien et al., n.d.) para la identificacin de autor proponen utilizar el modelo BertAA, el cual es basado en el modelo BERT y que contiene un ajuste fino aadiendo la aplicacin de rasgos estilomtricos, donde analizan 3 conjuntos de datos mediante los cuales se analizar el rendimiento del modelo. Los resultados demuestran que BertAA es til para resolver este tipo de tareas donde mejora la precisin aadiendo las caractersticas estilomtricas. (Avram, 2023) para la identificacin de cambio autora, us un modelo Transformer basado en BERT, en un dataset en lengua rumana a pesar de que se encontraba desbalanceado porque eran textos de pocas distintas y el nmero de autores desigual, se presentaron resultados favorables aplicando los mtodos Support Vector Machine (SVM), Decision Trees (DT), Multi Expression Programming (MEP), Artificial Neural Networks (ANN) y k-Nearest Neighbour, donde luego de evaluar al modelo BERT present un 85.9% de precisin en las mtricas usadas.

El concepto de Transformer se hace presente en 2017 por medio del artculo Attention Is All You Need (Vaswani et al., 2017), este se basa en un mecanismo de atencin conectando la entrada y salida de una red neuronal de manera que el desempeo y rendimiento sea mejor (Beltrn & Rodrguez Mojica, 2021).

A finales del 2018 los cientficos del laboratorio del lenguaje de IA de Google presentaron un modelo lingstico BERT (Bidirectional Encoder Representations from Transformers) (Devlin et al., 2018), su propsito es permitir un aprendizaje profundo representado de forma bidireccional para ser usado en los modelos de aprendizaje automtico. BERT presenta 2 arquitecturas: BERT-base y BERT-large, el primero cuenta con 12 bloques codificadores y cada uno tiene 12 capas de atencin y 768 capas ocultas, el segundo posee 24 bloques codificadores con 16 capas de atencin cada uno y 1024 capas ocultas. Dentro de estas capas BERT posee una jerarqua de informacin lingstica, en las capas inferiores tiene rasgos superficiales, en las capas intermedias rasgos sintcticos y en las capas superiores rasgos semnticos (Singh, 2022). El modelo DeBERTa (Decoding-enhanced BERT with disentangled attention) cuenta con un mecanismo de atencin desarrollado y un decodificador mejorado esto lo hace ms eficiente al momento de entrenar. El modelo mDeBERTa es una versin multilinge del anterior, este cuenta con 12 capas que permite insertar 190M de parmetros en las capas de embedding (Xia et al., n.d.)

El enfoque propuesto en la presente investigacin involucra la obtencin de los tokens iniciales de informacin de capas de atencin en modelos basados en BERT, es una alternativa distinta y poco investigada a los mtodos actuales de verificacin de autora. La utilizacin de la informacin de capas de atencin de BERT puede potenciar a mejorar la precisin de la verificacin de autora y permitir la verificacin de textos de diferentes tipos de discurso. Los resultados podran tener un impacto positivo en campos como el forense digital, la literatura y la seguridad de la informacin, y podran ser utilizados por organizaciones gubernamentales, empresas y entidades acadmicas para mejorar la autenticidad y la integridad de la informacin.

 

Mtodo

Este trabajo est sustentado por medio de una investigacin bibliogrfica, indicada para el anlisis de distintos artculos cientficos de alta relevancia que permitieron conocer el estado del arte y a su vez los diversos mtodos empleados en investigaciones similares. Se hace uso de una metodologa experimental dentro de la cual se realizan pruebas en la extraccin de los embeddings de los tokens iniciales usando modelos Transformers basados en BERT. Empleando adems el mtodo cuantitativo que por medio de diversas mtricas evala el rendimiento del modelo planteado dentro de sus dos etapas, la de entrenamiento y la de prueba.

En figura 1 se plantea el mtodo propuesto y sus etapas, donde el dataset de entrenamiento pasa por un pre procesamiento de los datos y extraccin de embeddings iniciales en todos los modelos pre entrenados, por otra parte, el dataset de pruebas se tokeniza y de esa forma ambos datasets quedan listo para el entrenamiento y ajuste. Una vez entrenado el modelo es guardado y llamado para realizar las predicciones y posterior evaluacin de rendimiento.

Figura 1 Mtodo implementado en la investigacin

 

Dataset

El dataset utilizado corresponde a una de las campaas PAN 2023 de CLEF para determinar cambios de autor. Se encuentra compuesto por correos, ensayos, entrevistas y transcripciones de discursos en idioma ingls, donde su nivel de formalidad vara entre los distintos tipos de texto. Cuenta con 8836 pares de datos que contienen dos textos de dominio distintos, como se muestra en la tabla 1.

 

Tabla 1

Cantidad de muestra de los dataset

Dataset

Cantidad de Muestras

Valores

Entrenamiento

[interview, email]:

[essay, email]:

[email, speech_transcription]:

[essay, interview]:

[speech_transcription, interview]:

[essay, speech_transcription]:

Total:

4564

1454

1036

884

642

256

8836

 

El dataset tiene un campo que nos indica si el texto fue escrito o no por el mismo autor. Con el valor True indica que el texto es escrito por el mismo autor, por otra parte, el valor False determina que el texto no es escrito por el mismo autor.

 

Figura 2 Muestra del dataset de origen.

Pre procesamiento de datos

Al tener valores True" y "False", se dificulta el entrenamiento del modelo, para ello lo codificamos para que los valores sean 1 y 0 respectivamente para la correcta comprensin del algoritmo, como se puede apreciar en la siguiente figura 3. Por lo tanto, si el valor es 1 significa que el texto tiene el mismo autor, por el contrario, si el valor es 0 significa que el autor no es el mismo, es decir existe un cambio de autor.

 

Figura 3 Datos preprocesados.

Tokenizacin

Se debe implementar los tokenizadores adecuados para cada modelo ya que estos necesitan procesar la informacin de manera numrica. La cantidad mxima de tokens con la que trabajan los modelos son 512, se realiza una segmentacin de datos para evitar la prdida de informacin y se los concatena para conservar la misma cantidad de registros.

 

 

 

Tabla 2

Tokenizadores utilizados

Modelo

Tokenizador

BERT

BertTokenizer

DeBERTa

DebertaTokenizer

mDeBERTa

AutoTokenizer

 

Hiperparmetros

Los hiperparmetros determinados para el entrenamiento del modelo son: funcin de activacin, learning rate, batch size y dropout. Mediante la librera Optuna se realizaron diversas pruebas para obtener los mejores hiperparmetros en base a distintos valores o rangos propuestos.

 

Tabla 3

Valores para optimizar los Hiperparmetros

Hiperparmetro

Rango

Funcin de activacin

Tanh, ReLU, GELU

Learning rate

3e-5 5e-5

Dropout

0.2 0.5

Epoch

1 5

Batch size

8, 16

 

Para potenciar la determinacin de hiperparmetros, usamos la caracterstica EarlyStopping la cual permite hacer una parada temprana cuando se alcanzan los criterios de maximizacin definidos y no se tienen variaciones relevantes en las diversas ejecuciones que realiza Optuna. Para la presente investigacin, se define la parada temprana para que tome accin si en las ltimas 4 ejecuciones no existen variaciones en los resultados de la variable a maximizar F1. Con esto podemos lograr tener ejecuciones ms giles y evitar realizar intentos innecesarios que pueden aumentar el tiempo de ejecucin y uso de recursos.

 

 

 

Tabla 4

Mejores hiperparmetros obtenidos Optuna

modelo

Funcin

activacin

Learning rate

Dropout

Epoch

Batch size

BERT

GELU

3.8e-5

0.2313

3

8

DeBERTa

Tanh

3e-5

0.2169

2

8

mDeBERTa

Tanh

4e-5

0.3303

3

16

 

 

Ajuste y entrenamiento del modelo

A los modelos base pre entrenados se les realiza un ajuste fino (fine tuning) aadiendo 2 dos funciones lineales, dropout, la funcin de activacin y la funcin CrossEntropyLoss que calcula la prdida durante el entrenamiento.

A computer screen with text and images

Description automatically generated

Figura 4 Ajuste fino de los modelos preentrenados.

 

Para el entrenamiento de los modelos por medio del dataset para entrenamiento, se aplican los mejores hiperparmetros capturados en la ejecucin de Optuna para potenciar el entrenamiento y precisin en las mtricas de evaluacin.

Figura 5 Entrenamiento de los modelos.

 

Prediccin

Una vez llamado el modelo, tokenizado el dataset de prueba con el tokenizer del modelo entrenado para ser usado como entrada, se ejecuta el mtodo model.predict() cargado para realizar predicciones y poder realizar evaluaciones de rendimiento.

.

Resultados

Para evaluar los modelos tomamos las mtricas F1, accuracy, Brier y la matriz de confusin. Donde el F1 demuestra qu tan preciso son los resultados de las predicciones, Brier detalla los valores de prdida que existan en los resultados, el accuracy va a medir la exactitud de los algoritmos y la matriz de confusin es la encargada de determinar la cantidad de predicciones correctas e incorrectas. Luego de obtener las predicciones y mtricas de evaluacin para ambos modelos, se procede a realizar el anlisis y la valoracin de los diversos resultados para evaluacin de entrenamiento y prediccin del modelo. Tabla 5 muestra la evaluacin durante el entrenamiento.

 

Tabla 5

Mtricas de evaluacin en entrenamiento de los modelos

Modelo

Accuracy

F1

Brier

Precision

BERT

0.5253

0.5252

0.5253

0.5254

mDeBERTa

0.5099

0.3377

0.5099

0.2549

DeBERTa

0.5173

0.51731

0.5173

0.5175

Aunque los resultados obtenidos no han sido los esperados, se analiza mediante el Accuracy que los valores obtenidos para determinar el mejor rendimiento en entrenamiento, se puede evidenciar que los modelos BERT y DeBERTa tienen las mejores marcas con un accuracy de 52.53% y 51.73% respectivamente en la determinacin de autora de textos en idioma ingls, mientras que mDeBERTa siendo el menos efectivo obtuvo un 50.99%.

Una vez finalizada la etapa de entrenamiento, se realizan pruebas de prediccin con el dataset de prueba con los cuales obtuvimos el siguiente rendimiento:

 

Tabla 6

Mtricas de evaluacin en prediccin de los modelos

Modelo

Accuracy

F1

Brier

Precision

Tiempo

BERT

0.5173

0.5173

0.5173

0.5174

02:43h

mDeBERTa

0.4984

0.3326

0.4985

0.2492

01:44h

DeBERTa

0.5203

0.5202

0.5204

0.5203

03:20h

 

Por medio de la evaluacin F1 se determina el modelo ms preciso en las predicciones para determinar cambio de autor en un texto. Los modelos BERT y DeBERTa obtuvieron las mejores marcas con 51.73% y 52.02% respectivamente. La mtrica Brier muestra el porcentaje de prdida, al obtener una puntuacin menor indica que tan bueno es el rendimiento del modelo en evitar prdida de informacin en la prediccin, en este caso, el modelo mDeBERTa tiene un mejor rendimiento en porcentaje menor de prdida a comparacin con BERT y DeBERTa. Dentro de los resultados se debe tomar en cuenta el tiempo que le toma a los modelos entrenar y predecir, como se aprecia en la tabla, al modelo mDeBERTa le tom menos la ejecucin de las predicciones, sin embargo, fue el modelo ms impreciso en la determinacin de cambio de autor segn el resto de las mtricas. Como adicional, se muestra la matriz de confusin de los modelos, la cual detalla la informacin expuesta en la tabla anterior acorde a las predicciones realizadas, mostrando de manera grfica los resultados verdaderos positivos y verdaderos negativos.

Figura 6 Matrices de confusin de la prediccin

 

Discusin

Con base a las mtricas de evaluacin seleccionadas para el presente trabajo, se realiza una comparacin de los resultados obtenidos para determinar el desempeo de cada uno, demostrando que BERT tuvo un rendimiento del 51.73% mientras que DeBERTa obtuvo un 52.03% y por ltimo mDeBERTa con un 33.26% en la prediccin de cambio de autor en un texto, por otro lado, este ltimo modelo muestra un tiempo de ejecucin de 01:44h y valor de prdida del 49.84%, ambos valores menores que los obtenidos en los modelos BERT y DeBERTa.

El dataset utilizado cuenta con 8836 datos los cuales tienen entradas con textos largos que superan los 512 tokens admitidos por los modelos utilizados, lo que puede afectar el tratamiento de la data, el rendimiento del entrenamiento y la prediccin de los valores, a lo que se sugiere utilizar mtodos apropiados para el tratamiento de textos largos.

La extraccin de embeddings de los tokens iniciales de las capas de atencin es un enfoque novedoso y poco implementado al momento de determinar el cambio de autor en un texto, este enfoque puede llegar a tener efectividad en este tipo de tareas, debido a que se extrae la caractersticas semnticas y sintcticas de los textos que pueden ayudar al aprendizaje del modelo.

Conclusiones

Para esta investigacin se plante un mtodo de aprendizaje automtico que permita determinar el cambio de autor en un texto mediante la codificacin de capas de atencin de modelos basados en BERT, donde se demuestra que los modelos BERT y DeBERTa logran rendimientos similares en cuanto a la prediccin de cambio de autor en textos de idioma ingls, teniendo una ligera ventaja en el modelo DeBERTa con un 52.03% evidenciando as que las experimentaciones realizadas siembran una base interesante para el tipo de tarea elegido con el enfoque de extraccin de embeddings de tokens iniciales en las capas de atencin.

Para trabajos futuros se recomienda experimentar con otros modelos y diferentes mtodos para la identificacin de autor como la extraccin de caractersticas estilomtricas de los textos con la finalidad de obtener un mejor rendimiento de los modelos.

Si bien los resultados no fueron los esperados en la determinacin de cambio de autor en un texto, el mtodo propuesto de extraer la informacin sintctica y semntica de los embbedings iniciales de las capas de atencin, abre paso a nuevas investigaciones que puedan adoptar el enfoque a la determinacin de cambio de autor en un texto.

 

Referencias

Avram, S.-M. (2023). BERT-based Authorship Attribution on the Romanian Dataset called ROST. January, 118. http://arxiv.org/abs/2301.12500

Barlas, G., & Stamatatos, E. (2020). Cross-domain authorship attribution using pre-trained language models. IFIP Advances in Information and Communication Technology, 583 IFIP, 255266. https://doi.org/10.1007/978-3-030-49161-1_22/FIGURES/2

Beltrn, N. C., & Rodrguez Mojica, E. C. (2021). Procesamiento del lenguaje natural (PLN) - GPT-3.: Aplicacin en la Ingeniera de Software. Tecnologa Investigacin y Academia, 8(1), 1837. https://revistas.udistrital.edu.co/index.php/tia/article/view/17323

Devlin, J., Chang, M.-W., Lee, K., Google, K. T., & Language, A. I. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Naacl-Hlt 2019, Mlm, 41714186.

Fabien, M., Villatoro-Tello, E., Motlicek, P., & Parida, S. (n.d.). BertAA: BERT fine-tuning for Authorship Attribution. 127137.

Minaee, S., Kalchbrenner, N., Cambria, E., Nikzad, N., Chenaghlu, M., & Gao, J. (2021). Deep Learning-Based Text Classification. ACM Computing Surveys, 54(3). https://doi.org/10.1145/3439726

Singh, R. (2022). Utilizing Transformer Representations Efficiently | Kaggle. https://www.kaggle.com/code/rhtsingh/utilizing-transformer-representations-efficiently/notebook

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-Decem(Nips), 59996009.

Xia, F., Li, B., Weng, Y., He, S., Sun, B., Li, S., Liu, K., & Zhao, J. (n.d.). LingJing at SemEval-2022 Task 3: Applying DeBERTa to Lexical-level Presupposed Relation Taxonomy with Knowledge Transfer. 239246. Retrieved June 12, 2023, from https://sites.google.com/view/semeval2022-pretens/

 

 

 

 

 

 

 

 

 

 

2023 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/