Identificando cambios de autor en un texto mediante codificación de embeddings de tokens iniciales de las capas de atención.

César Espín Riofrio, Fernando Alvear Ferrín, Bolívar Pazmiño Bermúdez, Tania Peralta Guaraca, Rocío Carchi Encalada Carchi Encalada

Resumen


La determinación de autoría es una herramienta esencial en la detección de plagio y atribución errónea de autor en diversas áreas. En este trabajo, se aborda la problemática de determinar cambios de autor en un texto.  Tradicionalmente, muchas investigaciones utilizan la salida final de codificación de las capas de atención en tareas de clasificación de textos. Proponemos extraer los embeddings de codificación de los tokens iniciales de las capas de atención de modelos Transformer pre entrenados basados en BERT, aplicando aprendizaje por transferencia para realizar un ajuste fino del modelo y luego proceder a la predicción. Los modelos mDeBERTa y DeBERTa se seleccionan para la experimentación. El enfoque se valida utilizando un dataset de las campañas PAN 2023 para determinar cambios de autor, que contiene pares de textos en inglés de distintos dominios. Este estudio tiene una importancia significativa en diversas disciplinas que requieran la verificación de autoría. Si bien los resultados obtenidos no fueron los esperados, el método propuesto es un prometedor punto de partida para futuras investigaciones sobre el tema.


Palabras clave


Cambios de autor; Procesamiento de Lenguaje Natural; Modelos Transformers; Embeddings de tokens iniciales.

Texto completo:

PDF HTML

Referencias


Avram, S.-M. (2023). BERT-based Authorship Attribution on the Romanian Dataset called ROST. January, 1–18. http://arxiv.org/abs/2301.12500

Barlas, G., & Stamatatos, E. (2020). Cross-domain authorship attribution using pre-trained language models. IFIP Advances in Information and Communication Technology, 583 IFIP, 255–266. https://doi.org/10.1007/978-3-030-49161-1_22/FIGURES/2

Beltrán, N. C., & Rodríguez Mojica, E. C. (2021). Procesamiento del lenguaje natural (PLN) - GPT-3.: Aplicación en la Ingeniería de Software. Tecnología Investigación y Academia, 8(1), 18–37. https://revistas.udistrital.edu.co/index.php/tia/article/view/17323

Devlin, J., Chang, M.-W., Lee, K., Google, K. T., & Language, A. I. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Naacl-Hlt 2019, Mlm, 4171–4186.

Fabien, M., Villatoro-Tello, E., Motlicek, P., & Parida, S. (n.d.). BertAA: BERT fine-tuning for Authorship Attribution. 127–137.

Minaee, S., Kalchbrenner, N., Cambria, E., Nikzad, N., Chenaghlu, M., & Gao, J. (2021). Deep Learning-Based Text Classification. ACM Computing Surveys, 54(3). https://doi.org/10.1145/3439726

Singh, R. (2022). Utilizing Transformer Representations Efficiently | Kaggle. https://www.kaggle.com/code/rhtsingh/utilizing-transformer-representations-efficiently/notebook

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-Decem(Nips), 5999–6009.

Xia, F., Li, B., Weng, Y., He, S., Sun, B., Li, S., Liu, K., & Zhao, J. (n.d.). LingJing at SemEval-2022 Task 3: Applying DeBERTa to Lexical-level Presupposed Relation Taxonomy with Knowledge Transfer. 239–246. Retrieved June 12, 2023, from https://sites.google.com/view/semeval2022-pretens/




DOI: https://doi.org/10.23857/pc.v8i8.5987

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/