Identificando cambios de autor en un texto mediante codificación de embeddings de tokens iniciales de las capas de atención.
Resumen
La determinación de autoría es una herramienta esencial en la detección de plagio y atribución errónea de autor en diversas áreas. En este trabajo, se aborda la problemática de determinar cambios de autor en un texto. Tradicionalmente, muchas investigaciones utilizan la salida final de codificación de las capas de atención en tareas de clasificación de textos. Proponemos extraer los embeddings de codificación de los tokens iniciales de las capas de atención de modelos Transformer pre entrenados basados en BERT, aplicando aprendizaje por transferencia para realizar un ajuste fino del modelo y luego proceder a la predicción. Los modelos mDeBERTa y DeBERTa se seleccionan para la experimentación. El enfoque se valida utilizando un dataset de las campañas PAN 2023 para determinar cambios de autor, que contiene pares de textos en inglés de distintos dominios. Este estudio tiene una importancia significativa en diversas disciplinas que requieran la verificación de autoría. Si bien los resultados obtenidos no fueron los esperados, el método propuesto es un prometedor punto de partida para futuras investigaciones sobre el tema.
Palabras clave
Referencias
Avram, S.-M. (2023). BERT-based Authorship Attribution on the Romanian Dataset called ROST. January, 1–18. http://arxiv.org/abs/2301.12500
Barlas, G., & Stamatatos, E. (2020). Cross-domain authorship attribution using pre-trained language models. IFIP Advances in Information and Communication Technology, 583 IFIP, 255–266. https://doi.org/10.1007/978-3-030-49161-1_22/FIGURES/2
Beltrán, N. C., & Rodríguez Mojica, E. C. (2021). Procesamiento del lenguaje natural (PLN) - GPT-3.: Aplicación en la Ingeniería de Software. Tecnología Investigación y Academia, 8(1), 18–37. https://revistas.udistrital.edu.co/index.php/tia/article/view/17323
Devlin, J., Chang, M.-W., Lee, K., Google, K. T., & Language, A. I. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Naacl-Hlt 2019, Mlm, 4171–4186.
Fabien, M., Villatoro-Tello, E., Motlicek, P., & Parida, S. (n.d.). BertAA: BERT fine-tuning for Authorship Attribution. 127–137.
Minaee, S., Kalchbrenner, N., Cambria, E., Nikzad, N., Chenaghlu, M., & Gao, J. (2021). Deep Learning-Based Text Classification. ACM Computing Surveys, 54(3). https://doi.org/10.1145/3439726
Singh, R. (2022). Utilizing Transformer Representations Efficiently | Kaggle. https://www.kaggle.com/code/rhtsingh/utilizing-transformer-representations-efficiently/notebook
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-Decem(Nips), 5999–6009.
Xia, F., Li, B., Weng, Y., He, S., Sun, B., Li, S., Liu, K., & Zhao, J. (n.d.). LingJing at SemEval-2022 Task 3: Applying DeBERTa to Lexical-level Presupposed Relation Taxonomy with Knowledge Transfer. 239–246. Retrieved June 12, 2023, from https://sites.google.com/view/semeval2022-pretens/
DOI: https://doi.org/10.23857/pc.v8i8.5987
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/