Identificando cambios de autor en un texto mediante codificación de embeddings de tokens iniciales de las capas de atención.
Resumen
La determinación de autoría es una herramienta esencial en la detección de plagio y atribución errónea de autor en diversas áreas. En este trabajo, se aborda la problemática de determinar cambios de autor en un texto. Tradicionalmente, muchas investigaciones utilizan la salida final de codificación de las capas de atención en tareas de clasificación de textos. Proponemos extraer los embeddings de codificación de los tokens iniciales de las capas de atención de modelos Transformer pre entrenados basados en BERT, aplicando aprendizaje por transferencia para realizar un ajuste fino del modelo y luego proceder a la predicción. Los modelos mDeBERTa y DeBERTa se seleccionan para la experimentación. El enfoque se valida utilizando un dataset de las campañas PAN 2023 para determinar cambios de autor, que contiene pares de textos en inglés de distintos dominios. Este estudio tiene una importancia significativa en diversas disciplinas que requieran la verificación de autoría. Si bien los resultados obtenidos no fueron los esperados, el método propuesto es un prometedor punto de partida para futuras investigaciones sobre el tema.