Dataset de textos en español de Ecuador con cuatro versiones reescritas por GPT para tareas de identificación de texto generado automáticamente

César Humberto Espín Riofrio, Richard Espinoza Fajardo, Fausto Javier Ortiz Serrano, Tania Peralta Guaraca, Rocio Carchi Encalada

Resumen


Los generadores automáticos de texto como GPT de OpenAI, se han vuelto herramientas valiosas por su capacidad de producir texto muy similar al escrito por el humano.  Esa capacidad plantea desafíos a la hora de identificar la autoría del texto generado. El enfoque principal del presente trabajo se basa en la necesidad de contar con un dataset de textos en español para ser utilizado en tareas y herramientas de identificación de texto humano o máquina. La intención es proporcionar un dataset de textos en español originario de Ecuador de diversos ámbitos como X (Twitter), noticias y resúmenes de tesis, con una representación variada de estilos y contextos del lenguaje. Utilizando técnicas de web scraping, se recopilaron textos de los distintos dominios, que luego fueron reescritos automáticamente por GPT con la ayuda de la API de OpenAI, generando cuatro versiones distintas de cada uno de los textos originales humanos, para formar así el dataset requerido. De esta manera, se logró formar un conjunto de datos sólido con más de 15,000 textos en español cada uno con su versión original y cuatro versiones reescritas automáticamente por GPT, el mismo que puede ser usado en futuras investigaciones relacionadas a la detección de texto generado automáticamente.


Palabras clave


Generadores automáticos de texto; Dataset, GPT; Procesamiento de Lenguaje Natural.

Texto completo:

PDF HTML

Referencias


aadityaubhat/GPT-wiki-intro · Datasets at Hugging Face. (n.d.). Retrieved January 22, 2024, from https://huggingface.co/datasets/aadityaubhat/GPT-wiki-intro

Alves, A. D. (n.d.). Introdução à API da OpenAI. https://platform.openai.com/docs/supported-countries

artem9k/ai-text-detection-pile · Datasets at Hugging Face. (n.d.). Retrieved January 22, 2024, from https://huggingface.co/datasets/artem9k/ai-text-detection-pile

Canhasi, E., & Shijaku, R. (n.d.). ChatGPT Generated Text Detection. https://doi.org/10.13140/RG.2.2.21317.52960

Chan, C. K. Y. (2023). A comprehensive AI policy education framework for university teaching and learning. International Journal of Educational Technology in Higher Education, 20(1). https://doi.org/10.1186/s41239-023-00408-3

Clark, E., August, T., Serrano, S., Haduong, N., Gururangan, S., & Smith, N. A. (n.d.). Human Evaluation of Generated Text. 7282–7296. Retrieved January 8, 2024, from www.nltk.org/

Dwivedi, Y. K., Kshetri, N., Hughes, L., Slade, E. L., Jeyaraj, A., Kar, A. K., Baabdullah, A. M., Koohang, A., Raghavan, V., Ahuja, M., Albanna, H., Albashrawi, M. A., Al-Busaidi, A. S., Balakrishnan, J., Barlette, Y., Basu, S., Bose, I., Brooks, L., Buhalis, D., … Wright, R. (2023). Opinion Paper: “So what if ChatGPT wrote it?” Multidisciplinary perspectives on opportunities, challenges and implications of generative conversational AI for research, practice and policy. International Journal of Information Management, 71, 102642. https://doi.org/10.1016/J.IJINFOMGT.2023.102642

Gomes Barbosa, A. B., & Cavalcanti, A. B. (n.d.). Web Scraping e Análise de dados.

IEEE Xplore Full-Text PDF: (n.d.). Retrieved December 4, 2023, from https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10177704

Ippolito, D., Duckworth, D., Callison-Burch, C., & Eck, D. (n.d.). Automatic Detection of Generated Text is Easiest when Humans Are Fooled. Association for Computational Linguistics. https://github.com/openai/

Liyanage, V., & Buscaldi, D. (n.d.). An Ensemble Method Based on the Combination of Transformers with Convolutional Neural Networks to Detect Artificially Generated Text. Retrieved November 24, 2023, from https://gptzero.me/

LLM - Detect AI Generated Text | Kaggle. (n.d.). Retrieved January 21, 2024, from https://www.kaggle.com/competitions/llm-detect-ai-generated-text/overview

Lund, B. D., & Wang, T. (n.d.). Chatting about ChatGPT: how may AI and GPT impact academia and libraries? https://doi.org/10.1108/LHTN-01-2023-0009

Manyika, J. (n.d.). An overview of Bard: an early experiment with generative AI.

Preview, A., & Ai, J. (2023). Competitor Analysis Report. https://zapier.com/blog/jasper-ai/

Sarvazyan, A. M., José´, J., González, J., Franco-Salvador, M., Rangel, F., Chulvi, B., & Rosso, P. (n.d.). Overview of AuTexTification at IberLEF 2023: Detection and Attribution of Machine-Generated Text in Multiple Domains. Retrieved November 24, 2023, from https://tinyurl.com/bloom-1b7

Text sample datasets and AI detectors test results. (n.d.). Retrieved January 21, 2024, from https://figshare.com/articles/dataset/Text_sample_datasets_and_AI_detectors_test_results/24208443

Wu, K., Pang, L., Shen, H., Cheng, X., & Chua, T.-S. (n.d.). LLMDet: A Third Party Large Language Models Generated Text Detection Tool. https://github.com/TrustedLLM/LLMDet.




DOI: https://doi.org/10.23857/pc.v9i2.6570

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/