Dataset de textos en español de Ecuador con cuatro versiones reescritas por GPT para tareas de identificación de texto generado automáticamente
Resumen
Los generadores automáticos de texto como GPT de OpenAI, se han vuelto herramientas valiosas por su capacidad de producir texto muy similar al escrito por el humano. Esa capacidad plantea desafíos a la hora de identificar la autoría del texto generado. El enfoque principal del presente trabajo se basa en la necesidad de contar con un dataset de textos en español para ser utilizado en tareas y herramientas de identificación de texto humano o máquina. La intención es proporcionar un dataset de textos en español originario de Ecuador de diversos ámbitos como X (Twitter), noticias y resúmenes de tesis, con una representación variada de estilos y contextos del lenguaje. Utilizando técnicas de web scraping, se recopilaron textos de los distintos dominios, que luego fueron reescritos automáticamente por GPT con la ayuda de la API de OpenAI, generando cuatro versiones distintas de cada uno de los textos originales humanos, para formar así el dataset requerido. De esta manera, se logró formar un conjunto de datos sólido con más de 15,000 textos en español cada uno con su versión original y cuatro versiones reescritas automáticamente por GPT, el mismo que puede ser usado en futuras investigaciones relacionadas a la detección de texto generado automáticamente.
Palabras clave
Referencias
aadityaubhat/GPT-wiki-intro · Datasets at Hugging Face. (n.d.). Retrieved January 22, 2024, from https://huggingface.co/datasets/aadityaubhat/GPT-wiki-intro
Alves, A. D. (n.d.). Introdução à API da OpenAI. https://platform.openai.com/docs/supported-countries
artem9k/ai-text-detection-pile · Datasets at Hugging Face. (n.d.). Retrieved January 22, 2024, from https://huggingface.co/datasets/artem9k/ai-text-detection-pile
Canhasi, E., & Shijaku, R. (n.d.). ChatGPT Generated Text Detection. https://doi.org/10.13140/RG.2.2.21317.52960
Chan, C. K. Y. (2023). A comprehensive AI policy education framework for university teaching and learning. International Journal of Educational Technology in Higher Education, 20(1). https://doi.org/10.1186/s41239-023-00408-3
Clark, E., August, T., Serrano, S., Haduong, N., Gururangan, S., & Smith, N. A. (n.d.). Human Evaluation of Generated Text. 7282–7296. Retrieved January 8, 2024, from www.nltk.org/
Dwivedi, Y. K., Kshetri, N., Hughes, L., Slade, E. L., Jeyaraj, A., Kar, A. K., Baabdullah, A. M., Koohang, A., Raghavan, V., Ahuja, M., Albanna, H., Albashrawi, M. A., Al-Busaidi, A. S., Balakrishnan, J., Barlette, Y., Basu, S., Bose, I., Brooks, L., Buhalis, D., … Wright, R. (2023). Opinion Paper: “So what if ChatGPT wrote it?” Multidisciplinary perspectives on opportunities, challenges and implications of generative conversational AI for research, practice and policy. International Journal of Information Management, 71, 102642. https://doi.org/10.1016/J.IJINFOMGT.2023.102642
Gomes Barbosa, A. B., & Cavalcanti, A. B. (n.d.). Web Scraping e Análise de dados.
IEEE Xplore Full-Text PDF: (n.d.). Retrieved December 4, 2023, from https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10177704
Ippolito, D., Duckworth, D., Callison-Burch, C., & Eck, D. (n.d.). Automatic Detection of Generated Text is Easiest when Humans Are Fooled. Association for Computational Linguistics. https://github.com/openai/
Liyanage, V., & Buscaldi, D. (n.d.). An Ensemble Method Based on the Combination of Transformers with Convolutional Neural Networks to Detect Artificially Generated Text. Retrieved November 24, 2023, from https://gptzero.me/
LLM - Detect AI Generated Text | Kaggle. (n.d.). Retrieved January 21, 2024, from https://www.kaggle.com/competitions/llm-detect-ai-generated-text/overview
Lund, B. D., & Wang, T. (n.d.). Chatting about ChatGPT: how may AI and GPT impact academia and libraries? https://doi.org/10.1108/LHTN-01-2023-0009
Manyika, J. (n.d.). An overview of Bard: an early experiment with generative AI.
Preview, A., & Ai, J. (2023). Competitor Analysis Report. https://zapier.com/blog/jasper-ai/
Sarvazyan, A. M., José´, J., González, J., Franco-Salvador, M., Rangel, F., Chulvi, B., & Rosso, P. (n.d.). Overview of AuTexTification at IberLEF 2023: Detection and Attribution of Machine-Generated Text in Multiple Domains. Retrieved November 24, 2023, from https://tinyurl.com/bloom-1b7
Text sample datasets and AI detectors test results. (n.d.). Retrieved January 21, 2024, from https://figshare.com/articles/dataset/Text_sample_datasets_and_AI_detectors_test_results/24208443
Wu, K., Pang, L., Shen, H., Cheng, X., & Chua, T.-S. (n.d.). LLMDet: A Third Party Large Language Models Generated Text Detection Tool. https://github.com/TrustedLLM/LLMDet.
DOI: https://doi.org/10.23857/pc.v9i2.6570
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/