Mieles Macias

Polo del Conocimiento, Vol 8, No 6 (2023)

��

Modelos de minado de texto para la implementaci�n de sistemas de predicci�n de plagio de la Universidad T�cnica de Manab�

Text mining models for the implementation of plagiarism prediction systems at the Technical University of Manab�

Modelos de minera��o de texto para a implementa��o de sistemas de previs�o de pl�gio na Universidade T�cnica de Manab�

Correspondencia: dmiles0735@utml.edu.ec

Ciencias T�cnica y Aplicadas ��

Art�culo de Investigaci�n

��

* Recibido: 23 de abril de 2023 *Aceptado: 12 de mayo de 2023 * Publicado: �12 de junio de 2023

Estudiante de la carrera de Ingenier�a en Sistemas inform�ticos, Universidad T�cnica de Manab�, Ecuador.
Mag�ster en Gesti�n de Sistemas de Informaci�n e Inteligencia de Negocios, Ingeniero en Sistemas Inform�ticos, Facultad de Ciencias Inform�ticas, Universidad T�cnica de Manab�, Ecuador.

Resumen

El presente estudio tiene como prop�sito analizar los modelos de minado de texto para la implementaci�n de sistemas de predicci�n de plagio como herramientas modernas que deben ajustarse a los desaf�os complejos de este problema de crecimiento continuo. Para ello se realiz� una revisi�n sistem�tica de literatura enmarcada en par�metros PRISMA para selecci�n de art�culo y reducci�n de sesgo, identificaci�n de cadenas de b�squeda en bases de datos como ACM, Science direct, IEEE xplore, Scopus considerando criterios de enfoque y contenido para evaluar cada art�culo seleccionado. Entre las t�cnicas de miner�a de texto fueron m�s comunes los clasificadores espec�ficamente, las redes neuronales y los �rboles de decisi�n, tambi�n se identificaron t�cnicas de agrupamiento. El sistema de detecci�n de plagio m�s utilizado es Turnitin, el modelo de miner�a m�s utilizado son las redes recurrentes (LSTM) cuya precisi�n fue del 100%, la recuperaci�n de 97%, exactitud del 99% y una detecci�n de plagio del 94%. En conclusi�n, las Universidades e institutos se han visto en la necesidad de implementar procesos de detecci�n de plagio a trav�s del uso de sistemas de detecci�n, se ha considerado el empleo de t�cnicas de miner�a de texto que facilitan la detecci�n y reconocimiento de elementos, similitudes, coincidencias y semejanzas que aportan en la comprobaci�n de plagio en textos acad�micos; las redes recurrentes han presentado mejores resultados en diversos escenarios de detecci�n, por ello, se sugieren como modelo de miner�a de datos de tipo predictivo.

Palabras Clave: Miner�a de texto; predicci�n; plagio; software antiplagio; publicaciones acad�micas.

Abstract

The purpose of this study is to analyze text mining models for the implementation of plagiarism prediction systems as modern tools that must be adjusted to the complex challenges of this continuously growing problem. For this, a systematic review of the literature was carried out framed in PRISMA parameters for article selection and bias reduction, identification of search strings in databases such as ACM, Science direct, IEEE xplore, Scopus considering focus and content criteria to evaluate each study. selected item. Among the text mining techniques, specifically classifiers, neural networks and decision trees were more common, clustering techniques were also identified. The most used plagiarism detection system is Turnitin, the most used mining model is recurring networks (LSTM) whose accuracy was 100%, recovery 97%, accuracy 99% and plagiarism detection 94%. In conclusion, Universities and institutes have seen the need to implement plagiarism detection processes through the use of detection systems, the use of text mining techniques has been considered that facilitate the detection and recognition of elements, similarities , coincidences and similarities that contribute to the verification of plagiarism in academic texts; recurrent networks have presented better results in various detection scenarios, therefore, they are suggested as a predictive data mining model.

Keywords: Text mining; prediction; plagiarism; anti-plagiarism software; academic publications.

Resumo

O objetivo deste estudo � analisar modelos de minera��o de texto para a implementa��o de sistemas de previs�o de pl�gio como ferramentas modernas que devem ser ajustadas aos complexos desafios desse problema crescente. Para isso, foi realizada uma revis�o sistem�tica da literatura enquadrada nos par�metros PRISMA para sele��o de artigos e redu��o de vi�s, identifica��o de strings de busca em bases de dados como ACM, Science direct, IEEE xplore, Scopus considerando crit�rios de foco e conte�do para avaliar cada estudo. item selecionado. Entre as t�cnicas de minera��o de texto, especificamente classificadores, redes neurais e �rvores de decis�o foram mais comuns, t�cnicas de agrupamento tamb�m foram identificadas. O sistema de detec��o de pl�gio mais utilizado � o Turnitin, o modelo de minera��o mais utilizado � redes recorrentes (LSTM) cuja precis�o foi de 100%, recupera��o 97%, precis�o 99% e detec��o de pl�gio 94%. Em conclus�o, Universidades e institutos t�m visto a necessidade de implementar processos de detec��o de pl�gio atrav�s do uso de sistemas de detec��o, foi considerado o uso de t�cnicas de minera��o de texto que facilitam a detec��o e reconhecimento de elementos, semelhan�as, coincid�ncias e semelhan�as que contribuem para a verifica��o de pl�gio em textos acad�micos; redes recorrentes t�m apresentado melhores resultados em v�rios cen�rios de detec��o, portanto, s�o sugeridas como um modelo preditivo de minera��o de dados.

Palavras-chave: Minera��o de texto; predi��o; pl�gio; software antipl�gio; publica��es acad�micas.

��

Introducci�n

La tecnolog�a ha permitido generar escenarios de informaci�n que favorecen los nuevos conocimientos; sin embargo, la gran cantidad de datos que se encuentran en la Web se ha convertido en un arma de dos caras, especialmente en el campo de la investigaci�n acad�mica donde resulta indispensable el buen manejo de la informaci�n como una habilidad que contribuya con la localizaci�n y uso eficiente de la informaci�n (Mich�n y �lvarez, 2019).

Los formatos digitales y el acceso abierto a gran cantidad de informaci�n forman parte de la revoluci�n inform�tica (reconocida como un proceso innovador que ha experimentado con datos cient�ficos) donde los datos constituyen un nuevo recurso valioso que no s�lo se genera e impulsa, sino que, adem�s, se comercializa. Por ello, cada vez, existe mayor inter�s por la creaci�n de enfoques, herramientas, m�todos y aplicaciones computacionales innovadores orientados a la caracterizaci�n, estudio, sistematizaci�n, estructuraci�n, entre otros, para obtener nuevo conocimiento, resolver problemas y tomar decisiones en base al resultado de los procesos inform�ticos que manejan esos datos (Venkatakrihnan et al., 2016).

En el campo de la investigaci�n, cada vez existe un mayor desaf�o por parte de las Universidades para aprobar los trabajos investigativos realizados por los estudiantes, pues si bien es un proceso que demanda indagaci�n, pruebas, comprobaci�n y an�lisis, en la pr�ctica no siempre se cumplen todas esas fases; al contrario, la din�mica actual de los estudiantes con el advenimiento de la era digital, las demandas sociales que exigen cada vez mayor grado de preparaci�n acad�mica a j�venes profesionales y la deshonestidad acad�mica se ha convertido en una realidad que atenta directamente contra las investigaciones originales y confiables, pues se trata de un problema de principios �ticos-morales producto de las nuevas caracter�sticas adquiridas en el plagio acad�mico derivadas de la era digital (Rogerson y McCarthy, 2017).

A este respecto, Llovera (2023) indica que, el �uso de los diferentes recursos e informaci�n en formato digital ha conducido al estudiantado a buscar formas m�s r�pidas para realizar sus trabajos acad�micos y, por ello, incurrir muchas veces en la pr�ctica conocida como ciberplagio� lo cual ocurre de forma consciente (copia y pega de Internet) e inconsciente, esta �ltima cuando se desconoce la debida norma de citaci�n como APA, Vancouver, IEEE, etc., cuya aplicaci�n es fundamental, especialmente cuando se ha parafraseado el texto de referencia.��

En este contexto, el plagio acad�mico ha cobrado especial relevancia en el campo de la investigaci�n universitaria, especialmente a partir de casos que han involucrado figuras p�blicas como congresistas, funcionarios p�blicos y hasta presidentes (Navarro, 2023); a esto, se suma informaci�n como la resultante de la encuesta del Programa Universitario de Bio�tica realizado por la Universidad Aut�noma de M�xico que revela c�mo un 52% de acad�micos de dicha casa de estudios que ha sido testigo de plagio acad�mico por parte de sus colegas en procesos de investigaci�n para titulaci�n de pregrado, postgrado y hasta doctorado (Cruz, 2023).

Frente a este creciente problema del ciberplagio, el mismo que ocurre en el contexto acad�mico en investigaciones realizadas por estudiantes de educaci�n superior, se ha incrementado el uso de programas y sistemas inform�ticos por parte de las universidades y revistas cient�ficas para la detecci�n de coincidencias y patrones que puedan evidenciar plagio en el material que se presente ante las autoridades universitarias en virtud de evitar investigaciones fraudulentas y generar las respectivas sanciones o correctivos necesarios para mantener la confianza y validez de los trabajos que se aprueben para su futura publicaci�n.

La miner�a de textos forma parte de esas soluciones inform�ticas que se han perfeccionado con el paso de los a�os y las innovaciones tecnol�gicas que han ocurrido, pues se trata de un subconjunto de la miner�a de datos �til para extraer informaci�n de datos no estructurados y, a su vez, detectar grupos, tendencias, asociaciones y derivaciones de patrones a partir de t�cnicas basadas en el procesamiento de textos como la �ling��stica computacional y la recuperaci�n de informaci�n� las cuales se aplican tanto en la fase de pre-procesamiento, donde los textos se transforman en un tipo de representaci�n semiestructurada, previo a la fase de descubrimiento, donde se detectan agrupamientos, asociaciones, desviaciones o tendencias (Gil, 2021).

Este proceso de descubrimiento se realiza mediante el uso de m�todos de aprendizaje autom�tico, estad�sticos, matem�ticos o artificiales para explorar en grandes bases de datos (Mancilla et al., 2020) que, de otra forma, no se podr�an analizar. Cuando se hace referencia a esta t�cnica, es preciso entender que la miner�a de datos puede ser descriptiva o predictiva; en el primer caso, se trata de aquella que encuentra patrones y relaciones en los datos utilizando t�cnicas de asociaci�n y agrupamiento, mientras que, en el segundo caso se trata de aquellas que predicen el valor particular de un atributo a partir de otros atributos enfocadas en algoritmos de clasificaci�n y regresi�n (Santamaria, 2015).

En el contexto universitario, en donde se desenvuelven los estudiantes de la Universidad T�cnica de Manab�, es necesario explorar las alternativas tecnol�gicas que permitan y garanticen una adecuada revisi�n de las publicaciones de sus estudiantes, reduciendo el plagio, y a su vez, alcanzando niveles adecuados de calidad.

Es por ello que, describiendo las caracter�sticas t�cnicas y metodol�gicas de las herramientas utilizadas para el dise�o e implementaci�n de soluciones orientadas a la predicci�n del plagio, se obtendr�an mejores m�rgenes de confiabilidad en los procesos de revisi�n de las producciones intelectuales elaboradas en el seno de esta casa de estudio.

Esta revisi�n sistem�tica de literatura tiene como objetivo explorar los modelos de minado de texto utilizados en sistemas de predicci�n de plagio en instituciones de educaci�n superior. Para alcanzar este prop�sito, se formularon las siguientes preguntas de investigaci�n:

RQ1. �Qu� t�cnicas de miner�a de texto se han utilizado para predecir el plagio en publicaciones acad�micas?, RQ2. �Cu�les son los sistemas de predicci�n de plagio utilizados en instituciones de educaci�n superior?, RQ3. �Cu�les son los modelos de miner�a de datos, con mejores indicadores de rendimiento, implementados en sistemas de predicci�n de plagio en universidades?

Finalmente, es preciso indicar que este trabajo de investigaci�n presenta el orden que sugiere el modelo PRISMA, para revisiones sistem�ticas de literatura: introducci�n, m�todo, resultados, discusi�n y conclusiones.

M�todo

El presente art�culo de revisi�n sistem�tica parte de la aplicaci�n de los par�metros PRISMA (Preferred Reporting Items for Systematic reviews and Meta-Analyses por sus siglas en ingl�s) para este tipo de investigaciones en el que se considera fundamental utilizar la lista de verificaci�n al momento de seleccionar los art�culos y publicaciones que conformar�n la sistematizaci�n, as� como la determinaci�n de una estrategia de b�squeda que responda a dichos par�metros con la finalidad de reducir los sesgos informativos.

En este caso, la estrategia de b�squeda utilizada inici� con la determinaci�n de los criterios de b�squedas, entre los cuales destacan como criterios de inclusi�n: publicaciones, art�culos de revisi�n sistem�tica, art�culos originales y art�culos de revisi�n bibliogr�fica; asimismo, se consideraron las publicaciones realizadas en revistas de alto impacto, redactadas en ingl�s o espa�ol, cuyo contenido sea completo y disponible, publicaciones realizadas en un per�odo de 2015-2023, que compartan m�s de una palabra clave.

Por su parte, los criterios excluyentes se enmarcaron en: publicaciones incompletas, tesis doctorales, monograf�as o libros, investigaciones publicadas en revistas no indexadas o de bajo impacto, publicaciones realizadas en otro idioma distinto al ingl�s o espa�ol, que no comparten variables o palabras claves, publicadas antes del 2015.

Posterior a la determinaci�n de los criterios de b�squeda, se especificaron las palabras claves a utilizar en base a las principales variables de investigaci�n las cuales fueron: �Plagio�, �miner�a de texto�, �aprendizaje autom�tico� �t�cnicas de miner�a de datos�, �predicci�n de plagio�, �algoritmos de predicci�n�, �educaci�n superior� en espa�ol y, �Plagiarism�, �text mining�, �machine learning�, �data mining techniques�, �plagiarism prediction�, �prediction algorithms�, �higher education� en ingl�s. Estas palabras junto a los criterios de b�squeda orientaron la indagaci�n a trav�s de los buscadores de alto impacto tales como: ACM, Science direct, IEEE Xplore, Scopus y Google Academy. Con estos t�rminos clave, se dise�� la cadena de b�squeda ideal (Tabla 1).

Tabla 1.- Cadena de b�squeda por cada buscador

Base de Datos	Cadena de B�squeda
ACM	[All: plagiarism] AND [[All: prediction] OR [All: detection]] AND [All: "text mining"] AND [E-Publication Date: (01/01/2015 TO 12/31/2023)]
Science direct	plagiarism AND (prediction OR detection) AND "text mining"
Google Academy	plagiarism + (prediction OR detection) + "text mining"
IEEE xplore	((plagiarism AND(prediction OR detection) AND "text mining"))
Scopus	1 �( plagiarism� AND� ( prediction� OR� detection )� AND� "text mining" )�� AND� PUBYEAR� >� 2014� AND� PUBYEAR� <� 2024� AND� PUBYEAR� >� 2014� AND� PUBYEAR� <� 2024

Para el proceso de revisi�n y selecci�n de los art�culos que conforman la sistematizaci�n, se utiliz� la lista de verificaci�n para res�menes estructurados de PRISMA, haciendo �nfasis en los �tems de: t�tulo, resumen, objetivos, m�todos y resultados, los cuales permitieron llevar a cabo la b�squeda y selecci�n en sus diferentes fases de identificaci�n, cribado, evaluaci�n e inclusi�n.

Para la evaluaci�n de los art�culos primarios se valoraron dos aspectos principales: enfoque y contenido, en tres niveles de acuerdo a los percentiles indicados donde moderado corresponde entre 0 y 40 de aportaci�n, aceptable entre 41 y 80, y finalmente, �ptimo entre 81 y 100 (Tabla 2).

Tabla 2.- Valoraci�n de cada nivel de aporte de los art�culos revisados

Nivel de aporte	Percentil
Moderado	0-40
Aceptable	41-80
�ptimo	81-100

En el primer caso, se evaluaron las referencias de sistemas de predicci�n de plagio y, en el segundo caso, se evaluaron las referencias relacionadas con la miner�a de datos, cada una de ellas con un conjunto de criterios (Tabla 3) que se ponderaron de acuerdo al aporte que tuvo cada uno de ellos a las variables: Nada (0), Algo (0.5), Cumple Totalmente (1).

Tabla 3.- Criterios a evaluar por cada aspecto de investigaci�n

Criterios	Aspectos
Criterios	Enfoque	Contenido
1	E1-Menciona criterios de predicci�n de plagio	C1-Metodolog�a de miner�a de datos utilizadas
2	E2-Presenta indicadores de rendimiento de los algoritmos utilizados	C2-Secciones de limitaciones
3	E3-Describe las t�cnicas de miner�as de textos utilizadas	C3-Propuestas o referencias para el desarrollo de investigaciones futuras

Resultados

Los principales hallazgos de este estudio evidencian que los art�culos seleccionados y revisados cumplieron en un 100% con los par�metros de verificaci�n de res�menes estructurados PRISMA (Figura 1), los cuales se realizaron en su mayor�a en el a�o 2020 en pa�ses asi�ticos, seguidos de pa�ses latinoamericanos y, finalmente, los de Europa, los cuales cumplieron cada uno con las respectivas palabras claves en relaci�n a: detecci�n de plagio, machine learning, miner�a de texto, miner�a de datos, plagio acad�mico, etc., (Tabla 4)

Figura 1. El flujo de b�squeda y selecci�n de art�culos.

Tabla 4

Identificaci�n, evaluaci�n y selecci�n de art�culos seg�n PRISMA

P	Autor	A�o	T�tulo	Lugar del estudio	Tipo de estudio	�Palabras Claves Asociadas
P1	Sindhu y Idicula	2017	Plagiarism detection in Malayalam language text using a composition of similarity measures	Singapur	Revisi�n	Detecci�n de plagio
P2	Duracick et al.	2020	M�todo optimizado basado en algoritmo K-means como herramienta en la detecci�n de plagio en c�digo fuente	Colombia	Art�culo Original	Plagio, algoritmos, c�digo fuente
P3	Qiubo et al.	2019	Research on code plagiarism detection model based on Random Forest and Gradient Boosting Decision Tree	Hong Kong	Art�culo Original	Detecci�n de plagio, �rbol de decisi�n
P4	Xylogiannopoulos, et al.	2020	Text mining for plagiarism detection: multivariate pattern detection for recognition of text similarities	Espa�a	Art�culo Original	Miner�a de texto y detecci�n de plagio
P5	Viuginov et al.	2020	A Machine Learning based plagiarism detection in source code	China	Art�culo Original	Machine learning
P6	Al� et al.	2018	Detection of plagiarism in URDU text documents	Pakist�n	Art�culo Original	Plagio, algoritmos de clasificaci�n
P7	Mansoor y Al Tamimi	2022	Plagiarism detection system in scientific publication using LSTM networks		Art�culo Original	Detecci�n de plagio, miner�a de texto
P8	Massagram et al.	2018	A novel technique for Thai document plagiarism detection using syntactic parse trees	Tailandia	Revisi�n	Miner�a de texto y detecci�n de plagio
P9	Chakrabarty y Roy	2018	An efficient context-aware agglomerative fuzzy clustering framework for plagiarism detection	India	Art�culo Original	Miner�a de texto y detecci�n de plagio
P10	El-Rashidy et al.	2022	reliable plagiarism detection system based on deep learning approaches	Egipto	Art�culo Original	Miner�a de texto y detecci�n de plagio
P11	Priya et al.	2019	Plagiarism detection in source code using machine learning	India	Art�culo Original	Miner�a de texto, miner�a de datos, machine learning y detecci�n de plagio
P12	Perilla, M.	2020	Detecci�n de plagio en c�digo fuente java mediante tokenizaci�n y aprendizaje de m�quina	Colombia	Art�culo Original	Plagio, c�digo fuente, tokenizaci�n
P13	Reducindo et al.	2017	Integraci�n de plataformas LMS y algoritmo de c�digo abierto para detecci�n y prevenci�n de plagio en Educaci�n Superior	M�xico	Art�culo Original	Plagio acad�mico, algoritmo de detecci�n
P14	Santamar�a, W.	2015	T�cnicas de miner�a de datos aplicadas en la detecci�n de fraude: Estado del arte	Colombia	Art�culo Original	Detecci�n de fraude, miner�a de datos
P15	Hany y Gomaa	2022	A hybrid approach to paraphrase detection based on text	Egipto	Art�culo Original	Detecci�n de fraude, miner�a de datos
P16	Huang et al.	2020	Code plagiarism detection method based on code similarity and student behavior characteristics	China	Art�culo Original	Detecci�n de plagio, miner�a de datos
P17	Nennuri, et al.,	2021	Plagiarism detection through data mining techniques	Suiza	Art�culo Original	Detecci�n de plagio, miner�a de datos
P18	Kulkarni et al.	2021	Analysis of Plagiarism Detection Tools and Methods		Revisi�n Sistem�tica	Detecci�n de plagio
P19	Shakeel, et al.	2020	A multi-cascaded model with data augmentation for enhanced paraphrase detection in short texts	Pakistan	Art�culo Original	Detecci�n, miner�a
P20	Awale et al.,	2020	Plagiarism Detection in Programming Assignments using Machine Learning	Nepal	Art�culo Original	Detecci�n de plagio, Miner�a de textos

Los art�culos primarios seleccionados se valoraron por criterio en cada uno de los aspectos evaluados: enfoque y contenido ponderados de acuerdo a su nivel de aportaci�n en cada una de las variables de est6udio (Tabla 5). En este particular, se evidencia un mayor aporte aceptable y �ptimo en enfoque, mientras que, en el contenido, el mayor aporte es el moderado. En cuanto a los criterios de enfoque, la presentaci�n de indicadores de rendimiento de los algoritmos utilizados (E2) fue el mejor ponderado; por su parte, el criterio de contenido mejor ponderado fue el de metodolog�a de miner�a de datos utilizadas (C1) (Figura 2).

Tabla 5.- Tabla de valoraci�n seg�n aporte (enfoque-contenido)

P	Enfoque			%	Aporte	Contenido			%	Aporte
P	E1	E2	E3	%	Aporte	C1	C2	C3	%	Aporte
P1	1	1	1	100%	�ptimo	1	0	1	67%	Aceptable
P2	1	1	1	100%	�ptimo	1	0	0	33%	Moderado
P3	1	1	1	100%	�ptimo	1	0	0	33%	Moderado
P4	1	1	0.5	83%	�ptimo	0.5	0	0.5	33%	Moderado
P5	1	1	0.5	83%	�ptimo	0.5	0	1	50%	Aceptable
P6	1	1	1	100%	�ptimo	1	0	0	33%	Moderado
P7	1	1	1	100%	�ptimo	1	0	0	33%	Moderado
P8	1	1	1	100%	�ptimo	1	1	1	100%	�ptimo
P9	1	1	1	100%	�ptimo	1	0	1	67%	Aceptable
P10	1	1	1	100%	�ptimo	1	0	0	33%	Moderado
P11	1	0.5	1	83%	�ptimo	1	0	0	33%	Moderado
P12	1	1	1	100%	�ptimo	1	1	1	100%	�ptimo
P13	1	1	1	100%	�ptimo	1	0	0	33%	Moderado
P14	0.5	1	1	83%	�ptimo	1	0	1	67%	Aceptable
P15	1	1	1	100%	�ptimo	1	0	0	33%	Aceptable
P16	1	1	1	100%	�ptimo	1	1	0	67%	Aceptable
P17	1	1	1	100%	�ptimo	1	0	0	33%	Moderado
P18	1	0.5	0.5	67%	Aceptable	0.5	0	0	17%	Moderado
P19	1	0.5	1	83%	�ptimo	1	0	0	33%	Moderado
P20	1	1	1	100%	�ptimo	1	0	0	33%	Moderado

Figura 2.- Nivel de aporte de los art�culos primarios (enfoque-contenido)

Entre las principales t�cnicas de miner�a de texto utilizadas para predecir plagio en las publicaciones acad�micas destacan los clasificadores de tipo predictivo a trav�s de redes neuronales, �rboles de decisiones, redes bayesianas y otros como datos etiquetados de Machine Learning; por su parte, el agrupamiento de tipo descriptivo se present� a partir del uso de agrupamiento difuso. En cuanto a los sistemas de predicci�n de plagio utilizados en las instituciones de educaci�n superior que fueron analizadas, destaca Turnitin como el principal y m�s com�n sistema de detecci�n a pesar de que se enuncian otros como Plagscam, Chamilo, Jplag.

En cuanto a las caracter�sticas funcionales de las soluciones inform�ticas que emplean la miner�a de datos para la predicci�n de plagio se utilizaron procesos como el algoritmo K-Means, Na�ve Bayes, KDD, K-NN, C4.5, clasificaci�n binaria, m�quina de soporte vectorial en algunos casos aplicados en WEKA. En la mayor�a de los casos los procedimientos realizados se enmarcaron en el an�lisis, consenso, patrones de comportamiento, tokenizaci�n de c�digo fuente, limpieza, extracci�n, recuperaci�n, agrupamiento, validaci�n y localizaci�n de conjuntos.

Por su parte, las soluciones funcionales que se presentaron en los estudios revisados contemplaron la creaci�n de nuevos algoritmos para la obtenci�n de correlaciones entre conjuntos de intemsets relevantes para reducir redundancias (D�az y Garc�a, 2018), detecci�n de plagio de c�digo fuente, mapeo de uso Weka, descubrimiento de conocimiento usando KDD, identificaci�n de datos para caracterizar fen�menos, identificaci�n de diversos tipos de plagio, determinaci�n de variables asociadas, selecci�n, limpieza, transformaci�n y proyecci�n de datos, comparaci�n de niveles de uso de texto, detecci�n de patrones investigativos, detecci�n de fraude, predicci�n de fracaso escolar, incremento de la eficiencia en la detecci�n de plagio y detecci�n de plagio sem�ntico (Tabla 6 ).

Tabla� 6.- Principales resultados en t�cnicas y modelo de miner�a utilizada

P	TMD utilizada	TM	Soluci�n funcional	Proceso	Procedimiento
P1	Red Neuronal (clasificador)	Predictiva	Predicci�n de plagio r�pido y con �ptima clasificaci�n	algoritmo NLP	Combinaci�n de puntuaciones de similitud
P2	Agrupaci�n	Descriptiva	Detecci�n de plagio de c�digo fuente	K-Means	Herramienta de clasificaci�n previa de vectores
P3	�rboles de decisi�n (clasificador)	Predictiva	Mejor rendimiento para determinar nivel de sospecha del c�digo	Algoritmos Random Forest y Gradient Boosting Decision Tree	Combinaci�n de algoritmos para determinar rango de grado de similitud
P4	Agrupaci�n	Descriptiva	Detecci�n de plagio en bibliotecas digitales de big data, detecci�n de patrones comunes entre documentos bajo inspecci�n y bibliotecas de referencia y detecci�n eficiente de diferentes tipos de plagio	Algoritmo LERP-RSA y ARPaD	Combinado multivariante que mejora la estructura de datos para la detecci�n de patrones
P5	�rbol de an�lisis comprimido (Clasificadores)	Predictiva	Canalizaci�n para clasificar c�digos fuente de pares de soluciones para problemas de ACM	AST (�rbol de Sintaxis Abstracta)	Producci�n de �rbol estructurado con diferentes tipos de nodos
P6	Redes Bayesianas (Clasificadores)	Predictiva	Identificar diferentes tipos de plagio, como el reordenamiento de oraciones, la similitud intertextual inerte/borrada y la similitud de copia cercana	Support Vector Machine y Na�ve Bayes	M�todo de concenso
P7	Redes Neuronales (Clasificadores)	Predictiva	Detectar plagios internos y externos, ampl�a la memoria para aprender de sus experiencias recordando sus entradas.	Algoritmo LSTM (Long -Short Term Memory)	Extensi�n de redes neuronales recurrentes
P8	�rboles de an�lisis sint�ctico (clasificador)	Predictiva	Identificaci�n de clases sem�nticas de las oraciones. Mejora la precisi�n de la detecci�n de plagio	SRL (Semantic Role Labeling)	Etiquetado jer�rquico-no secuencial
P9	Agrupamiento difuso (Fuzzy clustering)	Descriptiva	Mejorar solidez y consistencia de resultados para agrupar art�culos multidisciplinarios	Enfoque aglomerativo	Construir jerarqu�a de grupos
P10	Redes Neuronales convolucionales (Clasificador)	Predictiva	Extrae autom�ticamente caracter�sticas que se utilizar�n para la clasificaci�n de objetos	RNN/CNN/ Modelo LSTM	Clasificar y predecir
P11	Datos etiquetados Mahine Learning (Clasificadores)	Predictiva	Determinar presencia o ausencia de plagio, estimar funci�n de densidad de las predictoras, reducir sesgo y varianza en el contexto de aprendizaje supervisado	LSTM	Combinaci�n de algoritmos clasificadores para optimizar precisi�n de resultados
P12	Clasificadores	Predictiva	Detecci�n de plagio de c�digo fuente	SMO usado en WEKA	Tokenizaci�n de c�digo fuente
P13	Agrupamiento	Descriptivo	Detecci�n de plagio de c�digo fuente	AAPD	Extracci�n-recuperaci�n
P14	Agrupamiento, �rboles de decisi�n y redes neuronales	Descriptiva y predictiva	Detecci�n de fraude	K-Means, CART, MLP	Descubrimiento y extracci�n de conocimiento
P15	Red Neuronal (clasificador)	Predictiva	Predicci�n de plagio r�pido y con �ptima clasificaci�n	Algoritmo NLP	Combinaci�n de t�cnicas de similitud (sem�ntica, de cadena y de incrustraci�n
P16	�rboles de decisi�n (clasificadores)	Predictivo	Detecci�n de plagio de c�digo basado en similitud del c�digo	Clasificaci�n binaria utilizando SCD (concentraci�n de similitud de c�digo)	Identificar distribuci�n de similitud entre todos los c�digos
P17	Redes Neuronales (Clasificadores)	Predictivo	Incrementar la eficiencia en la detecci�n de plagio	Enfoque k-NN	Localizaci�n de conjuntos de datos copiados
P18	Redes Neuronales (Clasificadores)	Predictivo	Detecci�n de plagio sem�ntico	Enfoque K-NN	Localizaci�n de conjuntos de datos copiados
P19	Redes Neuronales (Clasificadores)	Predictivo	Mejorar el rendimiento de los modelos de aprendizaje profundo y analizar el impacto de varios pasos de aumento de datos	CNN y LSTM	Detecci�n de par�frasis en textos breves
P20	�rboles de decisi�n (Clasificador)	Predictivo	Incrementar precisi�n en el modelo de detecci�n	Algoritmo xgBoost	Predecir pares de c�digo fuentes plagiados

��

Finalmente, los indicadores de rendimiento mejor valorados en los modelos de miner�a de datos revisados en los art�culos son: la precisi�n (f-measure) con un 100% en modelos como el enfoque aglomerativo, 99% en la clasificaci�n binaria y 98% en las LSTM; en cuanto a la recuperaci�n, el marco SPT y SRL report� un 100%, el algoritmo xgBoost 97% y las LSTM un 97%; por su parte, la exactitud tuvo mejor valoraci�n en modelos como las LSTM (99%), xgBoost (94%) y Gradient Boosting Decision Tree (95%) (Tabla 7).

Asimismo, se analiz� el nivel de detecci�n de plagio que report� mejor valoraci�n en las LSTM con un 94% y la especificidad de 98% fue generada utilizando Gradient Boosting Decision Tree; el mejor tiempo fue de 1.64 segundos y lo report� el SMO.

Tabla 7.- Indicadores de rendimiento por t�cnica y modelo de miner�a

Publicaci�n	Modelo	T�cnica de miner�a	Medida de rendimiento
Publicaci�n	Modelo	T�cnica de miner�a	Precisi�n	Recuperaci�n	Exactitud	Det. Plagio	Tiempo	Esp.Sen.
P1	NLP	Red Neuronal (PNN)	0.93	0.95	**	**	**	**
P2	K-means	Clustering	**	**	**	**	5.2 ''	*******
P3	Random Forest y Gradient Boosting Decision Tree	�rbol de decisi�n	0.202 (RF) 0.929 (GBDT)	**	0.202 (RF) 0.959 (GBDT)	**	**	1 (RF) 0.864 (GBDT)
P4	Algoritmo LERP-RSA y ARPaD	Clustering	**	**	**	1	**	**
P6	Support Vector Machine y Na�ve Bayes	Redes Bayesianas	0.73 (SVM) 0.71(NB)	0.83 (SVM) 0.80 (NB)	**	**	**	**
P7	Algoritmo LSTM (Long -Short Term Memory)	Redes neuronales	0.98	0.97	0.99	**	**	**
P8	Marco SPT y SRL	�rboles de an�lisis sint�ctico	0.33 (SRL) 0.79 (SPT)	1	**	**	**	**
P9	Enfoque aglomerativo	Agrupamiento difuso	1	0.95	**	**	**	**
P10	Modelo LSTM	Redes Neuronales convolucionales (Clasificador)	0.95	0.92	**	0.94	**	**
P11	LSTM	Datos etiquetados Mahine Learning	0.89	0.887	**	0.887	**	**
P12	SMO usado en WEKA	Clasificadores	**	**	**	**	1.64 ''	**
P15	NLP	Red Neuronal (PNN)	0.76	**	**	**	**	**
P16	Clasificaci�n binaria	�rbol de decisi�n	0.99	**	**	**	**	**
P17	Enfoque k-NN	Redes neuronales	Alta	**	**	**	**	**
P18	Enfoque K-NN	Redes neuronales	Alta	**	**	**	**	**
P18	Enfoque K-NN	Redes neuronales	Alta	**	**	**	**	**
P19	CNN y LSTM	Redes neuronales	0.70	0.80	0.90	**	**	**
P20	Algoritmo xgBoost	�rbol de decisi�n	0.95 (NP) 0.89 (P)	0.97 (NP) 0.82 (P)	0.94 (NP) 0.94 (P)	**	**	**

** Valores no disponibles

Discusi�n

Los hallazgos de este estudio muestran que el problema del plagio acad�mico, especialmente, a nivel universitario, es com�n en todos los continentes y en diversos idiomas, lo que supone un reto para la miner�a de datos en la creaci�n de algoritmos y programas de detecci�n de plagio que superen las barreras del idioma en virtud de incrementar la precisi�n en este tipo de recursos inform�ticos.

En atenci�n a la pregunta de investigaci�n RQ1: �Qu� t�cnicas de miner�a de texto se han utilizado para predecir el plagio en publicaciones acad�micas?� En esta investigaci�n destacaron entre las t�cnicas de miner�a de textos utilizadas para predecir plagio en publicaciones acad�micas los clasificadores de redes neuronales tal como exponen autores como: Sindhu e Idicula (2017);� Mansoor y Al Tamimi (2022); El-Rashidy (2022); Perilla (2019); Hany (2022); Nennuri et al., (2021); Kullkarni et al., (2021); Shakeel et al., (2020), los �rboles de decisiones referidos por: Awale et al., (2020); Huang et al., (2020); Massagram et al., (2018); Viuginov (2020), Qiubo, (2019); Santamar�a (2015) y las redes bayesianas (Al� et al., 2018). En este contexto, los clasificadores son id�neos para identificar coincidencias y generar m�tricas de similitud, especialmente utilizadas en la detecci�n de plagio porque, espec�ficamente en la identificaci�n de par�frasis, permiten inferir el contexto adecuado sobre una oraci�n debido a su corta longitud (Hunt et al., 2019).

Asimismo, los �rboles de decisi�n constituyen una potente herramienta de clasificaci�n porque soportan los posibles problemas de clasificaci�n y regresi�n que puedan surgir en el proceso al tiempo que son m�s f�ciles de comprender; en el caso de las predicciones, permite seleccionar el mejor punto de corte para hacerlas y repetir el proceso hasta alcanzar la profundidad fija deseada �(Espinoza, 2018).

En el caso de las redes bayesianas, permiten observar el comportamiento din�mico de un patr�n a partir de una aproximaci�n en funci�n de los valores que toman el resto de las variables; en este sentido, se genera un modelo emp�rico, inductivo que permite reconstruir un modelo de informaci�n real a partir de la propagaci�n de las influencias por esa red bayesiana (Sarmiento y Ocampo, 2023).

Por otro lado, los hallazgos mostraron una incidencia significativa en el uso de t�cnicas de agrupamiento o clustering, especialmente del agrupamiento difuso, tambi�n resulta �til para la detecci�n de plagio al tener la capacidad de pertenecer a m�s de un grupo, lo cual permite acortar el tiempo de an�lisis, pues cada uno de los grupos al que pertenece se asocia a un conjunto de niveles de pertenencia que indican la fuerza de asociaci�n entre un dato espec�fico y uno o varios grupos (Villanza et al., 2012).

En cuanto a la pregunta de investigaci�n RQ2: �Cu�les son los sistemas de predicci�n de plagio utilizados en instituciones de educaci�n superior? En relaci�n a los sistemas de predicci�n de plagio utilizadas en las instituciones de educaci�n superior en todo el mundo, Turnitin es la herramienta antiplagio m�s com�n que apoya al docente y a los estudiantes, especialmente cuando se consultan fuentes electr�nicas (Moreno, 2018). Este sistema realiza sus b�squedas de similitud entre m�s de un bill�n de p�ginas y sitios de Internet, siendo �til en la reducci�n de porcentaje de similitud y mejoramiento de los trabajos de investigaci�n acad�mica debido a que permite realizar retroalimentaci�n por parte del docente (D�az, 2015).

Finalmente, en relaci�n a RQ3: �Cu�les son los modelos de miner�a de datos, con mejores indicadores de rendimiento, implementados en sistemas de predicci�n de plagio en universidades? En este caso, las redes recurrentes de LSTM (Long Short Term Memory por sus siglas en ingl�s) fueron las m�s usadas y mejor valoradas, pues adem�s de presentar elevados niveles de precisi�n, recuperaci�n, exactitud y detecci�n de plagio, tal como mencionan El-Rashidy et al., (2022); Mansoor y Al Tamimi, (2022); Priya et al., (2019) Shakeel et al., (2020); (Reducindo et al., 2017) son altamente efectivas para tal fin por su capacidad de aprender y recordar secuencias por largos per�odos de tiempo debido a la elevada sensibilidad que tienen a los datos de entrada (S�nchez, et al., 2020).

Otro modelo de miner�a de datos que fue valorado con el 100% de precisi�n fue el enfoque aglomerativo que se utiliz� para mejorar la solidez y consistencia de los resultados en virtud de poder realizar una mejor agrupaci�n de art�culos multidisciplinarios para dar respuesta a la integraci�n de caracter�sticas sem�nticas y alcanzar una mejor y optimizada funci�n (Chakrabarty y Roy, 2018)

El algoritmo xgBoost, tambi�n es uno de los modelos mejor valorados con una recuperaci�n del 97% y una exactitud del 94%; en este caso, se utiliz� como parte del aprendizaje autom�tico bajo el marco de Gradient Boosting optimizada y distribuida que brinda una elevada eficiencia en la resoluci�n de problemas manejando grandes cantidades de datos con mayor rapidez (Awale et al., 2020).

Limitaciones

Si bien el presente estudio se realiz� atendiendo a los par�metros de revisiones sistem�ticas con est�ndares internacionales, el acceso limitado a plataformas con mayor n�mero de art�culos con textos completos disponibles dificult� el hallazgo de estudio �ptimo, especialmente en relaci�n al contenido. Adem�s, s�lo se atendieron estudios en ingl�s y espa�ol, lo cual es otra limitante entendiendo que existen estudios en otros idiomas que se realizan en pa�ses desarrollados y m�s avanzados en esta materia que no fueron revisados y podr�an generar informaci�n id�nea para profundizar en este estudio.

Conclusiones

El plagio acad�mico se ha convertido en uno de los problemas m�s graves, desde el punto de vista �tico, a los que se enfrentan las universidades frente al uso desmedido, poco �tico e irresponsable de las publicaciones e informaci�n que se encuentran en Internet por parte de los estudiantes que presentan investigaciones que atentan contra el derecho de autor de quienes s� se han tomado la tarea de analizar, profundizar y crear textos cient�ficos de calidad. Ante esta compleja situaci�n, las Universidades e institutos se han visto en la necesidad de implementar procesos de detecci�n de plagio a trav�s del uso de sistemas de detecci�n como es el caso de Turnitin o Urkund; no obstante, el elevado costo de las licencias que autorizan su uso y el incremento en los falsos positivos de estos han contribuido a la necesidad de replantear los sistemas y usos implementados para tal fin.

En consecuencia, se ha considerado el empleo de t�cnicas de miner�a de texto que facilitan la detecci�n y reconocimiento de elementos, similitudes, coincidencias y semejanzas que aportan en la comprobaci�n de plagio en textos acad�micos en estudios universitarios, pues permiten atender a este problema que cada vez crece y se vuelve m�s complejo de detectar.

Por ello, utilizar modelos que tengan elevados niveles de precisi�n, exactitud y recuperaci�n constituye una premisa al analizar la idoneidad de estas herramientas para la detecci�n de plagio acad�mico, siendo las redes recurrentes (LSTM) las que han presentado mejores resultados en diversos escenarios de detecci�n, por ello, se sugieren como modelo de miner�a de datos de tipo predictivo.

Referencias

Al�, W., Ahmed, T., Rehman, Z., Rehman, A., Slaman, M. (22 de noviembre de 2018). Detection of plagiarism in URDU text documents.� Conferencia internacional sobre tecnolog�as emergentes (ICET) de 2018, Islambad, Pakist�n. DOI: 10.1109/ICET.2018.8603616.
Awale, N., Pandey, M., dulal, A., Timsin�, B. (2020). Plagiarism Detection in Programming Assignments using Machine Learning. Journal or artificial intelligence and capsule networks, 2(3), 177-184. DOI: 10.36548/jaicn.2020.3.005
Chakrabarty, A., Roy, S. (2018). An efficient context-aware agglomerative fuzzy clustering framework for plagiarism detection. International journal of data mining modelling and management, 10(2), 188. DOI: 10.1504/IJDMMM.2018.092533
Cruz, E. (30 de enero 2023). Desde 2013 encuesta de UNAM revel� que 52% de acad�micos atestiguaron alg�n plagio de tesis. La Hoguera. https://lahoguera.mx/desde-2013-encuesta-de-unam-revelo-que-52-de-academicos-atestiguaron-algun-plagio-de-tesis/
D�az, D. (2015). El uso de Turnitin con retroalimentaci�n mejora la propiedad acad�mica de estudiantes de bachillerato. Ciencia, docencia y tecnolog�a, 26(51), 197-216. https://dialnet.unirioja.es/servlet/articulo?codigo=5265867
D�az, A., Garc�a, L. (2018). FP-MAXFLOW: Un algoritmo para la miner�a de patrones relevantes de longitud m�xima. Computaci�n y Sistemas, 22(2), 563-583. DOI: 10.13053/cys-22-2-2498
Duracik, M., Callejas, M., Mikusova, M. (2020). M�todo optimizado basado en algoritmo K-Means como herramienta en la detecci�n de plagio de c�digo fuente. RISTI, (e29),620-632. https://www.proquest.com/openview/fb8bfe36673b48be7b95c99d83529f32/1?pq-origsite=gscholar&cbl=1006393
El-Rashidy, M., Mohamed, R., El-Fishawy, N., Shouman, M. (2022). Reliable plagiarism detection system based on deep learning approaches. Neural Computing and Applications, 34, 18837-18858. https://doi.org/10.1007/s00521-022-07486-w
Espinoza, M. (2018). Weka, �reas de aplicaci�n y sus algoritmos: una revisi�n sistem�tica de literatura. Revista Cient�fica Ecociencia, 5(Edici�n Especial), 1-26. DOI: https://doi.org/10.21855/ecociencia.50.153
Gil, J. (2021). Miner�a de texto con R: Aplicaciones y t�cnicas estad�sticas de apoyo. UNED.
Hany, M., Gomaa, W. (09 de mayo de 2022). A hybrid approach to paraphrase detection based on text similarities and machine learning classifiers. 2nd International Mobile, Intelligent and Ubiquitous computing conference, El Cairo, Egipto. DOI: 10.1109/MIUCC55081.2022.9781678.
Huang, Q., Song, X., Fang, G. (01 de junio de 2020). Code plagiarism detection method based on code similarity and student behavior characteristics.� IEEE International Conference on Artificia Intelligence and Computer Applications, Dalian, China. DOI: 10.1109/ICAICA50127.2020.9182389.
Hunt, E., Janamsetty, R., Kinares, C., Koh, C., S�nchez, A., Zhan, F., �zdemir, M., Wasim, S., Yolcu, O., Dahal, B., Zhan, J., Geali, L., Oh, P. (2019). Modelos de aprendizaje autom�tico para la identificaci�n de par�frasis y sus aplicaciones en la detecci�n de plagio.� Conferencia Internacional IEEE sobre Gran conocimiento.
Kulkarni, S., Govilkar, S., Amin, D. (7 de mayo de 2021). Analysis of Plagiarism Detection Tools and Methods.� Proceedings of the 4th international conference on advances in science & technology. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3869091
Llovera, Y., Arag�n, Y., Cano, P. (2023). Ciberplagio acad�mico entre el estudiantado universitario: un acercamiento al estado actual de la tem�tica (2017-2020). Revista Colombiana de Educaci�n, (87), 207-226. DOI: https://doi.org/10.17227/rce.num87-13143
Mancilla, G., Leal, P., S�nchez, A., Vidal, C. (2020). Factores asociados al �xito de los estudiantes en modalidad de aprendizaje en l�nea: un an�lisis en miner�a de datos. Formaci�n Universitaria, 13(6), 23-36. DOI: http://dx.doi.org/10.4067/S0718-50062020000600023
Mansoor, M., Al Tamimi, M. (2022). Plagiarism detection system in scientific publication using LSTM networks. Internacional Journal Technical and physical problems of engineering, 4(4), 17-24. http://www.iotpe.com/IJTPE/IJTPE-2022/IJTPE-Issue53-Vol14-No4-Dec2022/3-IJTPE-Issue53-Vol14-No4-Dec2022-pp17-24.pdf
Massagram, W., Prapanitisatian, S., Kerson, K. (2018). A novel technique for Thai document plagiarism detection using syntactic parse trees. Engineering & Applied Science Research, 45(4), 290-311. DOI: 10.14456/easr.2018.39
Mich�n, L., �lvarez, E. (2019). Tendencias actuales en el manejo de datos de investigaci�n. BIOCIT, 12(45), 869-880. https://dialnet.unirioja.es/servlet/articulo?codigo=6971157
Moreno, J. (2018). Plagio en universidades: estudio de Turnitin y Compilatorio. Sego-Bit (7), 16-23. https://www.researchgate.net/publication/329151488_Plagio_en_universidades_estudio_de_Turnitin_y_Compilatio
Navarro, M. (07 de febrero de 2023). Denuncian ante la CNMS la �cara oculta� de las publicaciones cient�ficas universitarias. El cierre digital. https://elcierredigital.com/investigacion/945608780/llevan-juzgado-cara-oculta-negocio-publicaciones-cientificas-universitarias.html
Nennuri, R., Geetha, M., Samhitha, M., Sandeep, S., Rochini, G. (26 de mayo2021). Plagiarism detection through data mining techniques. Journal of physiscs: conference series, International Conference on Recent Trends in Computing, San Francisco, EE.UU.� DOI: 10.1088/1742-6596/1979/1/012070
Perilla, M. (2019). Detecci�n de plagio en c�digo fuente java mediante tokenizaci�n y aprendizaje de m�quina. Educaci�n, ciencia y tecnolog�as emergentes para la generaci�n del siglo 21, 79-100. https://www.researchgate.net/publication/344755167
Priya, S., Dixit, A., Das, K., Harish, R. (2019). Plagiarism detection in source code using Machine Learning. International journal of engineering and advanced technology, 8,898-900. https://www.ijeat.org/wp-content/uploads/papers/v8i4/D6359048419.pdf
Qiubo, H., Jingdong, T., Guozheng, F. (28 de abril de 2019). Research on code plagiarism detection model based on Random Forest and Gradient Boosting Decision Tree. Conferencia internacional de 2019 sobre miner�a de datos y aprendizaje autom�tico, Hong Kong. DOI: 10.1145/3335656.3335692
Reducindo, I., Rivera, L., Rivera, J., Olvera, M. (2017). Integraci�n de plataforma LMS y algoritmo de c�digo abierto para detecci�n y prevenci�n de plagio en Educaci�n Superior. Revista general de informaci�n y documentaci�n, 27(2), 299-315. DOI: https://doi.org/10.5209/RGID.58205
Rogerson, A., McCarthy, G. (2017). Using internet based paraphrasing tools: Original work, patchwriting or facilitated plagiarism? International Journal for Educational Integrity, 13(2), 1-15. DOI: 10.1007/s40979-016-0013-y
S�nchez, D., Gonz�lez, H., Hern�ndez, Y. (2020). Revisi�n de algoritmos de detecci�n y seguimiento de objetos con redes profundas para videovigilancia inteligente. Revista Cubana de Ciencias Inform�ticas, 14(3), 165-197. https://www.redalyc.org/journal/3783/378365834009/html/
Santamar�a, W. (2015). T�cnicas de miner�a de datos aplicadas en la detecci�n de fraude: Estado del Arte. Universidad Nacional de Colombia. https://www.researchgate.net/publication/240724702_Tecnicas_de_Mineria_de_Datos_Aplicadas_en_la_Deteccion_de_FraudeEstado_del_Arte
Sarmiento, J., Ocampo, C. (2023). Enfoques frecuentistas y bayesiano en el estudio del plagio acad�mico. Una propuesta innovadora en investigaci�n educativa. REICE, 21(1), 139-158. DOI: https://doi.org/10.15366/reice2023.21.1.007
Shakeel, M., Karim, A. Khan, I. (2020). A multi-cascaded model with data augmentation for enhanced paraphrase detection in short texts. Information processing & management, 57(3), 102204. DOI: https://doi.org/10.1016/j.ipm.2020.102204
Sindhu, L., Idicula, S. (24 de febrero de 2017). Plagiarism detection in Malayalam language text using a composition of similarity measures. Conferencia internacional sobre aprendizaje autom�tico y computaci�n, Singapur. DOI: https://doi.org/10.1145/3055635.3056655
Venkatakrishnan, S., Mohan, K., Beattie, J., Correa, E., Dart, J., Deslippe, A., Hexemer, H., Krishnan, A., MacDowell, S., Marchesini, S., Patton, T., Perciano, J., Sethian, R., Stromsness, B., Tierney, C., Tull, D., Ushizima, D., Parkinson, D. (2016). Making advanced scientific algorithms and big scientific data management more accesible. Electronic Imaging, (19),1-7. DOI: 10.2352/ISSN.2470-1173.2016.19.COIMG-155
Villanaza S., Arteaga, F., Seijas, c., Rodr�guez, O. (2012). Estudio comparativo entre algoritmos de agrupamiento basado en SVM y C-medios difuso aplicados a se�ales electrocardiogr�ficas arr�tmicas. Revista Ingenier�a UC, 19(1), 16-24. https://www.redalyc.org/articulo.oa?id=70732261003
Viuginov, N., Grachev, P., filchenkov, A. (26 de diciembre de 2020). A Machine Learning based plagiarism detection in source code. 3ra Conferencia Internacional sobre algoritmos, computaci�n e Inteligencia Artificial. Sanya, China. DOI: 10.1145/3446132
Xylogiannopoulos, K., Karampelas, P., Alhajj, R. (31 de agosto de 2018). Text mining for plagiarism detection: Multivariate pattern detection for recognition of text similarities. Conferencia Internacional IEEE/ACM 2018 sobre avances en an�lisis y miner�a de redes sociales, Barcelona, Espa�a. DOI: 10.1109/ASONAM.2018.8508265.

� 2023 por los autores. Este art�culo es de acceso abierto y distribuido seg�n los t�rminos y condiciones de la licencia Creative Commons Atribuci�n-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).