Equiparacin de puntuaciones mediante mxima verosimilitud y valores plausibles
Equation of scores using maximum likelihood and plausible values
Equao de pontuaes usando mxima verossimilhana e valores plausveis
Correspondencia: hmullo@espoch.edu.ec
Ciencias Tcnicas y Aplicadas
Artculo de Investigacin
* Recibido: 10 de marzo de 2024 *Aceptado: 20 de abril de 2024 * Publicado: 09 de mayo de 2024
I. Ingeniero en Estadstica Informtica, Mster Universitario en Estadstica Aplicada, Doctor en Estadstica Matemtica y Aplicada, Escuela Superior Politcnica de Chimborazo (ESPOCH), Riobamba, Ecuador.
II. Estudiante de Ingeniera en Estadstica en la Escuela Superior Politcnica de Chimborazo (ESPOCH), Riobamba, Ecuador.
III. Estudiante de Ingeniera en Estadstica en la Escuela Superior Politcnica de Chimborazo (ESPOCH), Riobamba, Ecuador.
IV. Estudiante de Ingeniera en Estadstica en la Escuela Superior Politcnica de Chimborazo (ESPOCH), Riobamba, Ecuador.
Resumen
La investigacin se centra en desarrollar un proceso de simulacin y estimacin de la habilidad en datos para dos formas de prueba que se ajusten al modelo de teora de respuesta al tem de Rasch. Se busca minimizar el error cuadrado medio en la estimacin de la habilidad de sustentantes de la prueba. Se considera aspectos cruciales como el porcentaje de tems ancla, la distribucin de las dificultades de los tems y el sesgo de la distribucin. Utilizando estos datos, se estima la habilidad mediante la mxima verosimilitud y valores plausibles. Un total de 768 escenarios, evaluando el error absoluto medio y el error cuadrtico. Los resultados obtenidos muestran 15 escenarios que minimizaron las medidas de error, en general, esto ocurri cuando la distribucin de la dificultad de los tems es normal estndar, adems, cuando la estimacin de las habilidades se desarrolla en un ambiente de desconocimiento de las dificultades de los tems. La conclusin ms importante es que el mejor mtodo de estimacin de la habilidad es el de mxima verosimilitud, donde las dificultades de los tems siguen una distribucin normal.
Palabras Clave: Equiparacin; Psicometra; Valores plausibles; Teora de Respuesta al tem.
Abstract
The research focuses on developing a process of simulation and estimation of ability in data for two forms of testing that fit the Rasch item response theory model. The aim is to minimize the mean square error in estimating the ability of test takers. Crucial aspects such as the percentage of anchor items, the distribution of item difficulties and the skewness of the distribution are considered. Using this data, skill is estimated using maximum likelihood and plausible values. A total of 768 scenarios, evaluating the mean absolute error and the squared error. The results obtained show 15 scenarios that minimized the error measurements, in general, this occurred when the distribution of the difficulty of the items is standard normal, in addition, when the estimation of the skills is developed in an environment of ignorance of the difficulties of the items. The most important conclusion is that the best method for estimating ability is maximum likelihood, where item difficulties follow a normal distribution.
Keywords: Equation; Psychometry; Plausible values; Item Response Theory.
Resumo
A pesquisa se concentra no desenvolvimento de um processo de simulao e estimativa de habilidade em dados para duas formas de testes que se enquadram no modelo da teoria de resposta ao item de Rasch. O objetivo minimizar o erro quadrtico mdio na estimativa da habilidade dos candidatos. So considerados aspectos cruciais como a percentagem de itens ncora, a distribuio das dificuldades dos itens e a assimetria da distribuio. Usando esses dados, a habilidade estimada usando mxima verossimilhana e valores plausveis. Um total de 768 cenrios, avaliando o erro mdio absoluto e o erro quadrtico. Os resultados obtidos mostram 15 cenrios que minimizaram as medidas de erros, em geral, isso ocorreu quando a distribuio da dificuldade dos itens padro normal, alm disso, quando a estimativa das habilidades desenvolvida em um ambiente de desconhecimento das dificuldades de os itens. A concluso mais importante que o melhor mtodo para estimar a habilidade a mxima verossimilhana, onde as dificuldades dos itens seguem uma distribuio normal.
Palavras-chave: Equao; Psicometria; Valores plausveis; Teoria de Resposta ao Item.
Introduccin
Las evaluaciones de aprendizaje a gran escala forman parte del campo terico de la psicometra, especficamente se enmarcan en las teoras de los test, los cuales construyen modelos tericos y metodolgicos (Muiz, 2010). El primer modelo que se formul se conoce como la Teora Clsica de los Test (TCT), luego surgi nuevas teoras y tcnicas de medicin que han superado la perspectiva clsica, si bien existen varios modelos, la Teora de Respuesta al tem (TRI) es la ms reconocida (Attorresi et al., 2009). La TRI agrupa varias lneas de investigacin psicomtricas, donde el factor comn de estos desarrollos es que establecen una relacin entre el comportamiento de un sujeto frente a un tem y el rasgo responsable de esta conducta (rasgo latente) (Attorresi et al., 2009, p. 180). El anlisis de las respuestas en una prueba que propone la TRI es radicalmente diferente a la TCT, pues se enfoca en los componentes constituyentes de la misma (es decir, los tems) en vez del resultado global de la medicin (Leenen, 2014, p. 41).
Dentro de los modelos de la TRI, se encuentra el modelo (Rasch 1960) que utiliza la siguiente funcin para modelar la probabilidad de que un sustentante con habilidad , responda correctamente un tem con dificultad
donde es la puntuacin del sustentante que toma valores de 0 (respuesta incorrecta) o 1 (respuesta correcta).
La TRI es apropiada para analizar instrumentos como las pruebas estandarizadas. Para ello, es importante definir el rasgo latente que subyace en la prueba y que se intenta estimar. El rasgo latente es un constructo terico de carcter cognitivo, procedimental o actitudinal que no puede ser medido directamente debido a que no es observable explcitamente, el cual se estima a travs de los indicadores que conforman un instrumento de evaluacin.
En las evaluaciones estandarizadas a gran escala se aplican instrumentos de evaluacin a los sustentantes de poblaciones de inters. En estas a menudo es necesario comparar los resultados de los sustentantes en dos formas de prueba que evalan el mismo constructo, esto se puede realizar mediante una equiparacin entre las dos formas de prueba utilizando TRI cuando los grupos evaluados de cada forma no son equivalentes (es decir, los grupos son de diferentes poblaciones) y se cuenta con covariables (variables de estratificacin utilizadas en el proceso de muestreo o diseo muestral) e tems anclas (es decir, tems que son comunes en las dos formas de prueba). En el proceso de equiparacin de puntuaciones en evaluaciones, las diferencias de las puntuaciones se deben a: i) diferencias en la dificultad de las pruebas de cada ciclo y ii) diferencias en las habilidades de los sustentantes de cada ciclo. Una definicin formal de equiparacin dado por Braun y Holland (1982) es la siguiente:
Sean y dos pruebas que generan ambos datos de puntuacin e , respectivamente. Se dice que e se equiparan en la poblacin por (transformacin de equiparacin) si , donde y representan la funcin de distribucin de y respectivamente.
Para la estimacin de las puntuaciones (o habilidad) se puede realizar mediante el mtodo de mxima verosimilitud ponderada o utilizando valores plausibles. Esto cuando se tiene dos formas de prueba aplicados a dos grupos no equivalentes, donde se cuenta con tems ancla entre formas (Grupo tems ). La siguiente tabla ejemplifica lo anterior
Tabla 1: Diseo de prueba con matriz incompleta
|
Grupo tems |
Grupo tems |
Grupo tems |
Grupo sustentantes |
|
|
|
Grupo sustentantes |
|
|
|
Elaborado por: Direccin de Anlisis Psicomtrico
Fuente: Fuentealba, 2020
La matriz incompleta se utiliza para cubrir la longitud de la estructura de evaluacin, este es un tema importante para tener en cuenta en el proceso de equiparacin de dos formas de prueba. En el mismo sentido, la utilizacin de mxima verosimilitud o valores plausibles en el paquete TAM es un tema de inters que se relaciona directamente con la utilizacin de una matriz incompleta para cubrir la longitud de la estructura de evaluacin para un mismo constructo.
Segn Wu (2022) los valores plausibles son sorteos aleatorios de la distribucin posterior, donde la distribucin posterior es aquella que se obtiene despus de que los sustentantes rindieron la evaluacin, mediante la informacin de la distribucin anterior (distribucin de los sustentantes en el rango de la habilidad) y los resultados de la evaluacin combinados.
En este sentido el objetivo del presente trabajo de investigacin es determinar el mejor mtodo de estimacin de la habilidad entre la mxima verosimilitud y valores plausibles en el contexto de una equiparacin de dos formas de prueba aplicados a grupos de prueba independientes. Se buscar el mejor mtodo mediante el clculo del error absoluto medio y el error cuadrtico medio.
Metodologa
Para alcanzar el objetivo de la investigacin se simula datos de respuesta al tem que se ajustan al modelo de Rasch. Estos datos son matrices una por forma de prueba con 1000 sustentantes y 100 tems, se considera una tasa de no respuesta de tems del 4.8%. La simulacin de los datos se desarrolla en el software estadstico R mediante el paquete MIRT desarrollado por Chalmers et al. (2023). La equiparacin mediante mxima verosimilitud [(Myung, 2003), (Eliason, 1993), (Hambleton et. al 1985) y (Banerjee, 2008)] y valores plausibles (Thompson, 2009), y la comparacin de los mtodos se realiza mediante el paquete TAM de autora de Kiefer, Robitzsch y Wu (2016).
Simulacin de Datos Rasch: En este punto se considerar tres aspectos importantes en el diseo de pruebas como son: i) el porcentaje de tems ancla en relacin con nmero total de tems del
instrumento de evaluacin, ii) la distribucin de probabilidad de las dificultades de los tems, y iii) el sesgo de la distribucin.
Estimacin de las habilidades de los sustentantes: Para este punto se toma en cuenta tres aspectos que son: i) el nmero de valores plausibles extrados de la distribucin posterior de las habilidades, ii) se considera modelos con dificultades fijas (es decir conocidas en la simulacin de los datos) y modelos con dificultades no conocidas, y iii) el rango de la distribucin de la habilidad, para la extraccin de los valores plausibles.
En la simulacin y estimacin de la informacin se hizo fluctuar los parmetros descritos en los dos prrafos anteriores con los siguientes valores:
Simulacin de Datos Rasch:
- Porcentaje de tems ancla: .
- Distribucin de probabilidad de las dificultades de los tems: y .
- Sesgo de la distribucin: Para la distribucin normal estndar se considerar un parmetro de sesgo de .
Estimacin de las habilidades de los sustentantes:
Nmero de valores plausibles extrados: .
Modelo TRI con dificultades: .
Rango de la distribucin de la habilidad, para la extraccin de los valores plausibles: .
A partir de los parmetros anteriores se establecieron 768 escenarios, donde se simularon datos Rasch (dos formas de prueba) y se estim la habilidad mediante mxima verosimilitud y valores plausibles, considerando una calibracin concurrente (en una sola matriz), es decir, se calibr a partir del diseo de prueba con matriz incompleta (ver Tabla 1.). Se compar el ajuste de los modelos mediante el error cuadrtico medio y la desviacin media absoluta, posteriormente se toma los primeros 10 mejores ajustes para la discusin de los resultados.
Resultados
De la simulacin y estimacin de las habilidades en los 768 escenarios se obtuvo el error cuadrtico medio y la desviacin media absoluta para la estimacin de la habilidad mediante mxima verosimilitud y valores plausibles versus las habilidades iniciales. A continuacin (ver Tabla 2.) se presenta los 15 mejores escenarios que minimizaron las medidas de error, en general, esto ocurri cuando la distribucin de la dificultad de los tems es normal estndar. Adems, cuando la estimacin de las habilidades se desarrolla en un ambiente de desconocimiento de las dificultades de los tems. En relacin con los dems parmetros se tiene que, el porcentaje de tems anclas puede variar del 10% al 30%, el parmetro del sesgo de la distribucin de la dificultad puede variar entre 0 a 0.9, el nmero de valores plausibles debe ser de por lo menos 5 y el rango de valores plausibles de 2 0 4.
Lo anterior indica que, i) podemos estimar de manera precisa las habilidades de los sustentantes sin conocer a priori las dificultades, sin embargo, es necesario que la distribucin de las dificultades sea una norma estndar sin importar su sesgo; ii) el porcentaje de tems ancla debe ser inferior o igual al 30% de los tems de la forma de prueba; iii) el nmero de valores plausibles para la estimacin es de por lo menos 5; y iv) el rango de los valores plausibles puede ser de 2 o 4.
Ahora, se interpreta el primer modelo de la Tabla 2. Dado un conjunto de datos que siguen un modelo de Rasch con dificultades de los tems distribuidos normalmente (normal estndar) sin sesgo con 10 tems ancla de 100 presentes, con un 4.8% de no respuestas de los tems. La estimacin por valores plausibles de las habilidades de los sustentantes con 5 valores plausibles y con un rango de 2, tiene un valor de 0.1382 de la raz cuadrada del error cuadrtico medio y una desviacin absoluta media de 0.1045. Esto quiere decir que el escenario en estudio es el ms preciso en la estimacin de la habilidad, adems se espera que en promedio se cometa un error mximo de 0.1045 al momento de estimar la habilidad, tomando en cuenta que regularmente la habilidad flucta en el intervalo este error es pequeo. Del mismo modo, en la estimacin por mxima verosimilitud se tiene un RMSE de 0.0512 y una MAD de 0.0406, evidentemente nmeros ms pequeos en comparacin de los valores plausibles (esto se repiti en todos los escenarios). Por lo tanto, la mejor opcin de equiparacin de dos formas de prueba en el contexto descrito en este trabajo es mediante mxima verosimilitud, sin embargo, los resultados de valores plausibles son alentadores y con alta precisin.
Tabla 2: Primeros 15 mejores escenarios en la estimacin de la habilidad mediante mxima verosimilitud y valores plausibles
Escenario |
Porcentaje Anclas |
Parmetro de sesgo |
Nmero de valores plausibles |
Rango valores plausibles |
RMSE.VP |
MAD.VP |
RMSE.MV |
MAD.MV |
1 |
0,1 |
0 |
5 |
2 |
0,1382 |
0,1045 |
0,0512 |
0,0406 |
2 |
0,3 |
0,9 |
5 |
2 |
0,1389 |
0,1043 |
0,0545 |
0,0428 |
3 |
0,3 |
0 |
5 |
2 |
0,1397 |
0,1035 |
0,0524 |
0,0408 |
4 |
0,2 |
0,3 |
5 |
2 |
0,1403 |
0,1043 |
0,0510 |
0,0398 |
5 |
0,2 |
0,9 |
5 |
2 |
0,1405 |
0,1065 |
0,0536 |
0,0421 |
6 |
0,1 |
0,9 |
7 |
4 |
0,1409 |
0,1121 |
0,0510 |
0,0395 |
7 |
0,1 |
0,6 |
5 |
2 |
0,1411 |
0,1040 |
0,0519 |
0,0409 |
8 |
0,2 |
0,3 |
7 |
4 |
0,1416 |
0,1119 |
0,0510 |
0,0398 |
9 |
0,3 |
0,9 |
7 |
2 |
0,1417 |
0,1063 |
0,0545 |
0,0428 |
10 |
0,3 |
0 |
7 |
4 |
0,1419 |
0,1119 |
0,0524 |
0,0408 |
11 |
0,1 |
0,6 |
7 |
4 |
0,1421 |
0,1125 |
0,0519 |
0,0409 |
12 |
0,1 |
0,9 |
5 |
2 |
0,1424 |
0,1069 |
0,0510 |
0,0395 |
13 |
0,1 |
0,3 |
7 |
4 |
0,1424 |
0,1132 |
0,0504 |
0,0392 |
14 |
0,1 |
0 |
7 |
2 |
0,1425 |
0,1065 |
0,0512 |
0,0406 |
15 |
0,1 |
0,3 |
5 |
2 |
0,1426 |
0,1067 |
0,0504 |
0,0392 |
Fuente: (Autores, 2022)
Elaborado: Autores
En la Tabla 3. se muestra los 15 peores escenarios que maximizaron las medidas de error, en general, ocurre esto cuando la distribucin de la dificultad de los tems es uniforme en el intervalo . Adems, cuando la estimacin de las habilidades se desarrolla conociendo las dificultades de los tems. Para los dems parmetros se tiene que, el porcentaje de tems anclas puede variar libremente al igual que el parmetro del sesgo de la distribucin de la dificultad, el nmero de valores plausibles debe ser de uno, y el rango de valores plausibles de 5.
Tabla 3: ltimos 15 peores escenarios en la estimacin de la habilidad mediante mxima verosimilitud y valores plausibles
Modelo |
Porcentaje Anclas |
Parmetro de sesgo |
Nmero de valores plausibles |
Rango valores plausibles |
RMSE.VP |
MAD.VP |
RMSE.MV |
MAD.MV |
1 |
0,3 |
0,6 |
1 |
5 |
3,0037 |
2,9524 |
0,5772 |
0,4482 |
2 |
0,3 |
0,9 |
1 |
5 |
2,9747 |
2,9228 |
0,5501 |
0,4274 |
3 |
0,2 |
0,6 |
1 |
5 |
2,9640 |
2,9220 |
0,3536 |
0,2738 |
4 |
0,2 |
0 |
1 |
5 |
2,9577 |
2,9078 |
0,4310 |
0,3422 |
5 |
0,3 |
0,3 |
1 |
5 |
2,9525 |
2,9044 |
0,5772 |
0,4447 |
6 |
0,3 |
0 |
1 |
5 |
2,9363 |
2,8875 |
0,5465 |
0,4233 |
7 |
0,2 |
0,6 |
1 |
5 |
2,8937 |
2,8419 |
0,4304 |
0,3391 |
8 |
0,2 |
0,9 |
1 |
5 |
2,8908 |
2,8399 |
0,4336 |
0,3367 |
9 |
0,2 |
0,3 |
1 |
5 |
2,8904 |
2,8391 |
0,4549 |
0,3546 |
10 |
0,1 |
0,6 |
1 |
5 |
2,8198 |
2,7674 |
0,2407 |
0,1915 |
11 |
0,1 |
0 |
1 |
5 |
2,8094 |
2,7558 |
0,2392 |
0,1907 |
12 |
0,1 |
0,9 |
1 |
5 |
2,6878 |
2,6334 |
0,2247 |
0,1785 |
13 |
0,1 |
0,3 |
1 |
5 |
2,6664 |
2,6124 |
0,2248 |
0,1812 |
14 |
0,3 |
0,6 |
1 |
5 |
2,6482 |
2,5996 |
0,2092 |
0,1709 |
15 |
0,3 |
0,9 |
1 |
5 |
2,5343 |
2,4731 |
0,0601 |
0,0469 |
Fuente: (Autores, 2022)
Elaborado: Autores
En las Figuras 1. y 2. se muestran la funcin densidad de las habilidades de los sustentantes (theta) y las estimaciones mediante mxima verosimilitud (theta.mv) y valores plausibles (theta.vp). Lo anterior para el mejor y peor escenario. En el caso del mejor escenario se mira un buen ajuste de la curva de theta.mv hacia theta, mientras que la curva de theta.vp no tiene a ubicarse sobre la curva de theta. Obviamente en el peor escenario las curvas de theta.mv y theta.vp no presentan un buen ajuste a la curva de theta, sin embargo, el ajuste de theta.mv es mejor (esto ocurri en los 768 escenarios). Por lo tanto, en sintona con lo indicado en los anteriores prrafos la estimacin por mxima verosimilitud es la mejor opcin en cualquier escenario de equiparacin.
Figura 1: Mejor escenario: Distribucin de densidad de las variables habilidad (theta), habilidad estimada mediante mxima verosimilitud (theta.mv) y habilidad estimada mediante valores plausibles (theta.vp).
Elaborado: Autores
Figura 2: Peor escenario: Distribucin de densidad de las variables habilidad (theta), habilidad estimada mediante mxima verosimilitud (theta.mv) y habilidad estimada mediante valores plausibles (theta.vp).
Elaborado: Autores
Conclusiones
Se desarroll un proceso de simulacin de datos de dos formas de prueba que se ajustan al modelo de teora de respuesta al tem de Rasch. Donde se consider aspectos importantes como i) el porcentaje de tems ancla, ii) la distribucin de probabilidad de las dificultades de los tems, y iii) el sesgo de la distribucin. A partir de estos datos, se estim la habilidad de los sustentantes mediante mxima verosimilitud tomando en cuenta un modelo con dificultades conocidas o desconocidas. Adems, se estim la habilidad a travs de valores plausibles, considerando el i) nmero de valores plausibles extrados de la distribucin posterior de las habilidades, y ii) el rango para la extraccin. En total se trabaj con 768 escenarios donde se calcul el error absoluto medio y el error cuadrtico medio. Se lleg a las siguientes conclusiones, teniendo en mente que se busca el escenario que minimice el error absoluto medio y el error cuadrtico medio (es decir, la mejor estimacin de la habilidad de los sustentantes):
- Para la equiparacin de dos formas de prueba no es importante el porcentaje de tems ancla (lgicamente llegando mximo al 30%). Tampoco es importante sesgos leves de la distribucin de las dificultades de los tems.
- En general, cuando se construye un instrumento de evaluacin se desconoce las dificultades y su distribucin. De los resultados de esta investigacin se tiene que no es importante conocer las dificultades, sin embargo, estos deben seguir una distribucin normal estndar. Esto es importante en la estimacin de las habilidades mediante mxima verosimilitud.
- En la estimacin de la habilidad por valores plausibles, es recomendable extraer 5 o ms valores plausibles y considerar un rango de extraccin de 2 o 4.
- Los peores escenarios muestran que esto ocurre cuando la distribucin de la dificultad de los tems es uniforme en el intervalo . Al respecto, al construir una prueba de evaluacin no es buena idea elegir tems que generen una distribucin uniforme de las dificultades en la prueba, ms bien, deben generar una distribucin normal estndar.
Algunos autores han estudiado el problema de la estimacin de la habilidad en un entorno de equiparacin, al respecto Seong (1990) muestra que el aumento del nmero de puntos de cuadratura mejor la precisin de la estimacin de los parmetros del tem. Kim y Nicewander (1993) exploraron los estimadores de mxima verosimilitud [MLE (θ)], probabilidad ponderada [WLE (θ)], modal bayesiano [BME (θ)], esperado a posteriori [EAP (θ)], ellos muestran que las estimaciones de la habilidad de estos estimadores son razonablemente imparciales para el rango de habilidades correspondiente a la dificultad de una prueba, y que sus errores estndar eran relativamente pequeos. Estos autores presentan evidencia a favor de los resultados de este trabajo.
Por otro lado, algunos autores presentan resultados que contrastan con los de este trabajo. Guamn y Sepa (2023) indican que las estimaciones ms precisas, son con la estimacin mediante valores plausibles, sin embargo, en esta investigacin no se demuestra que los datos se ajustan a un modelo psicomtrico de Rasch, por lo tanto, los resultados no son confiables. Lord (1953) menciona que la estimacin optima de la habilidad, mediante tems de opcin mltiple con un nivel de dificultad del tem algo ms fcil que el punto medio entre 0.5 y 1.
Dentro de las limitaciones de esta investigacin estn, el estudio de la precisin de la estimacin de la habilidad cuando el tamao muestral aumenta. Adems, solo se consideraron dos estimadores de la habilidad. Al respecto se podra considerar en la investigacin futura otros estimadores como el algoritmo EM (Bock y Aitkin, 1981). Tambin, se podra estudiar mtodos para reducir el sesgo cuando se desconoce las dificultades de los tems (Zhan, 2005).
Referencias
1. Attorresi, H. F., Lozzia, G. S., Abal, F. J. P., Galibert, M. S., & Aguerri, M. E. (2009). Teora de Respuesta al tem. Conceptos bsicos y aplicaciones para la medicin de constructos psicolgicos. Revista Argentina de clnica psicolgica, 18(2), 179-188.
2. Banerjee, O., El Ghaoui, L., & d'Aspremont, A. (2008). Model selection through sparse maximum likelihood estimation for multivariate Gaussian or binary data. The Journal of Machine Learning Research, 9, 485-516.
3. Bock, RD, Aitkin, M. Estimacin de mxima verosimilitud marginal de los parmetros del tem: aplicacin de un algoritmo EM. Psicometrika 46, 443459 (1981). https://doi.org/10.1007/BF02293801
4. Braun, H., & Holland, P. (1982). Observed-score test equating: a mathematical analysis of some ETS equating procedures. In P. Holland & D. Rubin (Eds.), Test equating (Vol. 1, pp. 949). New York: Academic Press.
5. Chalmers, P., Pritikin, J., & Oguzha, O. (2023). MIRT: Multidimensional Item Response Theory. R Package Version 3.6.0.
6. Eliason, SR (1993). Estimacin de mxima verosimilitud: Lgica y prctica (N 96). Sabio.
7. Guamn, E., & Sepa M. (2023). Comparacin En La Estimacin De La Habilidad De Sustentantes Entre La Teora De Respuesta Al tem Vs La Metodologa De Valores Plausibles.
8. Hambleton, R. K., Swaminathan, H., Hambleton, R. K., & Swaminathan, H. (1985). Estimation of Ability. Item Response Theory: Principles and Applications, 75-99.
9. Kiefer, T., Robitzsch, A., & Wu, M. (2016). TAM: Test analysis modules. R Package Version 1.995-0.
10. Kim, JK, Nicewander, WA Estimacin de capacidad para pruebas convencionales. Psicometrika 58, 587599 (1993). https://doi.org/10.1007/BF02294829
11. Leenen, I. (2014). Virtudes y limitaciones de la teora de respuesta al tem para la evaluacin educativa en las ciencias mdicas. Investigacin en educacin mdica, 3(9), 40-55.
12. Lord, FM Una aplicacin de intervalos de confianza y de mxima verosimilitud a la estimacin de la capacidad de un examinado. Psicometrika 18, 5776 (1953). https://doi.org/10.1007/BF02289028
13. Muiz Fernndez, J. (2010). Las teoras de los tests: teora clsica y teora de respuesta a los tems. Papeles del Psiclogo: Revista del Colegio Oficial de Psiclogos.
14. Myung, I. J. (2003). Tutorial on maximum likelihood estimation. Journal of mathematical Psychology, 47(1), 90-100.
15. Rasch, G. (1960). Studies in mathematical psychology: I. Probabilistic models for some intelligence and attainment tests.
16. Seong, T. J. (1990). Sensitivity of marginal maximum likelihood estimation of item and ability parameters to the characteristics of the prior ability distributions. Applied psychological measurement, 14(3), 299-311.
17. Thompson, N. A. (2009). Ability estimation with item response theory. Assessment Systems Corporation, 20.
18. Wu, M. (2022). A Course on Test and Item Analyses. https://www.edmeasurementsurveys.com/IRT/index.html
19. Zhang, J. (2005). Bias correction for the maximum likelihood estimate of ability. ETS Research Report Series, 2005(2), i-39.
2024 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
(https://creativecommons.org/licenses/by-nc-sa/4.0/).
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/