Detalles de la derivación e implementación de algoritmo básico para la reducción de dimensionalidad con PCA
Resumen
Los problemas que requieren de análisis de datos, a menudo son difíciles de resolver, debido principalmente a la cantidad de variables involucradas en el modelo matemático. Los científicos de datos generalmente trabajan con millones de variables para hacer estimaciones que soportan decisiones importantes. En el procesamiento digital de imágenes, por ejemplo, el número de puntos que representan pixeles en tres dimensiones podría muy grande en imágenes a color. En estos casos, el costo computacional que requiere el manejo de estos datos puede resultar inaceptable, y la reducción de dimensionalidad de estos datos se hace necesaria. Aún cuando se cuente con la tecnología adecuada, la reducción en tiempo de cómputo siempre es deseable. El manejo de datos con alta dimensionalidad, el análisis y la interpretación se dificulta y en el caso de imágenes, su visualización podría verse afectada considerando las limitaciones de memoria. En la mayoría de los casos, estos datos son redundantes, y la información importante puede revelarse con solo parte de los mismos. La reducción de dimensionalidad es el proceso mediante el cual se descarta parte de la data que no aporta información relevante; y uno de los métodos más usados en todos los ámbitos es el análisis de componentes principales, o PCA, el cual se basa en el cálculo de algunos autovalores de la matriz de covarianzas de los datos. En este trabajo revisamos las herramientas matemáticas detrás del análisis del PCA, y detallamos los pasos de un algoritmo para reducir dimensionalidad que luego es implementado en Matlab. Se presenta también un ejemplo de aplicación para ilustrar el proceso.
Palabras clave
Referencias
Datta, B.N (2010). Numerical Linear Algebra and Applications. Society for Industrial and Applied Mathematics; 2a. Edición.
De la Puente, V., C. (2018). Estadística descriptiva e inferencial, Ediciones IDT CB, Madrid, España.
Deisenroth, M.P., Faisal, A., Soon, C. (2020). Mathematics for Machine Learning. Cambridge University Press. https://mml-book.com.
James, G., Witten, D., Hastie, T., Tibshirani, R. (2013). An introduction to Statistical learning with applications in R, Springer, New York.
Lay, D. (2012). Álgebra lineal y sus aplicaciones. Pearson Education, México.
Pearson, K. (1901). On lines and planes of closest fit to systems of points in space. Philosophical Magazine, 2(6), 559 – 572
Rencher, A.C., Bruce Schaalje G.B. (1996). (2008). Linear models in statistics. Hoboken, N.J: Wiley-Interscience, 6a. Edición.
Thomas, G.B. (2005). Cálculo. Varias Variables, Pearson, Addison Wesley, 11a. Edición.
Salazar, P., C., Del Castillo, G., S. (2017). Fundamentos Básicos de Estadística, http://www.dspace.uce.edu.ec/handle/25000/13720, 1ª. Edición
Trefethen, L. N. & Bau III, D. (1997). Numerical linear algebra. Siam, Philadelphia.
DOI: https://doi.org/10.23857/pc.v7i2.3687
Enlaces de Referencia
- Por el momento, no existen enlaces de referencia
Polo del Conocimiento
Revista Científico-Académica Multidisciplinaria
ISSN: 2550-682X
Casa Editora del Polo
Manta - Ecuador
Dirección: Ciudadela El Palmar, II Etapa, Manta - Manabí - Ecuador.
Código Postal: 130801
Teléfonos: 056051775/0991871420
Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com
URL: https://www.polodelconocimiento.com/