Detalles de la derivación e implementación de algoritmo básico para la reducción de dimensionalidad con PCA

Zenaida Natividad Castillo-Marrero, Gustavo Adolfo Colmenares-Pacheco, Ramón Antonio Abancin-Ospina, Víctor Oswaldo Cevallos-Vique

Resumen


Los problemas que requieren de análisis de datos, a menudo son difíciles de resolver, debido principalmente a la cantidad de variables involucradas en el modelo matemático. Los científicos de datos generalmente trabajan con millones de variables para hacer estimaciones que soportan decisiones importantes. En el procesamiento digital de imágenes, por ejemplo, el número de puntos que representan pixeles en tres dimensiones podría muy grande en imágenes a color. En estos casos, el costo computacional que requiere el manejo de estos datos puede resultar inaceptable, y la reducción de dimensionalidad de estos datos se hace necesaria. Aún cuando se cuente con la tecnología adecuada, la reducción en tiempo de cómputo siempre es deseable. El manejo de datos con alta dimensionalidad, el análisis y la interpretación se dificulta y en el caso de imágenes, su visualización podría verse afectada considerando las limitaciones de memoria. En la mayoría de los casos, estos datos son redundantes, y la información importante puede revelarse con solo parte de los mismos. La reducción de dimensionalidad es el proceso mediante el cual se descarta parte de la data que no aporta información relevante; y uno de los métodos más usados en todos los ámbitos es el análisis de componentes principales, o PCA, el cual se basa en el cálculo de algunos autovalores de la matriz de covarianzas de los datos. En este trabajo revisamos las herramientas matemáticas detrás del análisis del PCA, y detallamos los pasos de un algoritmo para reducir dimensionalidad que luego es implementado en Matlab. Se presenta también un ejemplo de aplicación para ilustrar el proceso.


Palabras clave


PCA; Reducción de dimensionalidad; Autovalores; Análisis de datos.

Texto completo:

PDF HTML

Referencias


Datta, B.N (2010). Numerical Linear Algebra and Applications. ‎ Society for Industrial and Applied Mathematics; 2a. Edición.

De la Puente, V., C. (2018). Estadística descriptiva e inferencial, Ediciones IDT CB, Madrid, España.

Deisenroth, M.P., Faisal, A., Soon, C. (2020). Mathematics for Machine Learning. Cambridge University Press. https://mml-book.com.

James, G., Witten, D., Hastie, T., Tibshirani, R. (2013). An introduction to Statistical learning with applications in R, Springer, New York.

Lay, D. (2012). Álgebra lineal y sus aplicaciones. Pearson Education, México.

Pearson, K. (1901). On lines and planes of closest fit to systems of points in space. Philosophical Magazine, 2(6), 559 – 572

Rencher, A.C., Bruce Schaalje G.B. (1996). (2008). Linear models in statistics. Hoboken, N.J: Wiley-Interscience, 6a. Edición.

Thomas, G.B. (2005). Cálculo. Varias Variables, Pearson, Addison Wesley, 11a. Edición.

Salazar, P., C., Del Castillo, G., S. (2017). Fundamentos Básicos de Estadística, http://www.dspace.uce.edu.ec/handle/25000/13720, 1ª. Edición

Trefethen, L. N. & Bau III, D. (1997). Numerical linear algebra. Siam, Philadelphia.




DOI: https://doi.org/10.23857/pc.v7i2.3687

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/