Análisis de componentes principales (PCA)

Conocimientos previos

Medidas de tendencia central
Medidas de dispersión
Álgebra lineal

Descripción

Es un algoritmo matemático para reducir las dimensiones de conjuntos de datos reteniendo la mayoría de la variación de ellos en vectores llamados componentes principales. Las componentes principales son combinaciones lineales no correlacionadas entre sí de las variables originales y maximizan la varianza de las observaciones. Este algoritmo es ampliamente utilizado para identificar patrones en conjuntos de datos con un número dimensiones considerable.

La primera componente principal captura la mayor cantidad de la varianza de los datos, la segunda componente captura la segunda mayor cantidad de la varianza, y así sucesivamente. El número de componentes principales que puede ser obtenido de un conjunto de datos es igual a número de dimensiones que éste posea.

Entrada/Muestra

Matriz de datos con filas como observaciones y columnas como variables.

Recursos/Material

Software para realizar el análisis: R, python, minitab, SAS.

Requisitos previos

La matriz de datos debe contener únicamente variables cuantitativas. La matriz no debe poseer valores ausentes.

Procedimiento

Calcular la media de cada una de las variables (dimensiones)
Restar la media de cada una de las variables a cada una de las observaciones (restar el vector de medias a cada una de las filas -observaciones- de la matriz)
Calcular la matriz de covarianza
Calcular los eigenvectores y eigenvalores de la matriz de covarianza
Graficar componentes principales

Gráfica de primera y segunda componente principal

El conjunto de datos consiste en la expresión de 22215 genes a lo largo de 189 muestras. Podemos observar que las muestras son divididas de acuerdo al tejido al que provienen.

El conjunto de datos utilizado para generar esta gráfica proviene de https://github.com/genomicsclass/old_dagdata, repositorio creado por Michael Love y Rafael Irizarri

Salida/Resultado

Eigenvectores (componentes principales) y eigenvalores.

Métodos alternativos

Descomposición en valores singulares (SVD)
Análisis de componentes independientes

Aplicaciones

Análisis de expresión genética
Estratificación poblacional
Ascendencia genética

Temas relacionados

Descomposición en valores singulares (SVD)
Análisis multivariado

Referencias:

Ringnér, M. (2008). What is principal component analysis? Nature Biotechnology, 26(3), 303–304. doi:10.1038/nbt0308-303 Smith, L. I. A tutorial on Principal Components Analysis. Retrieved August 24, 2016, from http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf Irizarry, R., & Love, M. Running PCA and SVD in R. Retrieved August 24, 2016, from http://genomicsclass.github.io/book/pages/pca_svd.html

Cómo citar: Alquicira, J. (2016, 13 de Septiembre ) Análisis de componentes principales (PCA). Conogasi, Conocimiento para la vida. Fecha de consulta: Julio 12, 2025

Esta obra está disponible bajo una licencia de Creative Commons Reconocimiento-No Comercial Compartir Igual 4.0

Deja un comentario

Sé el primero en comentar!