conogasi logo

Análisis de componentes principales (PCA)

Conocimientos previos

 

Descripción

Es un algoritmo matemático para reducir las dimensiones de conjuntos de datos reteniendo la mayoría de la variación de ellos en vectores llamados componentes principales. Las componentes principales son combinaciones lineales no correlacionadas entre sí de las variables originales y maximizan la varianza de las observaciones. Este algoritmo es ampliamente utilizado para identificar patrones en conjuntos de datos con un número dimensiones considerable.

La primera componente principal captura la mayor cantidad de la varianza de los datos, la segunda componente captura la segunda mayor cantidad de la varianza, y así sucesivamente. El número de componentes principales que puede ser obtenido de un conjunto de datos es igual a número de dimensiones que éste posea.

 

Entrada/Muestra

Matriz de datos con filas como observaciones y columnas como variables.

 

Recursos/Material

Software para realizar el análisis: R, python, minitab, SAS.

 

Requisitos previos

La matriz de datos debe contener únicamente variables cuantitativas. La  matriz  no debe poseer valores ausentes.

 

Procedimiento
  1. Calcular la media de cada una de las variables (dimensiones)
  2. Restar la media de cada una de las variables a cada una de las observaciones (restar el vector de medias a cada una de las filas -observaciones- de la matriz)
  3. Calcular la matriz de covarianza
  4. Calcular los eigenvectores y eigenvalores de la matriz de covarianza
  5. Graficar componentes principales

Gráfica de primera y segunda componente principal

El conjunto de datos consiste en la expresión de 22215 genes a lo largo de 189 muestras. Podemos observar que las muestras son divididas de acuerdo al tejido al que provienen.

El conjunto de datos utilizado para generar esta gráfica proviene de https://github.com/genomicsclass/old_dagdata, repositorio creado por Michael Love y Rafael Irizarri

 

 

Salida/Resultado

Eigenvectores (componentes principales) y eigenvalores.

 

Métodos alternativos

 

Aplicaciones

 

Temas relacionados