Análisis de componentes principales (PCA)

Interligado
total de vistas
Visitas
Nivel avanzado
AAumentar texto
ADisminuir texto


Conocimientos previos Medidas de tendencia central Medidas de dispersión Álgebra lineal Descripción Es un algoritmo matemático para reducir las dimensiones…
Conocimientos previos
  • Medidas de tendencia central
  • Medidas de dispersión
  • Álgebra lineal

 

Descripción

Es un algoritmo matemático para reducir las dimensiones de conjuntos de datos reteniendo la mayoría de la variación de ellos en vectores llamados componentes principales. Las componentes principales son combinaciones lineales no correlacionadas entre sí de las variables originales y maximizan la varianza de las observaciones. Este algoritmo es ampliamente utilizado para identificar patrones en conjuntos de datos con un número dimensiones considerable.

La primera componente principal captura la mayor cantidad de la varianza de los datos, la segunda componente captura la segunda mayor cantidad de la varianza, y así sucesivamente. El número de componentes principales que puede ser obtenido de un conjunto de datos es igual a número de dimensiones que éste posea.

 

Entrada/Muestra

Matriz de datos con filas como observaciones y columnas como variables.

 

Recursos/Material

Software para realizar el análisis: R, python, minitab, SAS.

 

Requisitos previos

La matriz de datos debe contener únicamente variables cuantitativas. La  matriz  no debe poseer valores ausentes.

 

Procedimiento
  1. Calcular la media de cada una de las variables (dimensiones)
  2. Restar la media de cada una de las variables a cada una de las observaciones (restar el vector de medias a cada una de las filas -observaciones- de la matriz)
  3. Calcular la matriz de covarianza
  4. Calcular los eigenvectores y eigenvalores de la matriz de covarianza
  5. Graficar componentes principales

Gráfica de primera y segunda componente principal

El conjunto de datos consiste en la expresión de 22215 genes a lo largo de 189 muestras. Podemos observar que las muestras son divididas de acuerdo al tejido al que provienen.

El conjunto de datos utilizado para generar esta gráfica proviene de https://github.com/genomicsclass/old_dagdata, repositorio creado por Michael Love y Rafael Irizarri

 

 

Salida/Resultado

Eigenvectores (componentes principales) y eigenvalores.

 

Métodos alternativos
  • Descomposición en valores singulares (SVD)
  • Análisis de componentes independientes

 

Aplicaciones

 

Temas relacionados
  • Descomposición en valores singulares (SVD)
  • Análisis multivariado

Referencias:

Ringnér, M. (2008). What is principal component analysis? Nature Biotechnology, 26(3), 303–304. doi:10.1038/nbt0308-303 Smith, L. I. A tutorial on Principal Components Analysis. Retrieved August 24, 2016, from http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf Irizarry, R., & Love, M. Running PCA and SVD in R. Retrieved August 24, 2016, from http://genomicsclass.github.io/book/pages/pca_svd.html
Ver más


Cómo citar: Alquicira, J. (2016, 13 de Septiembre ) Análisis de componentes principales (PCA). Conogasi, Conocimiento para la vida. Fecha de consulta: Agosto 22, 2018

Esta obra está disponible bajo una licencia de Creative Commons Reconocimiento-No Comercial Compartir Igual 4.0

Deja un comentario

Sé el primero en comentar!

wpDiscuz