Conocimientos previos
- Medidas de tendencia central
- Medidas de dispersión
- Álgebra lineal
Descripción
Es un algoritmo matemático para reducir las dimensiones de conjuntos de datos reteniendo la mayoría de la variación de ellos en vectores llamados componentes principales. Las componentes principales son combinaciones lineales no correlacionadas entre sí de las variables originales y maximizan la varianza de las observaciones. Este algoritmo es ampliamente utilizado para identificar patrones en conjuntos de datos con un número dimensiones considerable.
La primera componente principal captura la mayor cantidad de la varianza de los datos, la segunda componente captura la segunda mayor cantidad de la varianza, y así sucesivamente. El número de componentes principales que puede ser obtenido de un conjunto de datos es igual a número de dimensiones que éste posea.
Entrada/Muestra
Matriz de datos con filas como observaciones y columnas como variables.
Recursos/Material
Software para realizar el análisis: R, python, minitab, SAS.
Requisitos previos
La matriz de datos debe contener únicamente variables cuantitativas. La matriz no debe poseer valores ausentes.
Procedimiento
- Calcular la media de cada una de las variables (dimensiones)
- Restar la media de cada una de las variables a cada una de las observaciones (restar el vector de medias a cada una de las filas -observaciones- de la matriz)
- Calcular la matriz de covarianza
- Calcular los eigenvectores y eigenvalores de la matriz de covarianza
- Graficar componentes principales
Gráfica de primera y segunda componente principal
El conjunto de datos consiste en la expresión de 22215 genes a lo largo de 189 muestras. Podemos observar que las muestras son divididas de acuerdo al tejido al que provienen.
El conjunto de datos utilizado para generar esta gráfica proviene de https://github.com/genomicsclass/old_dagdata, repositorio creado por Michael Love y Rafael Irizarri
Salida/Resultado
Eigenvectores (componentes principales) y eigenvalores.
Métodos alternativos
- Descomposición en valores singulares (SVD)
- Análisis de componentes independientes
Aplicaciones
- Análisis de expresión genética
- Estratificación poblacional
- Ascendencia genética
Temas relacionados
- Descomposición en valores singulares (SVD)
- Análisis multivariado
Cómo citar: Alquicira, J. (2016, 13 de Septiembre ) Análisis de componentes principales (PCA). Conogasi, Conocimiento para la vida. Fecha de consulta: Noviembre 22, 2024
Esta obra está disponible bajo una licencia de Creative Commons Reconocimiento-No Comercial Compartir Igual 4.0
Deja un comentario
Sé el primero en comentar!