conogasi logo

Ensamble de genoma

Conocimientos previos

 

Descripción

El producto del proceso de secuenciación de un genoma son archivos que contienen información de millones de secuencias de ADN fragmentadas. Para generar una secuencia que represente el genoma completo de un organismo es necesario armarlo, acomodando dichas secuencias mediante un método llamado ensamble de genoma. Éste es un proceso computacional repetitivo con varios ciclos de armado, evaluación y mejoramiento. El ensamble es un cálculo informático complejo esencial en la biología, ya que permite analizar la información contenida en los genomas.

 

Entrada/Muestra

 

Procedimiento
  1. Encontrar los fragmentos de ADN más parecidos entre sí. Los programas primero analizan todas las lecturas y encuentran las que tengan partes iguales. Estas partes suelen encontrarse en los extremos de las lecturas
  2. Unir los fragmentos parecidos para armar secuencias más largas. Posteriormente se utilizan dichas partes para empalmar las lecturas unas con otras. Al combinarlas se obtienen secuencias más grandes llamadas contigs
  3. Reunir todas las secuencias obtenidas en secuencias aún más grandes mediante datos extra. Al reunir y combinar los contig [1]s en secuencias aún más grandes se obtienen scaffolds o supercontigs. Estos no son consecutivos (suelen tener huecos entre contigs) y son formadas gracias a datos adicionales
  4. Organizar todas las secuencias finales. Los programas toman los scaffolds y los organizan de manera eficiente para que tengan el orden y sentido más parecido al genoma del organismo
  5. Evaluar la calidad del genoma ensamblado. Se obtienen medidas que pueden tomar en cuenta las características de las secuencias generadas en el proceso o utilizar información adicional. Estas nos indican si el ensamble fue hecho de manera correcta
  6. Mejorar y aprobar el ensamble de genoma. Finalmente, para tener un ensamble definitivo suele ser necesario repetir el proceso cambiando ligeramente los datos y procedimientos utilizados, o comparar el ensamble con otros

 

Salida/Resultado

El resultado del ensamble de un genoma es un archivo con la secuencia de ADN más completa y ordenada que represente todo el material genético de un organismo.

 

Fuentes de error más frecuentes
Aplicaciones

El ensamble de genomas tiene diversas aplicaciones en los estudios biológicos, como los análisis de expresión génica por  RNA-seq [1].