Conocimientos previos
- ADN
- Secuenciación de ADN
Descripción
El producto del proceso de secuenciación de un genoma son archivos que contienen información de millones de secuencias de ADN fragmentadas. Para generar una secuencia que represente el genoma completo de un organismo es necesario armarlo, acomodando dichas secuencias mediante un método llamado ensamble de genoma. Éste es un proceso computacional repetitivo con varios ciclos de armado, evaluación y mejoramiento. El ensamble es un cálculo informático complejo esencial en la biología, ya que permite analizar la información contenida en los genomas.
Entrada/Muestra
- Datos de fragmentos de ADN. Archivos con la secuencia de los fragmentos de ADN de un genoma. Estos son conocidos como lecturas y cada tecnología de secuenciación las produce en distintos tamaños
- Programa computacional de ensamble. Existen programas con distinta capacidad, precisión y velocidad. Se eligen de a acuerdo a la tecnología de secuenciación de las lecturas, a la cantidad de datos y los recursos computacionales disponibles, así como a la naturaleza del genoma
- Computadora con alta capacidad de almacenamiento y procesamiento. Se necesitan computadoras potentes que puedan almacenar grandes cantidades datos y realizar el ensamble de manera rápida y eficaz
- Datos adicionales. Existe información proveniente de otras tecnologías de secuenciación o procedimientos relacionados que nos permiten mejorar el proceso, hacerlo más fácil y evitar errores
Procedimiento
- Encontrar los fragmentos de ADN más parecidos entre sí. Los programas primero analizan todas las lecturas y encuentran las que tengan partes iguales. Estas partes suelen encontrarse en los extremos de las lecturas
- Unir los fragmentos parecidos para armar secuencias más largas. Posteriormente se utilizan dichas partes para empalmar las lecturas unas con otras. Al combinarlas se obtienen secuencias más grandes llamadas contigs
- Reunir todas las secuencias obtenidas en secuencias aún más grandes mediante datos extra. Al reunir y combinar los contigs en secuencias aún más grandes se obtienen scaffolds o supercontigs. Estos no son consecutivos (suelen tener huecos entre contigs) y son formadas gracias a datos adicionales
- Organizar todas las secuencias finales. Los programas toman los scaffolds y los organizan de manera eficiente para que tengan el orden y sentido más parecido al genoma del organismo
- Evaluar la calidad del genoma ensamblado. Se obtienen medidas que pueden tomar en cuenta las características de las secuencias generadas en el proceso o utilizar información adicional. Estas nos indican si el ensamble fue hecho de manera correcta
- Mejorar y aprobar el ensamble de genoma. Finalmente, para tener un ensamble definitivo suele ser necesario repetir el proceso cambiando ligeramente los datos y procedimientos utilizados, o comparar el ensamble con otros
Salida/Resultado
El resultado del ensamble de un genoma es un archivo con la secuencia de ADN más completa y ordenada que represente todo el material genético de un organismo.
Fuentes de error más frecuentes
- Fragmentos incompletos o con errores generados en la secuenciación
- Un programa computacional puede descartar lecturas erróneamente
- Errores en la evaluación de la calidad
Aplicaciones
El ensamble de genomas tiene diversas aplicaciones en los estudios biológicos, como los análisis de expresión génica por RNA-seq.
Cómo citar: Alvarado Valverde, J. (2016, 22 de Junio ) Ensamble de genoma. Conogasi, Conocimiento para la vida. Fecha de consulta: Noviembre 23, 2024
Esta obra está disponible bajo una licencia de Creative Commons Reconocimiento-No Comercial Compartir Igual 4.0
Deja un comentario
Sé el primero en comentar!