conogasi logo

Ensamblado de secuencias

Conocimientos previos

 

Ensamblado de secuencias

La mayoría de plataformas de secuenciación de alto rendimiento [3] proveen una gran cantidad de información en la forma de lecturas, es decir, de versiones en texto de fragmentos pequeños de una secuencia de ADN [2]o ARN [4]. El ensamblado es el proceso computacional a través del cual te procura rearmar la secuencia original usando como piezas a las lecturas. En forma análoga a la de armar un rompecabezas, los programas encargados de esto están basados en que debe haber cierta correspondencia entre distintos fragmentos (equivalente a que las piezas deben embonar). Debido a que las lecturas consisten en secuencias cortas de letras, los distintos software de ensamblado basan su funcionamiento en que los fragmentos que se crean pueden compartir fragmentos de su contenido; al alinear estos fragmentos es posible entender que la fracción común a ambos, en adición a los fragmentos propios, generará una secuencia de mayor tamaño, llamada contig. Dicho proceso de búsqueda, empalme y unión se realiza hasta que ya no es posible unir más secuencias, lo cual, en el mejor de los casos, puede resultar en que se arme por completo un genoma.

Los contigs que se obtienen son de suma importancia porque, aun cuando no completen la secuencia original, facilitan la interpretación y análisis del contenido genético. A mejor esté ensamblada una secuencia, es posible utilizarla para realizar análisis posteriores, como anotación o búsqueda de SNP [5]s. A través del ensamblado es posible desde reconstruir información sobre especies desconocidas hasta comparar secuencias entre distintas personas.

A pesar de su utilidad, el ensamblado representa un reto por muchas razones. La primera es que las lecturas resultantes de un experimento de secuenciación son millones, por lo que se requiere mucho poder computacional para armar un rompecabezas con tantas piezas. Además, existe la posibilidad de que un genoma posea regiones muy similares (como lo serían piezas azules correspondientes al ‘cielo’ en un rompecabezas), por lo que es posible que el software una lecturas que no correspondan.