conogasi logo

Ensamblado de secuencias

Conocimientos previos

 

Descripción

El ensamblado es un procedimiento bioinformático cuya finalidad es reconstruir la secuencia original de una muestra fragmentada por cualquier método de secuenciación. Los algoritmos dedicados a esto trabajan bajo la suposición de que fragmentos similares de lecturas se originan de una misma posición en el genoma. Esto se traduce en que el software utilizado necesita identificar empalmes entre las lecturas obtenidas para poder unir lecturas independientes en una de mayor longitud (de ahí el término ‘ensamblar’).

El ensamblado de secuencias sirve tanto para generar digitalmente secuencias nuevas (de novo) como para comparar con secuencias similares (ensamblado por alineamiento).

 

Entrada/Muestra

Lecturas en formato FASTA (aunque también pueden ser FASTQ, SAM, BAM, etc.).

 

Recursos/Material

Software de ensamblado (Ej. Velvet, SOAPdenovo, Bowtie, ABySS, MetaVelvet, Trinity, CLC workbench)
Computadoras con alta capacidad de procesamiento y memoria.

 

Requisitos previos

Secuenciación con cobertura apropiada

Filtrado por calidad de las lecturas, preferentemente en formato FASTA

 

Procedimiento

Se proporciona el (los) archivos con las lecturas en el formato correspondiente (normalmente FASTA) al programa utilizado para el ensamblado (por ejemplo, Velvet), junto con información respecto a las características del procedimiento de secuenciación que se usaron (Illumina, 454, etc.).

De acuerdo a la información proveída, el software generará lecturas extendidas, llamadas contigs, a partir de fragmentos cortos que se empalmen.

 

Salida/Resultado

Archivo de texto con contigs, normalmente en formato FASTA.

 

Fuentes de error más frecuentes

 

Aplicaciones

 

Temas relacionados