conogasi logo

Tesis: Api para el despliegue dinámico de los elementos genéticos en el DNA, en la página de genes de la base de datos RegulonDB

Instituto Tecnológico de Zacatepec Tecnológico Nacional de México & Centro de Ciencias Genómicas UNAM

Luis Olarte Gervacio
Febrero 2017


Asesores:
LI Heladia Salgado Osorio
MTI José Antonio Velázquez Santana


Tabla de contenidos

  1. INTRODUCCIÓN
    1. Antecedentes [3]
    2. Planteamiento del problema
    3. Objetivo General
    4. Objetivos Específicos
    5. Justificación
    6. Alcances y Limitaciones
      1. Alcances
      2. Limitaciones
    7. Estructura de la tesis

CAPÍTULO 1: INTRODUCCIÓN

La comunicación humana es el área dedicada a entender cómo se comunican los seres humanos. La razón de ser de la comunicación es transmitir información, sea para manifestar sentimientos, influir en los demás o para realizar acciones específicas (Wikipedia).
La comunicación refuerza las relaciones sociales, enriquece a sus participantes y es el principal agente del desarrollo cultural. Suelen usarse diversos instrumentos para lograr la comunicación, como, por ejemplo, el lenguaje verbal, las imágenes, gestos, movimientos, miradas, etc. Pero podemos decir que, la humanidad encontró en las imágenes y después en las palabras, dos poderosas herramientas que han hecho posible la transmisión del conocimiento de generación en generación.
Conforme se van haciendo nuevos descubrimientos y a la vez nuevas interrogantes, la humanidad va encontrado nuevas áreas de estudio cada vez más especializadas y complejas. Ejemplo de ello son la genética [4], la biología molecular, la biotecnología, la ingeniería genética, la bioquímica [4], etc.
Por ejemplo, la genética, es el área de estudio de la biología que busca comprender y explicar cómo se transmite la herencia biológica de generación en generación. Los procesos implicados y las moléculas que intervienen en esta actividad son formas microscópicas que interactúan entre sí, invisibles al ojo humano, lo que complica aún más el comunicar el conocimiento o hallazgos a otros. Por lo que la representación gráfica ha resultado ser en esta área uno de las formas de comunicación más significativas.
De hecho, la observación de esos procesos y moléculas mediante el uso de herramientas de visualización especializadas, logran generar inscripciones o representaciones de esa realidad invisible. Los microscopios electrónicos, por ejemplo, regalan las formas de los cromosomas, la cristalografía de rayos X reveló la estructura del ADN 3D, los datos de microarrays expresan los genes en coloridos heat-maps y las tecnologías de secuenciación convierten los genomas de los organismos en un sinfín de letras (book: Han Yun. Communicating Genetics: Visualizations and Representations )[1]
Es responsabilidad del investiador, poder transmitir el conocimiento primero a sus iguales, pero también al resto de la humanidad, de formas compresibles sin el uso del lenguaje especializado para lograr una comprensión de la información transmitida.
El diseño de información se ocupa de la representación gráfica de datos, conceptos, procesos y relaciones complejas y multimodales, de forma que se aliente a la recuperación de información y la toma de decisiones. El término está estrechamente relacionado con, y a menudo se usa de manera intercambiable con, visualización de la información, o simplemente estudios de visualización. El marco ha sido utilizado para examinar diversos artefactos visuales, incluyendo ilustraciones científicas, diagramas técnicos, instrucciones visuales, infografías y mapas (Wikipedia)[2].
Dada la complejidad del conocimiento en genética, se hace uso de técnicas o herramientas como el diseño de la información para poder representar los diversos procesos, moléculas y conceptos que se quieren explicar.
Según Han Yun, en su libro Communicating Genetics: Visualizations and Representations, menciona que la genética clásica empleaba iconos minimalistas para representar el conocimiento, pero esta estrategia estaba perdiendo su capacidad de crear ilustraciones adecuadas, debido al aumento del conocimiento, a la complejidad de los procesos y la abstracción visual. Aunque menciona, que las formas simples, informales y poco detalladas pueden ser una buena forma de comunicar, pero hay que evitar el minimalismo que quita atractivo visual, esencial para transmitir el conocimiento.
Esta tesis se desarrolla bajo el marco de la representación gráfica de la regulación genética en la bacteria de Escherichia coli K12. La iconografía implementada en esta tesis, ha sido obtenida por el grupo de expertos dedicados a la revisión de artículos científicos, que han compilado la iconografía utilizada en el área, o en caso de no existir, se han dado a la tarea de crear el diseño del componente a representar.

1.1 Antecedentes

El Programa de Genómica Computacional (PCG), ubicado en el Centro de Ciencias Genómicas (CCG) de la Universidad Nacional Autónoma de México (UNAM), está enfocado principalmente a la investigación científica de la bacteria “Escherichia coli K-12”.

Uno de los proyectos del PGC es RegulonDB[3], la cual es una base de datos enfocada a la recopilación de información sobre la regulación que se dá en el proceso de la transcripción génica en la bacteria Escherichia coli K12 (E. coli K- 12), y que a través del tiempo ha sido enriquecida al conocerse más detalles de éste complejo proceso, lo que ha implicado el rediseño de su modelo de datos para integrar la nueva información[3-12].

Escherichia coli es la bacteria modelo usada en una gran cantidad de experimentos genéticos, debido a que es un organismo cuyo crecimiento es rápido y su cultivo es sencillo. Es de las bacterias más estudiadas por el ser humano, debido al impacto en la salud. Miles de artículos se han publicado en relación a algún mecanismo de esta bacteria y la respuesta o reacción de aplicar antibióticos, algún otra sustancia o molécula para estudiar su comportamiento.

Inicialmente RegulonDB, se enfocó a la búsqueda de artículos científicos que describieran algún componente de la regulación genética, pero con el tiempo se ha ido integrando más información del contexto de este mecanismo. RegulonDB cuenta con un grupo de biólogos a los que se denominan curadores, que son los encargados de extraer ese conocimiento de los artículos científicos para resguardarlo en la base de datos. Éste proceso inicia realizando búsquedas en PubMed [3], que es un repositorio que indexa los resúmenes o abstracts de los artículos publicados en revistas científicas, posteriormente los curadores descargan el artículo completo y extraen la información que se necesita.

Actualmente se puede consultar la base de datos RegulonDB a través de su sitio web regulondb.ccg.unam.mx (ver Figura 1), el cuál es un portal que se ha ido enriqueciendo con el tiempo, donde se muestra información textual y gráfica del mecanismo de regulación genética. Cabe destacar que es la base de datos más completa sobre este mecanismo por lo que es consultada por gente de todo el mundo.

Página principal de RegulonDB (http://regulondb.ccg.unam.mx)
Página principal de RegulonDB (http://regulondb.ccg.unam.mx)

1.2 Planteamiento del problema

RegulonDB[3] es una base de datos sobre la regulación transcripcional de la bacteria E. coli, ofreciendo a los investigadores a nivel internacional un portal actualizado sobre este tema. La base de datos es consultada por el web (regulondb.ccg.unam.mx), y cuenta con una interfaz con diferentes tipos de búsquedas, como son genes, operones, condiciones de crecimiento, reguladores transcripcionales, etc.

Varias de las páginas de resultados de una búsqueda muestran despliegues gráficos estáticos de los elementos genéticos en el DNA, por ejemplo, la página de gene muestra una imagen del contexto genómico del gene, cuya imagen ha sido previamente calculada usando un programa llamado DrawingTracesTool implementado en java, y las imágenes son insertadas en el resultado de una búsqueda (ver figura 2).

De hecho, se generan en cada libración o release de datos, todas las imágenes que son usadas en la interfaz web de RegulonDB, por lo que la aplicación web requiere más espacio en disco para almacenar todas las imágenes. El proyecto consiste en implementar que éstos gráficos del contexto genómico de un gene puedan ser generados de manera dinámica, es decir creados cuando se solicite una búsqueda.

Por lo tanto, es necesario el desarrollo de un API para el despliegue dinámico de los elementos genéticos para la página web de resultados de la búsqueda de genes en RegulonDB y que pueda ser interpretada por los navegadores web, para reemplazar las imágenes almacenadas actualmente dentro de la aplicación web.

Pagina de Gene en RegulonDB.
Pagina de Gene en RegulonDB.


1.3 Objetivo General
Además se requiere que el API sea desarrollado siguiendo en lo posible, la metodología de MoProSoft (NMX-I-059/02-NYCE2), esto con el fin de tener buena calidad de software, dejar la documentación necesaria y la capacidad de poder darle matentimiento.

Reducir el tiempo del proceso de liberación de RegulonDB eliminando la creación de imágenes, lo que permitirá hacer más ligera la aplicación web eliminando las más de 8 mil imágenes que se integran actualmente. Además de integrar funcionalidades a las imágenes.

1.4 Objetivos Específicos

  1.  Contar con un API que sea la librería gráfica web de referencia de RegulonDB sobre la representación gráfica de la regulación genética.
  2.  Desplegar el contexto genómico de un gene, en la página de resultados de la búsqueda por gene, usando el API; eliminando así todas las imágenes estáticas integradas en la aplicación.
  3. Contar con una herramienta gráfica con tecnología moderna, al utilizarhtml5 y JavaScript.
  4. Disminuir el tiempo y la cantidad de errores en cada proceso de liberación de datos al eliminar la tarea de creación de imágenes.
  5. Crear imágenes de calidad, con buena resolución que los usuarios puedan descargar, además de permitir varios niveles de zoom.

1.5 Justificación

Como hemos mencionado, RegulonDB es una base de datos consultada a nivel internacional, ya que almacena información de la regulación genética del organismo más usado en genética, Escherichia coli K12. Existe un proceso de curación que inicia con la búsqueda, selección y revisión de artículos científicos enfocados a este mecanismo.

RegulonDB genera entre tres o cuatro liberaciones de datos al año, y en ese proceso de revisión de datos, una vez validados, se procede a la generación de imágenes del contexto genómico de cada gene ejecutando la herramienta DrawingTracesTool desarrollado en Java. Una vez generadas, se valida que se hayan creado de manera correcta, y se integran un poco más de ocho mil imágenes a la aplicación para posteriormente seguir con otros pasos del proceso de liberación. Integrar imágenes no es el mecanismo adecuado, ya que la aplicación ha crecido, porque no son las únicas imágenes que se integran.

Por otro lado, el sitio web de RegulonDB se ha ido modernizando, no así sus figuras o representaciones gráficas, ya que aún manejamos la integración de imágenes estáticas en formato jpg o png, cuya única funcionalidad es la integración de un zoom, donde al aumentarlo la imagen pierde calidad, y los elementos biológicos desplegados pierden nitidez. Así que nos vimos en la necesidad de generar imágenes que permitieran ver más de cerca la región reguladora de un gene, por eso por cada gene se generan 2 archivos gráficos.

Consideramos esencial e impostergable la creación de un API o librería gráfica para RegulonDB, que sea capaz de dibujar los elementos genéticos que son anotados en RegulonDB, y sea a través de ella se grafique el contexto genómico de los genes en el momento en que se consultan

Otra ventaja de generar una imagen a partir del API es que, al aumentar el tamaño de esta, no pierde calidad así que se podrá permitir zooms de varios niveles.

1.6 Alcances y Limitaciones

1.6.1 Alcances

  1.  Crear una nueva versión de la herramienta DrawingTracesTool v2.0 (DTTv2.0) que permita generar archivos html5 haciendo uso de las funciones de la librería gráfica.
  2. Desarrollar un API (DrawGraphics.js) capaz de dibujar los elementos de la regulación genética.
  3. Desarrollar el proyecto siguiendo la metodología de Ingeniería de Software, con lo que se logrará que la nueva herramienta sea de calidad y susceptible a futuras actualizaciones.

1.6.2 Limitaciones

  1. Los usuarios finales deben permitir la ejecución de código JavaScript en sus navegadores web, de lo contrario no se podrá generar la imagen.
  2. Los navegadores web deben estar actualizados a su versión más reciente para tener un buen rendimiento.

1.7 Estructura de la tesis

El presente documento de tesis está organizado en NUMERO DE CAPÍTULOS que a continuación se describen.

Capítulo 2. Presenta un panorama general e introductorio a la genética, así como las herramientas y tecnologías utilizadas en este proyecto.
Capítulo 3. Describe el análisis hecho al problema.
Capítulo 4. Puntualiza el diseño de solución del proyecto.
Capítulo 5. Detalla el desarrollo realizado.
Capítulo 6: Pormenorizar las pruebas realizadas a la aplicación desarrollada.
Capítulo 7: Presenta las conclusiones obtenidas de este trabajo de tesis, así como posibles líneas de investigación futuras.