ArticlePDF Available

Herramientas bioinformáticas para el análisis de secuencias en el Instituto Nacional de Higiene “Rafael Rangel”

Authors:

Abstract

Avances en las tecnologías de secuenciación de ácidos nucleicos ha incrementado sustancialmente la cantidad de datos que se generan del estudio de genomas completos o por regiones, datos que deberán ser analizados haciendo usos de herramientas computacionales enfocadas en ciencias biológicas, revalorizando el alcance de la bioinformática. El Instituto Nacional de Salud de Estados Unidos (NIH, por sus siglas en inglés) define a la bioinformática como la investigación, desarrollo o aplicación de herramientas computacionales con el fin de difundir el uso de datos biológicos, médicos, conductuales o de salud, incluyendo aquellas herramientas utilizadas para adquirir, almacenar, organizar, archivar, analizar y visualizar dichos datos. Por lo tanto, la bioinformática es esencial para la gestión de datos en la biología moderna.
1División de Biotecnología y Desarrollo, Gerencia Sectorial de Producción, Instituto Nacional de
Higiene Rafael Rangel. Caracas, Venezuela. Teléfono: +582122191715. Correo:
carmen.gonzalez@inhrr.gob.ve
2Centro Nacional de Cálculo Científico de la Universidad de Los Andes (CeCalCULA). Mérida,
Venezuela. 142
Herramientas bioinformáticas para el análisis de secuencias en el Instituto
Nacional de Higiene “Rafael Rangel”
Bioinformatic tools for sequence analysis at Instituto Nacional de Higiene
“Rafael Rangel”
Carmen D González L1, Carla P Castillo D1, Giovanny Angiolillo R1, David J
Fernández S1, Ascanio Rojas A2.
Breves en Ciencia y Tecnología
Revista del Instituto Nacional de Higiene “Rafael Rangel”, 2016; Vol. 47 (1-2)
143
Avances en las tecnologías de secuenciación de ácidos nucleicos ha
incrementado sustancialmente la cantidad de datos que se generan del estudio de
genomas completos o por regiones, datos que deberán ser analizados haciendo
usos de herramientas computacionales enfocadas en ciencias biológicas,
revalorizando el alcance de la bioinformática. El Instituto Nacional de Salud de
Estados Unidos (NIH, por sus siglas en inglés) define a la bioinformática como la
investigación, desarrollo o aplicación de herramientas computacionales con el fin de
difundir el uso de datos biológicos, médicos, conductuales o de salud, incluyendo
aquellas herramientas utilizadas para adquirir, almacenar, organizar, archivar,
analizar y visualizar dichos datos(1). Por lo tanto, la bioinformática es esencial para
la gestión de datos en la biología moderna.
Uno de los primeros acercamientos a la bioinformática surge en los años 60
con Margaret Dayhoff, quien transformó las secuencias de datos dispersas en la
literatura impresa en una colección computarizada. Dayhoff, junto con Richard Eck,
publicaron en 1965 una compilación de secuencias de aminoácidos, con el nombre
de Atlas of Protein Structure and Sequence, como resultado de recolectar, comparar
y analizarlas computacionalmente, cuyo fin era producir conocimiento sobre la
estructura, función y evolución de las proteínas (2). Atlas, también los llevó a pensar
sobre la mejor forma de manipular secuencias usando computación, lo que conllevó
a adoptar la anotación de una letra para aminoácidos y no el código usual de tres
letras, con el objetivo de reducir espacio en la memoria del computador (2).
Las bases de datos como las conocemos hoy en día fueron creadas
basándose en el modelo de Atlas, tal es el caso de Protein Data Bank (PDB) para
estructura de moléculas biológicas y GenBank para secuencias de ADN y proteínas.
Estas se han convertido en herramientas esenciales en investigación (2).
HERRAMIENTAS PARA ANÁLISIS DE SECUENCIAS
El análisis de secuencias incluye búsqueda en las bases de datos,
alineamiento de secuencias, descubrimiento de motivos y patrones en proteínas,
predicción de genes y regiones promotoras, regulación, reconstrucción de
relaciones evolutivas, ensamblaje de genomas y su comparación (3). Es por ello
que existen diversas bases de datos biológicas y herramientas gratuitas que
permiten buscar, visualizar, editar y analizar secuencias de nucleótidos y
aminoácidos.
144
Bases de Datos Biológicas
Una base de datos es un archivo computarizado usado para almacenar y
organizar la información en registros estructurados, de manera que pueda ser
recuperada fácilmente a través de diferentes criterios de búsqueda. Para recuperar
la información de un registro, conocido también como entry, el usuario especifica
una parte particular de la información, con lo cual se recupera el registro completo
de la data (3).
Actualmente, existen numerosas bases de datos biológicas disponibles en la
Web. Una de las primeras bases de datos creadas fue Protein Data Bank (PDB;
http://www.rcsb.org/pdb), en el año 1971, donde se encuentra depositada la
información de estructuras tridimensionales de moléculas biológicas, incluyendo
proteínas y ácidos nucleicos, determinadas mediante cristalografía de rayos X o
resonancia magnética nuclear. El entendimiento de la forma de estas moléculas
permite deducir el rol de las mismas en enfermedades, así como pueden ser
utilizadas para el desarrollo de fármacos (4).
Asimismo, en se crea GenBank en el LANL (Los Alamos, NM)
(http://www.ncbi.nlm.nih.gov), siendo esta una base de datos pública de secuencias
de nucleótidos, bibliografía de apoyo y anotación biológica y a partir de 1992 es
mantenida por el National Center for Biotechnology Information (NCBI), el cual forma
parte del NIH (5). GenBank es hoy en día una de las colecciones más completas de
datos y anotaciones de secuencias nucleotídicas de una gran cantidad de
organismos. El contenido incluye ADN, ARN mensajero (ARNm), ADN
complementario (ADNc), marcadores de secuencia expresada (EST, por sus siglas
en inglés) y datos crudos de secuencias realizadas masivamente (3). Estos son solo
dos ejemplos de las numerosas bases de datos biológicas que existen actualmente.
Programas y servicios para alineamiento, edición y análisis de secuencias
El alineamiento de secuencias es uno de los pasos críticos al realizar análisis
filogenético, debido a que a partir de ellos se realizan muchas inferencias biológicas,
145
llegando incluso a la inferencia evolutiva y filogenética. Al comparar secuencias en
un alineamiento se pueden identificar patrones de identidad, regiones conservadas
o variables. Por ejemplo, la variación entre secuencias puede reflejar los cambios
ocurridos por evolución, en la forma de sustituciones, inserciones o deleciones (3).
Existe una gran variedad de modelos computaciones para inferir la comparación de
secuencias, T-Coffee, Clustal Omega, MUSCLE, entre muchos otros, muchos de
los cuales tienen interfaz Web o portales, que permite llevar a cabo el alineamiento
remotamente, un ejemplo de ello es el European Bioinformatics Institute (EMBL-
EBI; http://www.ebi.ac.uk/), que provee datos y servicios bioinformáticos de manera
gratuita con el fin de contribuir en el entendimiento de los procesos biológicos (6).
Bioinformática en el Instituto Nacional de Higiene “Rafael Rangel”
En Venezuela, el Centro Nacional de Cálculo Científico de la Universidad de
Los Andes (CeCalCULA) imparte talleres sobre bioinformática, siendo uno de ellos
el Taller de Herramientas para Análisis de Secuencias (THAS) desde el año 1998
en la ciudad de Mérida y desde el 2014 se dicta en las instalaciones del Instituto
Nacional de Higiene Rafael Rangel (INHRR), con el apoyo de la División de
Biotecnología y Desarrollo adscrita a la Gerencia Sectorial de Producción, con el
objetivo de actualizar conceptos en biología molecular y entrenar a los profesionales
e investigadores que hacen vida en la Institución en el empleo de herramientas
bioinformáticas para el tratamiento, organización, visualización, análisis e
interpretación de secuencias de ácidos nucleicos y proteínas.
El único requisito para realizar el THAS es que los participantes tengan
conocimientos básicos en genética, biología molecular y en el uso del computador
como herramienta de trabajo. Actualmente, en el INHRR han participado más de 40
profesionales entre biólogos, bioanalistas y farmacéuticos, pertenecientes a las
distintas áreas sustantivas de la institución.
El THAS se enfoca en la búsqueda de información y de secuencias en las
bases de datos del NCBI; en los servicios para alineamiento múltiples de secuencias
a través de MUSCLE y Clustal Omega de EMBL-EBI; en el uso de BLAST (Basic
Local Alignment Search Tool) para encontrar regiones de similitud entre secuencias
y en el manejo de algunos programas disponibles de forma gratuita como el BioEdit/
Ugene para la edición, manipulación, ensamblaje y análisis de secuencias de ácidos
nucleicos y aminoácidos (7). Asimismo, en el THAS se enseña el diseño de oligos
146
(primers) para una secuencia de interés utilizando el programa Oligo Explorer/
Primer-Blast, mediante el cálculo de la temperatura de melting (Tm), determinación
del contenido de GC, bucles y dímeros de oligos, entre otros. Por último, en el Taller
se introduce al participante en el establecimiento de relaciones evolutivas y la
construcción de árboles filogenéticos mediante el empleo del programa Molecular
Evolutionary Genetics Analysis (MEGA) y conceptos sicos de genética de
poblaciones con DNAsp.
APLICACIONES DE LA BIOINFORMÁTICA
La bioinformática tiene un papel central en muchas áreas de la investigación
en biología, como en genómica, específicamente secuenciación de genomas,
mapeo, anotación y comparación de genomas. Es esencial para proteómica,
permitiendo el análisis de secuencias de proteínas con el fin de determinar motivos
funcionales, para la determinación de estructura de proteínas, interacciones
proteína-proteína, entre otras. Asimismo, permite el descubrimiento de marcadores
moleculares, como polimorfismos de un solo nucleótido (SNP), así como forma parte
de los estudios de evolución y filogenia (8).
Esta versatilidad de la bioinformática ha permitido que hoy en día sea usada
para el diseño de nuevos medicamentos y análisis forenses. En el caso del diseño
de nuevos medicamentos, los estudios de interacciones proteína-ligando proveen
las bases para la identificación de nuevos sitios de acción para medicamentos
sintéticos, asimismo, conocer las estructuras tridimensionales de proteínas permite
el diseño de moléculas que puedan unirse a un receptor de una proteína blanco con
alta especificidad y afinidad (3).
Por otra parte, la bioinformática es de vital importancia en la secuenciación
de ADN ayudando a identificar la información de importancia biológica, de manera
de tener un mejor entendimiento de los organismos. Por ejemplo, la bioinformática
en el campo de la biotecnología de microorganismos se emplea de diferentes
formas: analizando computacionalmente la data proveniente de experimentos,
secuenciación de genomas, determinación de la función de genes, construcción de
árboles filogenéticos, identificación de segmentos que codifican a proteínas, entre
otras (9).
147
Cuenta también con aplicaciones a nivel médico y clínico, ayudando a
determinar reacciones adversas de medicamentos en individuos, y podría ser usada
en la medicina personalizada, donde se individualiza un tratamiento a partir de la
información genética (10).
Es por ello que no solo es necesaria la data proveniente de los experimentos
de genómica o proteómica, sino también personas formadas en esta área, capaces
de interpretar dicha información. Este es el objetivo primordial de realizar los talleres
bioinformática, como el THAS en el INHRR.
REFERENCIAS BIBLIOGRÁFICAS
1. Huerta M, Downing G, Haseltine F, Seto B, Liu Y. NIH working definition of
bioinformatics and computational biology. 2000. Disponible en:
https://www.bisti.nih.gov/docs/CompuBioDef.pdf. (Consultado 10 de febrero de
2015).
2. Strasser B. Collecting, comparing, and computing sequences: the making of
Margaret O. Dayhoff’s Atlas of Protein Sequence and Structure, 1954–1965. J
Hist Biol. 2010; 43: 623660.
3. Xiong J. Essential bioinformatics. 1ra ed. Cambridge: Cambridge University
Press; 2006.
4. Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, et al. The
Protein Data Bank. Nucleic Acid Res. 2000; 28 (1): 235-242.
5. Benson DA, Cavanaugh M, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, et
al. GenBank. Nucleic Acid Res. 2015; 43: D30 - D35.
6. Brooksbank C, Bergman MT, Apweiler R, Birney E, Thornton J. The European
Bioinformatics Institute’s data. Nucleic Acid Res. 2014; 42: D18 - D25.
7. Hall T. BioEdit: a user friendly biological sequence alignment editor and analysis
program for Windows 95/98/NT.Nucleic Acids Symp Ser (Oxf). 1999; 41: 95 - 98.
8. Goodman N. Biological data becomes computer literate: new advances. Curr
Opin Biotechnol. 2002; 13: 68 - 71.
9. Bansal AK. Bioinformatics in microbial biotechnology a mini review. Microb Cell
Fact. 2005; 4:19.
10. Bayat A. Science, medicine, and the future: bioinformatics. BMJ. 2002; 324: 1018
- 1022.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
Molecular Biology has been at the heart of the ‘big data’ revolution from its very beginning, and the need for access to biological data is a common thread running from the 1965 publication of Dayhoff’s ‘Atlas of Protein Sequence and Structure’ through the Human Genome Project in the late 1990s and early 2000s to today’s population-scale sequencing initiatives. The European Bioinformatics Institute (EMBL-EBI; http://www.ebi.ac.uk) is one of three organizations worldwide that provides free access to comprehensive, integrated molecular data sets. Here, we summarize the principles underpinning the development of these public resources and provide an overview of EMBL-EBI’s database collection to complement the reviews of individual databases provided elsewhere in this issue.
Article
Full-text available
Collecting, comparing, and computing molecular sequences are among the most prevalent practices in contemporary biological research. They represent a specific way of producing knowledge. This paper explores the historical development of these practices, focusing on the work of Margaret O. Dayhoff, Richard V. Eck, and Robert S. Ledley, who produced the first computer-based collection of protein sequences, published in book format in 1965 as the Atlas of Protein Sequence and Structure. While these practices are generally associated with the rise of molecular evolution in the 1960s, this paper shows that they grew out of research agendas from the previous decade, including the biochemical investigation of the relations between the structures and function of proteins and the theoretical attempt to decipher the genetic code. It also shows how computers became essential for the handling and analysis of sequence data. Finally, this paper reflects on the relationships between experimenting and collecting as two distinct "ways of knowing" that were essential for the transformation of the life sciences in the twentieth century.
Article
Full-text available
The Protein Data Bank (PDB; http://www.rcsb.org/pdb/ ) is the single worldwide archive of structural data of biological macromolecules. This paper describes the goals of the PDB, the systems in place for data deposition and access, how to obtain further information, and near-term plans for the future development of the resource.
Article
Full-text available
The revolutionary growth in the computation speed and memory storage capability has fueled a new era in the analysis of biological data. Hundreds of microbial genomes and many eukaryotic genomes including a cleaner draft of human genome have been sequenced raising the expectation of better control of microorganisms. The goals are as lofty as the development of rational drugs and antimicrobial agents, development of new enhanced bacterial strains for bioremediation and pollution control, development of better and easy to administer vaccines, the development of protein biomarkers for various bacterial diseases, and better understanding of host-bacteria interaction to prevent bacterial infections. In the last decade the development of many new bioinformatics techniques and integrated databases has facilitated the realization of these goals. Current research in bioinformatics can be classified into: (i) genomics--sequencing and comparative study of genomes to identify gene and genome functionality, (ii) proteomics--identification and characterization of protein related properties and reconstruction of metabolic and regulatory pathways, (iii) cell visualization and simulation to study and model cell behavior, and (iv) application to the development of drugs and anti-microbial agents. In this article, we will focus on the techniques and their limitations in genomics and proteomics. Bioinformatics research can be classified under three major approaches: (1) analysis based upon the available experimental wet-lab data, (2) the use of mathematical modeling to derive new information, and (3) an integrated approach that integrates search techniques with mathematical modeling. The major impact of bioinformatics research has been to automate the genome sequencing, automated development of integrated genomics and proteomics databases, automated genome comparisons to identify the genome function, automated derivation of metabolic pathways, gene expression analysis to derive regulatory pathways, the development of statistical techniques, clustering techniques and data mining techniques to derive protein-protein and protein-DNA interactions, and modeling of 3D structure of proteins and 3D docking between proteins and biochemicals for rational drug design, difference analysis between pathogenic and non-pathogenic strains to identify candidate genes for vaccines and anti-microbial agents, and the whole genome comparison to understand the microbial evolution. The development of bioinformatics techniques has enhanced the pace of biological discovery by automated analysis of large number of microbial genomes. We are on the verge of using all this knowledge to understand cellular mechanisms at the systemic level. The developed bioinformatics techniques have potential to facilitate (i) the discovery of causes of diseases, (ii) vaccine and rational drug design, and (iii) improved cost effective agents for bioremediation by pruning out the dead ends. Despite the fast paced global effort, the current analysis is limited by the lack of available gene-functionality from the wet-lab data, the lack of computer algorithms to explore vast amount of data with unknown functionality, limited availability of protein-protein and protein-DNA interactions, and the lack of knowledge of temporal and transient behavior of genes and pathways.
Article
Bioinformatics is an art and science concerned with the use of computing in biological research areas such as genomics, transcriptomics, proteomics, genetics, and evolution. This review paints a broad picture of bioinformatics, drawing examples from genomic sequencing and microarray analysis. I highlight the role of bioinformatics at multiple points along the path from high-tech data generation to biological discovery.
NIH working definition of bioinformatics and computational biology
  • M Huerta
  • G Downing
  • F Haseltine
  • B Seto
  • Y Liu
Huerta M, Downing G, Haseltine F, Seto B, Liu Y. NIH working definition of bioinformatics and computational biology. 2000. Disponible en: https://www.bisti.nih.gov/docs/CompuBioDef.pdf. (Consultado 10 de febrero de 2015).
  • D A Benson
  • M Cavanaugh
  • K Clark
  • I Karsch-Mizrachi
  • D J Lipman
  • J Ostell
Benson DA, Cavanaugh M, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, et al. GenBank. Nucleic Acid Res. 2015; 43: D30 -D35.