ResearchPDF Available

Abstract and Figures

Descarga de la herramienta -> https://www.researchgate.net/publication/279191416_CleanFasta Guía visual para el pre-procesado de secuencias genéticas contenidas en bases de datos para su posterior uso en programas de alineamiento.
Content may be subject to copyright.
Manual de Usuario de CleanFasta
Gu´ıa visual para el pre-procesado de secuencias gen´eticas
contenidas en bases de datos para su posterior uso en programas de
alineamiento.
Jorge Camarero Vera1
Jos´e Jes´us Gallego-Parrilla2
26 de junio de 2015
1Universidad Polit´ecnica de Madrid
2Departamento de microbiolog´ıa, Facultad de Biolog´ıa, Universidad de Sevilla
1.0. INTRODUCCI ´
ON 1
1.0. Introducci´on
El avance cient´ıfico en el ´ambito bio-inform´atico hace cada d´ıa m´as necesario el manejo de Bases de datos.
Aunque para muchos investigadores acceder a ellas, tomar la informaci´on y utilizarla es algo trivial, no es
as´ı en otros muchos casos.
Con la idea de facilitar los primeros pasos necesarios en estudios que requieran el uso de Bases de datos
como el NCBI (National Center for Biotechnology Information) se ha ideado esta sencilla gu´ıa visual adem´as
del desarrollo de una herramienta libre para el pre-procesado de los archivos, siempre necesario antes de
introducirlos en los programas de alineamiento.
1.1. National Center for Biotechnology Information, NCBI
El National Center for Biotechnology Information permite el acceso a una gran base de datos de infor-
maci´on biom´edica y gen´omica. El NCBI ha estado a cargo de crear sistemas autom´aticos para almacenar y
analizar el conocimiento sobre biolog´ıa molecular, bioqu´ımica, y gen´etica; facilitando el uso de bases de datos
y software para la comunidad de investigaci´on y medicina; coordinando esfuerzos para reunir informaci´on de
biotecnolog´ıa tanto nacional (EE.UU.) como internacional; y mejorar la investigaci´on en m´etodos avanzados
de procesamiento de la informaci´on para analizar la estructura y funci´on de mol´eculas de importancia en la
biolog´ıa.
Entre las funciones que lleva a cabo el NCBI se encuentran:
Realizar investigaciones sobre problemas biom´edicos fundamentales a nivel molecular utilizando m´eto-
dos matem´aticos y computacionales.
Mantener colaboraciones con varios institutos del NIH, academia, industria, y otras agencias guberna-
mentales.
Fomentar la comunicaci´on cient´ıfica mediante el patrocinio de reuniones, talleres y ciclos de conferencias
Apoyar la formaci´on en investigaci´on b´asica y aplicada a biolog´ıa computacional para postdoc a trav´es
del Intramural Research Program del NIH.
Atraer a los miembros de la comunidad cient´ıfica internacional en la investigaci´on inform´atica y la
formaci´on a trav´es del Scientific Visitors Program.
Desarrollar, distribuir, apoyar y coordinar el acceso a una variedad de bases de datos y software para
las comunidades cient´ıficas y m´edicas.
Desarrollar y promover est´andares para bases de datos, declaraci´on e intercambio de datos, y nomen-
clatura biol´ogica
1.2. Base de Datos NCBI
Para la obtenci´on de los archivos Fasta se han de seguir los siguientes pasos:
1. Emplear el motor de b´usqueda de la basa de datos del NCBI para obtener los datasets de los que se
quiere disponer.
Figura 1.1: B´usqueda en el NCBI
2. Marcar las casillas con las secuencias deseadas.
2
Figura 1.2: Resultados de la b´usqueda en el NCBI
3. Para establecer la configuraci´on de la visualizaci´on de los datos se realiza en las pesta˜na Display Setting.
Y se marca en Format la opci´on Fasta(text).
Figura 1.3: Configuraci´on de la visualizaci´on
4. Se da a Apply y se obtiene lo siguiente, Figura 1.4.
5. Se copia todo el contenido mostrado y se copia a un archivo txt en blanco. Posteriormente se renombra
la extensi´on del archivo de .txt a.fas.
1.3. Uso del software CleanFasta
Al tratarse de un script escrito en Python se puede ejecutar en cualquier sistema operativo que tenga
instalado Python. En esta gu´ıa se detallar´a su utilizaci´on en los tres sistemas operativos principales: Windows,
OSX y Ubuntu (GNU/Linux).
1.3. USO DEL SOFTWARE CLEANFASTA 3
Figura 1.4: Visualizaci´on del dataset
1.3.1. Windows
Instalaci´on de Python y uso de CleanFasta.py
Para instalar Python en Windows se accede a la web https://www.python.org/downloads/, se descarga
la versi´on Python 2.7.10 y se instala. Durante la instalaci´on se crea la carpeta Python27.
Para ejecutar el script CleanFasta.py primero se mueve a una carpeta junto con el/los archivos Fasta
a pre-procesar, adem´as se a˜nade el archivo python.exe el cual se encuentra en la carpeta en la que se ha
instalado Python, Figura 1.5.
Figura 1.5: Carpeta para ejecutar CleanFasta.py
4
El script se ejecuta empleando la consola de l´ınea de comandos de Windows, cmd.exe. El comando a
ejecutar es el siguiente: ”python CleanFasta.py”, Figura 1.6
Figura 1.6: Ejemplos de la utilizaci´on de la L´ınea de Comandos
Finalmente se obtiene un archivo txt con el resultado del pre-proceso, si durante la ejecuci´on se indica
que se quiere sustituir las cadenas de caracteres por espacios en blanco se generar´a un archivo acabado
en BLANK.txt, si por el contrario se dice que no se quiere sustituir por espacios en blanco, sino por
barras bajas, se genera un archivo acabado en USCORE.txt. Quedando como muestra en la Figura 1.7.
Obtenemos as´ı una secuencia procesada, la cual ´unicamente necesita ser vuelta a cambiar de ’.txt’ a ’.fas’
para ser usada en los programas bioinform´aticos adecuados.
Figura 1.7: Ejemplos de la utilizaci´on de la L´ınea de Comandos
1.3.2. OSX
Instalaci´on de Python y uso de CleanFasta.py
Para instalar Python en OSX se accede a este enlace https://www.python.org/ftp/python/2.7.10/
python-2.7.10-macosx10.6.pkg y se instala.
Para preparar el script CleanFasta.py primero se mueve a una carpeta junto con el/los archivos Fasta
a pre-procesar. Para ejecutar CleanFasta.py se pulsa click derecho en el archivo y se selecciona Python
Launcher, Figura 1.8.
A los segundos aparece una ventana donde se indica si se quiere sustituir las cadenas de caracteres por
espacios en blanco, entonces se generar´a un archivo acabado en BLANK.txt, Figura 1.9, si por el contrario
se dice que no se quiere sustituir por espacios en blanco, sino por barras bajas, se genera un archivo acabado
en USCORE.txt, Figura 1.10. Obtenemos as´ı una secuencia procesada, la cual ´unicamente necesita ser
vuelta a cambiar de ’.txt’ a ’.fas’ para ser usada en los programas bioinform´aticos adecuados.
1.3. USO DEL SOFTWARE CLEANFASTA 5
Figura 1.8: Ejecuci´on de CleanFasta en OSX
Figura 1.9: Archivo obtenido con espacios en blanco.
1.3.3. Ubuntu
Para instalar Python en Ubuntu, primero se abre la terminal de comandos y se escribe: ”sudo apt-get
install python”, Figura 1.11.
Una vez instalado Python habr´a que preparar el script CleanFasta.py, primero se mueve a una carpeta
junto con el/los archivos Fasta a pre-procesar, Figura 1.12.
Para ejecutar CleanFasta.py se va a la Terminal de Comandos y se lanza el script como viene en la Figura
6
Figura 1.10: Archivo obtenido con barras bajas.
Figura 1.11: Instalaci´on Python en Ubuntu
Figura 1.12: Archivos en Ubuntu
1.13.
A los segundos aparece una ventana donde se indica si se quiere sustituir las cadenas de caracteres por
espacios en blanco, entonces se generar´a un archivo acabado en BLANK.txt, si por el contrario se dice
1.3. USO DEL SOFTWARE CLEANFASTA 7
Figura 1.13: Ejecuci´on de CleanFasta.py
que no se quiere sustituir por espacios en blanco, sino por barras bajas, se genera un archivo acabado en
USCORE.txt, quedando los archivos como en la Figura 1.14. Obtenemos as´ı una secuencia procesada, la
cual ´unicamente necesita ser vuelta a cambiar de ’.txt’ a ’.fas’ para ser usada en los programas bioinform´aticos
adecuados.
Figura 1.14: Archivos Fasta pre-procesados

Supplementary resource (1)

ResearchGate has not been able to resolve any citations for this publication.
ResearchGate has not been able to resolve any references for this publication.