Title: INTRODUCCION A LA BIOINFORMATICA
1INTRODUCCION A LA BIOINFORMATICA
- Catedra de Microbiologia Industrial y
Biotecnologia - TP 1- Microbiologia Industrial - 2006
2Los Ćŗltimos avances en la investigaciĆ³n en
Ciencias Biologicas estƔn produciendo un enorme
crecimiento en el volumen y la complejidad de la
informaciĆ³n biolĆ³gica disponible. Las TecnologĆas
de la InformaciĆ³n y las Comunicaciones son
cruciales para posibilitar el almacenamiento e
interpretaciĆ³n de estos datos en los centros de
investigaciĆ³n de un modo eficiente y robusto
- Se crean numerosas bases de datos
- herramientas de anƔlisis tanto en software como
del hardware
nueva disciplina cientĆfica
BioinformƔtica
3Bases de datos introducciĆ³n conceptos bĆ”sicos
QuƩ es una base de datos?
Una colecciĆ³n de datos
CĆ³mo colecciono los datos?
DecisiĆ³n del usuario. DiseƱo de la base de datos.
Puedo usar
Procesador de texto? (Word)
Si. Permite sĆ³lo bĆŗsqueda y ordenamiento simples.
TambiƩn. Como los datos estƔn en columnas
independientes, se puede ordenar en formas mƔs
complejas. Las bĆŗsquedas siguen siendo simples.
Planilla de CƔlculo? (Excel)
4Bases de datos introducciĆ³n conceptos bĆ”sicos
- Una colecciĆ³n de registros (records).
- Cada registro tiene varios campos.
- Cada campo contiene informaciĆ³n especĆfica.
- Cada campo contiene datos de un tipo determinado.
- Ej dinero,texto, nĆŗmeros enteros, fechas,
direcciones - Cada registro tiene una clave primaria. Un
identificador Ćŗnico que define al registro sin
ambigĆ¼edad.
Planilla VersiĆ³n simple de una base de datos
5(No Transcript)
6Bases de datos biolĆ³gicas DNA
- Nucleotide databases
- Genbank International Collaboration
- NCBI (USA), EMBL (Europe), DDBJ (Japan and Asia)
- Organism specific databases
- FlyBase
- ChickBASE
- pigbase
- SGD (Saccharomyces Genome Database)
7Bases de datos biolĆ³gicas proteĆnas
- Protein Databases
- NCBI
- Genpept Translated Proteins from Genbank
Submissions - EMBL
- TrEMBL Translated Proteins from EMBL Database
- SwissProt
- recibe secuencias peptĆdicas
- cura y anota secuencias provenientes de TrEMBL
- http//www.expasy.ch (Ćŗltima versiĆ³n
no-gratuita) - NCBI tiene la Ćŗltima versiĆ³n gratuita.
8Bases de datos biolĆ³gicas estructura
- Structure databases
- PDB Protein structure database.
- http//www.rscb.org/pdb/
- SCOP structural classification of proteins
- family, superfamily, fold
- CATH structural classification of proteins
- class, architecture, topology, homology
- Genome Mapping Information
- NCBI(Human)
- Genome Centers
- Stanford, Washington University, UCSC
- TIGR
- CELERA
- SANGER
- Research Centers and Universities
9Bases de datos biolĆ³gicas literatura
- Literature databases
- NCBI Pubmed All biomedical literature.
- www.ncbi.nlm.nih.gov
- Abstracts and links to publisher sites for
- full text retrieval/ordering
- journal browsing.
- Publisher web sites.
- ScienceDirect www.sciencedirect.com
- Pathways Database
- KEGG Kyoto Encyclopedia of Genes and Genomes
www.genome.ad.jp/kegg/kegg/html
10Searching Entrez using Global Query
11(No Transcript)
12Bases de datos biolĆ³gicas GenBank
- Es un Banco no se intenta unificar datos.
- No se pueden modificar las secuencias sin el
consentimiento del autor (submitter). - No se intenta unificar (puede haber mƔs de una
secuencia para un locus/gen). - Puede haber registros de diversas calidades de
secuencia y diferentes fuentes.
13BĆŗsquedas de informaciĆ³n interfase de usuario
(SĆ©quenle Retrieval System)
EBI
NCBI
( European Bioinformatics Institute)
( National Center for Biotechnology Information)
14Formas de representar la informaciĆ³n
- En una base de datos, la informaciĆ³n estĆ”
representada en forma compleja - El usuario sin embargo tiene acceso a formas mƔs
simples de representaciĆ³n de los datos flatfiles - Ejemplos de archivos simples (flatfiles) FASTA,
GenBank/EMBL - En general son archivos de texto (o HTML enel
caso de pƔginas web) conteniendo todos los datos
de un registro, organizados de alguna forma
particular. - Ejemplos
- GenBank/EMBL, FASTA, Swissprot
15(No Transcript)
16(No Transcript)
17(No Transcript)
18(No Transcript)
19(No Transcript)
20BĆŗsquedas simples
- Los motores de bĆŗsqueda ofrecen bĆŗsquedas simples
- No imponen restricciones
- El usuario tipea palabras libremente
- Usan estrategias para intentar adivinar la
intenciĆ³n del usuario (sobre quĆ© campo de la base
de datos buscar)
21Ejemplo term mapping - Entrez (PubMed)
- Entrez busca en una serie de listas para ver si
la palabra que ingresaron se encuentra en alguna - MeSH (Medical Subject Headings) vocabulario
controlado utilizado para indexar artĆculos en
PubMed. - Journals nombre completo del journal,
abreviaturas usadas en MEDLINE y nĆŗmeros ISSN. - Lista de frases cientos de miles de frases
generadas a partir de MeSH y otros vocabularios
controlados similares. - Indice de autores apellido e iniciales.
- Stopwords palabras comunes, presentes en casi
todos los registros de la base de datos (a, an,
by, of, the )
22BĆŗsquedas simples pros / cons
- Ventajas
- rƔpidas de formular
- no hay que leer el manual
- Desventajas
- poco selectivas
Ej. buscar cell mortality
23BĆŗsquedas avanzadas
- Presuponen un cierto conocimiento sobre la
organizaciĆ³n subyacente de los datos - Hay que especificar sobre quĆ© campos buscar
- ? hay que conocer los campos
- Entrez se especifican entre corchetes
- Tags predefinidos (hay que conocerlos)
- Escherichia coliorganism
- reviewpublication type
- attenuatorfeature key
- SRS formulario avanzado (no hay que conocer
tƩrminos o tags)
24Busquedas
25BĆŗsquedas avanzadas Entrez
- Entrez provee ademƔs
- History una historia de las bĆŗsquedas que van
realizando. En cualquier momento pueden combinar
bĆŗsquedas o volver sobre alguna de ellas - Preview/Index les permite probar una bĆŗsqueda
(preview) y ver el nĆŗmero de registros que
selecciona o ver los Ćndices y el nĆŗmero de
registros asociados a cada uno de ellos - Details permite analizar la traducciĆ³n que
realizĆ³ Entrez de la bĆŗsqueda que realizamos (uso
de sinĆ³nimos, lĆmites, etc)
26Operadores lĆ³gicos
- En bĆŗsquedas simples o avanzadas siempre tienen a
disposiciĆ³n operadores lĆ³gicos para encadenar
tĆ©rminos - AND (uniĆ³n)
- human AND genome
- human genome
- human genome
- OR (intersecciĆ³n)
- human OR genome
- human genome
- NOT (subconjunto)
- human NOT genome
27Orden de los tƩrminos en un query
- El orden de los tƩrminos es importante
- Un query se evalĆŗa de izquierda a derecha
- human NOT genome no es lo mismo que genome NOT
human - Si el query tiene muchos tƩrminos pueden forzar
el orden de evaluaciĆ³n usando parĆ©ntesis - human AND cancer AND (cell OR science OR nature)
- casein kinase NOT (human OR mouse)
28Utilidades
A parti de una secuencia nucleotidica se puede
- Traducir a proteinas
- Comparar con otras secuencias (BLAST)
- Mapa de restricciones
- DiseƱo de Primers
- cDNA
- UTR
- Secuencias codificantes
- Promotores
- Sitios especializados
- BCM Search Launcher
- wEMBOSS
- Biology Work Bench
29Alineamiento de secuencias. BĆŗsqueda de
secuencias en bases de datos
El alineamiento de secuencias es similar a otros
tipos de anƔlisis comparativo. En ambos es
necesario cuantificar las similitudes y
diferencias (scoring) entre un grupo relacionado
de entidades.
30Alineamientos
- QuƩ es un alineamiento?
- El procedimiento de comparaciĆ³n de dos (o mĆ”s)
secuencias que busca una serie de caracteres
individuales o patrones de caracteres que se
encuentren en el mismo orden en ambas secuencias - CĆ³mo alineamos dos secuencias?
- a mano (como en los viejos tiempos)
- usando un mƩtodo/algoritmo
31Tipos de alineamiento
Alineamientos locales
No hay necesidad de alinear todas las bases
Blast (Entrez) Smith-Watermann (SSBJ)
Alineamiento global
Todas las bases se alinean con otra base o con un
gap (-)
Needelmann - Wunsch
32Alineamiento mĆŗltiple de secuencias (MSA)
FHIT_HUMAN -----------MS-F RFGQHLIKP-SVVFL
KTELSFALVNRKPVV PGHVLV... APH1_SCHPO
-----------MPKQ LYFSKFPVG-SQVFY RTKLSAAFVNLKPIL
PGHVLV... HNT2_YEAST MILSKTKKPKSMNKP
IYFSKFLVT-EQVFY KSKYTYALVNLKPIV
PGHVLI... Y866_METJA -----------MCIF
CKIINGEIP-AKVVY EDEHVLAFLDINPRN KGHTLV...
- Revelan funciones de genes que no son tan
evidentes. - DiseƱo de Primers degenerados para regiones
semiconservadas - Se pueden generara profiles que dan informacion
sobre motivos de proteinas.
33BLAST algoritmos
34Parametos a tener en cuenta en el resultado de un
alineamiento
- scoring (sistemas de puntaje)
- reglas para asignar puntos
- el mƔs simple match, mismatch, gap
- Uso de matrices para determinar el score PAM /
BLOSUM - test de significancia (E)
- Cual es la probabilidad de que un alineamiento
con un score similar similar ocurra ente
proteinas no relacionadas
35(No Transcript)
36(No Transcript)