Title: Bioinform
1Bioinformática fundamentos y aplicaciones de
actualidad
- Fundamentos de Biología Molecular
- Manuel Lemos Ramos
- Dpto. de Microbiología y Parasitología
- Universidade de Santiago de Compostela
2- Sequence 2587 BP 822 A 575 C 499 G 691 T 0
other - tatgtttttt ctgatagtgc acagattgtg tttacccaag
cgaaatatgg tgacagcagc 60 - ggcatccgtg gtgcagcttg gctaggtttg aactagcaga
aagtgattaa agtcacaact 120 - ttagtcatcg aaaaattaag taaagcaagt gttttacata
ttaaattact gatatttaaa 180 - acatacactc ctaattctat ttatatttca catcaacaca
caaacacaaa tgatagtaat 240 - taccatttag atccaatatc attgcgcaca gcttgaatct
gttattgatg aataaggtaa 300 - taactcagat gtacactaaa acactactat cagcctccat
attgctagcg ctttcccctg 360 - cagctctcgc agaagaagtt tctcgattcg atgaggttgt
tgtttcggca acgcgaactt 420 - ctcaagccat caaaaatacc gccgcttctg ttgctgtcat
ttcgagcaaa gacattgaag 480 - ccaatatggc aaaagatgtc gcagctatcc ttgaatatac
ccctggagtt tcaaccaata 540 - gctcatctcg ccaaggtgta cagaccatca atattcgcgg
cgtagaaggt aatcgaatca 600 - aaatcatggt tgatggagtc acacaaggac aagcattcga
cggaggtcct tactcttttg 660 - tcaattcgag cgctatcagt atcgatcccg atatggtaaa
gagtgttgaa gtcatcaaag 720 - gtgcggcgtc aagccttcac ggcagtgatg ccattggtgg
tgtcgtcgct tttgacacca 780 - aagatcctcg tgatttcctt aaaggagacg caaccacagg
cggacaagca aagctttcct 840 - actcttcaga agataaatct ttcagtgaac atattgccat
tgcaaataga agtggcaatt 900 - tagagacctt ggtcgcctat actcgccgtg atgggcaaga
gcaacaaaat tttgccgatc 960 - gtaaagaaga ttattcgata gagactcaag atagtgcaaa
aaatgacttg ctacttaagc 1020 - tccaatatca actgagcgat gctcaccgtt tggagttctt
tggtgaagca ctgcataaca 1080
Desoxi-riboNucleic Acid(DNA) Ácido
Desoxi-riboNucleico (ADN)
3La estructura del ADN
- El monómero del ADN es un nucleótido.
- Los nucleótidos están formados por un azúcar
(desoxi-ribosa), una base nitrogenada y un grupo
fosfato. - Los componentes del nucleótido están unidos por
fuertes enlaces covalentes. - Las bases son purinas (Guanina y Adenina) y
pirimidinas (Citosina y Timina). - La estructura del ADN está formada por 2 cadenas
complementarias. - Las 2 cadenas están orientadas en direcciones
opuestas, quedando en cada una un extremo 5 y un
extremo 3. - La unión entre las 2 cadenas se realiza mediante
enlaces de hidrógeno entre 2 bases (1 de cada
cadena), formando un par de bases. - La adenina se une siempre a la timina mediante 2
enlaces. La guanina se une siempre a la citosina
mediante 3 enlaces. - Los grupos hidroxilo libres del fosfato son los
que dan una fuerte carga eléctrica negativa y el
carácter ácido a la molécula - La molécula de ADN se enrrolla en la forma de una
doble hélice. - Por cada 10 pares de bases, la molécula gira
360º. La estructura recuerda a una escalera de
caracol.
4La estructura del ADN
- Distintas formas de representación del ADN
La estructura del ADN
5Genes y Genomas
- Un gen es un fragmento de ADN que contiene la
información necesaria (en forma de secuencia de
bases) para codificar la síntesis de una proteína
o un ARN. Podemos considerar a un gen como una
unidad de información. - No todo el material genético de un organismo está
organizado en genes. Existe ADN no codificante.
En las células humanas solamente el 3 del ADN da
lugar a la síntesis de proteínas - El genoma de un organismo es el conjunto de
material genético que contienen sus células.
6Tamaño de las moléculas de ADN
- El virus más pequeño contiene poco más de 4.000
pares de bases. Una bacteria contiene como media
5.106 pares de bases (5.000 Kb o 5 Mb) (2 m de
longitud). - Como norma general las bacterias contienen una
sola molécula de ADN circular, mientras que las
células eucarióticas (animales y vegetales)
contienen varias moléculas de ADN lineal
organizadas en cromosomas. - Una célula humana contiene 3.000 Mb distribuidas
en 46 cromosomas. Cada cromosoma contiene una
molécula lineal de ADN.
7Organización del material genético
- El material genético de las células eucarióticas
se organiza en cromosomas. Cada uno está formado
por una mólecula de ADN en doble hélice lineal
asociado a proteínas básicas (histonas). - El material genético de las células procarióticas
se organiza habitualmente en 1 sólo cromosoma que
contiene una molécula de ADN circular.
Mitosis
Estructura del cromosoma
8Estructura del ARN
- El ARN (ácido ribonucleico) contiene ribosa en
lugar de desoxi-ribosa. - Está formado por las mismas bases nitrogenadas,
excepto la Timina que se sustituye por Uracilo. - El Uracilo es también complementario de la
Adenina. - A diferencia del ADN está formado por una única
cadena de nucleótidos. - La longitud de la cadena es mucho menor que en el
ADN. - Se pueden formar enlaces entre bases
complementarias dentro de la misma cadena, lo que
origina estructuras tridimensionales complejas.
9Tipos de ARN
TIPO ABUN-DANCIA Nº BASES FUNCION
ARNr Ribosómico 80 120-3500 Estructura de los ribosomas
ARNt Transferencia 15 75 Transporte de aminoácidos
ARNm Mensajero 5 variable Síntesis de proteínas
10De los genes a las proteínas
Dogma Central de la Biología Molecular Flujo de
la información genética
ADN
11De los genes a las proteínas
12La replicación del ADN
13Replicación del ADN
- Catalizada por una ADN-polimerasa que añade
nucleótidos al extremo 3-OH de la cadena
naciente. - La ADN-polimerasa necesita un cebador de ARN.
- Los nucleótidos se añaden por emparejamiento
complementario con las bases de la cadena molde. - Los sustratos, desoxi-ribonucleótido trifosfato
(dNTP) se hidrolizan al añadirse, liberando
energía para la síntesis del ADN. - Existen diversas proteínas que colaboran en la
replicación.
14Transcripción
- La síntesis del ARNm la realiza una ARN
polimerasa en dirección 5--gt 3. - Los ribonucleótidos se añaden por emparejamiento
complementario con las bases de la cadena molde
de ADN. - La presencia de Adenina en el ADN determina la
adición de un Uracilo en el ARN.
15La transcripción en procariotas
- Los genes que codifican proteínas involucradas en
la misma ruta metabólica suelen presentarse
agrupados en el cromosoma, formando operones, lo
que permite la expresión coordinada. - Una región reguladora adyacente al operón,
determina su transcripción- es el operador. - Proteínas reguladoras funcionan con los
operadores, para controlar la transcripción de
los genes.
16Propiedades de los promotores
- Los Promotores son regiones de aprox. 40 bp
localizados en el extremo -5' del punto de inicio
de la transcripción. - Existen 2 elementos de secuencia consenso
- La región -35, con consenso TTGACA (unión de
la subunidad sigma?) - La región -10 (Pribnow box ), con consenso
TATAAT (región ideal para la apertura de la
doble hebra).
17Transcripción
- Terminación asistida por factores proteicos (r)
- Secuencias específicas sitios de terminación en
el DNA - Repeticiones invertidas (palíndromos), ricos en
GC, que forman una estructura de lazo en el RNA - 6-8 A en DNA, que producen U en el RNA
Garret Grisham. Biochemistry 2ª ed. Saunders
College Publishing
18Transcripción en eucariotas
- La Cromatina limita el acceso de las proteínas
reguladoras a los promotores. - Existen factores proteicos que deben reorganizar
la cromatina. - Las RNA polimerasas I, II y III transcriben rRNA,
mRNA y tRNA, respectivamente. - Las 3 polimerasas interaccionan con los
promotores a través de los factores de
transcripción. - La TATA box (TATAAA) es un promotor consenso.
- Los factores de transcripción reconocen
secuencias promotoras específicas e inician la
transcripción (algunos factores se unen a
secuencias específicas en la región codificante
del gen). - Además de promotores, los genes eucariotas tienen
enhancers, o upstream activation sequences.
Garret Grisham. Biochemistry 2ª ed. Saunders
College Publishing
19Estructura del gen eucariota
- Los genes eucariotas están divididos en exones
(se traducen a aminoácidos) e intrones (no
codificantes). - Ejemplos El gen de la actina tiene un intrón de
309-pb que separa los primeros 3 aminoácidos de
los restantes 350. - El gen del colágeno pro-alpha-2 del pollo, mide
40-kb, con 51 exones que suman sólo 5 kb. - Los exones suelen medir entre 45 y 249 bases.
- El mecanismo por el que se escinden los intrones
y por el que se unen los exones, es complejo y
muy preciso (RNA- splicing)
Garret Grisham. Biochemistry 2ª ed. Saunders
College Publishing
20Estructura del gen eucariota
Garret Grisham. Biochemistry 2ª ed. Saunders
College Publishing
21Traducción del mensaje genético
- La información contenida en la secuencia de bases
del ADN es trasladada o traducida a una secuencia
de aminoácidos en una proteína, a través del ARN
que actúa como intermediario
Garret Grisham. Biochemistry 2ª ed. Saunders
College Publishing
22Las proteínas
Aminoácidos esenciales que forman las proteínas
Alanina Ala A
Arginina Arg R
Asparragina Asn N
Aspártico Asp D
Cisteína Cys C
Fenilalanina Phe F
Glicina Gly G
Glutámico Glu E
Glutamina Gln Q
Histidina His H
Isoleucina Ile I
Leucina Leu L
Lisina Lys K
Metionina Met M
Prolina Pro P
Serina Ser S
Tirosina Tyr Y
Treonina Thr T
Triptófano Trp W
Valina Val V
23Síntesis de proteínas
- Sequence 2587 BP 822 A 575 C 499 G 691 T 0
other - tatgtttttt ctgatagtgc acagattgtg tttacccaag
cgaaatatgg tgacagcagc 60 - ggcatccgtg gtgcagcttg gctaggtttg aactagcaga
aagtgattaa agtcacaact 120 - ttagtcatcg aaaaattaag taaagcaagt gttttacata
ttaaattact gatatttaaa 180 - acatacactc ctaattctat ttatatttca catcaacaca
caaacacaaa tgatagtaat 240 - taccatttag atccaatatc attgcgcaca gcttgaatct
gttattgatg aataaggtaa 300 - taactcagat gtacactaaa acactactat cagcctccat
attgctagcg ctttcccctg 360 - cagctctcgc agaagaagtt tctcgattcg atgaggttgt
tgtttcggca acgcgaactt 420 - ctcaagccat caaaaatacc gccgcttctg ttgctgtcat
ttcgagcaaa gacattgaag 480 - ccaatatggc aaaagatgtc gcagctatcc ttgaatatac
ccctggagtt tcaaccaata 540 - gctcatctcg ccaaggtgta cagaccatca atattcgcgg
cgtagaaggt aatcgaatca 600 - aaatcatggt tgatggagtc acacaaggac aagcattcga
cggaggtcct tactcttttg 660 - tcaattcgag cgctatcagt atcgatcccg atatggtaaa
gagtgttgaa gtcatcaaag 720 - gtgcggcgtc aagccttcac ggcagtgatg ccattggtgg
tgtcgtcgct tttgacacca 780 - aagatcctcg tgatttcctt aaaggagacg caaccacagg
cggacaagca aagctttcct 840 - actcttcaga agataaatct ttcagtgaac atattgccat
tgcaaataga agtggcaatt 900 - tagagacctt ggtcgcctat actcgccgtg atgggcaaga
gcaacaaaat tttgccgatc 960 - gtaaagaaga ttattcgata gagactcaag atagtgcaaa
aaatgacttg ctacttaagc 1020 - tccaatatca actgagcgat gctcaccgtt tggagttctt
tggtgaagca ctgcataaca 1080
24Síntesis de proteínas
- /product"HuvA protein"
- /protein_id"CAC28362.1"
- /db_xref"GI12697532"
- /db_xref"GOAQ9AJS1"
- /db_xref"SPTREMBLQ9AJS1"
- /translation"MYTKTLLSASILLAL
SPAALAEEVSRFDEVVVSATRTSQAIKNT - AASVAVISSKDIEANMAKDVAAILEYTPG
VSTNSSSRQGVQTINIRGVEGNRIKIMVD - GVTQGQAFDGGPYSFVNSSAISIDPDMVK
SVEVIKGAASSLHGSDAIGGVVAFDTKDP - RDFLKGDATTGGQAKLSYSSEDKSFSEHI
AIANRSGNLETLVAYTRRDGQEQQNFADR - KEDYSIETQDSAKNDLLLKLQYQLSDAHR
LEFFGEALHNKTDSDIAHSSYKNYHGQDT - TKQYRLGIKHIWLADSAIADTITSRASWQ
SKEDNGLTHRFQPASSGRPPYTPANADNQ - QTKDYFYNEDKIELETQLDKLVTLGQTEH
NFIYGLSFASSDISNTNTELNSDPATPNQ - VLVYTPDATDQKIGLFVQDEITLLSGNLI
VTPGLRYDSFSTDPGGSTTEPLVKFDDSA - LTSRLGALYRINNQHSVFAQVSQGFRAPN
FTELYYTYDNIAHRYVNDPNPYLKSETSL - AYELGYRHNTNVSATEISAFYSDYDDFIE
RVTTKKVNGITHYSYVNLSEATIKGIELS - NQLKLDQLIGAPNGMSTRLAASYSKGEDG
NGRPLNSVNPWNVVAALNYDDESTTWGTS - LKLNYTAAKSAGNINRDQLNSGTENQVEL
PSATIVDITAYFKPMQDVTITAGIFNLTD - KEYYRWNDIRGKTNLDNDYSQAERNYAIT
AKYEF"
25(No Transcript)
26Síntesis de proteínas
Garret Grisham. Biochemistry 2ª ed. Saunders
College Publishing
- La síntesis transcurre desde el extremo
N-terminal al extremo C-terminal. - Los ribosomas leen el ARNm en la dirección
5--3. - La traducción tiene lugar en polirribosomas o
polisomas. Hay más de un ribosoma traduciendo
cada ARNm simultáneamente. - La elongación de la cadena proteica tiene lugar
por adición secuencial de aminoácidos al extremo
C-terminal.
27El código genético
- Cada aminoácido está codificado por una secuencia
de 3 nucleótidos en el ARNm llamada codón. - Las combinaciones de las 4 bases tomadas de 3 en
3 originan 64 posibles permutaciones. - Puesto que solamente existen 20 aminoácidos
formando parte de las proteínas, el código es
redundante existen codones sinónimos. - Existe además un codón que marca el inicio de una
proteína y 3 codones que marcan el fin.
28Síntesis de proteínas
Initiation
29El código genético
- N- ile leu phe arg val ile arg
pro ... thr arg asn phe thr ...
arg -C - 2 N- tyr phe ile ser ser asn
ser thr leu asn ala lys leu his
leu thr -C - 1 N- leu phe tyr phe glu ... phe
asp leu lys arg glu thr ser leu
asn -C
pautas de lectura (ORFs)
sentido de lectura para la secuencia de la cadena
superior
5- TTATTTTATTTCGAGTAATTCGACCTTAAACGCGAAACTTCACTTA
AC 3 3- AATAAAATAAAGCTCATTAAGCTGGAATTTGCGCTTTGA
AGTGAATTG 5
DNA
sentido de lectura para la secuencia de la cadena
inferior
-1 C- ... lys ile glu leu leu glu
val lys phe ala phe ser ... lys
val -N -2 C- ile lys asn arg thr
ile arg gly ... val arg phe lys
val ... arg -N -3 C- asn ...
lys ser thr asn ser arg leu arg
ser val glu ser leu ser -N
pautas de lectura (ORFs)
30El código genético
- N- ile leu phe arg val ile arg
pro ... thr arg asn phe thr ...
arg -C - 2 N- tyr phe ile ser ser asn
ser thr leu asn ala lys leu his
leu thr -C - 1 N- leu phe tyr phe glu ... phe
asp leu lys arg glu thr ser leu
asn -C
pautas de lectura (ORFs)
sentido de lectura para la secuencia de la cadena
superior
5- TTATTTTATTTCGAGTAATTCGACCTTAAACGCGAAACTTCACTTA
AC 3 3- AATAAAATAAAGCTCATTAAGCTGGAATTTGCGCTTTGA
AGTGAATTG 5
DNA
sentido de lectura para la secuencia de la cadena
inferior
-1 C- ... lys ile glu leu leu glu
val lys phe ala phe ser ... lys
val -N -2 C- ile lys asn arg thr
ile arg gly ... val arg phe lys
val ... arg -N -3 C- asn ...
lys ser thr asn ser arg leu arg
ser val glu ser leu ser -N
pautas de lectura (ORFs)
31El código genético
- N- ile leu phe arg val ile arg
pro ... thr arg asn phe thr ...
arg -C - 2 N- tyr phe ile ser ser asn
ser thr leu asn ala lys leu his
leu thr -C - 1 N- leu phe tyr phe glu ... phe
asp leu lys arg glu thr ser leu
asn -C
pautas de lectura (ORFs)
sentido de lectura para la secuencia de la cadena
superior
5- TTATTTTATTTCGAGTAATTCGACCTTAAACGCGAAACTTCACTTA
AC 3 3- AATAAAATAAAGCTCATTAAGCTGGAATTTGCGCTTTGA
AGTGAATTG 5
DNA
sentido de lectura para la secuencia de la cadena
inferior
-1 C- ... lys ile glu leu leu glu
val lys phe ala phe ser ... lys
val -N -2 C- ile lys asn arg thr
ile arg gly ... val arg phe lys
val ... arg -N -3 C- asn ...
lys ser thr asn ser arg leu arg
ser val glu ser leu ser -N
pautas de lectura (ORFs)
32Mutaciones
33Variabilidad genética
- Los SNPs o polimorfismos de nucleótido único
son variaciones de la secuencia de bases de una
región del genoma, que afectan a un único
nucleótido. - Para ser considerado un SNP debe ocurrir en al
menos un 1 de la población. - Los SNPs proporcionan el 90 de la variación
genética humana y ocurren cada 100 o 300 bases a
lo largo de todo el genoma (tanto en regiones
codificantes como no codificantes). - 2 de cada 3 SNPs corresponden a la sustitución de
C por T. - Una gran parte no tienen efecto alguno sobre las
funciones celulares, pero algunos pueden producir
alteraciones o cambios diversos.
34Variabilidad genética SNPs y Haplotipos
- Un haplotipo es un bloque de ADN en un cromosoma
que contiene un determinado número de SNPs. El
haplotipo es el patrón de SNPs en ese bloque.
- Cada haplotipo contiene SNPs característicos.
- Mapa de Haplotipos (Hap Map) mapa de los
haplotipos y los - SNPs que los caracterizan.
- Permitirá la identificación de genes y
variaciones que a - afectan a la salud humana.
35Variabilidad genética
- La variación de la secuencia de bases en un gen
determinado puede cambiar la proteína codificada
por ese gen.
36Variabilidad genética alelos