Title: Softwarewerkzeuge der Bioinformatik
1Softwarewerkzeuge der Bioinformatik
Inhalt dieser Veranstaltung Softwarewerkzeuge
für I Sequenzanalyse II Analyse von
Proteinstruktur und Ligandenbindung III Zell-
bzw. Netzwerksimulationen
www.cellzome.com
www.accelrys.com
2Lernziele
- Lerne aktuelle und bewährte Programme und
Datenbanken der Bioinformatik kennen und
erfolgreich einzusetzen um - Tools kennenzulernen, mit denen man
bioinformatische Fragen - bearbeiten kann
- zu wissen, was auf dem Markt ist (das Rad nicht
zweimal erfinden) - ein Gefühl dafür zu bekommen, wie erfolgreiche
Softwareprodukte - aussehen (sollen)
- 3 Mini-Forschungsprojekte zu bearbeiten
- Wir werden in der Vorlesung anhand von
Case-studies typische Fragestellungen in
Pharma- oder Biotech-Unternehmen behandeln.
Wie stellen Sie sich den Arbeitsalltag als
Bioinformatiker in einer Pharma-Firma vor?
3Organisatorisches
Jede Woche zweistündige Vorlesung Freitag 9-11,
Hörsaal 1, Geb. 45 Dozent Prof. Helms Übungen
hands-on im CIP-Pool Bioinformatik Raum R 104
im Geb. 45 Freitag 11-13 Uhr. Betreuer der
Übungen Sequenz-Analyse Sam Ansari Proteinstruktu
r Dr. Michael Hutter Zellsimulationen Dr.
Tihamer Geyer
4Welche Bioinformatik-Software gibt es?
5(No Transcript)
6(No Transcript)
7(No Transcript)
8(No Transcript)
9(No Transcript)
10(No Transcript)
11Ein paar Produkte ...
http//www.stratagene.com/softwaresolutions/
12Kommerzielle Software-Pakete sind bereits sehr
mächtig
Kommerzielle Software ist sehr teuer, aber sehr
mächtig, da integriert. Es ist fraglich, ob man
in einer universitären Umgebung (mit kostenloser
Software) bei Anwendungen im Bereich Drug
Development mit Firmen konkurrieren kann, die
solch mächtige Tools einsetzen.
http//www.lionbioscience.com/solutions
13Einsatz von Bioinformatik in der Produkt-Pipeline
http//www.curagen.com/pipeline/approach.asp
14Organisatorisches
- Jeder Teilnehmer an den Übungen benötigt einen
Rechneraccount für den CIP-Pool. Diese Accounts
werden von der Rechnerbetriebsgruppe des FB
Informatik eingerichtet. - Haben Sie bereits einen Account auf
Uni-Rechnern? Dann muss dieser lediglich für den
CIP-Pool freigeschaltet werden. - Zugang zum CIP-Pool Für Bioinformatik-Studenten
24/7, - für alle anderen während der Übungsstunden.
- Bitte melden Sie sich nach dieser Stunde im
Sekretariat - des Zentrums für Bioinformatik bei Frau Alexandra
Klasen an. - Der Beginn der Übungen ist diese Woche.
15Organisatorisches Scheinvergabe
Die Vorlesung zählt 2V 2P 9
Leistungspunkte. Sie kann nach der neuen
Prüfungsordnung für den Bachelor-Studiengang in
der Vertiefung Bioinformatics eingebracht
werden. Die Scheine werden benotet. 50 der
Benotung ergibt sich aus der mittleren Benotung
von drei praktischen Aufgaben, die während des
Semesters von jedem Studenten einzeln zu
bearbeiten sind. Die Aufgaben werden etwa alle 4
Wochen ausgegeben und sind innerhalb von 2 Wochen
zu bearbeiten und durch ein mindestens 5-seitiges
Protokoll zu dokumentieren. Jeder Student muss
mindestens zwei der drei praktischen Aufgaben mit
einer Note von 4 und besser bestehen. Am Ende
des Semesters wird eine 2-stündige Klausur über
die Inhalte der Vorlesung und der Übungen
geschrieben. Die Klausurnote geht ebenfalls mit
50 in die Scheinnote mit ein. Die Klausur muss
mit einer Note von 4 und besser bestanden werden.
16Übersicht über Vorlesungsinhalt
- I Sequenz
- Einführung
- Paarweises Sequenzalignment
- Multiples Sequenzalignment
- Datenbanken
- Genomweite Sequenzanalyse
- II Struktur
- Proteinstruktur
- Proteinstrukturvorhersage
- Liganden-Docking
- Protein-Protein-Docking
- III Zellsimulationen
- E-Cell
- Virtual Cell
- Microarrays
- Protein-Netzwerke
17Was fange ich mit diesen Daten an?
Sequenz des menschlichen Genoms wurde 2001
entschlüsselt.
181 ? 2 Analyse einer unbekannten Sequenz
Input neue Proteinsequenz
Experimentelle Daten vorhanden?
Suche in Sequenzdatenbanken nach identischer
Sequenz bzw. ähnlichen Sequenzen
Multiples Sequenzalignment
Erkenne Domänen
Gibt es ähnliche Sequenz mit bekannter
3D-Struktur?
Vorhersage der Sekundärstruktur
Zuordnung eines Protein-Folds
Nein
Analyse dieses Folds, Nachbarn?
Ja
Ja
Fold erkannt?
Alignment der Sekundärstrukturen.
Nein
Modellierung der Proteinstruktur durch
Homologiemodellierung
Ab inito Vorhersage der Tertiärstruktur
Alignment der Sequenz mit einer Target-Struktur
3D-Proteinstruktur
Nach Rob Russell, http//speedy.embl-heidelberg.de
/ gtsp/flowchart2.html
Kann man Funktion zuordnen?
19Sequenzanalyse
20Ziele
- (0) Identifiziere alle menschlichen Proteine
(ORFs) und ihre Funktion - Sind dies alle Proteine?
- Nein post-translationelle Modifikationen
möglich wie Methylierung, Phosphorylierung,
Glykosilierung - Identifiziere Gen-Netzwerke. Welche Proteine
wechselwirken miteinander? - (2) Identifiziere Module abgeschlossene
Einheiten - (3) Identifiziere Sequenz-Abschnitte, in denen
Mutationen für Krankheiten codieren
21Sequenzen sind verwandt
- Evolution findet auf vielen verschiedenen
Ebenen statt - Mutationen einzelner Aminosäuren,
Domänen-Shuffling, Genduplikation, - Genom-Rearrangement
- verwandte Moleküle besitzen in verschiedenen
Organismen ähnliche Funktionen - (Homologe)
Phylogenetischer Baum für ribosomale RNA Drei
Bereiche des Lebens
22Sequenzen sind verwandt, II
Phylogenetischer Baum für Globin-Proteine des
Menschen
23gewinne transferierbare Information aus
Sequenzvergleich
- Bestimme
- evolutionäre
- Beziehungen
- Vorhersage von Proteinfunktion und -struktur
(Datenbanksuche).
Protein 1 bindet Sauerstoff
Sequenzähnlichkeit
Protein 2 bindet Sauerstoff ?
24Sequenzalignment
- Der Zweck eines Sequenzalignments ist, all die
Residuen einer beliebigen Anzahl von Sequenzen
untereinander anzuordnen, die von der gleichen
Residuenposition in einem Gen- oder
Protein-Vorfahren abstammen.
25Needleman-Wunsch Algorithmus
- allgemeiner Algorithmus für Sequenzvergleiche
- maximiert einen Ähnlichkeitsscore
- bester Match grösste Anzahl an Residuen einer
Sequenz, die zu denen einer anderen Sequenz
passen, wobei Deletionen erlaubt sind. - Der Algorithmus findet durch dynamische
Programmierung das bestmögliche GLOBALE Alignment
zweier beliebiger Sequenzen - NW beinhaltet eine iterative Matrizendarstellung
- alle möglichen Residuenpaare (Basen oder
Aminosäuren) je eine von jeder Sequenz werden
in einem zwei-dimensionalen Gitter dargestellt. - alle möglichen Alignments werden durch Pfade
durch dieses Gitter dargestellt. - Der Algorithmus hat 3 Schritte 1 Initialisierung
2 Auffüllen 3 Trace-back
26Needleman-Wunsch Algorithm Initialisierung
- Aufgabe aligniere die Wörter COELACANTH und
PELICAN der Länge m 10 und n 7. Konstruiere
(m1) ? (n1) Matrix. - Ordne den Elementen der ersten Zeile und Reihe
die Werte m ? gap und n ? gap zu. - Die Pointer dieser Felder zeigen zurück zum
Ursprung.
C O E L A C A N T H
0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10
P -1
E -2
L -3
I -4
C -5
A -6
N -7
27Needleman-Wunsch Algorithm Auffüllen
- Fülle alle Matrizenfelder mit Werten und Zeigern
gemäss von simplen Operationen, die die Werte der
diagonalen, vertikal, und horizontalen
Nachbarzellen einschliessen. Berechne - match score Wert der Diagonalzelle links oben
Wert des Alignments (1 oder -1) - horizontal gap score Wert der linken Zelle
gap score (-1) - vertical gap score Wert der oberen Zelle gap
score (-1) - ordne der Zelle das Maximum dieser 3 Werte zu.
Der Pointer zeigt in Richtung des maximalen
Scores. - max(-1, -2, -2) -1
- max(-2, -2, -3) -2
- (Pointer soll bei gleichen Werte immer in eine
bestimmte Richtung zeigen, z.B. - entlang der Diagonalen.
C O E L A C A N T H
0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10
P -1 -1 -2
28Needleman-Wunsch Algorithmus Trace-back
- Trace-back ergibt das Alignment aus der Matrix.
- Starte in Ecke rechts unten und folge den Pfeilen
bis in die Ecke links oben. - COELACANTH
- -PELICAN--
C O E L A C A N T H
0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10
P -1 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10
E -2 -2 -2 -1 -2 -3 -4 -5 -6 -7 -8
L -3 -3 -3 -2 0 -1 -2 -3 -4 -5 -6
I -4 -4 -4 -3 -1 -1 -2 -3 -4 -5 -6
C -5 -3 -4 -4 -2 -2 0 -1 -2 -3 -4
A -6 -4 -4 -5 -3 -1 -1 1 0 -1 -2
N -7 -5 -5 -5 -4 -2 -2 0 2 1 0
29Smith-Waterman-Algorithmus
- Smith-Waterman ist ein lokaler Alignment-Algorithm
us. SW ist eine sehr einfache Modifikation von
Needleman-Wunsch. Lediglich 3 Änderungen - die Matrixränder werden auf 0 statt auf
ansteigende Gap-Penalties gesetzt. - der maximale Wert sinkt nie unter 0. Pointer
werden nur für Werte grösser als 0 eingezeichnet. - Trace-back beginnt am grösseten Wert der Matrix
und endet bei dem Wert 0. - ELACAN
- ELICAN
C O E L A C A N T H
0 0 0 0 0 0 0 0 0 0 0
P 0 0 0 0 0 0 0 0 0 0 0
E 0 0 0 1 0 0 0 0 0 0 0
L 0 0 0 0 2 1 0 0 0 0 0
I 0 0 0 0 1 1 0 0 0 0 0
C 0 1 0 0 0 0 2 0 0 0 0
A 0 0 0 0 0 1 0 3 2 1 0
N 0 0 0 0 0 0 0 1 4 3 2
30Sequenzvergleiche PAM250 Matrix
Für Sequenzvergleiche werden Scoring-Matrizen für
den Austausch von Aminosäuren verwendet.
31Proteinstruktur ? Sequenz
- Was hat nun Sequenz-Konservierung mit
Proteinstrukturen zu tun? - sehr viel!
- Die Twilight zone kennzeichnet das Mass an
Sequenzidentität, bis zu der zwei
Proteinstrukturen mit hoher Wkt. die gleiche
Struktur besitzen. - Richtlinien von Doolittle
- Sequenzen mit gt 150 Residuen und ? 25
Sequenzidentität sind wahrscheinlich verwandt - mit 15-20 Sequenzidentität können sie verwandt
sein - bei lt15 Sequenzidentität ist es schwierig zu
sagen ob sie verwandt sind oder nicht ohne
weitere strukturelle oder funktionelle Hinweise
TWILIGHT ZONE
32Proteinstruktur, Wechselwirkung mit Liganden
33Einleitung Aminosäuren
Aminosäuren sind die Bausteine von Proteinen
Aminogruppe
Carboxylsäure
34Buchstaben-Code der Aminosäuren
- Ein- und Drei-Buchstaben-Codes der Aminosäuren
- G Glycin Gly P Prolin Pro
- A Alanin Ala V Valin Val
- L Leucin Leu I Isoleucin Ile
- M Methionin Met C Cystein Cys
- F Phenylalanin Phe Y Tyrosin Tyr
- W Tryptophan Trp H Histidin His
- K Lysin Lys R Arginin Arg
- Q Glutamin Gln N Asparagin Asn
- E Glutaminsäure Glu D Asparaginsäure Asp
- S Serin Ser T Threonin Thr
- Zusätzliche Codes
- B Asn/Asp Z Gln/Glu X Irgendeine Aminosäure
35Einleitung Peptidbindung
In Peptiden und Proteinen sind die Aminosäuren
miteinander als lange Ketten verknüpft. Ein Paar
ist jeweils über eine Peptidbindung
verknüpft. Die Aminosäuresequenz eines Proteins
bestimmt seinen genetischen code. Die Kenntnis
der Sequenz eines Proteins allein verrät noch
nicht viel über seine Funktion. Entscheidend ist
seine drei-dimensionale Struktur.
36Grundlegende Definitionen
- Primärstruktur
- Die lineare Sequenz der Aminosäuren eines
Proteins - Sekundärstruktur
- Regionen lokaler Regelmässigkeit
- Z.B. ?-Helices, ?-Stränge, -Faltblätter
-Schleifen
37Definition Super-Sekundärstruktur
- Die Anordnung (packing) von Sekundärstrukturelemen
te zu stabilen Einheiten - wie b-barrels, bab Einheiten, Greek keys, usw.
38Definition Tertiärstruktur
- Die gesamte Faltung einer Kette, die sich aus der
Packung der Sekundärstrukturelemente ergibt.
Grün Fluoreszierendes Protein. Seine zylindrische
Architektur wird durch 11 ?-Stränge gebildet.
(1emb.pdb Brejc et al. 1997)
39Einleitung Proteinstruktur
cAMP-abhängige Proteinkinase Ca2
Pumpe (katalytische Untereinheit) (TM
Protein)
40Definition Quartäre Struktur
- Die Anordnung mehrerer Ketten eines Proteins, das
mehrere Untereinheiten besitzt. Beispiel
Hämoglobin
41Bedeutung von Sequenzanalyse
- gt900,000 Sequenzen in öffentlichen Datenbanken
zugänglich - Millionen mehr in proprietären dbs
- Anstieg wird mit Sequenzierung von weiteren
Genomen weitergehen - Was tun?
-
- In den Sequenzen steckt eine grosse Menge an
strukturellen, funktionellen und evolutionären
Informationen - Sie sind eine sehr wichtige Datenquelle
- Im Gegensatz dazu gibt es nur etwa 2000
unabhängige Proteinstrukturen
42Sequenz-Struktur Missverhältnis
800 700 600 500 400 300 200 100
1988
2002
- Anzahl an nicht-redundanten Sequenzen 1988-2002 (
) - Entsprechende Zunahme der Zahl an
Proteinstrukturen ( ).
43Der holy grail der strukturellen Bioinformatik
44Eigenschaften der Aminosäuren
Aminosäuren unterscheiden sich in ihren
physikochemischen Eigenschaften.
45Einleitung hydrophobe Aminosäuren
Proteine sind aus 20 verschiedenen
natürlichen Aminosäuren aufgebaut 5 sind
hydrophob. Sie sind vor allem Im Proteininneren.
46Einleitung aromatische Aminosäuren
Es gibt drei voluminöse aromatische Aminosäuren.
Tyrosin und Tryptophan liegen bei
Membranproteinen vor allem in der
Interface-region.
47Einleitung Aminosäuren
Es gibt 2 Schwefel enthaltende Aminosäuren und
das ungewöhnliche Prolin. Cysteine können
Disulfidbrücken bilden. Prolin ist ein
Helixbrecher.
48Einleitung Aminosäuren
Es gibt zwei Aminosäuren mit terminalen polaren
Hydroxlgruppen
49Einleitung Aminosäuren
Es gibt 3 positiv geladene Aminosäuren. Sie
liegen vor allem auf der Proteinoberflächen und
in aktiven Zentren. Thermophile Organismen
besitzen besonders viele Ionenpaare auf den
Protein-oberflächen.
50Einleitung Aminosäuren
Es gibt 2 negativ geladene Aminosäuren und ihre
zwei neutralen Analoga. Asp und Glu haben pKa
Werte von 2.8. Das heisst, erst unterhalb von
pH2.8 werden ihre Carboxylgruppe protoniert.
51Transmembrandomänen Hydrophobizitätsskalen
http//blanco.biomol.uci.edu/mpex/ Stephen White
group, UC Irvine
52Helikale Räder
Helikale Räder dienen zur Darstellung von
Helices.
http//cti.itc.Virginia.EDU/cmg/Demo/wheel/wheelA
pp.html.
53Analyse einer unbekannten Sequenz
Experimentelle Daten vorhanden?
Input neue Proteinsequenz
Suche in Sequenzdatenbanken nach identischer
Sequenz bzw. ähnlichen Sequenzen
Multiples Sequenzalignment
Erkenne Domänen
Gibt es ähnliche Sequenz mit bekannter
3D-Struktur?
Vorhersage der Sekundärstruktur
Zuordnung eines Protein-Folds
Nein
Analyse dieses Folds, Nachbarn?
Ja
Ja
Fold erkannt?
Alignment der Sekundärstrukturen.
Nein
Modellierung der Proteinstruktur durch
Homologiemodellierung
Vorhersage der Tertiärstruktur
Alignment der Sequenz mit einer Struktur.
3D-Proteinstruktur
Kann man Funktion transferieren?
Nach Rob Russell, http//speedy.embl-heidelberg.de
/ gtsp/flowchart2.html
54Proteinstruktur ? Sequenz
- Konservierung von Residuen sind Indizien für den
Verwandtschaftsgrad von Proteinen, für die
Evolution und für die Verwandtschaft von
Organismen - Konservierung von Residuen im aktiven Zentrum
- Konservierung von Residuen, die die Architektur
der Proteinstruktur stabilisieren - Konservierung von Residuen, die während Faltung
des Proteins wichtig sind - Konservierung von Residuen an Bindungsschnittstel
len für Liganden und andere Proteine
55Netzwerke
56metabolische NetzwerkeFormulierung von Biochemie
mit Linearer Algebra
57Zellsimulationen
Ziel verstehe metabolische Abläufe in Zellen
http//ecell.sourceforge.net/index.html
58E-cell
Anwendungen bisher - Energie-Metabolismus von
E.coli - e-Rice - Modell eines menschlichen
Erythrozyten - Zirkadiane Rhythmen -
e-Neuron - Signalübertragung in der bakteriellen
Chemotaxis
59Virtual Cell
http//www.nrcam.uchc.edu/
60Virtual Cell
Left overall mechanism of Ran-mediated
nucleocytoplasmic transport. The image Right
membrane transport components within the Virtual
Cell software.GTP-bound Ran shuttles between the
nuclear and cytoplasmic compartments and is
predominately nuclear at steady-state. The RanGTP
nuclear membrane gradient is essential and
required for RanGTP-dependent assembly and
dissociation of transport complexes within the
nucleus.
http//www.nrcam.uchc.edu/
61Virtual Cell
Parameter
62Virtual Cell
This set of images shows the spatiotemporal
pattern of nuclear accumulation of fluorescently
labeled Ran after microinjection into the cytosol
in a confocal experiment (grayscale panels) and a
Virtual Cell simulation (color scale panels).
http//www.nrcam.uchc.edu/
63Virtual Cell
Calculated 3D distribution of 2 species in the
pathway that are not directly visible by
labeling. Injecting fluorescently labeled Ran
allows you to experimentally visualize all the
forms of Ran but not the individual bound and
free states. Simulations help dissect what is
happening to all the species.
http//www.nrcam.uchc.edu/
64Software
In den Tutorials vorgestellte Software 0 Datenba
nkennavigation SRS I Sequenzanalyse (FASTA)
BLAST, PSI-BLAST, CLUSTALW II Proteinstruktur
VMD Ligandenbindung FlexX mit Andreas
Kämper III Zellsimulationen Virtual
Cell Datenbanken Sequenzdatenbanken Proteinstru
kturbanken Metabolische Datenbanken