Title: Teil II: Medizinische Biometrie
1Teil II Medizinische Biometrie
- Jun.-Prof. Dr. Achim Tresch
- IMBEI, Obere Zahlbacher Str. 69
- 55101 Mainz
- tresch_at_imbei.uni-mainz.de
2(No Transcript)
3Verschiedene Möglichkeiten, mit unvollständigem
Wissen umzugehen
Andrej Kolmogoroff
Papst Benedikt XVI.
4Verschiedene Möglichkeiten, mit unvollständigem
Wissen umzugehen
5LiteraturhinweiseAltman, D.G. Practical
Statistics for Medical Research. Chapman
Hall, London.Harms, V. Biomathematik, Statistik
und Dokumentation. Harms-Verlag,
Kiel.Heinecke, A., Hultsch, E., Repges, R.
Medizinische Biometrie. Springer-Verlag,
Berlin-Heidelberg-New York.Hilgers, R.-D.,
Bauer, P., Scheiber, V. Einführung in die Medi-
zinische Statistik. Springer-Verlag,
Berlin-Heidelberg-N.Y.Klausur (für gesamtes
Querschnittsfach Q1)Freitag, 20.07.2007,
1700-1830Bitte gesonderten Aushang beachten!
6Skript online auf ILIAS
gt Magazin gt Fachbereich04 Medizin gt Institut
für Medizinische Biometrie, Epidemiologie
und Informatik gt Q1 Ergänzungsfach gt
Biometrievorlesung
Erstmaliger Besuch Beitreten Passwort
kolmogoroff
7Voraussichtlicher Zeitplan Medizinische
Biometrie
- II.1 Einführung Deskriptive Statistik
- II.2 Beurteilende Statistik
- II.3 Statistische Tests
- II.4 Fallzahlplanung
- II.5 Bivariate Analyse
- II.6 Regression
- II.7 Methodenvergleiche
- II.8 Analyse von Überlebenszeiten
- Wiederholung und Zusammenfassung
8II.1 Deskriptive Statistik
- Hauptlernziele
- Sinnvolle Erfassung von Daten (Tabellen
erstellen) - Graphische Aufbereitung von Daten
- Interpretation von Graphiken und Statistiken
- Kritikfähigkeit beim Umgang mit Zahlen/Daten
- Anwendung
- Datenanalyse in der Dissertation
- Lesen medizinischer Fachzeitschriften
9? Grundgesamtheit
Was sind Daten?
Hier Daten sind eine Anzahl gleichartiger
Beobachtungen
10II.1 Deskriptive Statistik
Begriffe Fall, Beobachtungseinheit Jedes
Individuum, an dem Beobachtungen gemacht
werden Merkmal, Variable Jede an den
Beobachtungseinheiten erhobene Eigenschaft Ausprä
gung Jeder mögliche Merkmalswert Stichprobe
Menge aller untersuchten Beobachtungseinheiten G
rundgesamtheit Alle potenziellen
Beobachtungseinheiten
11Wie beschreibt man Daten?
Dies hängt vom Skalenniveau ab!
Kategoriale Variablen besitzen nur endlich viele
Ausprägungen, z.B. ja/nein männlich/weiblich
rot/grün/blau Verumgruppe/Placebogruppe Spezialf
all Binäre (dichotome) Variablen besitzen nur
zwei Ausprägungen
Nominale Daten Ausprägungen ohne Ordnung Bsp.
Augenfarbe blau, grün, andere Ordinale Daten
Ausprägungen mit inhaltlicher Ordnung Bsp.
Tumorstadium I, II, III, IV
Kontinuierliche (stetige) Variablen können Werte
in einem Zahlenintervall annehmen, z.B. Blutdruck
mmHg, Kosten
12II.1 Deskriptive Statistik
Problem Die Variablen, die man messen will,
müssen vernünftig auf einer der genannten Skalen
abgebildet werden (Operationalisierung) Dies
ist nicht immer leicht, z.B. bei Zufriedenheit,
Schmerz, Risikoaversion, Sozialstatus,
Patriotismus
85 glänzenderes Haar!
13II.1 Deskriptive Statistik
Deskription kategorialer Merkmale tabellarisch
Beispiel Blutgruppe im ABO-System, n 188
Patienten
Ausprägung A B AB 0 ?
Absolute Häufigkeit 83 20 10 75 188
Relative Häufigkeit 44 11 5 40 100
- Wichtig und immer anzugeben absolute
Häufigkeiten! - Bei zu kleinen Fallzahlen (n lt 20) am besten
keine Prozentzahlen angeben - Keine Nachkommastellen bei Prozentzahlen für etwa
nlt300 - bei 14,2857 der Patienten traten
Nebenwirkungen auf. Unsinn, hier war n 7!
14II.1 Deskriptive Statistik
Deskription kategorialer Merkmale Blockdiagramm
15II.1 Deskriptive Statistik
Deskription stetiger Merkmale
Tabellen sind (für ngt5) ungeeignet
-0.63 0.18 -0.84 1.6 0.33 -0.82 0.49 0.74 0.58
-0.31 1.51 0.39 -0.62 -2.21 1.12 -0.04 -0.02 0.94
0.82 0.59 0.92 0.78 0.07 -1.99 0.62 -0.06 -0.16
-1.47 -0.48 0.42 1.36 -0.1 0.39 -0.05 -1.38 -0.41
-0.39 -0.06 1.1 0.76 -0.16 -0.25 0.7 0.56 -0.69
-0.71 0.36 0.77 -0.11 0.88 0.4 -0.61 0.34 -1.13
1.43 1.98 -0.37 -1.04 0.57 -0.14 2.4 -0.04 0.69
0.03 -0.74 0.19 -1.8 1.47 0.15 2.17 0.48 -0.71
0.61 -0.93 -1.25 0.29 -0.44 0 0.07 -0.59 -0.57
-0.14 1.18 -1.52 0.59 0.33 1.06 -0.3 0.37 0.27
-0.54 1.21 1.16 0.7 1.59 0.56 -1.28 -0.57 -1.22
-0.47 -0.62 0.04 -0.91 0.16 -0.65 1.77 0.72 0.91
0.38 1.68 -0.64 -0.46 1.43 -0.65 -0.21 -0.39
-0.32 -0.28 0.49 -0.18 -0.51 1.34 -0.21 -0.18
-0.1 0.71 -0.07 -0.04 -0.68 -0.32 0.06 -0.59 0.53
-1.52 0.31 -1.54 -0.3 -0.53 -0.65 -0.06 -1.91
1.18 -1.66 -0.46 -1.12 -0.75 2.09 0.02 -1.29
-1.64 0.45 -0.02 -0.32 -0.93 -1.49 -1.08 1 -0.62
-1.38 1.87 0.43 -0.24 1.06 0.89 -0.62 2.21 -0.26
-1.42 -0.14 0.21 2.31 0.11 0.46 -0.08 -0.33 -0.03
0.79 2.08 1.03 1.21 -1.23 0.98 0.22 -1.47 0.52
-0.16 1.46 -0.77 -0.43 -0.93 -0.18 0.4 -0.73 0.83
-1.21 -1.05 1.44 -1.02 0.41 -0.38
16II.1 Deskriptive Statistik
Deskription stetiger Merkmale Histogramm
17II.1 Deskriptive Statistik
Die Zahl der Balken ( Größe der Bereiche) muss
sinnvoll gewählt werden!
50 Balken
4 Balken
12 Balken
18II.1 Deskriptive Statistik
Deskription stetiger Merkmale Dichteplot
Vorsicht Es wird automatisch eine Glättung
vorgenommen, die u.U falsche Sachverhalte
vorgaukelt!
19II.1 Deskriptive Statistik
Die Gaußverteilung/Normalverteilung
Mittelwert
Standard-abweichung
20II.1 Deskriptive Statistik
Deskription stetiger Merkmale Lage, Streuungs-
und Schiefeparameter
Median Es liegen genau so viele Datenpunkte
ober- wie unterhalb des Medians
50
50
21II.1 Deskriptive Statistik
Deskription stetiger Merkmale Lageparameter
Modus, Modalwert Wert, an dem die
Häufigkeitsverteilung ihr Maximum annimmt
Median
Mittelwert
22II.1 Deskriptive Statistik
Verteilungsformen
Symmetrisch Mittelwert ? Median
Linksgipflig, rechtsschief Median ltlt Mittelwert
Rechtsgipflig, linkesschief Mittelwert ltlt Median
23II.1 Deskriptive Statistik
- Median ist dem Mittelwert vorzuziehen bei
- asymmetrischer Verteilung
- Verteilung mit Ausreißern
-
- Mittelwert ist genauer als der Median
- wenn annähernde Gaußverteilung vorliegt(selbst
dann sind aber beide Größen ähnlich!) - Faustregel für Verwendbarkeit des Mittelwerts
Schiefemaß g zwischen 1 und 1, d.h. die
Verteilung ist annähernd symmetrisch
Rechtsschiefe bedeutet
Schiefemaß g gt 0
Linksschiefe bedeutet
Schiefemaß g lt 0
24II.1 Deskriptive Statistik
Wie würden Sie diese Verteilung beschreiben?
25II.1 Deskriptive Statistik
Unerwartete Ergebnisse haben oft unerwartete
Ursachen!
Sie stellte eine Riesenschlange dar, die einen
Elefanten verdaut. Ich habe dann das Innere der
Boa gezeichnet, um es den großen Leuten deutlich
zu machen. Sie brauchen ja immer Erklärungen.
Antoine de Saint-Exupéry, Der Kleine
Prinz
26II.1 Deskriptive Statistik
Deskription stetiger Merkmale Lageparameter
Quantile Ein q-Quantil Q teilt die Daten in
einen Anteil von q Datenpunkten unterhalb von Q
und ein Anteil von 1-q Datenpunkten oberhalb von Q
27II.1 Deskriptive Statistik
Deskription stetiger Merkmale Boxplot
28II.1 Deskriptive Statistik
Deskription stetiger Merkmale Streumaße
Spannweite Differenz Maximum minus Minimum
Interquartilspanne Differenz 3. Quartil minus 1.
Quartil
29II.1 Deskriptive Statistik
Deskription stetiger Merkmale Streumaße
Streumaß s Wie stark streuen die Messwerte um
ihr Zentrum (Lagemaß) herum?
s groß
Lagemaß
s klein
z.B. Lagemaß Median Streumaß 3.Quartil
1.Quartil Interquartilabstand (IQR)
30II.1 Deskriptive Statistik
Deskription stetiger Merkmale Streumaße
31II.1 Deskriptive Statistik
Deskription stetiger Merkmale Streumaße
Merkregel für gaußverteilte Daten
Mittelwert s umfasst 68 der
Messwerte Mittelwert 2s 95
Mittelwert 3s 99.7
x-s x xs
32II.1 Deskriptive Statistik
Boxplots Methode der Wahl zum ersten Überblick
über Verteilung der Daten Lage, Streuung und
Schiefe können in etwa aus dem Boxplot abgelesen
werden!
33II.1 Deskriptive Statistik
Boxplots
34II.1 Deskriptive Statistik
- Vorteile des Histogramms
- Ansprechender, informationsreicher als
Boxplots (z.B.Vielgipfligkeit erkennbar) - Nachteile des Histogramms
- Klassenzahl und grenzen willkürlich
- Mehrere Messreihen schwer vergleichbar
35II.1 Deskriptive Statistik
Deskription stetiger Merkmale Zusammenfassung
- Generell Immer Fallzahl(en) angeben!
- numerischimmer Median, Q1, Q3, Min., Max.
(5-Punkt-Zusf.) bei Gaußverteilung Mittelwert,
Standardabweichung - graphisch
- Boxplots, evtl. Histogramme oder Dichteplots
- c) verbalIn der Verum-Gruppe zeigte sich eine
mediane Senkung des Blutdrucks um 12 mmHg
(Inter-quartilspanne 8 bis 18 mmHg), in der
Placebo-Gruppe von 3 mmHg (2 bis 4 mmHg).
36II.1 Deskriptive Statistik
Deskription zweier kategorialer Merkmale
Kreuztabellen
Daten
Person Medikamentengabe Wirkung
A Verum Wirkt
B Placebo Wirkt nicht
Kreuztabelle Kreuztabelle
Kreuztabelle Kreuztabelle
37II.1 Deskriptive Statistik
Deskription zweier kategorialer Merkmale
Kreuztabellen
Daten
Person Medikamentengabe Wirkung
A Verum Wirkt
B Placebo Wirkt nicht
Kreuztabelle Kreuztabelle
Kreuztabelle Kreuztabelle
Variable 2, Ausprägungen
(potentielle Effekte)
Variable 1, Ausprägungen
(potentielle Einflussgröße)
38II.1 Deskriptive Statistik
Deskription zweier kategorialer Merkmale
Kreuztabellen
Daten
Person Medikamentengabe Wirkung
A Verum Wirkt
B Placebo Wirkt nicht
Kreuztabelle Kreuztabelle Wirkung Wirkung
Kreuztabelle Kreuztabelle Wirkt Wirkt nicht
Medika- menten-gabe Verum
Medika- menten-gabe Placebo
Variable 2, Ausprägungen
(potentielle Effekte)
Jeder Fall wird in genau einem der Felder gezählt
Variable 1, Ausprägungen
(potentielle Einflussgröße)
39II.1 Deskriptive Statistik
Deskription zweier kategorialer Merkmale
Kreuztabellen
Daten
Person Medikamentengabe Wirkung
A Verum Wirkt
B Placebo Wirkt nicht
Kreuztabelle Kreuztabelle Wirkung Wirkung
Kreuztabelle Kreuztabelle Wirkt Wirkt nicht
Medika- menten-gabe Verum 1 0
Medika- menten-gabe Placebo 0 1
Variable 2, Ausprägungen
(potentielle Effekte)
Jeder Fall wird in genau einem der Felder gezählt
Variable 1, Ausprägungen
(potentielle Einflussgröße)
40II.1 Deskriptive Statistik
Deskription zweier kategorialer Merkmale
Kreuztabellen
Meist soll die Frage beantwortet werdenGibt es
Unterschiede zwischen und ?
Kreuztabelle Kreuztabelle Wirkung Wirkung
Kreuztabelle Kreuztabelle Wirkt Wirkt nicht
Medika- menten-gabe Verum 1 0
Medika- menten-gabe Placebo 0 1
Variable 2, Ausprägungen
(potentielle Effekte)
Variable 1, Ausprägungen
(potentielle Einflussgröße)
41II.1 Deskriptive Statistik
Deskription zweier kategorialer Merkmale
Kreuztabellen
Kreuztabelle n 80 Fälle
Anzahl, Zeilenprozente,Spaltenprozente Anzahl, Zeilenprozente,Spaltenprozente Wirkung Wirkung Gesamt
Anzahl, Zeilenprozente,Spaltenprozente Anzahl, Zeilenprozente,Spaltenprozente Wirkt Wirkt nicht Gesamt
Medika- menten-gabe Verum 20 50, 67 20 50, 40 50
Medika- menten-gabe Placebo 1025, 33 30 75, 60 50
Gesamt Gesamt 37 63 100
42II.1 Deskriptive Statistik
Deskription zweier kategorialer
Merkmale Kreuztabellen
Was ist an dieser Darstellung zu kritisieren?
43II.1 Deskriptive Statistik
Kreuztabellen Unverbundene vs. verbundene Daten
Unverbundene Daten
Person Medikamentengabe Wirkung
A Verum Wirkt
B Placebo Wirkt nicht
Verbundene Daten
Person Verumgabe Placebogabe
A Wirkt Wirkt
B Wirkt Wirkt nicht
Verbundene Daten An ein und demselben Objekt
(oder zwei sehr ähnlichen Objekten) werden zwei
gleichartige Variablen erhoben. Ein Fall
protokolliert die Ausprägungen der beiden
gleichartigen Variablen für ein Objekt.
44II.1 Deskriptive Statistik
Kreuztabellen Unverbundene vs. verbundene Daten
Verbundene Daten
Person Verumgabe Placebogabe
A Wirkt Wirkt
B Wirkt Wirkt nicht
Kreuztabelle Kreuztabelle Placebogabe Placebogabe
Kreuztabelle Kreuztabelle Wirkt Wirkt nicht
Verum-gabe Wirkt 1 1
Verum-gabe Wirkt nicht 0 0
Variable 2, Ausprägungen
Variable 1, Ausprägungen
45II.1 Deskriptive Statistik
Kreuztabellen Unverbundene vs. verbundene Daten
Meist sollen die Fragen beantwortet werden
Sind die Messungen konkordant oder
diskordant?Gibt es Auffälligkeiten in oder ?
Kreuztabelle Kreuztabelle Placebogabe Placebogabe
Kreuztabelle Kreuztabelle Wirkt Wirkt nicht
Verum-gabe Wirkt 1 1
Verum-gabe Wirkt nicht 0 0
Variable 2, Ausprägungen
Konkordante Messungen
Diskordante Messungen
Variable 1, Ausprägungen
46II.2 Beurteilende Statistik
Deskriptive (beschreibende) StatistikÜbersichtli
che Aufbereitung der Daten eines vorliegenden
Kollektivs (Stichprobe) mittels Graphiken und
Tabellen Beurteilende (schließende, Inferenz-)
StatistikInduktiver Schluss von der Stichprobe
auf die Grundgesamtheit Gewinnung allgemeiner
Erkenntnisse
47II.2 Beurteilende Statistik
Schluss von der Stichprobe auf die
Grundgesamtheit Da anhand einer Stichprobe nur
unvollständige Information vorliegt, sind
ungenaue Schlüsse und Fehlschlüsse
möglich. Wichtige Aufgabe der statistischen
Methodik Trotzdem möglichst genaue und
fehlerfreie Schlüsse bzw. Quantifizierung der
Unsicherheit bei diesen Schlüssen
- Statistischer Test (Signifikanztest)
-
Unterschied in der Grund-gesamtheit?
Unterschied in der Stichprobe
48II.2 Beurteilende Statistik
Schluss von der Stichprobe auf die Grundgesamtheit
Maßzahl in der Grund-gesamtheit?Toleranzen
(Konfidenz-bereich)?
Ermittelte Maßzahl in der Stichprobe
49II.2 Beurteilende Statistik
Wann ist der Schluss von der Stichprobe auf die
Grundgesamtheit möglich? Wichtig Stichprobe
muss repräsentativ sein! (Nur leichte
Hypertoniker ? keine Folgerung für mittlere und
schwere Hypertoniker möglich) Repräsentativität
kann erzielt werden durch zufällige Ziehung aus
der Grundgesamtheit (in der Medizin meist nicht
möglich). Genau überlegen, wie weit man
schließen kann! Beispiel Therapie bei Kindern
mit Leukämie in Mainz ? Kinder in anderen
Unikliniken in Deutschland? ? Alle
Leukämiekinder auf der Welt??
50II.2 Beurteilende Statistik
Risiko relative Häufigkeit oder
Wahrscheinlichkeit, dass ein (i.A.
unerwünschtes) Ereignis auftritt Bei n 7
Patienten nur sehr ungenaue Aussage
möglich! Beispiel 1 Nebenwirkung bei 7
Patienten Ist es überraschend, wenn bei 100
Patienten nur 5mal Nebenwirkungen
auftreten? Je größer die Fallzahl, desto
genauere Aussagen über Wahrscheinlichkeiten sind
möglich. ( Konfidenzbereiche)
51II.2 Beurteilende Statistik
Relatives Risiko und Risikodifferenz
Magenschmerzen drei Tage nach Einnahme?
ja nein
Aspirin, n159 70 (44) 89 (56)
Paracetamol, n150 33 (22) 117 (78)
Risiko unter Aspirin 70/(7089) 44 Risiko
unter Paracetamol 33/(33117) 22
Risikodifferenz 44 22 22
Relatives Risiko 44 / 22 2 Verbal
Das Risiko unter Aspirin ist doppelt so hoch wie
unter P. oder Das Risiko unter Aspirin ist
gegenüber P. um 100 erhöht
52II.2 Beurteilende Statistik
Was bedeutet ein RR lt 1.0 ???
ja nein
Aspirin, n159 70 (44) 89 (56)
Paracetamol, n150 33 (22) 117 (78)
RR (Paracetamol / Aspirin ) 22 / 44
0.5
1
0.5
Das Magenschmerzrisiko bei Paracetamol-Gabe ist
gegenüber Aspiringabe um 50 gesenkt.
Also RR lt 1.0 ? gesenktes Risiko
(protektiver Faktor)
53II.2 Beurteilende Statistik
Ist es sicherer, im Irak Militärdienst zu
leisten, als Einwohner von Washington D.C. zu
sein?
2006 gewaltsam getötet 2006 überlebt
Soldat im Irak 1033 150.000
Zivilist in Washington D.C. 227 500.000
Risiko unter Irak 1033/(1033150.000)
0.68 Risiko unter Washington
227/(227500.000) 0.05 Risikodifferenz
0.68 0.05 0.63 Relatives Risiko
0.68 / 0.05 15
54Relatives Risiko oder Risikodifferenz?
II.2 Beurteilende Statistik
- Beispiel 1 Uvea-Melanom (Inzidenzen)
- Risiko bei Handy-Nutzern 3/100000
- Risiko bei Nicht-Nutzern 1/100000
- Also RR 3.00 RD 0.00002 0.002
. - Beispiel 2 Herz-Kreislauf-Erkrankung
- Risiko ohne sportliche Betätigung 25
- Risiko mit sportlicher Betätigung 20
- Also RR 1.25 RD 0.05 5 .
55Odds und Odds Ratio
Kopf Zahl
Faire Münze 54 46
Verbogene Münze 82 18
Odds ( Chance) Häufigkeitsverhältnis in einer
Gruppe Odds (faire Münze) 54 46
1.17 Odds (gebogene M.) 82 18 4.56 Odds
Ratio (Chancenverhältnis)
56II.2 Beurteilende Statistik
Übersicht zu Risikomaßen Risiko
Auftrittshäufigkeit (0 100) RD
Risikodifferenz Gruppe I versus II Risiko
Gruppe I Risiko Gruppe II RR Relatives
Risiko Gruppe I versus II Risiko Gruppe I /
Risiko Gruppe II Odds Chance (Häufigkeitsverhält
nis in einer Gruppe) OR Odds Ratio Gruppe I
versus II Odds Gruppe I / Odds Gruppe II
57II.2 Beurteilende Statistik
Beispiel zu Risikomaßen (Windpockenimpfung)
erkrankt nicht erkrankt
geimpft 10 90
nicht geimpft 30 70
RR (geimpft / ungeimpft) 10 / 30
0.33 RD (geimpft ungeimpft) 10 30
20 Odds (geimpft) 10 90 1 9
0.11 Odds (ungeimpft) 30 70
3 7 0.43 OR (geimpft / ungeimpft) 0.11 /
0.43 0.26
58II.2 Beurteilende Statistik
Vergleich relatives Risiko Odds Ratio
- Relatives Risiko ist anschaulicher
- Bei kleinen Risiken Beide Maßzahlen sind in
etwa gleich - RR ? 1 oder OR ? 1 kein Risikounterschied
- RR gt 1 OR gt 1 (Risikoerhöhung)
- RR lt 1 OR lt 1 (Risikosenkung)
- Merke
- Bei Fall-Kontroll-Studien kein RR berechnen, nur
Odds Ratio!
59II.2 Beurteilende Statistik
Beispiel Fall-Kontroll-Studie über den Einfluss
des Geburtsgewichts auf das Auftreten von
Leukämie. Stichprobenzusammensetzung 1000
Kinder mit Leukämie, 1000 Kinder ohne Leukämie?
Zusammensetzung der Grundgesamtheit
Leukämie Leukämie
Ja Nein
Geb.- gewicht gt 4000g 60 (60) 40 (40)
Geb.- gewicht 4000 g 940 (49) 960 (51)
Beachte Das Leukämierisiko für makrosome
Neugeborene in der Grundgesamtheit beträgt NICHT
60.Die Odds für makrosome Neugeborene in der
Grundgesamtheit beträgt NICHT 6040 1.5.
60II.2 Beurteilende Statistik
Kann man trotzdem Rückschlüsse auf die
Grundgesamtheit ziehen? Ja!
Betrachte die Situation in der Grundgesamtheit
(die Leukämiequote beträgt nicht 50 wie in der
Studie, sondern nur z.B. ca. 1)
Leuk.Stichprobe Leuk.Stichprobe Leuk. Grundges. Leuk. Grundges.
Ja Nein Ja Nein
Geb.- gewicht gt 4000g 60 40 60 4000
Geb.- gewicht 4000 g 940 960 940 96000
Relatives Risiko 60/(6040) / (940/(940960)) 1.21 60/(604000) / (940/(94096000)) 1.52
Odds Ratio 60/40 / (940/960) 1.53 60/4000 / (940/96000) 1.53
61II.2 Beurteilende Statistik
NNT (Number Needed to Treat)
Beispiel Schlaganfallprävention durch
Einstellung eines Hypertonus
Zielgröße Schlaganfallrate nach 5 Jahren
Placebogruppe 1.5 Verumgruppe 0.9
RR1.67
Aber Risikodifferenz 1.5 0.9 0.6
NNT 1 / Risikodifferenz 1 /
(1.5 - 0.9) 1 / 0.006
167 Patienten
Es müssen 167 Patienten über 5 Jahre lang
antihypertensiv behandelt werden, um einen
Schlaganfall zu verhindern.
62II.2 Beurteilende Statistik
Beispiel Windpockenimpfung
erkrankt nicht erkrankt
geimpft 10 90
nicht geimpft 30 70
RD (geimpft ungeimpft) 10 30
20 RD (ungeimpft geimpft) 30 10
20 NNT (Impfung) 1 / RD 1
/ 0.20 5 Es müssen 5 Personen geimpft
werden, um einen Erkrankungsfall zu vermeiden.
63II.2 Beurteilende Statistik
Konfidenzintervalle
95-Konfidenzintervall Bereich um Effektmaß der
Studie, in dem mit 95-iger Sicherheit der wahre
Wert des Effektmaßes liegt
Punktschätzer (Studienergebnis)
( 1 a ) Konfidenzintervall Bereich um einen
geschätz-ten Wert, welcher den wahren Wert mit
Sicherheit 1 a enthält. 1 a
Konfidenzniveau a Irrtumswahrscheinlichkeit
64II.2 Beurteilende Statistik
- Für welche Maßzahlen werden Konfidenzintervalle
häufig angegeben? - relative Häufigkeiten
- Differenzen relativer Häufigkeiten
- Relatives Risiko
- Odds Ratio
- Mittelwerte
- Differenzen von Mittelwerten
- Mediane
- Differenzen von Medianen
- u. v. a.
65II.2 Beurteilende Statistik
Beispiel Konfidenzintervall bei relativer
Häufigkeit
Fallzahl n Zahl der Nebenwirkungen 95 Konfidenzintervall
7 1 (14) 0.4 58
21 3 (14) 3 36
70 10 (14) 7 25
700 100 (14) 11.6 16.4
7000 1000 (14) 13.2 14.8
- Je höher die Fallzahl n
- desto enger das Konfidenzintervall
- desto präziser die Aussage über die Maßzahl
- Aber Genauigkeit, vor allem bei relativen
Häufigkeiten, wird oft überschätzt!
66II.2 Beurteilende Statistik
Eine Methode zum Erkennen von (nicht-)Schafen
Lernphase Vermesse alle Schafe, die dir
begegnen.
67II.2 Beurteilende Statistik
Eine Methode zum Erkennen von (nicht-)Schafen
Lernphase Vermesse alle Schafe, die dir
begegnen. Beschreibe die Größe der Schafe, z.B.
durch einen Dichteplot.
68Eine Methode zum Erkennen von (nicht-)Schafen
Testphase Begegnet dir ein neues Tier, so
vermesse es. Liegt die Größe des Tieres außerhalb
des Größenbereichs der Schafe, so nenne das Tier
zu groß/zu klein für ein Schaf. Ansonsten gehe
davon aus, dass es ein Schaf ist
Kein Schaf
69II.2 Beurteilende Statistik
Eine Methode zum Erkennen von (nicht-)Schafen
Vorteil der Methode Man muss nichts über Schafe
wissen außer ihrer Größenverteilung. Nachteil der
Methode Sie ist fehlerbehaftet
Positive (Auffälligkeiten)
Negative (keine Auffälligkeiten)
Schwellwert
70II.2 Beurteilende Statistik
Eine Methode zum Nachweis von Medikamentenwirksamk
eit
Eine Methode zum Erkennen von nicht-Placebos
Lernphase Quantifiziere die Wirkung eines
Placebos (z.B. Blutdrucksenkung in mmHg). Lege
eine Entscheidungsschwelle fest
Testphase Quantifiziere die Wirkung eines
Medikaments. Nenne es wirksam, wenn die Wirkung
jenseits der Schwelle liegt
71II.2 Beurteilende Statistik
Statistisches Testen von Hypothesen
- Formuliere eine Nullhypothese H0 (es passiert
nichts) - Wähle eine Teststatistik (Prüfgröße, die
gemessene Größe zur Entscheidungsfindung). Lege
damit implizit die Nullverteilung (die Verteilung
der Teststatistik, falls die Nullhypothese gilt)
fest.
72II.2 Beurteilende Statistik
Statistisches Testen von Hypothesen
- Formuliere eine Alternativhypothese (z.B. die
Werte sind größer als unter der Nullhypothese
erwartet) - Lege eine Entscheidungsschwelle d fest. Dies ist
äquivalent zur Festlegung des Signifikanzniveaus
a, d.h. dem Anteil der falsch Positiven unter den
Negativen.
d
a
73II.2 Beurteilende Statistik
Statistisches Testen von Hypothesen
- Bestimme den Wert der Teststatistik (z.B. mittels
einer Studie), und fälle durch Vergleich von
Teststatistik und Entscheidungschwelle eine
Entscheidung.
Lehne die Nullhypo-these ab, nimm die
Alternativhypothese an.
Behalte H0 bei (lehne jedoch die
Alternativ-hypothese nicht ab).
d
a
74Was macht eine gute Teststatistik aus?
d
Gute Statistik
Verteilung der Teststatistik bei Gültigkeit der
Nullhypothese
Verteilung der Teststatistik bei Gültigkeit der
Alternativhypo-these
0
Nullhypothese akzeptiert Nullhypothese abgelehnt
Nullhypothese wahr Richtige Entsch. Typ I Fehler (Falsch Positive)
Alternativhypo- these wahr Typ II Fehler(Falsch Negative) Richtige Entsch.
75Was macht eine gute Teststatistik aus?
d
Schlechte Statistik
Verteilung der Teststatistik bei Gültigkeit der
Nullhypothese
Verteilung der Teststatistik bei Gültigkeit der
Alternativhypo-these
Nullhypothese akzeptiert Nullhypothese abgelehnt
Nullhypothese wahr Richtige Entsch. Typ I Fehler (Falsch Positive)
Alternativhypo- these wahr Typ II Fehler(Falsch Negative) Richtige Entsch.
76II.2 Beurteilende Statistik
Das Offenbacher Orakel
Toni, 29, Offenbach. Automechaniker und
Moralphilosoph
Würfele mit dem 20-seitigen Würfel.
Ich sachs eusch, wie es werklisch is, ich sach
die Wahrheit!
Augenzahl 20 lehne die Nullhypothese
ab Augenzahl ? 20 lehne die Nullhypothese nicht
ab
Dies ist (unabhängig von der Nullhypothese)ein
valider Test auf 5-Signifikanzniveau!
77II.2 Beurteilende Statistik
Das Offenbacher Orakel
Aber
Die Verteilung der Teststatistik unter der Null-
und der Alternativhypothese ist gleich! Dieser
Test kann nicht zwischen den Gruppen
diskriminieren!
Verteilung unter H0
Verteilung unter H1
95 der Positiven werden nicht erkannt
78II.2 Beurteilende Statistik
Der p-Wert (Überschreitungswahrscheinlichkeit)
Hat man eine Teststatistik festgelegt und einen
Wert für sie aus den Messdaten ermittelt, so kann
dieser in einen p-Wert umgerechnet werden
Der einem Wert t der Teststatistik zugeordnete
p-Wert ist die Wahrscheinlichkeit, bei Gültigkeit
der Nullhypothese einen Wert zu beobachten,
welcher mindestens so extrem ist wie der
beobachtete Wert t.
p 0.08
t4.2
79II.2 Beurteilende Statistik
Der p-Wert (Überschreitungswahrscheinlichkeit)
Hat man eine Teststatistik festgelegt und einen
Wert für sie aus den Messdaten ermittelt, so kann
dieser in einen p-Wert umgerechnet werden
Der einem Wert t der Teststatistik zugeordnete
p-Wert ist die Wahrscheinlichkeit, bei Gültigkeit
der Nullhypothese einen Wert zu beobachten,
welcher mindestens so extrem ist wie der
beobachtete Wert t.
p 0.42
t0.7
80II.2 Beurteilende Statistik
Testentscheidung anhand des p-Werts
Entscheidungsschwelle d
Signifikanzniveau a
Beobachtete Teststatistik t
p-Wert
t ist extremer als d p ist
kleiner als a
p lt a Lehne die Nullhypo-these ab, nimm
die Alternativhypothese an.
p a Behalte H0 bei (lehne jedoch die
Alternativ-hypothese nicht ab).
a 0.05
d
81II.2 Beurteilende Statistik
Ein- und zweiseitige Fragestellungen
Einseitige Fragestellung
H0 Der Wert der Prüfgröße ist in Gruppe I nicht
höher als in Gruppe II H1 Der Wert der Prüfgröße
ist in Gruppe I höher als in Gruppe II
Ablehungsbereich
Annahmebereich
82II.2 Beurteilende Statistik
Ein- und zweiseitige Fragestellungen
Zweiseitige Fragestellung
H0 Die Prüfgröße ist in Gruppe I und Gruppe II
gleich H1 Die Prüfgröße ist in Gruppe I und in
Gruppe II verschieden
Zweiseitige Fragestellung im Allgemeinen
angemessen Effekte in beide Richtungen werden
detektiert. Bei Zulassungsstudien wird
zweiseitige Auswertung gefordert!
Ablehungsbereich
Ablehungsbereich
Annahmebereich
83II.2 Beurteilende Statistik
Beispiel Testen Dickdarm CA
3294 30
(62-32)77 23
84II.2 Beurteilende Statistik
Beispiel Testen Dickdarm CA
4-Jahres-Überleben 4-Jahres-Überleben
Ja Nein
Impfung Ja (n32) 30 (94) 2 (6)
Impfung Nein (n30) 23 (77) 7 (23)
Interessierende Fragen Hat die Impfung einen
Einfluss auf das Überleben? Ist der Einfluss
signifikant?
85II.2 Beurteilende Statistik
Beispiel Testen Dickdarm CA
Grundgesamtheit Alle jetzigen und künftigen
Patienten mit Dickdarm-Ca und Metastasen. Nullhypo
these H0 Die Impfung hat keinerlei Effekt auf
den Zustand der Patienten. Die Überlebensraten
bei der Grundgesamtheit sind mit und ohne Impfung
gleich. Gegenhypothese (Alternativhypothese) H1
Die Überlebensraten bei der Grundgesamtheit sind
mit Impfung und ohne Impfung unterschiedlich.
(zweiseitige Fragestellung) Wähle das
Signifikanzniveau a (oft gewählt a 1 0.1
5 10) Genaue Interpretation des
Signifikanzniveaus a Wenn in Wirklichkeit kein
Unterschied besteht (also H0 gilt), erhält man
mit Wahrscheinlichkeit a eine Signifikanz
(falsch positive Aussage).
86II.2 Beurteilende Statistik
Beispiel Testen Dickdarm CA
Wahl der Teststatistik Exakter Fisher-Test
Sir Ronald Aylmer Fisher, 1890-1962 Theoretischer
Biologe, Evolutionstheoretiker und Statistiker
87II.2 Beurteilende Statistik
Beispiel Testen Dickdarm CA
Testergebnis nach Durchführung des exakten
Fisher-Tests p 0.0766 ? 7.7 Hat man a 5
gewählt, so gilt Da p gt a, wird die
Nullhypothese beibehalten. Interpretation Falls
die Impfung keinerlei Effekt hat (also H0 gilt),
beträgt die Wahrscheinlichkeit, dennoch einen
Unterschied von mindestens 17 zwischen beiden
Gruppen zu erhalten, 7.7. Sachaussage Es
besteht zum Niveau a 5 kein signifikanter
Effekt der Impfung auf die Überlebensrate nach 4
Jahren. Folgerung Wir sind (noch) nicht
(hinreichend) davon überzeugt, dass ein
Unterschied in den Überlebensraten besteht!
88(No Transcript)
89Was muss bei einer Sachaussage im Anschluss an
einen statistischen Test beachtet werden?
II.3 Statistische Tests
- Testentscheidung signifikant bzw. nicht
signifikant mit Signifikanzniveau - Was wird verglichen? (Gruppeneinteilung)
- Was ist die Grundgesamtheit?
- Was ist die Zielgröße?(ggf. genauere
Information, z.B. Zeitangabe) - Falls ein signifikanter Unterschied
bestehtInterpretation! (Welche Richtung?)
ltspäter nach vorne in den Bereich beurteilende
Statistik schiebengt
90Gerechter Würfel oder gezinkter Würfel?
Alternativhypothese Der Würfel bevorzugt hohe
Augenzahlen
Nullhypothese Alle Augenzahlen sind gleich
wahrscheinlich
91Gerechter Würfel oder gezinkter Würfel?
TeststatistikAugenzahl des Würfels
Es folgt dieDurchführung des Experiments!
92Gerechter Würfel oder gezinkter Würfel?
Testentscheidung
Beobachtete Augenzahl 6 ? Lehne die
Nullhypothese ab, nimm die Alternativhypothese an
(Der Würfel ist gezinkt)
Beobachtete Augenzahl lt 6 ? Lehne die
Nullhypothese nicht ab, lehne die
Alternativhypothese jedoch auch nicht ab(Es ist
keine Verfälschung erkennbar)
93II.3 Statistische Tests
Beachte
- Nicht-Signifikanz ? Äquivalenz
- Eine exakte Gleichheit kann nie bewiesen werden.
No test based upon the theory of probability can
by itself provide any valuable evidence of the
truth or falsehood of a hypothesis. Neyman J,
Pearson E (1933) Phil Trans R Soc A
94II.3 Spezielle statistische Tests
Vergleich der Mittelwerte zweier Gruppen
95II.3 Statistische Tests
Vergleich der Mittelwerte zweier Gruppen
Fragestellung / Hypothese Ist die Expression von
Gen g in Gruppe 1 niedriger als die in Gruppe 2?
Daten Expression von Gen g in verschiedenen
Proben (Absolutskala)
Teststatistik, z.B. Differenz der Gruppenmittel
Entscheidung für niedriger exprimiert wenn
96II.3 Statistische Tests
Vergleich der Mittelwerte zweier Gruppen
Problem d ist nicht skaleninvariant
Lösung Teile d durch seine Standardabw.
Daraus entsteht die t-Statistik bzw. der t-Test
(für unverbundene Stichproben)
97II.3 Statistische Tests
Vergleich der Mittelwerte zweier Gruppen
Beispiel t-Test für den Vergleich der
Plazentagewichte bei gesunden und diabetischen
Müttern
Zielgröße Plazentagewicht g
Gruppe 1 n 23 gesundeMütter Gruppe 2 n 38
Mütter mit manifestem Diabetes
98II.3 Statistische Tests
Beispiel t-Test für unverbundene Stichproben
Maßzahlen zum Vergleich der beiden Gruppen
(Messwerte in Gramm)
Gruppe 1 Gruppe 2
Minimum 375 425
1. Quartil 500 600
Median 600 710
3. Quartil 650 825
Maximum 825 1290
Arithm. Mittelwert 601.7 728.5
Standardabweichung 125.4 183.1
Schiefe g 0.25 0.85
Für beide Gruppen - 1 lt g lt 1, also
Mittelwerte (noch) sinnvoll
99II.3 Statistische Tests
Beispiel t-Test für unverbundene Stichproben
Hypothesen H0 Es gibt keinen (Mittelwerts-)
Unterschied in den Plazentagewichten zwischen
gesunden und diabetischen Müttern H1 Es gibt
einen (MW-) Unterschied in den Plazentagewichten
zwischen gesunden und diabetischen Müttern
Gewähltes Signifikanzniveau a 5 Zweiseitiger
Test
100II.3 Statistische Tests
Beispiel t-Test für unverbundene Stichproben
Voraussetzung Gaußverteilung in beiden Gruppen
Zeile Varianzen gleich Auch noch gleiche
Varianzen (bzw. Standardabweichungen) in beiden
Gruppen nötig. Zeile Varianzen ungleich
bedeutet nur Gleiche Varianzen sind nicht
erforderlich. Pragmatisch Immer 2. Zeile
verwenden! p 0.002
101II.3 Statistische Tests
Beispiel t-Test für unverbundene Stichproben
Ergebnis Mittelwertsdifferenz ()
126.7 p-Wert 0.002 p 0.002 0.2 lt 5
0.05 a Also signifikanter Unterschied zum
Niveau 5!
Sachaussage Zum Signifikanzniveau a 5 besteht
ein signifikanter Mittelwerts-Unterschied in den
Plazentagewichten zwischen gesunden und
diabetischen Müttern. Konkret haben diabetische
Mütter höhere Plazentagewichte. Interpretation
des p-Werts Falls zwischen den (mittleren)
Plazentagewichten zwischen gesunden und
diabetischen Müttern kein Unterschied besteht
(also H0 gilt), beträgt die Wahrscheinlichkeit,
dennoch einen Mittelwertsunterschied von
mindestens 126.7 g zu beobachten, unter den
gegebenen Umständen 0.2.
102II.3 Statistische Tests
Zusammenhang statistischer Test
Konfidenzintervall Hier wurde die
Mittelwertsdifferenz untersucht. 95-Konfidenzinte
rvall hierfür - 205.9 - 47.5 Die Null ist
nicht enthalten! Generell Null nicht im (1-
a)-KI enthalten Mittelwertsunterschied zum
Niveau a signifikant Ähnliche Aussagen beim
Vergleich von Risiken (Bezugspunkt für RR und OR
ist 1!)
103II.3 Statistische Tests
Wilcoxon-Rangsummentest (Mann-Whitney-Test) Unters
uche für unverbundene Stichproben Sind die
Werte in Gruppe 1 kleiner als in Gruppe 2 ?
Messgröße Messgröße Messgröße Messgröße Messgröße
Gruppe 1 18 3 6 9 5
Gruppe 2 15 10 8 7 12
3 5 6 7 8 9 10 12 15 18
Originalskala
Rangskala
1 2 3 4 5 6 7 8 9 10
Rangsumme Gruppe 1 123610 22
Rangsumme Gruppe 245789 33
104II.3 Statistische Tests
Wilcoxon-Rangsummentest (Mann-Whitney-Test)
Wähle die Rangsumme von Gruppe 1 als Teststatistik
Der zur Rangsumme gehörige p-Wert kann per
Computer für kleine Gruppenzahlen exakt oder für
große Gruppenzahlen näherungsweise berechnet
werden
P(W22, falls die Gruppen- zugehörigkeiten
zufällig sind)
0.15
15
20
25
30
35
40
22
Wilcoxon W
Rangsummenverteilung für Gruppe 1, Gruppe 1
5, Gruppe 2 5
105II.3 Statistische Tests
Wilcoxon-Rangsummentest (Mann-Whitney-Test)
Beispiel Plazentagewichte
- Für größere Fallzahlen (Ngt20) wird eine Näherung
berechnet
- Der Wilcoxon Test kann einseitig oder zweiseitig
durchgeführt werden
106II.3 Statistische Tests
Tests für verbundene Stichproben
Verbundene Stichproben Es liegen Paare von
Messungen (xi, yi) an denselben Individuen unter
verschiedenen Versuchsbedingungen vor. x1,
x2, ....., xn Datenstruktur y1, y2, .....,
yn Wesentlich Man bildet intraindividuelle
Differenzen d1 x1 y1, d2 x2 y2,.....
dn xn yn. Nur diese Differenzen werden
benutzt. Vorteil von verbundenen Stichproben
jeder Patient ist seine eigene Kontrolle die
interindividuelle Streuung ist eliminiert.
107II.3 Statistische Tests
t-Test für verbundene Stichproben
Beispiel Führt autogenes Training bei geübten
Versuchspersonen zu einer Änderung (Senkung) der
Pulsfrequenz?
i Pers. Nr 1 2 3 4 5 6 7 8 9 10 11 12
xi (ohne AT) 61 65 58 55 72 70 62 58 55 60 54 52
yi (mit AT) 58 58 57 52 66 68 60 55 60 58 51 43
di xi - yi 3 7 1 3 6 2 2 3 5 2 3 9
108II.3 Statistische Tests
t-Test für verbundene Stichproben
Graphische Deskription
Differenzenboxplot
Voraussetzung für die Anwendung des t-Test ist
wiederum eine Normalverteilung der Daten in
beiden Gruppen
109Differenz d (Pulsfrequenz ohne AT) (PF mit
AT)mittlere Differenz 3.00
Standardabweichung sd 3.4695-Konfidenzi
ntervall der Differenz
1.20 4.80 enthält die Null nicht!
II.3 Statistische Tests
t-Test für verbundene Stichproben
- Statistischer Test ( t-Test für verbundene
Stichproben) - H0 Autogenes Training verändert die Pulsfrequenz
- bei geübten Personen nicht.
- H1 AT verändert die PF bei geübten Personen.
- p 0.013 1.3
110II.3 Statistische Tests
Wilcoxon-Vozeichentest
Untersuche für verbundene Stichproben Sind die
Werte in Gruppe 1 kleiner als in Gruppe 2 ?
Messgröße Messgröße Messgröße Messgröße Messgröße
Gruppe 1 18 3 6 9 5
Gruppe 2 15 10 8 7 12
Differenz Gr.2-Gr.1 -3 7 2 -2 7
Idee Sind die Werte in beiden Gruppen in etwa
gleich groß, so ist die gespiegelte Verteilung
der Differenzen mit negativem Vorzeichen zu der
der Differenzen mit positivem Vorzeichen
ähnlich.Teste mit Wilcoxon Rangsummentest auf
Gleichheit der Verteilungen -? und ? .
111II.3 Statistische Tests
Wilcoxon-Vozeichentest
Negative Differenzen
Positive Differenzen
-3 -2 2 7
Originalskala
Absolutbeträge
0 1 2 3 4 5 6 7 8 9 . . .
Rangskala
1 2 3 4 5 6 . . .
Rangsummen Gruppe 1 1.53 4.5 Gruppe 2
1.54.54.5 10.5
? Führe den Wilcoxon Rangsummentest für Gruppe
1 2 , Gruppe 2 3 durch
Gibt es mehrere Werte (k Stück) mit identischem
Betrag, so nehmen sie eigentlich Rang j,,jk-1
ein. Um sie jedoch im Sinne des Tests gleich zu
behandeln, wird ihnen allen der künstliche Rang j
(k-1)/2 zugewiesen.
112II.3 Statistische Tests
Testübersicht Gruppenvergleich eines stetigen
Merkmals
Zu klärende Frage Existiert ein Lageunterschied
der Zielgröße zwischen Gruppe 1 und Gruppe 2 bzw.
zwischen zwei Merkmalsausprägungen der
Einflussgröße?
Sind die Daten normalverteilt?
ja
nein
Verbundene Stichproben?
Verbundene Stichproben?
ja
nein
ja
nein
t-Test für verbundene Stichproben
t-Test für unverb. Stichproben
Wilcoxon Vorzeichen-test
Wilcoxon Rangsummen-test
113II.3 Statistische Tests
Vergleich zweier binärer ZielgrößenUnverbundene
Stichproben Exakter Fisher Test
Der exakte Fisher Test soll die Frage
beantwortenGibt es Unterschiede in der
Verteilung und ?
Bsp. Wirksamkeitsstudie mit unverbundenen
Stichproben (jeder Probend erhält nur einen
Präparat)
Wirkung Wirkung
Wirkt Wirkt nicht
Medika- menten-gabe Verum 65 7
Medika- menten-gabe Placebo 44 13
114II.3 Statistische Tests
Vergleich zweier binärer ZielgrößenVerbundene
Stichproben McNemar Test
Der McNemar Test (geiziger Schotte) soll die
Frage beantworten Sind die beiden Messungen
konkordant oder diskordant? Gibt es
Auffälligkeiten in oder ?
Bsp. Wirksamkeitsstudie mit verbundenen
Stichproben (jeder Proband erhält nacheinander
beide Präparate)
Placebogabe Placebogabe
Wirkt Wirkt nicht
Verum-gabe Wirkt 31 15
Verum-gabe Wirkt nicht 2 14
Diskordante Messungen
Konkordante Messungen
115II.3 Statistische Tests
Vergleich zweier kategorialer ZielgrößenUnverb.
Stichproben Chiquadrat-Test (?2-Test)
Beispiel Beispiel Auftreten von LGE Auftreten von LGE
Beispiel Beispiel Ja Nein
Tumor-größe 1 10 8
Tumor-größe 2 20 23
Tumor-größe 3 19 10
Tumor-größe 4 32 18
H0 Es besteht kein Zusammenhang zwischen
Tumorgröße und dem Auftreten von LGE (oder die
Tumorgröße hat keinen Einfluss auf das Auftreten
von LGE) H1 Es besteht ein Zusammenhang zwischen
Tumorgröße und dem Auftreten von LGE (oder die
Tumorgröße hat einen Einfluss auf das Auftreten
von LGE)
116II.3 Statistische Tests
Vergleich zweier kategorialer ZielgrößenUnverb.
Stichproben Chiquadrat-Test (?2-Test)
Im gegebenen Beispiel erhält man mit SPSS p
0.000 (also p lt 0.001). Wurde als
Signifikanzniveau a 5 gewählt, so ergibt sich
als Sachaussage Bei Patienten mit
Magenkarzinomen besteht ein zum 5-Niveau
signifikanter Zusammenhang zwischen Tumorgröße
und dem Auftreten von LGE (oder ..... Einfluss
der Tumorgröße auf das Auftreten von LGE).
Konkret je größer der Tumor, desto häufiger
treten LGE auf.
117II.3 Statistische Tests
Vergleich zweier kategorialer ZielgrößenUnverb.
Stichproben Chiquadrat-Test (?2-Test)
- Voraussetzungen des Chiquadrat-Tests
- Gesamt-Fallzahl nicht zu klein (etwa n 60)
- Erwartungswerte (erwartete Häufigkeiten) nicht zu
klein (alle 5) - Beachte Bei zwei binären Merkmalen verwende
eine Vierfeldertafel und den exakten Fisher-Test! -
118II.3 Statistische Tests
119II.3 Statistische Tests
Testübersicht Vergleich zweier kategorialer
Variablen
Zu klärende Frage Gibt es Unterschiede in den
Häufigkeitsverteilungen der Zielgröße bzgl. der
verschiedenen Gruppen bzw. Merkmalsausprägungen
der Einflussgröße?
Sind die Daten binär?
ja
nein
Verbundene Stichproben?
Verbundene Stichproben?
ja
ja
nein
nein
McNemar Test (Messen die beiden Variablen das
Gleiche?)
Exakter Fisher Test (Besteht eine Abhängigkeit?)
(Symmetrie-test)
Chiquadrat (?2) -Test
120II.3 Statistische Tests
Übersicht Deskriptionen und statistische
Tests (Vergleich von zwei Stichproben)
Merkmal Design Deskription numerisch Deskription graphisch Test
stetig unverbunden
stetig verbunden
binär unverbunden
binär verbunden
kategorial unverbunden
Bei Normalverteilung / mindestens bei
symmetrischer Verteilung (Schiefelt1)
121II.3 Statistische Tests
Übersicht Deskriptionen und statistische
Tests (Vergleich von zwei Stichproben)
Merkmal Design Deskription numerisch Deskription graphisch Test
stetig unverbunden Mediane, Quartile 2 Boxplots Wilcoxon-Rangsummen- unv. t-Test
stetig verbunden
binär unverbunden
binär verbunden
kategorial unverbunden
Bei Normalverteilung / mindestens bei
symmetrischer Verteilung (Schiefelt1)
122II.3 Statistische Tests
Übersicht Deskriptionen und statistische
Tests (Vergleich von zwei Stichproben)
Merkmal Design Deskription numerisch Deskription graphisch Test
stetig unverbunden Mediane, Quartile 2 Boxplots Wilcoxon-Rangsummen- unv. t-Test
stetig verbunden Median, Quartile der Differenz Differenzen-Boxplot Wilcoxon-Vorzeichen-, t-Test
binär unverbunden
binär verbunden
kategorial unverbunden
Bei Normalverteilung / mindestens bei
symmetrischer Verteilung (Schiefelt1)
123II.3 Statistische Tests
Übersicht Deskriptionen und statistische
Tests (Vergleich von zwei Stichproben)
Merkmal Design Deskription numerisch Deskription graphisch Test
stetig unverbunden Mediane, Quartile 2 Boxplots Wilcoxon-Rangsummen- unv. t-Test
stetig verbunden Median, Quartile der Differenz Differenzen-Boxplot Wilcoxon-Vorzeichen-, t-Test
binär unverbunden Kreuztabelle,Zeilen, RR, RD, OR Balken- diagramm Exakter Fisher-Test
binär verbunden
kategorial unverbunden
Bei Normalverteilung / mindestens bei
symmetrischer Verteilung (Schiefelt1)
124II.3 Statistische Tests
Übersicht Deskriptionen und statistische
Tests (Vergleich von zwei Stichproben)
Merkmal Design Deskription numerisch Deskription graphisch Test
stetig unverbunden Mediane, Quartile 2 Boxplots Wilcoxon-Rangsummen- unv. t-Test
stetig verbunden Median, Quartile der Differenz Differenzen-Boxplot Wilcoxon-Vorzeichen-, t-Test
binär unverbunden Kreuztabelle,Zeilen, RR, RD, OR Balken- diagramm Exakter Fisher-Test
binär verbunden Kreuztabelle (Mc-Nemar-Tafel) Balken-diagramm McNemar-Test
kategorial unverbunden
Bei Normalverteilung / mindestens bei
symmetrischer Verteilung (Schiefelt1)
125II.3 Statistische Tests
Übersicht Deskriptionen und statistische
Tests (Vergleich von zwei Stichproben)
Merkmal Design Deskription numerisch Deskription graphisch Test
stetig unverbunden Mediane, Quartile 2 Boxplots Wilcoxon-Rangsummen- unv. t-Test
stetig verbunden Median, Quartile der Differenz Differenzen-Boxplot Wilcoxon-Vorzeichen-, verb. t-Test
binär unverbunden Kreuztabelle,Zeilen, RR, RD, OR Balken- diagramm Exakter Fisher-Test
binär verbunden Kreuztabelle (Mc-Nemar-Tafel) Balken-diagramm McNemar-Test
kategorial unverbunden Kreuztabelle,Zeilen (3D Balken-diagramm) ?2-Test
Bei Normalverteilung / mindestens bei
symmetrischer Verteilung (Schiefelt1)
126II.3 Statistische Tests
Beachte
- Die Angabe eines Testergebnisses ohne eine
sinnvolle Deskription ist uninformativ. - Oft Angabe von Konfidenzbereichen wünschenswert.
- Als Testergebnis sollte nicht nur Zum Niveau a
signifikant/nicht signifikant angegeben werden,
sondern der p-Wert (geeignet gerundet), zumindest
wenn er kleiner als (etwa) 0.1 ist. - Im SPSS-Output erscheint gelegentlich p0.000
. Hier sollte man als Ergebnis angeben
plt0.001 (sogar plt0.0005 ist möglich!). Aber
bitte nicht p0 oder gar plt0.000 !
127II.3 Statistische Tests
Beachte
- Statistische Signifikanz ? Relevanz
Sehr viele Fälle Auch kleine Unterschiede
werden signifikant Wenige Fälle Ein
beobachteter Unterschied kann relevant, aber
nicht statistisch signifikant sein.
128II.3 Statistische Tests
Problematik der multiplenTests
- Beispiele
- Untersuchung mehrerer Endpunkte (systolischer,
diastolischer Blutdruck, Pulsfrequenz) - Vergleich mehrerer Gruppen (z.B. bei 4 Gruppen
6 Paarvergleiche)
Bei jedem Test tritt eine falsche Signifikanz (
falsch Positives) mit 5 Wahrscheinlichkeit auf
(falls a 5) ? Bei 6 Tests steigt die
Wahrscheinlichkeit des Auftretens einer falschen
Signifikanz bis zu 30!
129II.3 Statistische Tests
Problematik der multiplenTests
Lösungsmöglichkeit Korrektur nach
Bonferroni Führe jeden der einzelnen Tests zum
Niveau a/m (lokales Signifikanzniveau a/m )
durch (m Anzahl der Tests) Die
Wahrscheinlichkeit eines Auftretens einer
falschen Signifikanz bei Durchführung aller m
Tests beträgt dann höchstens a (multiples/globale
s Niveau a)
z. B. m 6 Gewünschtes multiples Niveau a 5
? lokales Signifikanzniveau a/m 5/6 0.83
Multiple Signifikanzen treten seltener auf, sind
aber aussagekräftiger!
130II.4 Fallzahlplanung
Grundideen der Fallzahlplanung
Fehlermöglichkeiten bei der Anwendung
statistischer Tests
Nullhypothese akzeptiert Nullhypothese abgelehnt
Nullhypothese wahr Richtige Entsch. Typ I Fehler a(Falsch Positive)
Alternativhypo- these wahr Typ II Fehler ß(Falsch Negative) Richtige Entsch.
Fehler 1. Art (a-Fehler) falsch positive
Aussage falsche Signifikanz. Sollte nur
selten auftreten! Fehler 2. Art (ß-Fehler)
falsch negative Aussage Ein tatsächlich
vorhandener Unterschied wird nicht erkannt
131II.4 Fallzahlplanung
Grundidee der Fallzahlplanung Die Studie muss so
viele Patienten einschließen, dass im primären
Endpunkt ein klinisch relevanter Unterschied mit
ausreichender Sicherheit (Power) aufgedeckt
werden kann!
- Resultierende Vorgaben
- Maximal tolerabler a-Fehler
- maximal tolerabler ß-Fehler
- klinisch relevanter Unterschied. (Ist ein
Unterschied von 1mmHg in der Blutdrucksenkung
noch relevant?)
132II.4 Fallzahlplanung
- Weitere Determinanten der Fallzahl
- Streuung im primären Endpunkt (falls stetig)
- Design der Studie (verbunden / unverbunden)
133II.4 Fallzahlplanung
Faustregel 1 Je geringer der nachzuweisende
klinisch relevante Unterschied gefordert wird,
desto höher die Fallzahl der Studie! Faustregel
2 Je größer die Streuung in einem stetigen
primären Endpunkt, desto höher die Fallzahl der
Studie! Faustregel 3 Je geringer a und
ßFehler gefordert werden, desto höher die
Fallzahl der Studie! Also je sicherer man sein
will, desto mehr Fälle braucht man!
134II.4 Fallzahlplanung
- Vorgaben von biometrischer Seite
- a-Fehler (meistens 1, 5)
- ß-Fehler (meistens 10, 20)(d.h. statistische
Power 90, 80) - Vorgaben von klinischer Seite
- Klinisch relevanter Mindestunterschied
- Qualitativ (bei kategorialen Zielgrößen)
zwischen Responderraten - Quantitativ (bei stetigen Zielgrößen) zwischen
Medianen / Mittelwerten - (Erwartete) Streuung der Zielgröße
135Beispiel (Dissertation Isabelle Warlo) Vergleich
der Rotation von Intraokularlinsen mit C- und
Z-Haptik bei Kataraktpatienten
II.4 Fallzahlplanung
Primärer Endpunkt Rotation 3 Monate nach
Implantation Grad Vorgaben biometrisch a 5
und ß 20 (also Power 80) Vorgaben
klinisch C-Haptik mittlere Rotation 20
Grad Z-Haptik mittlere Rotation 10 Grad klinisch
relevanter Unterschied 10 Grad Standardabweichung
en jeweils 10 Grad
Problem
Diese Werte müssen vor der Durchführung der
Studie bekannt sein oder geschätzt werden!
136II.4 Fallzahlplanung
Beispiel (Dissertation Isabelle Warlo)
C-Haptik mittlere Rotation 20 Grad Z-Haptik mitt
lere Rotation 10 Grad klinisch relevanter
Unterschied 10 Grad Standardabweichungen 10 Grad
Streuung Relevanter Unterschied Relevanter Unterschied
Streuung 10 Grad 5 Grad
ß20 a5 10 Grad 17 64
ß20 a5 20 Grad 64 253
ß20 a1 10 Grad 26 96
ß20 a1 20 Grad 96 376
Fallzahlempfehlung 64 Augen pro
Gruppe anzunehmende drop out-Rate
10 Nettofallzahl 72 Augen pro Gruppe
137II.4 Fallzahlplanung
Planung mit Software nQuery Advisor
138II.4 Fallzahlplanung
139Powerkurven
II.4 Fallzahlplanung
140II.4 Fallzahlplanung
Zusammenfassung Fallzahlplanung
- Vorgehen bei Signifikanztests
- genaues Festlegen des primären Endpunkts
- Vorgabe des klinisch relevanten
Unterschieds (und der Streuung bei stetigem
Endpunkt) - Vorgabe von maximaler Wahrscheinlichkeit für a-,
ß-Fehler (Signifikanzniveau, Power) - Fallzahlvariation entlang Eingabewerten
- Fallzahlempfehlung plus erwartete drop outs
- Determinanten Fallzahl hoch bei
- kleinem klinisch relevantem Unterschied
- kleinen a- und ß-Fehlern bzw. Intervallbreiten
141II.5 Bivariate Analyse
(Zusammenhang zweier Variablen)
Zusammenhang zweier stetiger Merkmale
Bsp.
Wie lässt sich solch ein Zusammenhang
quantifizieren?
Grafiken von A.Wakolbinger
142II.5 Bivariate Analyse
- Pearson-Korrelationskoeffizient rxy
- Aussagekräftig, wenn beide Merkmale gaußverteilt
sind. - Misst den Grad des linearen Zusammenhangs
- Eigenschaften
- -1 rxy 1
- rxy 1 perfekter linearer/ monotoner
Zusammenhang - Das Vorzeichen gibt die Richtung des
Zusammenhangs an
Grafiken von A.Wakolbinger
143II.5 Bivariate Analyse
Pearson-Korrelationskoeffizient rxy
- Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
Grafiken von A.Wakolbinger
144II.5 Bivariate Analyse
Pearson-Korrelationskoeffizient rxy
- Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
Grafiken von A.Wakolbinger
145II.5 Bivariate Analyse
Pearson-Korrelationskoeffizient rxy
- Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
Grafiken von A.Wakolbinger
146II.5 Bivariate Analyse
Pearson-Korrelationskoeffizient rxy
- Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
Grafiken von A.Wakolbinger
147II.5 Bivariate Analyse
Pearson-Korrelationskoeffizient rxy
- Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
Grafiken von A.Wakolbinger
148II.5 Bivariate Analyse
Pearson-Korrelationskoeffizient rxy
- Je näher rxy bei 0 liegt, desto schwächer ist der
lineare Zusammenhang
Grafiken von A.Wakolbinger
149II.5 Bivariate Analyse
Pearson-Korrelationskoeffizient
Beispiel Zusammenhang Körpergröße Gewicht /
Armlänge
rxy 0,38
rxy 0,84
Je enger die Daten um die Regressionsgerade
(s.später) streuen, desto größer wird rxy
betragsmäßig.
Grafiken von A.Wakolbinger
150II.5 Bivariate Analyse
Pearson-Korrelationskoeffizient
Wie groß ist r hier?
rxy 0
rxy 0
rxy 0
Der Pearson-Korrelationskoeffizient kann
nichtlineare Zusammenhänge nicht gut messen.
151II.5 Bivariate Analyse
Spearman-Korrelationskoeffizient sxy
Idee Berechne den (Pearson-)Korrelationskoeffizie
nten der rangtransformierten Daten
sxy 0,95
rxy 0,88
Rang(Y)
Y
Rang(X)
X
Der Spearman-Korrelationskoeffizient misst die
Monotonie eines Zusammenhangs.
152II.5 Bivariate Analyse
Pearson vs. Spearman-Korrelationskoeffizient
Originaldaten
153Pearson-Korrelation
II.5 Bivariate Analyse
Pearson vs. Spearman-Korrelationskoeffizient
NM_001767 NM_000734 NM_001049 NM_006205
NM_001767 1.00000000 0.94918522 -0.04559766 0.04341766
NM_000734 0.94918522 1.00000000 -0.02659545 0.01229839
NM_001049 -0.04559766 -0.02659545 1.00000000 -0.85043885
NM_006205 0.04341766 0.01229839 -0.85043885 1.00000000
154II.5 Bivariate Analyse
Pearson vs. Spearman-Korrelationskoeffizient
Rangtransformierte Daten
155II.5 Bivariate Analyse
Pearson vs. Spearman-Korrelationskoeffizient
Spearman-Korrelation
NM_001767 NM_000734 NM_001049 NM_006205
NM_001767 1.00000000 0.9529094 -0.10869080 -0.17821449
NM_000734 0.9529094 1.00000000 -0.11247013 -0.20515650
NM_001049 -0.10869080 -0.11247013 1.00000000 0.03386758
NM_006205 -0.17821449 -0.20515650 0.03386758 1.00000000
156II.5 Bivariate Analyse
Pearson vs. Spearman-Korrelationskoeffizient
Fazit Der Spearman-Korrelationskoeffizient ist
robuster gegen Ausreißer. Er ist jedoch im Falle
eines linearen Zusammenhangs nicht so sensitiv
wie der Pearson-Korrelationskoeffizient.
157II.6 Regression
Pearson vs. Spearman-Korrelationskoeffizient
- Fazit
- Der Pearson-Korrelationskoeffizient r ist ein Maß
des linearen Zusammenhangs - Der Spearman-Korrelationskoeffizient s ist ein
Maß des monotonen Zusammenhangs - Korrelationskoeffizienten sagen nichts darüber
aus, ob ein funktionaler Zusammenhang zwischen Y
und X besteht. - Korrelationskoeffizienten sagen nichts darüber
aus, ob X der ursächlich für Y ist oder umgekehrt
(im Gegenteil, r bzw. s sind symmetrisch
bezüglich X und Y) - Korrelationskoeffizienten sagen (fast) nichts
über die Gestalt des Scatterplots
158II.5 Bivariate Analyse
Scheinkorrelationen, Confounder
Bsp. Auf großem Fuß leben
r0.6
Einkommen
Schuhgröße
Korr.
Schuhgröße Einkommen
Confounder Eine Variable, die die Abhängigkeit
zweier anderer erklärt.
159II.5 Bivariate Analyse
Scheinkorrelationen, Confounder
Partielle Korrelation verbleibende
Korrelation(hier Geschlechtsbereinigte
Korrelation)
rXY / Geschl. partielle Korrelation
Schreibweise rXY / Z für Confounder Z
bereinigte Korrelation zwischen X und Y
r0.03
Einkommen
Schuhgröße
160II.5 Bivariate Analyse
Scheinkorrelationen, Confounder
Partielle Korrelation verbleibende
Korrelation(hier Geschlechtsbereinigte
Korrelation)
rXY / Geschl. partielle Korrelation
Schreibweise rXY / Z für Confounder Z
bereinigte Korrelation zwischen X und Y
Confounder können auch stetig sein !
Hautfaltendicke (HFD)
Knochendichte (KD)
Alter
Korrelationskoeffizient zwischen HFD und
KD direkt 0.38 , altersbereinigt 0.17
161II.6 Regression
(Erklärung einer Variablen durch eine Funktion
anderer Variablen)
Grundgesamtheit
Unbekannter Zusammenhang
?
?
?
?
?
162II.6 Regression
Regression Methode
- Spezifiziere die Familie von Funktionen (die Art
des Zusammenhangs), die die Daten am besten
beschreibt.Z.B. linearer Zusammenhang, f(x)
axb quadratischer Zusammenhang, f(x) ax2bxc
163II.6 Regression
II.6 Regression
Regression Methode
- Spezifiziere die Lossfunktion das Gütemaß der
Anpassung. Z.B. bei stetigen Variablen
üblicherweise Quadratischer Fehler (RSS,
Residual Sum of Squares)
Y f(X)
164II.6 Regression
Regression Methode
- Finde die bezüglich des Gütemaßes bestpassend