Zusammenh - PowerPoint PPT Presentation

About This Presentation
Title:

Zusammenh

Description:

Title: PowerPoint-Pr sentation Author: akimmel Last modified by: igrau Created Date: 9/21/2004 12:12:37 PM Document presentation format: Bildschirmpr sentation – PowerPoint PPT presentation

Number of Views:40
Avg rating:3.0/5.0
Slides: 46
Provided by: aki82
Category:
Tags: aria | zusammenh

less

Transcript and Presenter's Notes

Title: Zusammenh


1
Zusammenhänge von Variablen ab Nominalskalenniveau
  • Benninghaus S. 168-204
  • Zusammenhänge, Kontingenzen, Assoziationen,
    Korrelationen
  • Es wird überprüft, ob Variablen gemeinsam
    auftreten bzw. gemeinsam variieren
  • Zusammenhangsmaße haben einen Grad (Höhe) und
    eine Richtung (positiv, negativ), reichen meist
    von -1 bis 1, wobei das Vorzeichen nur ab
    Ordinalskalenniveau interpretierbar ist

2
  • Ziel Man will die Varianz einer abhängigen
    Variablen durch die unabhängige vorhersagen bzw.
    erklären (bei asymmetrischen Hypothesen) oder das
    gemeinsame Auftreten zweier Variablen prüfen (bei
    symmetrischen)
  • Statistischer Zusammenhang bedeutet nicht
    kausaler Einfluss!
  • Vorher werden eine Null-Hypothese und eine
    Alternativhypothese aufgestellt, z.B. Frauen und
    Männer unterscheiden sich nicht in der
    Sprachkompetenz Frauen sind besser in der
    Sprachkompetenz als Männer (keine
    deterministischen, sondern probabilistischen
    Hyp.)

3
3 prinzipielle Verfahrensweisen
  • 1. Eine statistische Assoziation besteht, wenn
    die bedingten Verteilungen verschieden sind
    (Vergleich der Spaltenprozente
    Prozentrangdifferenz, Odds Ratio)
  • 2. Man schaut sich an, wie die Tabelle bei
    Unabhängigkeit der Variablen aussehen müsste,
    vergleicht dies mit den echten Daten (Chi-Quadrat
    und darauf aufbauende Maße Phi-Koeffizient,
    Cramers V, Kontingenzkoeffizient C)
  • 3. PRE-Maße (proportional reduction of error)
    Man schaut sich an, wie viele Fehler man bei der
    Vorhersage der AV ohne / mit Kenntnis der UV
    macht und vergleicht das Verhältnis beider
    Fehler Lambda (nominal), Gamma (ordinal), r²,
    Eta² (Intervall)

4
Praktisches Vorgehen Erstellung einer bivariaten
Tabelle
  • bivariate Tabelle, Kontingenztabelle,
    Kreuztabelle
  • Xj Werte der UV
  • Yi Werte der AV
  • fij Zellenhäufigkeiten
  • nij Randhäufigkeiten
  • immer die UV in die Spalten setzen!!!!

X1 X2
Y1 f11 f12 n1.
Y2 f21 f22 n2.
n.1 n.2 n..
5
Praktisches Vorgehen Vergleich der
Spaltenprozente
  • Man setzt f11 und f21 mit n.1 in Beziehung
    (Spaltenprozente) sowie f12 und f22 mit n.2.
  • Dann werden zeilenweise die relativen
    Häufigkeiten verglichen.
  • Dies ist noch keine statistische Maßzahl, nur ein
    Überblick

X1 X2
Y1 f11 f12 n1.
Y2 f21 f22 n2.
n.1 n.2 n..
6
(No Transcript)
7
Bivariate Häufigkeitsverteilung (1)
Berufliche Stellung des Vaters und höchster
allgemeinbildender Schulabschluß des Befragten
(Rohdaten bzw. Urliste) Als Beispiel dienen die
Angaben über die berufliche Stellung des Vaters
und den höchsten allgemeinbildenden Schulabschluß
des Befragten in der Befragung von Benninghaus
(1987) . Da es sich um viele Fälle (n60), aber
nur zwei Variablen handelt, werden die Rohdaten
der Einfachheit halber nicht in Form einer
Matrix, sondern in Form einer Liste der einzelnen
Variablenausprägungen angegeben. V172
Berufliche Stellung des Vaters 2, 1, 2, 1, 4, 1,
1, 3, 1, 5, 4, 2, 5, 1, 2, 1, 3, 1, 3, 1, 3, 5,
4, 5, 4, 2, 1, 2, 3, 1, 1, 2, 2, 2, 2, 1, 3, 4,
2, 1, 2, 2, 1, 1, 1, 3, 1, 3, 3, 2, 1, 1, 1, 2,
1, 2, 3, 3, 3, 3. V169 Höchster
allgemeinbildender Schulabschluß 1, 1, 1, 3, 4,
2, 1, 3, 1, 1, 1, 2, 2, 3, 3, 1, 2, 1, 4, 1, 4,
3, 1, 2, 4, 1, 3, 4, 2, 4, 4, 1, 1, 3, 1, 1, 2,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 4, 2, 2, 1, 1, 2,
1, 1, 2, 1, 1, 1, 2.
8
Bivariate Häufigkeitsverteilung (2)
Ergebnisse der SPSS-Auswertung der Datei
MABT60 Die Kreuztabelle sollte so aufgebaut
werden, dass die unabhängige Variable die Spalten
und die abhängige Variable die Zeilen der Tabelle
definiert. Durch zeilenweises Lesen der Tabelle
kann man dann erkennen, wie sich die Anteile
einzelner Ausprägungen der abhängigen Variablen
für die verschiedene Werte der unabhängigen
Variablen unterscheiden.
9
Bivariate Häufigkeitsverteilung (3)
10
Bivariate Häufigkeitsverteilung (4)
Statistische Graphik gestapeltes
Säulendiagramm Die einzelnen (durch einen
Zwischenraum getrennten) Säulen repräsentieren
die (diskreten) Ausprägungen der unabhängigen
Variablen. Die einzelnen Segmente jeder Säule
zeigen den prozentualen Anteil der jeweiligen
Ausprägung der abhängigen Variablen (bezogen auf
die Zahl der Befragten mit der jeweiligen
Ausprägung der unabhängigen Variablen).
11
Gestapeltes Säulendiagramm
12
(No Transcript)
13
(No Transcript)
14
(No Transcript)
15
Unterschiedlich starke Zusammenhänge
16
Organisatorisches
  • Weihnachtspause 24. 12. 4. 1.
  • Literatur Benninghaus S. 204-232
  • Restprogramm der Zusammenhangsmaße
  • Chi², Phi, Cramers V, Pearsons C, Lambda,
    Korrelation und Regression, Varianzanalyse

17
Zusammenhangsmaße 3 prinzipielle
Verfahrensweisen
  • 1. Eine statistische Assoziation besteht, wenn
    die bedingten Verteilungen verschieden sind
    (Vergleich der Spaltenprozente
    Prozentrangdifferenz, Odds Ratio)
  • 2. Man schaut sich an, wie die Tabelle bei
    Unabhängigkeit der Variablen aussehen müsste,
    vergleicht dies mit den echten Daten (Chi-Quadrat
    und darauf aufbauende Maße Phi-Koeffizient,
    Cramers V, Kontingenzkoeffizient C)
  • 3. PRE-Maße (proportional reduction of error)
    Man schaut sich an, wie viele Fehler man bei der
    Vorhersage der AV ohne / mit Kenntnis der UV
    macht und vergleicht das Verhältnis beider
    Fehler Lambda (nominal), Gamma (ordinal), r²,
    Eta² (Intervall)

18
Prozentrangdifferenz
  • gibt an, um wie viel Prozentpunkte eine bestimmte
    Ausprägung von y bei x1 höher ist als bei x2
  • z.B. um wie viele Prozentpunkte der Anteil der
    Personen, die keiner Religionsgemeinschaft
    angehören, bei Männern größer ist als bei Frauen.

19
Prozentsatzdifferenz
  • a b
  • d 100 ( ---- - ---- )
  • ac bd
  • Wertebereich -100 bis 100

a b
c d
20
(No Transcript)
21
Vorgesetztenfunktionen (dichotom) nach
Berufserfahrung (dichotomisiert)
Interpretation Prozentsatzdifferenz 30 aller
Beschäftigten mit eher kurzer Berufstätigkeit
(bis 25 Jahre) haben Vorgesetztenfunktionen.
50 aller Beschäftigten mit eher längerer
Berufstätigkeit (über 25 Jahre) haben
Vorgesetztenfunktionen. Die Prozentsatzdifferenz
beträgt 100(15/30 - 9/30) 20. Sie gibt an, um
wieviel Prozentpunkte der Anteil der Vorgesetzten
bei den länger Berufstätigen höher ist als der
entsprechende Anteil der kürzer Berufstätigen.
Man muss sich die Prozentsatzdifferenz selber
ausrechnen, sie wird im Computerausdruck nicht
ausgegeben. Interpretation Der Anteil der
Personen mit Vorgesetztenfunktionen ist bei den
Beschäftigten mit eher längerer Berufstätigkeit
um 20 Prozentpunkte höher als der entsprechende
Anteil bei den Beschäftigten mit eher kurzer
Berufstätigkeit.
22
  • Hat die UV 3 Stufen, gibt es schon 3
    Prozentrangdifferenzen (2 voneinander
    unabhängige), auch bei mehreren Ausprägungen der
    AV wird die Lage unübersichtlich. Man kann zwar
    mehrstufige Variablen durch Zusammenfassen in
    22-Tabellen umformen, sollte dies aber nicht
    willkürlich tun, da die Ergebnisse vom
    Schnittpunkt abhängen. Für größere Tabellen gibt
    es andere Maßzahlen, s.u.

23
Odds
  • Odds sind Größenverhältnisse zweier Ausprägungen
    einer Variablen. Die Ausprägung wird hier nicht
    zu den Randhäufigkeiten in Beziehung gesetzt,
    sondern zu einer anderen Ausprägung.
  • Beispiel Sind in einer Stichprobe 120 Frauen und
    80 Männer, ist das Verhältnis zwischen Frauen und
    Männern 120 / 80 1.5. In der Stichprobe sind
    1.5 mal so viele Frauen wie Männer.

24
Odds Ratio Kreuzproduktverhältnis
  • a
  • --
  • c
  • ------
  • b
  • --
  • d

Der Wertebereich ist 0 bis unendlich, bei
Unabhängigkeit beider Variablen ist der Wert 1.
25
Vorgesetztenfunktionen (dichotom) nach
Berufserfahrung (dichotomisiert)
Interpretation Odds, Kreuzproduktverhältnis Die
Odds (Chancen), eher Vorgesetzter als kein
Vorgesetzter zu sein, betragen für die
Beschäftigten mit eher kurzer Berufstätigkeit
(bis 25 Jahre) 9 zu 21 (oder 3 zu 7 oder 1 zu
2,333). In Zahlen Odds 9/21 3/7 1/2,3333
0,4286. Die Odds (Chancen), eher Vorgesetzter
als kein Vorgesetzter zu sein, betragen für die
Beschäftigten mit eher längerer Berufstätigkeit
(über 25 Jahre) 15 zu 15 (oder 1 zu 1). In
Zahlen Odds 15/15 1. Das
Kreuzproduktverhältnis beträgt (15/15) / (9/21)
1 / 0,4286 2,3333. Es gibt also an, um welchen
Faktor die Odds der länger Berufstätigen größer
sind als die Odds der kürzer Berufstätigen. Es
wird im SPSS-Ausdruck in der Zeile "case control"
unter der Überschrift "Relative Risk Estimate"
ausgedruckt. Interpretation Die Odds
(Chancen), eher Vorgesetzter als kein
Vorgesetzter zu sein, sind für die Beschäftigten
mit eher längerer Berufstätigkeit 2,3 mal größer
als die entsprechenden Odds für die Beschäftigten
mit eher kurzer Berufstätigkeit.
26
Problem bei Prozentrangdifferenz und Odds Ratio
  • werden unübersichtlich bei größeren Tabellen, da
    dann mehrere d und OR berechnet werden müssen,
    daher andere Verfahren

27
Chi-Quadrat
  • Prinzip Man vergleicht die Kreuztabelle mit
    einer fiktiven Tabelle, die bei Unabhängigkeit
    beider Variablen aus den Randverteilungen
    resultieren würde. Weichen beide Tabellen stark
    voneinander ab, gibt es einen Zusammenhang.

28
Chi-Quadrat
fb Zellenhäufigkeiten in der tatsächlichen
Tabelle fe bei Unabhängigkeit erwartete
Häufigkeiten, die berechnet man wie folgt
29
erwartete Häufigkeit in jeder Zelle
30
Beispiel beobachtete und erwartete Häufigkeiten
Schulbildung
niedrig
hoch

26 nein

Berufs-

34 wechsel ja

33 27
60

9 14.3 17 11.7
24 18.7 10 15.3
Zelle oben links erwartete Häufigkeit26 33 /
6014.3
31
Arbeitstabelle
i j fb fe fb-fe (fb-fe)² (fb-fe)² / fe
1 1 9 14.3 -5.3 28.09 1.96
1 2 17 11.7 5.3 2.40
2 1 24 18.7 -5.3 1.50
2 2 10 15.3 5.3 1.84
Summe 7.70
32
einfachere Formel für Chi² nur für 22-Tabellen
33
Problem des Chi²-Koeffizienten
  • Chi² ist von seiner Größe her nicht zu
    interpretieren, da er nicht von 0 bis 1 reicht,
    sondern von 0 bis N. Er variiert mit der Anzahl
    der Untersuchungseinheiten (bei mehr Personen
    wird der Wert größer). Daher verschiedene
    Versuche, den Wert an der Anzahl der
    Untersuchungseinheiten zu standardisieren

34
Phi-Koeffizient
(im Beispiel Phi .36) Interpretation ein
Zusammenhang von über .30 ist schon durchaus
deutlich, ein Zusammenhang von über .50 ist hoch
und einer über .80 erstaunlich, unter .10 spricht
man gar nicht von einem Zusammenhang hier gibt
es aber keine festen Grenzwerte.
35
einfachere Berechnung Phi für 22-Tabellen
im Beispiel Phi -36 nach dieser Formel hat Phi
also ein Vorzeichen und reicht von -1 bis 1
36
Problem bei Phi
  • Der Wert reicht zwar von 0 bis 1 bzw. nach der
    zweiten Formel von -1 bis 1, jedoch nur bei
    22-Tabellen, sonst kann Phi größer als 1 werden,
    daher besser

37
Cramers V
V2
min (r-1, c-1) Anzahl der Zeilen oder Spalten,
je nachdem, was weniger sind, minus 1 bei
22-Tabellen ist V mit Phi identisch
38
Pearsons Kontingenzkoeffizient C
Der obere Grenzwert ist kleiner als 1. Daher
berechnet man den maximal möglichen Wert (k min
r,c) und teilt C durch diesen. Damit erhält man
C korrigiert. Wertebereich 0 bis 1
39
Fazit
  • Gebräuchlich sind alle Koeffizienten, also sollte
    man sie kennen. Besonders empfehlenswert ist
    Cramers V, weil er immer von 0 bis 1 reicht. V
    ist ein vorzeichenloses Zusammenhangsmaß für
    Variablen mit beliebigem Skalenniveau (ab
    nominal).

40
Drittes Prinzip für Zusammenhangsmaße
  • PRE-Maße (proportional reduction of error) Man
    schaut sich an, wie viele Fehler man bei der
    Vorhersage der AV ohne Kenntnis der UV macht und
    wie viele Fehler mit Kenntnis der UV. Dazu
    braucht man eine Fehlerdefinition (Anzahl falsche
    Zuordnungen in der Häufigkeitstabelle). Man
    vergleicht das Verhältnis beider Fehler. Pre-Maße
    gibt es für alle Skalenniveaus, wir behandeln das
    Maß für Nominalskalenniveau Lambda. Dieses gibt
    es für symmetrische und asymmetrische Hypothesen.
    Wir beginnen mit dem asymmetrischen Maß und einem
    Beispiel

41
Hypothese Nach langer Lernzeit im Beruf steigt
das Einkommen
Lernzeit kurz mittel lang Summe
Einkommen niedrig 8 9 1 18
mittel 6 9 4 19
hoch 2 8 11 21
Summe 16 26 16 58
42
Vorgehen
  • Wie viele Fehler machen wir bei der Vorhersage
    der AV nur anhand der Randverteilung? Wir sagen
    für jede Person sinnvollerweise den häufigsten
    Wert vorher (Modalwert), das ist hohes
    Einkommen, kommt 21 mal vor also machen wir
    58-21 37 Fehler.
  • Wie viele Fehler bei Kenntnis der UV? Wir sagen
    für jede Person den Modalwert in ihrer Spalte (in
    Abhängigkeit von der UV) vorher, für Spalten 1
    und 2 niedrig und für die dritte hoch. Damit
    machen wir 891128 Vorhersagen richtig und
    58-28 30 falsch.
  • Die proportionale Fehlerreduktion beträgt
  • (E1-E2) / E1 (37-30) / 37 .19
  • Interpretation Durch Kenntnis der Lernzeit
    reduzieren wir die Anzahl der Fehler bei der
    Vorhersage des Einkommens um 19 Prozent.

43
Formel für Lambda, wenn in der Zeile die AV steht
(row, üblicher Fall)
((8 9 11) 21) / 58 21 .19
Wertebereich 0 bis 1
44
Formel für Lambda, wenn in der Spalte die AV
steht (column)
((9 9 11) 26) / 58 26 .09
45
Kombination beider symmetrisches Lambda
((8 9 11) (9 9 11) 21 26 ) / 2
58 21 26 .14 nicht identisch mit dem
Mittelwert beider asymmetrischer Maße
Write a Comment
User Comments (0)
About PowerShow.com