Title: Thema: R
1ThemaRäumliche Autokorrelation und deskriptive
Methoden
- Vortrag zum Hauptseminar
- Analyse und Modellierung räumlicher Daten
2Inhalt
- 1 Einleitung
- 2 Allgemeine deskriptive Methoden
- 2.1 Mittelwerte
- 2.2 Streuungsmaße
- 2.3 Nearest Neighbor-Analyse
- 2.4 Histogramm
- 2.5 Objektarten
- 2.6 Spatial Sampling
- 3 Räumliche Autokorrelation
- 3.1 Hinführung
- 3.2 Das erste Gesetz der Geographie
- 3.3 Berechnung der räumliche Autokorrelation
- 3.4 Probleme
- 4 Schlussbemerkung
31 Einleitung
- Wie sind bestimmte Eigenschaften im Raum
verteilt? - Gibt es eine räumliche Beziehung der
Attributdaten? - um diese sichtbar zu machen braucht es
deskriptive Methoden - Ein Bereich der deskriptive Methoden ist Analyse
der räumliche Autokorrelation - Moran schrieb 1948 The presence, absence, or
characteristics of some spatial objects may
sometimes have significant impacts on the
presence, absence, or characteristics of the
neighboring objects.( Lo Yeung 2002 117) - zuvor wichtige, grundlegende Verfahren und
Sachverhalte der traditionellen deskriptiven
Statistik erläutert
42 Allgemeine deskriptive Methoden
- deskriptive Statistik beschreibende Statistik
- Aufgabe Analyse und Darstellung von räumlichen
zeitlichen Daten - Ziel Datenmengen mit wenigen Zahlen zu
charakterisieren - ? für den Betrachter besser interpretierbar
- deskriptiven Methoden
- u.a. Mittelwert und Streuung
52.1 Mittelwerte
- Mittelwerte (engl. central tendency)
- beschreiben Zentrum der Verteilung
- Angabe durch
- arithmetische Mittel
- Median
- Modus
62.1.1 Arithmetische Mittel
- Berechnung
- aus der Summe aller Einzelwerte, dividiert durch
die Gesamtzahl aller Stichprobenfälle - Beispiel
- Geg. 1, 3, 5, 7, 64
- Xm 16
- Anwendung
- wenn Werte hauptsächlich um arithmetische Mittel
verteilt - Nachteil
- wenn Stichprobe zu heterogen
Formel 1 Mittelwert xm (Helmschrot Fink
2001)
72.1.2 Median
- Def. teilt eine der Größe nach geordnete
Verteilung in 2 gleichgroße Bereiche - Beispiel Gegeben ist ein beliebige Zahlenreihe
mit den Werten 1, 3, 5, 7, 64 - Median 5
- bei ungeraden Anzahl der Stichproben
- Median besteht aus den 2 in der Mitte stehenden
Zahlen - Vorteil
- keine große Beeinflussung durch einzelne hohe
Werte
82.1.2 Modus
- Def zeigt den am häufigsten vorkommenden
Merkmalswert einer Datenreihe oder einer Klasse - Beispiel
- Geg. 1, 7, 2, 5, 64, 7, 5, 7, 2
- Modus 7
92.2 Streuungsmaße
- Def. geben die Verteilung der Merkmalswerte um
das Zentrum an - Streuungsmaße sind
- Standartabweichung und Varianz
- Schiefe
- Exzess
-
102.2.1 Standartabweichung und Varianz
- wichtigste Maßeinheit um die Streuung zu
charakterisieren - Def. Verhalten der Streuung einer Verteilung um
den Mittelwert - Berechnung
- Standartabweichung ergibt sich,
- aus der Wurzel der Varianz
- Varianz berechnet sich aus der Summe der
quadrierten Abweichungen vom Mittelwert xm,
geteilt durch die Gesamtzahl der Elemente n - Nachteil die Standartabweichungen
- zweier verschiedener Stichproben
- sind nur vergleichbar, wenn deren
- arithmetische Mittel etwa gleichgroß
Formel 2,3 Varianz Standartabweichung
(Helmschrot Fink 2001)
112.2.2 Schiefe
- Schiefe (engl. skewness) und Exzess (engl.
kurtosis) sind Formenparameter, d.h. sie geben
Auskunft über die Form der Verteilung - Def. Maß für die Symmetrie der Verteilung um das
arithmetische Mittel - Berechnung aus der Differenz des Mittelwert xm
vom Median, welche durch die Standartabweichung s
dividiert wird - Eigenschaften
- Schiefe g 0, Normalverteilung
- Schiefe g gt 0, positive Schiefe
- ? der Median ist links vom Mittel
- Schiefe g lt 0, negativen Schiefe
- ? der Median rechts vom Mittel
Formel 4 Schiefe g (Helmschrot Fink 2001)
122.2.2 Schiefe
Eigene Darstellung Schiefe
132.2.3 Exzess
- Def.
- ein Maß für die Steilheit der Verteilung
- beschreibt ob die Merkmalsverteilung spitz oder
flach um das Zentrum verteilt ist - Eigenschaften
- Exzess Ez gt 1, positiver Exzess ? Verteilung
steile als Normalverteilung - Exzess Ez lt 1, negativer Exzess ?Verteilung
flacher als Normalverteilung - Exzess Ez 1, keinen Exzess ? einer
Normalverteilung
Formel 5 Exzess Ez (Helmschrot Fink 2001)
142.2.3 Exzess
Eigene Darstellung Exzess
152.3 Nearest Neighbor-Analyse
- Def. Untersuchung der Verteilungsmuster von
Punkten auf einer Fläche aber nicht im
Zusammenhang mit den Attributdaten - Mögliche Verteilungsmuster regelmäßig,
unregelmäßig oder in Clustern (Gruppen) - Einordnung erfolgt über Messung der Distanzen
zwischen gepaarten Datenpunkten - Gepaart werden Punkte mit der geringsten
räumlichen Distanz zueinander Nearest Neighbor
- Abbildung 1
- Mögliche Muster
- regelmäßig,
- unregelmäßig
- gruppiert
- (Dumfarth lorup 2000)
162.3 Nearest Neighbor-Analyse
- Probleme der Größe der Analysefläche
- es ist notwendig, die Punktdichte in dem Gebiet
zu kennen, - es muss die Größe der Analysefläche genau
festgelegt werden - bei zu großer Fläche zu geringer Punktdichte
- als wenn für die gleiche Anzahl von Punkten eine
kleinere Fläche verwendet wird - Problem des Kanteneffektes (engl. edge effect)
- von Punkten am Rande der Untersuchungsmatrix
wird keine Distanz zu Punkten außerhalb gemessen,
obwohl diese am nächsten liegen
172.4 Histogramm
- eine der verbreitesten Möglichkeiten Daten
visuell darzustellen - Def.
- zeigt an, wie viele Merkmalsausprägungen in einer
bestimmten vorher festgelegten Klasse sind - Klassenhäufigkeitsverteilung, durch die erkennbar
ist, wie sich die Werte über das gestammte
Wertespektrum verteilen - Eigenschaften
- y-Achse Häufigkeit der Variable
- (z.B. Anzahl von Temperaturwerten)
- x-Achse die Klassen, in denen die Werte
eingeordnet werden (z.B. in der Klasse 0-5C
liegen 3 Werte) - wichtigste Form einer Häufigkeitsverteilung ist
die glockenförmige Normalverteilung - bei Normalverteilungen liegt das arithmetisches
Mittel und Median aufeinander bzw. repräsentieren
die Mitte der Datenmenge
182.4 Histogramm
Diagramm 1 Histogramm rot Normalverteilung
schwarz (Dumfarth lorup 2000)
192.5 Objektarten
- wie bei Skalenarten ist Anwendung von
statistischen Methoden an bestimmte Objektarten
gekoppelt - geographische Objekte werden nach ihrer
Topologieausdehnung bestimmt - Punkte keine dimensionale Ausbreitung
- Verwendung um räumliche Verteilung von
Ereignissen und deren Muster wiederzugeben - Linien eindimensionale Ausbreitung, die Länge
- Verwendung um Distanzen zu messen oder lineare
Objekte darzustellen (z.B. Strassen) - Flächenobjekte zweidimensionale Ausdehnung, die
Länge und Breite - Verwendung bei natürliche Objekte wie Felder oder
künstliche Objekte wie Bevölkerungsverteilungen - Oberflächen und Volumen dreidimensional
- Verwendung bei Darstellung von natürlichen
Objekten wie digitalen Geländemodellen - Problem des Maßstab am Beispiel der Darstellung
von New York auf verschieden Karten
202.6 Spatial Sampling
- Def. Ziehen von Stichproben im Raum
-
- nötig, da die reale Welt unendlich komplex ist,
ein GIS aber nicht unendlich viele Daten
verarbeiten kann - sampling Modelle (engl. sampling scheme)
- bestimmen die räumliche Verteilung der einzelnen
Stichprobenpunkte im Untersuchungsgebiet - Stichprobenanzahl
- je heterogener räumliche Phänomene verteilt desto
mehr Stichproben nötig - je homogener die Verteilung desto weniger
Stichproben nötig - es gibt aber Mindestriechprobenzahl
212.6 Spatial Sampling
- einfache zufällige Stichprobe (Feld A) jeder
Punkt hat die gleiche Wahrscheinlichkeit gezogen
zu werden - statistisch völlig korrekt aber Probleme in der
Praxis - kleine, aber wichtige Bereiche werden
unterpräsentiert, außer bei große Anzahl von
Stichproben - systematischen Stichprobe (Feld B) der erste
Punkt wird zufällig ermittelt und an diesem die
restlichen entlang eines festen Schemas
ausgerichtet - einfach durchzuführen aber Fehler bei Daten die
periodischen Änderungen unterliegen - strategische Zufallstichprobe (Feld C)
Untersuchungsgebiet wird in Teilgebiete gliedert
und in jedem Teilgebiet eine zufällige Stichrobe
genommen - geeignet, weil nur geringe Anzahl von Stichproben
nötig aber selben Problemen wie bei
Zufallsstichprobe - strategisches, systematisches und unangepasstes
Modell (Feld D) - vereinigt es die Vorgehensweise und auch Vorteile
der drei vorher genannten Modelle
222.6 Spatial Sampling
233 Räumliche Autokorrelation3.1 Hinführung
- Problem der traditionellen statistischen
Analysen - bei Untersuchung von Zusammenhängen, die
stochastische Abhängigkeit aufweisen kommt es zu
fehlerhaften Resultaten - aber stochastische abhängige Variablen häufig in
Statistik - Stochastische Abhängigkeit ? statistische
Ereignisse treten nicht unabhängig voneinander
auf - Ursachetrad. Statistik basiert auf
Zufallsvariablen - d.h. Datenwerte der Variable kommen rein zufällig
zustande ? sie sind unabhängig voneinander - Beispiel am Würfelexperiment
243.1 Hinführung
- In Hinblick auf die räumliche Verteilung von
Datenpunkten bedeutet dies, daß die verschiedenen
Werte einer Variablen unabhängig von ihrer
räumlichen Position zustande kommen.
Erscheinungen wie Distanz der Werte zueinander,
Nachbarschaft, Nähe, Richtung und dergleichen
haben also keinen Einfluß auf den Wert eines bzw.
aller Datenwerte. (Dumfarth lorup 2000) - Entspricht nicht der Realität ? Beispiel des
Bodenmarktes - ? Ansatz der Geostatistik die Werte einer
Variable durch eine Funktion gesteuert - regionalisierten Variablen Werte einer Region
sind ähnlich, weil untereinander beeinflussbar
und mit zunehmender Entfernung die Ähnlichkeit
abnimmt - beschrieb W. Tobler mit dem ersten Gesetz der
Geographie - wichtig bei Verbreitung eines Phänomens ist
Distanz bzw. Nachbarschaft
253.2 Das erste Gesetz der Geographie
- Das erste gesetzt der Geographie von W. Tobler
beschrieb das bekannte Phänomen, das benachbarte
Objekte oft ähnlicher waren als weit entfernte. - The first law of geography is that everything is
related to everything else, but near things are
more related than distant things.(Tobler 1970 in
Abler 1992 155) - beschreibt die räumliche Autokorrelation d.h. den
Grad, mit dem nahe und entfernte Dinge
miteinander verbunden sind -
- In practice, the existence of spatial
autocorrelation means that if A and B are close
together, what happens at A is related to what
happens at B, and vice-versa.(Abler et al 1992
287) - auf die Zeit bezogen zeitliche Autokorrelation
- wichtigsten Faktoren
- Lage der Objekte zueinander
- Merkmalsausprägung
263.2 Das erste Gesetz der Geographie
- 3 wichtigsten Typen räumliche Autokorrelationen
- Klassifizierung nach der relativen Verteilung
räumlicher Objekte und ihrer Nachbarn - Feld A extreme positive räumliche
Autokorrelation - Feld C extreme negative räumliche
Autokorrelation - Feld B keine räumliche Autokorrelation
Abbildung 2 Typen der räumlichen Autokorrelation
(Lo Yeung 2002 117)
273.2 Das erste Gesetz der Geographie
- praktisches Beispiel der unterschiedliche Typen
räumliche Autokorrelation - in San Bernardino starke räumliche
Autokorrelation der Bevölkerung - in Iowa schlechte räumliche Autokorrelation
Abbildung 3 Bevölkerungsverteilung in
Kalifornien und Iowa (Abler et al. 1992 84)
283.3 Berechnung der räumliche Autokorrelation
- Berechnung
- Vergleich zwei Werte miteinander
- 1. Gleichwertigkeit der Attribute
- 2. Ähnlichkeit des Ortes der Objekte, welche mit
den Attributen besetzt sind - 2 wichtigsten Maße zur Angabe der räumliche
Autokorrelation - Gearys (c) Index
- Morans (I) Index
293.3.1 Gearys (c) Index
- Geary Index für Objekte mit intervallskalierten
Attributdaten - bei der Analyse von Datenansammlungen z.B.
Erhebungsgebieten (engl. census tracts) - cij Unterschied der Attribute i, j
- wij Grad der Nachbarschaft von i, j
- s² Varianz
- c 1, keine räumliche Autokorrelation
- c lt 1, positive räumliche Autokorrelation
- c gt 1, negative räumliche Autokorrelation
Formel 6,7 Berechnung des Gearys (c) Index (Lo
Yeung 2002 351)
303.3.2 Morans (I) Index
- starke Ähnlichkeit mit Gearys Index
- Unterschied Ergebnisse logischer für Betrachter
- positive Ergebnisse ? positive räumliche
Autokorrelation - negative Ergebnisse ? negative räumliche
Autokorrelation - Index 0 ? unabhängige unkorrelierte Daten
- Berechnung ähnlich des Gearys (c) Index
- cij Unterschied der Attribute i, j
- wij räumliche Nähe von i, j
- Mittelwert
- s² Varianz
Formel 8 Berechnung des Morans (I) Index (Lo
Yeung 2002 352)
313.3.3 Morans und Gearies Index
- Morans Gearies Index für flächenhaften
Objekten entwickelt -
- Aber über Umwege Berechnung für Punkt, Linien
und Rasterobjekte möglich - Punktdaten ? Punkte in Flächen umwandeln
- linienförmigen Objekte ? wenn Linien
Verbindungen zwischen Punkten, die mit Merkmalen
besetzt sind - Verglich der Merkmalsähnlichkeit der Punktpaaren
mit anderen Punktpaaren - Messung der räumliche Nähe dadurch ob direkte
Verbindung zwischen den Punktpaaren - Rasterdaten ? Vergleich ob einzelne Rasterzellen
gleiche Außengrenzen
323.4 Probleme3.4.1 Datenherkunft
- allgemeines Problem
- Uncertainties in data lead to uncertainties in
the result of analysis. (Longley et al. 2001
137) - Ursache
- liegt u.a. in der Generalisierung und Bündelung
der rohen Ausgangsdaten - z.B. Krankheitsfälle pro Bezirk
- Bevölkerungszahlen für bestimmtes Gebiet
- GIS Daten unterschiedlichster Herkunft
- Maßstabe, Detailgenauigkeit, Klassifizierung
333.4.2 MAUP
- modifiable areal unit problem (MAUP)
- tritt auf bei willkürlich festgelegte Grenzen von
räumlichen Ereignissen - Beispiel
- bei Volkszählungsdaten die in bestimmten Flächen
angegeben werden - bei Angabe des Wahlergebnisses in Stadtvierteln
- Schlussfolgerung
- Vorsicht bei Vergleich zweier Karten oder
Datensätze - die denselben Ausschnitt zeigen, aber mit
unterschiedlichen Flächeneinheiten
34(No Transcript)
353.4.2 MAUP
- Untersuchung der Wohnqualität von Syracuse, New
York - Frage Welcher Maßstab ist der beste für diese
Analyse? - Antwort
- Berechnung von Morans (I) für beide Maßstäbe
d.h. Messung der räumlichen Verteilung zwischen
den Voklszählungsgebieten - Ergebnis
- I (Census tract) 0,51
- I (Census block group) 0,76
- Schlussfolgerung
- Räumliche Autokorrelation bei Census block
group höher als bei Census tract - ? Census block group für Untersuchung besser
geeignet
364 Schlussbemerkung
- Analyse räumlich korrelierter Daten ist komplexe
und aufschlussreiche Methodik mit vielfachen
Anwendungsmöglichkeiten - Analyse räumlichen korrelierter Daten nur
schlecht GIS integriert - mit Idris32 möglich
- mit Arcview nur über Umwege
37Literatur
- Abler R.F., Marcus G. M. J. M. Olsen (1992)
Geographys inner worlds, Pervasive Themes in
Contemporary American Geography. New Jersey. - Bahrenberg G., Giese E. J. Nipper (2003²)
Statistische Methoden in der Geographie, Bd. 2.
Berlin, Stuttgart. - Heywood I., Cornelius S. S. Carver (2002²) An
Introduction to Geographical Information Systems.
Essex. - Lo C. P. A. K.W. Yeung (2002) Concepts and
Techniques of Geographic Information Systems. New
Jersey. - Longley P. A., Goodchild M.F., Maguire D. J.
D.W. Rhind (2001) Geographic - Information, Systems and Science. Chichester,
New York. - Helmschrot J. M. Fink (2001) Skript zum
Proseminar Statistik, - www.geogr.uni-jena.de/c8firma/Statistik/
(letzter Aufruf 2002) - Dumfarth E. E. J. Lorup (2000) Geostatistik I
- Theorie und Praxis, - www.geo.sbg.ac.at/staff/lorup/lv/geostats2000/
(letzter Aufruf 3.11.04)