Thema: R

About This Presentation

Title:

Thema: R

Description:

Title: Thema: R umliche Autokorrelation und deskriptive Methoden Author: Patrice Lumumba Last modified by: Patrice Lumumba Created Date: 11/3/2004 3:48:32 PM – PowerPoint PPT presentation

Number of Views:78

Avg rating:3.0/5.0

Slides: 38

Provided by: Patric596

Category:

more less

Transcript and Presenter's Notes

Title: Thema: R

1
ThemaRäumliche Autokorrelation und deskriptive
Methoden

Vortrag zum Hauptseminar
Analyse und Modellierung räumlicher Daten

2
Inhalt

1 Einleitung
2 Allgemeine deskriptive Methoden
2.1 Mittelwerte
2.2 Streuungsmaße
2.3 Nearest Neighbor-Analyse
2.4 Histogramm
2.5 Objektarten
2.6 Spatial Sampling
3 Räumliche Autokorrelation
3.1 Hinführung
3.2 Das erste Gesetz der Geographie
3.3 Berechnung der räumliche Autokorrelation
3.4 Probleme
4 Schlussbemerkung

3
1 Einleitung

Wie sind bestimmte Eigenschaften im Raum
verteilt?
Gibt es eine räumliche Beziehung der
Attributdaten?
um diese sichtbar zu machen braucht es
deskriptive Methoden
Ein Bereich der deskriptive Methoden ist Analyse
der räumliche Autokorrelation
Moran schrieb 1948 The presence, absence, or
characteristics of some spatial objects may
sometimes have significant impacts on the
presence, absence, or characteristics of the
neighboring objects.( Lo Yeung 2002 117)
zuvor wichtige, grundlegende Verfahren und
Sachverhalte der traditionellen deskriptiven
Statistik erläutert

4
2 Allgemeine deskriptive Methoden

deskriptive Statistik beschreibende Statistik
Aufgabe Analyse und Darstellung von räumlichen
zeitlichen Daten
Ziel Datenmengen mit wenigen Zahlen zu
charakterisieren
? für den Betrachter besser interpretierbar
deskriptiven Methoden
u.a. Mittelwert und Streuung

5
2.1 Mittelwerte

Mittelwerte (engl. central tendency)
beschreiben Zentrum der Verteilung
Angabe durch
arithmetische Mittel
Median
Modus

6
2.1.1 Arithmetische Mittel

Berechnung
aus der Summe aller Einzelwerte, dividiert durch
die Gesamtzahl aller Stichprobenfälle
Beispiel
Geg. 1, 3, 5, 7, 64
Xm 16
Anwendung
wenn Werte hauptsächlich um arithmetische Mittel
verteilt
Nachteil
wenn Stichprobe zu heterogen

Formel 1 Mittelwert xm (Helmschrot Fink
2001)
7
2.1.2 Median

Def. teilt eine der Größe nach geordnete
Verteilung in 2 gleichgroße Bereiche
Beispiel Gegeben ist ein beliebige Zahlenreihe
mit den Werten 1, 3, 5, 7, 64
Median 5
bei ungeraden Anzahl der Stichproben
Median besteht aus den 2 in der Mitte stehenden
Zahlen
Vorteil
keine große Beeinflussung durch einzelne hohe
Werte

8
2.1.2 Modus

Def zeigt den am häufigsten vorkommenden
Merkmalswert einer Datenreihe oder einer Klasse
Beispiel
Geg. 1, 7, 2, 5, 64, 7, 5, 7, 2
Modus 7

9
2.2 Streuungsmaße

Def. geben die Verteilung der Merkmalswerte um
das Zentrum an
Streuungsmaße sind
Standartabweichung und Varianz
Schiefe
Exzess

10
2.2.1 Standartabweichung und Varianz

wichtigste Maßeinheit um die Streuung zu
charakterisieren
Def. Verhalten der Streuung einer Verteilung um
den Mittelwert
Berechnung
Standartabweichung ergibt sich,
aus der Wurzel der Varianz
Varianz berechnet sich aus der Summe der
quadrierten Abweichungen vom Mittelwert xm,
geteilt durch die Gesamtzahl der Elemente n
Nachteil die Standartabweichungen
zweier verschiedener Stichproben
sind nur vergleichbar, wenn deren
arithmetische Mittel etwa gleichgroß

Formel 2,3 Varianz Standartabweichung
(Helmschrot Fink 2001)
11
2.2.2 Schiefe

Schiefe (engl. skewness) und Exzess (engl.
kurtosis) sind Formenparameter, d.h. sie geben
Auskunft über die Form der Verteilung
Def. Maß für die Symmetrie der Verteilung um das
arithmetische Mittel
Berechnung aus der Differenz des Mittelwert xm
vom Median, welche durch die Standartabweichung s
dividiert wird
Eigenschaften
Schiefe g 0, Normalverteilung
Schiefe g gt 0, positive Schiefe
? der Median ist links vom Mittel
Schiefe g lt 0, negativen Schiefe
? der Median rechts vom Mittel

Formel 4 Schiefe g (Helmschrot Fink 2001)
12
2.2.2 Schiefe
Eigene Darstellung Schiefe
13
2.2.3 Exzess

Def.
ein Maß für die Steilheit der Verteilung
beschreibt ob die Merkmalsverteilung spitz oder
flach um das Zentrum verteilt ist
Eigenschaften
Exzess Ez gt 1, positiver Exzess ? Verteilung
steile als Normalverteilung
Exzess Ez lt 1, negativer Exzess ?Verteilung
flacher als Normalverteilung
Exzess Ez 1, keinen Exzess ? einer
Normalverteilung

Formel 5 Exzess Ez (Helmschrot Fink 2001)
14
2.2.3 Exzess
Eigene Darstellung Exzess
15
2.3 Nearest Neighbor-Analyse

Def. Untersuchung der Verteilungsmuster von
Punkten auf einer Fläche aber nicht im
Zusammenhang mit den Attributdaten
Mögliche Verteilungsmuster regelmäßig,
unregelmäßig oder in Clustern (Gruppen)
Einordnung erfolgt über Messung der Distanzen
zwischen gepaarten Datenpunkten
Gepaart werden Punkte mit der geringsten
räumlichen Distanz zueinander Nearest Neighbor

Abbildung 1
Mögliche Muster
regelmäßig,
unregelmäßig
gruppiert
(Dumfarth lorup 2000)

16
2.3 Nearest Neighbor-Analyse

Probleme der Größe der Analysefläche
es ist notwendig, die Punktdichte in dem Gebiet
zu kennen,
es muss die Größe der Analysefläche genau
festgelegt werden
bei zu großer Fläche zu geringer Punktdichte
als wenn für die gleiche Anzahl von Punkten eine
kleinere Fläche verwendet wird
Problem des Kanteneffektes (engl. edge effect)
von Punkten am Rande der Untersuchungsmatrix
wird keine Distanz zu Punkten außerhalb gemessen,
obwohl diese am nächsten liegen

17
2.4 Histogramm

eine der verbreitesten Möglichkeiten Daten
visuell darzustellen
Def.
zeigt an, wie viele Merkmalsausprägungen in einer
bestimmten vorher festgelegten Klasse sind
Klassenhäufigkeitsverteilung, durch die erkennbar
ist, wie sich die Werte über das gestammte
Wertespektrum verteilen
Eigenschaften
y-Achse Häufigkeit der Variable
(z.B. Anzahl von Temperaturwerten)
x-Achse die Klassen, in denen die Werte
eingeordnet werden (z.B. in der Klasse 0-5C
liegen 3 Werte)
wichtigste Form einer Häufigkeitsverteilung ist
die glockenförmige Normalverteilung
bei Normalverteilungen liegt das arithmetisches
Mittel und Median aufeinander bzw. repräsentieren
die Mitte der Datenmenge

18
2.4 Histogramm
Diagramm 1 Histogramm rot Normalverteilung
schwarz (Dumfarth lorup 2000)
19
2.5 Objektarten

wie bei Skalenarten ist Anwendung von
statistischen Methoden an bestimmte Objektarten
gekoppelt
geographische Objekte werden nach ihrer
Topologieausdehnung bestimmt
Punkte keine dimensionale Ausbreitung
Verwendung um räumliche Verteilung von
Ereignissen und deren Muster wiederzugeben
Linien eindimensionale Ausbreitung, die Länge
Verwendung um Distanzen zu messen oder lineare
Objekte darzustellen (z.B. Strassen)
Flächenobjekte zweidimensionale Ausdehnung, die
Länge und Breite
Verwendung bei natürliche Objekte wie Felder oder
künstliche Objekte wie Bevölkerungsverteilungen
Oberflächen und Volumen dreidimensional
Verwendung bei Darstellung von natürlichen
Objekten wie digitalen Geländemodellen
Problem des Maßstab am Beispiel der Darstellung
von New York auf verschieden Karten

20
2.6 Spatial Sampling

Def. Ziehen von Stichproben im Raum
nötig, da die reale Welt unendlich komplex ist,
ein GIS aber nicht unendlich viele Daten
verarbeiten kann
sampling Modelle (engl. sampling scheme)
bestimmen die räumliche Verteilung der einzelnen
Stichprobenpunkte im Untersuchungsgebiet
Stichprobenanzahl
je heterogener räumliche Phänomene verteilt desto
mehr Stichproben nötig
je homogener die Verteilung desto weniger
Stichproben nötig
es gibt aber Mindestriechprobenzahl

21
2.6 Spatial Sampling

einfache zufällige Stichprobe (Feld A) jeder
Punkt hat die gleiche Wahrscheinlichkeit gezogen
zu werden
statistisch völlig korrekt aber Probleme in der
Praxis
kleine, aber wichtige Bereiche werden
unterpräsentiert, außer bei große Anzahl von
Stichproben
systematischen Stichprobe (Feld B) der erste
Punkt wird zufällig ermittelt und an diesem die
restlichen entlang eines festen Schemas
ausgerichtet
einfach durchzuführen aber Fehler bei Daten die
periodischen Änderungen unterliegen
strategische Zufallstichprobe (Feld C)
Untersuchungsgebiet wird in Teilgebiete gliedert
und in jedem Teilgebiet eine zufällige Stichrobe
genommen
geeignet, weil nur geringe Anzahl von Stichproben
nötig aber selben Problemen wie bei
Zufallsstichprobe
strategisches, systematisches und unangepasstes
Modell (Feld D)
vereinigt es die Vorgehensweise und auch Vorteile
der drei vorher genannten Modelle

22
2.6 Spatial Sampling
23
3 Räumliche Autokorrelation3.1 Hinführung

Problem der traditionellen statistischen
Analysen
bei Untersuchung von Zusammenhängen, die
stochastische Abhängigkeit aufweisen kommt es zu
fehlerhaften Resultaten
aber stochastische abhängige Variablen häufig in
Statistik
Stochastische Abhängigkeit ? statistische
Ereignisse treten nicht unabhängig voneinander
auf
Ursachetrad. Statistik basiert auf
Zufallsvariablen
d.h. Datenwerte der Variable kommen rein zufällig
zustande ? sie sind unabhängig voneinander
Beispiel am Würfelexperiment

24
3.1 Hinführung

In Hinblick auf die räumliche Verteilung von
Datenpunkten bedeutet dies, daß die verschiedenen
Werte einer Variablen unabhängig von ihrer
räumlichen Position zustande kommen.
Erscheinungen wie Distanz der Werte zueinander,
Nachbarschaft, Nähe, Richtung und dergleichen
haben also keinen Einfluß auf den Wert eines bzw.
aller Datenwerte. (Dumfarth lorup 2000)
Entspricht nicht der Realität ? Beispiel des
Bodenmarktes
? Ansatz der Geostatistik die Werte einer
Variable durch eine Funktion gesteuert
regionalisierten Variablen Werte einer Region
sind ähnlich, weil untereinander beeinflussbar
und mit zunehmender Entfernung die Ähnlichkeit
abnimmt
beschrieb W. Tobler mit dem ersten Gesetz der
Geographie
wichtig bei Verbreitung eines Phänomens ist
Distanz bzw. Nachbarschaft

25
3.2 Das erste Gesetz der Geographie

Das erste gesetzt der Geographie von W. Tobler
beschrieb das bekannte Phänomen, das benachbarte
Objekte oft ähnlicher waren als weit entfernte.
The first law of geography is that everything is
related to everything else, but near things are
more related than distant things.(Tobler 1970 in
Abler 1992 155)
beschreibt die räumliche Autokorrelation d.h. den
Grad, mit dem nahe und entfernte Dinge
miteinander verbunden sind
In practice, the existence of spatial
autocorrelation means that if A and B are close
together, what happens at A is related to what
happens at B, and vice-versa.(Abler et al 1992
287)
auf die Zeit bezogen zeitliche Autokorrelation
wichtigsten Faktoren
Lage der Objekte zueinander
Merkmalsausprägung

26
3.2 Das erste Gesetz der Geographie

3 wichtigsten Typen räumliche Autokorrelationen
Klassifizierung nach der relativen Verteilung
räumlicher Objekte und ihrer Nachbarn
Feld A extreme positive räumliche
Autokorrelation
Feld C extreme negative räumliche
Autokorrelation
Feld B keine räumliche Autokorrelation

Abbildung 2 Typen der räumlichen Autokorrelation
(Lo Yeung 2002 117)
27
3.2 Das erste Gesetz der Geographie

praktisches Beispiel der unterschiedliche Typen
räumliche Autokorrelation
in San Bernardino starke räumliche
Autokorrelation der Bevölkerung
in Iowa schlechte räumliche Autokorrelation

Abbildung 3 Bevölkerungsverteilung in
Kalifornien und Iowa (Abler et al. 1992 84)
28
3.3 Berechnung der räumliche Autokorrelation

Berechnung
Vergleich zwei Werte miteinander
1. Gleichwertigkeit der Attribute
2. Ähnlichkeit des Ortes der Objekte, welche mit
den Attributen besetzt sind
2 wichtigsten Maße zur Angabe der räumliche
Autokorrelation
Gearys (c) Index
Morans (I) Index

29
3.3.1 Gearys (c) Index

Geary Index für Objekte mit intervallskalierten
Attributdaten
bei der Analyse von Datenansammlungen z.B.
Erhebungsgebieten (engl. census tracts)
cij Unterschied der Attribute i, j
wij Grad der Nachbarschaft von i, j
s² Varianz
c 1, keine räumliche Autokorrelation
c lt 1, positive räumliche Autokorrelation
c gt 1, negative räumliche Autokorrelation

Formel 6,7 Berechnung des Gearys (c) Index (Lo
Yeung 2002 351)
30
3.3.2 Morans (I) Index

starke Ähnlichkeit mit Gearys Index
Unterschied Ergebnisse logischer für Betrachter
positive Ergebnisse ? positive räumliche
Autokorrelation
negative Ergebnisse ? negative räumliche
Autokorrelation
Index 0 ? unabhängige unkorrelierte Daten

Berechnung ähnlich des Gearys (c) Index
cij Unterschied der Attribute i, j
wij räumliche Nähe von i, j
Mittelwert
s² Varianz

Formel 8 Berechnung des Morans (I) Index (Lo
Yeung 2002 352)
31
3.3.3 Morans und Gearies Index

Morans Gearies Index für flächenhaften
Objekten entwickelt
Aber über Umwege Berechnung für Punkt, Linien
und Rasterobjekte möglich
Punktdaten ? Punkte in Flächen umwandeln
linienförmigen Objekte ? wenn Linien
Verbindungen zwischen Punkten, die mit Merkmalen
besetzt sind
Verglich der Merkmalsähnlichkeit der Punktpaaren
mit anderen Punktpaaren
Messung der räumliche Nähe dadurch ob direkte
Verbindung zwischen den Punktpaaren
Rasterdaten ? Vergleich ob einzelne Rasterzellen
gleiche Außengrenzen

32
3.4 Probleme3.4.1 Datenherkunft

allgemeines Problem
Uncertainties in data lead to uncertainties in
the result of analysis. (Longley et al. 2001
137)
Ursache
liegt u.a. in der Generalisierung und Bündelung
der rohen Ausgangsdaten
z.B. Krankheitsfälle pro Bezirk
Bevölkerungszahlen für bestimmtes Gebiet
GIS Daten unterschiedlichster Herkunft
Maßstabe, Detailgenauigkeit, Klassifizierung

33
3.4.2 MAUP

modifiable areal unit problem (MAUP)
tritt auf bei willkürlich festgelegte Grenzen von
räumlichen Ereignissen
Beispiel
bei Volkszählungsdaten die in bestimmten Flächen
angegeben werden
bei Angabe des Wahlergebnisses in Stadtvierteln
Schlussfolgerung
Vorsicht bei Vergleich zweier Karten oder
Datensätze
die denselben Ausschnitt zeigen, aber mit
unterschiedlichen Flächeneinheiten

34
(No Transcript)
35
3.4.2 MAUP

Untersuchung der Wohnqualität von Syracuse, New
York
Frage Welcher Maßstab ist der beste für diese
Analyse?
Antwort
Berechnung von Morans (I) für beide Maßstäbe
d.h. Messung der räumlichen Verteilung zwischen
den Voklszählungsgebieten
Ergebnis
I (Census tract) 0,51
I (Census block group) 0,76
Schlussfolgerung
Räumliche Autokorrelation bei Census block
group höher als bei Census tract
? Census block group für Untersuchung besser
geeignet

36
4 Schlussbemerkung

Analyse räumlich korrelierter Daten ist komplexe
und aufschlussreiche Methodik mit vielfachen
Anwendungsmöglichkeiten
Analyse räumlichen korrelierter Daten nur
schlecht GIS integriert
mit Idris32 möglich
mit Arcview nur über Umwege

37
Literatur

Abler R.F., Marcus G. M. J. M. Olsen (1992)
Geographys inner worlds, Pervasive Themes in
Contemporary American Geography. New Jersey.
Bahrenberg G., Giese E. J. Nipper (2003²)
Statistische Methoden in der Geographie, Bd. 2.
Berlin, Stuttgart.
Heywood I., Cornelius S. S. Carver (2002²) An
Introduction to Geographical Information Systems.
Essex.
Lo C. P. A. K.W. Yeung (2002) Concepts and
Techniques of Geographic Information Systems. New
Jersey.
Longley P. A., Goodchild M.F., Maguire D. J.
D.W. Rhind (2001) Geographic
Information, Systems and Science. Chichester,
New York.
Helmschrot J. M. Fink (2001) Skript zum
Proseminar Statistik,
www.geogr.uni-jena.de/c8firma/Statistik/
(letzter Aufruf 2002)
Dumfarth E. E. J. Lorup (2000) Geostatistik I
- Theorie und Praxis,
www.geo.sbg.ac.at/staff/lorup/lv/geostats2000/
(letzter Aufruf 3.11.04)

Write a Comment

User Comments (0)

About PowerShow.com

Thema: R - PowerPoint PPT Presentation

Thema: R

Title: Thema: R umliche Autokorrelation und deskriptive Methoden Author: Patrice Lumumba Last modified by: Patrice Lumumba Created Date: 11/3/2004 3:48:32 PM – PowerPoint PPT presentation