Thema: R - PowerPoint PPT Presentation

1 / 37
About This Presentation
Title:

Thema: R

Description:

Title: Thema: R umliche Autokorrelation und deskriptive Methoden Author: Patrice Lumumba Last modified by: Patrice Lumumba Created Date: 11/3/2004 3:48:32 PM – PowerPoint PPT presentation

Number of Views:78
Avg rating:3.0/5.0
Slides: 38
Provided by: Patric596
Category:

less

Transcript and Presenter's Notes

Title: Thema: R


1
ThemaRäumliche Autokorrelation und deskriptive
Methoden
  • Vortrag zum Hauptseminar
  • Analyse und Modellierung räumlicher Daten

2
Inhalt
  • 1 Einleitung
  • 2 Allgemeine deskriptive Methoden
  • 2.1 Mittelwerte
  • 2.2 Streuungsmaße
  • 2.3 Nearest Neighbor-Analyse
  • 2.4 Histogramm
  • 2.5 Objektarten
  • 2.6 Spatial Sampling
  • 3 Räumliche Autokorrelation
  • 3.1 Hinführung
  • 3.2 Das erste Gesetz der Geographie
  • 3.3 Berechnung der räumliche Autokorrelation
  • 3.4 Probleme
  • 4 Schlussbemerkung

3
1 Einleitung
  • Wie sind bestimmte Eigenschaften im Raum
    verteilt?
  • Gibt es eine räumliche Beziehung der
    Attributdaten?
  • um diese sichtbar zu machen braucht es
    deskriptive Methoden
  • Ein Bereich der deskriptive Methoden ist Analyse
    der räumliche Autokorrelation
  • Moran schrieb 1948 The presence, absence, or
    characteristics of some spatial objects may
    sometimes have significant impacts on the
    presence, absence, or characteristics of the
    neighboring objects.( Lo Yeung 2002 117)
  • zuvor wichtige, grundlegende Verfahren und
    Sachverhalte der traditionellen deskriptiven
    Statistik erläutert

4
2 Allgemeine deskriptive Methoden
  • deskriptive Statistik beschreibende Statistik
  • Aufgabe Analyse und Darstellung von räumlichen
    zeitlichen Daten
  • Ziel Datenmengen mit wenigen Zahlen zu
    charakterisieren
  • ? für den Betrachter besser interpretierbar
  • deskriptiven Methoden
  • u.a. Mittelwert und Streuung

5
2.1 Mittelwerte
  • Mittelwerte (engl. central tendency)
  • beschreiben Zentrum der Verteilung
  • Angabe durch
  • arithmetische Mittel
  • Median
  • Modus

6
2.1.1 Arithmetische Mittel
  • Berechnung
  • aus der Summe aller Einzelwerte, dividiert durch
    die Gesamtzahl aller Stichprobenfälle
  • Beispiel
  • Geg. 1, 3, 5, 7, 64
  • Xm 16
  • Anwendung
  • wenn Werte hauptsächlich um arithmetische Mittel
    verteilt
  • Nachteil
  • wenn Stichprobe zu heterogen

Formel 1 Mittelwert xm (Helmschrot Fink
2001)
7
2.1.2 Median
  • Def. teilt eine der Größe nach geordnete
    Verteilung in 2 gleichgroße Bereiche
  • Beispiel Gegeben ist ein beliebige Zahlenreihe
    mit den Werten 1, 3, 5, 7, 64
  • Median 5
  • bei ungeraden Anzahl der Stichproben
  • Median besteht aus den 2 in der Mitte stehenden
    Zahlen
  • Vorteil
  • keine große Beeinflussung durch einzelne hohe
    Werte

8
2.1.2 Modus
  • Def zeigt den am häufigsten vorkommenden
    Merkmalswert einer Datenreihe oder einer Klasse
  • Beispiel
  • Geg. 1, 7, 2, 5, 64, 7, 5, 7, 2
  • Modus 7

9
2.2 Streuungsmaße
  • Def. geben die Verteilung der Merkmalswerte um
    das Zentrum an
  • Streuungsmaße sind
  • Standartabweichung und Varianz
  • Schiefe
  • Exzess

10
2.2.1 Standartabweichung und Varianz
  • wichtigste Maßeinheit um die Streuung zu
    charakterisieren
  • Def. Verhalten der Streuung einer Verteilung um
    den Mittelwert
  • Berechnung
  • Standartabweichung ergibt sich,
  • aus der Wurzel der Varianz
  • Varianz berechnet sich aus der Summe der
    quadrierten Abweichungen vom Mittelwert xm,
    geteilt durch die Gesamtzahl der Elemente n
  • Nachteil die Standartabweichungen
  • zweier verschiedener Stichproben
  • sind nur vergleichbar, wenn deren
  • arithmetische Mittel etwa gleichgroß

Formel 2,3 Varianz Standartabweichung
(Helmschrot Fink 2001)
11
2.2.2 Schiefe
  • Schiefe (engl. skewness) und Exzess (engl.
    kurtosis) sind Formenparameter, d.h. sie geben
    Auskunft über die Form der Verteilung
  • Def. Maß für die Symmetrie der Verteilung um das
    arithmetische Mittel
  • Berechnung aus der Differenz des Mittelwert xm
    vom Median, welche durch die Standartabweichung s
    dividiert wird
  • Eigenschaften
  • Schiefe g 0, Normalverteilung
  • Schiefe g gt 0, positive Schiefe
  • ? der Median ist links vom Mittel
  • Schiefe g lt 0, negativen Schiefe
  • ? der Median rechts vom Mittel

Formel 4 Schiefe g (Helmschrot Fink 2001)
12
2.2.2 Schiefe
Eigene Darstellung Schiefe
13
2.2.3 Exzess
  • Def.
  • ein Maß für die Steilheit der Verteilung
  • beschreibt ob die Merkmalsverteilung spitz oder
    flach um das Zentrum verteilt ist
  • Eigenschaften
  • Exzess Ez gt 1, positiver Exzess ? Verteilung
    steile als Normalverteilung
  • Exzess Ez lt 1, negativer Exzess ?Verteilung
    flacher als Normalverteilung
  • Exzess Ez 1, keinen Exzess ? einer
    Normalverteilung

Formel 5 Exzess Ez (Helmschrot Fink 2001)
14
2.2.3 Exzess
Eigene Darstellung Exzess
15
2.3 Nearest Neighbor-Analyse
  • Def. Untersuchung der Verteilungsmuster von
    Punkten auf einer Fläche aber nicht im
    Zusammenhang mit den Attributdaten
  • Mögliche Verteilungsmuster regelmäßig,
    unregelmäßig oder in Clustern (Gruppen)
  • Einordnung erfolgt über Messung der Distanzen
    zwischen gepaarten Datenpunkten
  • Gepaart werden Punkte mit der geringsten
    räumlichen Distanz zueinander Nearest Neighbor
  • Abbildung 1
  • Mögliche Muster
  • regelmäßig,
  • unregelmäßig
  • gruppiert
  • (Dumfarth lorup 2000)

16
2.3 Nearest Neighbor-Analyse
  • Probleme der Größe der Analysefläche
  • es ist notwendig, die Punktdichte in dem Gebiet
    zu kennen,
  • es muss die Größe der Analysefläche genau
    festgelegt werden
  • bei zu großer Fläche zu geringer Punktdichte
  • als wenn für die gleiche Anzahl von Punkten eine
    kleinere Fläche verwendet wird
  • Problem des Kanteneffektes (engl. edge effect)
  • von Punkten am Rande der Untersuchungsmatrix
    wird keine Distanz zu Punkten außerhalb gemessen,
    obwohl diese am nächsten liegen

17
2.4 Histogramm
  • eine der verbreitesten Möglichkeiten Daten
    visuell darzustellen
  • Def.
  • zeigt an, wie viele Merkmalsausprägungen in einer
    bestimmten vorher festgelegten Klasse sind
  • Klassenhäufigkeitsverteilung, durch die erkennbar
    ist, wie sich die Werte über das gestammte
    Wertespektrum verteilen
  • Eigenschaften
  • y-Achse Häufigkeit der Variable
  • (z.B. Anzahl von Temperaturwerten)
  • x-Achse die Klassen, in denen die Werte
    eingeordnet werden (z.B. in der Klasse 0-5C
    liegen 3 Werte)
  • wichtigste Form einer Häufigkeitsverteilung ist
    die glockenförmige Normalverteilung
  • bei Normalverteilungen liegt das arithmetisches
    Mittel und Median aufeinander bzw. repräsentieren
    die Mitte der Datenmenge

18
2.4 Histogramm
Diagramm 1 Histogramm rot Normalverteilung
schwarz (Dumfarth lorup 2000)
19
2.5 Objektarten
  • wie bei Skalenarten ist Anwendung von
    statistischen Methoden an bestimmte Objektarten
    gekoppelt
  • geographische Objekte werden nach ihrer
    Topologieausdehnung bestimmt
  • Punkte keine dimensionale Ausbreitung
  • Verwendung um räumliche Verteilung von
    Ereignissen und deren Muster wiederzugeben
  • Linien eindimensionale Ausbreitung, die Länge
  • Verwendung um Distanzen zu messen oder lineare
    Objekte darzustellen (z.B. Strassen)
  • Flächenobjekte zweidimensionale Ausdehnung, die
    Länge und Breite
  • Verwendung bei natürliche Objekte wie Felder oder
    künstliche Objekte wie Bevölkerungsverteilungen
  • Oberflächen und Volumen dreidimensional
  • Verwendung bei Darstellung von natürlichen
    Objekten wie digitalen Geländemodellen
  • Problem des Maßstab am Beispiel der Darstellung
    von New York auf verschieden Karten

20
2.6 Spatial Sampling
  • Def. Ziehen von Stichproben im Raum
  • nötig, da die reale Welt unendlich komplex ist,
    ein GIS aber nicht unendlich viele Daten
    verarbeiten kann
  • sampling Modelle (engl. sampling scheme)
  • bestimmen die räumliche Verteilung der einzelnen
    Stichprobenpunkte im Untersuchungsgebiet
  • Stichprobenanzahl
  • je heterogener räumliche Phänomene verteilt desto
    mehr Stichproben nötig
  • je homogener die Verteilung desto weniger
    Stichproben nötig
  • es gibt aber Mindestriechprobenzahl

21
2.6 Spatial Sampling
  • einfache zufällige Stichprobe (Feld A) jeder
    Punkt hat die gleiche Wahrscheinlichkeit gezogen
    zu werden
  • statistisch völlig korrekt aber Probleme in der
    Praxis
  • kleine, aber wichtige Bereiche werden
    unterpräsentiert, außer bei große Anzahl von
    Stichproben
  • systematischen Stichprobe (Feld B) der erste
    Punkt wird zufällig ermittelt und an diesem die
    restlichen entlang eines festen Schemas
    ausgerichtet
  • einfach durchzuführen aber Fehler bei Daten die
    periodischen Änderungen unterliegen
  • strategische Zufallstichprobe (Feld C)
    Untersuchungsgebiet wird in Teilgebiete gliedert
    und in jedem Teilgebiet eine zufällige Stichrobe
    genommen
  • geeignet, weil nur geringe Anzahl von Stichproben
    nötig aber selben Problemen wie bei
    Zufallsstichprobe
  • strategisches, systematisches und unangepasstes
    Modell (Feld D)
  • vereinigt es die Vorgehensweise und auch Vorteile
    der drei vorher genannten Modelle

22
2.6 Spatial Sampling
23
3 Räumliche Autokorrelation3.1 Hinführung
  • Problem der traditionellen statistischen
    Analysen
  • bei Untersuchung von Zusammenhängen, die
    stochastische Abhängigkeit aufweisen kommt es zu
    fehlerhaften Resultaten
  • aber stochastische abhängige Variablen häufig in
    Statistik
  • Stochastische Abhängigkeit ? statistische
    Ereignisse treten nicht unabhängig voneinander
    auf
  • Ursachetrad. Statistik basiert auf
    Zufallsvariablen
  • d.h. Datenwerte der Variable kommen rein zufällig
    zustande ? sie sind unabhängig voneinander
  • Beispiel am Würfelexperiment

24
3.1 Hinführung
  • In Hinblick auf die räumliche Verteilung von
    Datenpunkten bedeutet dies, daß die verschiedenen
    Werte einer Variablen unabhängig von ihrer
    räumlichen Position zustande kommen.
    Erscheinungen wie Distanz der Werte zueinander,
    Nachbarschaft, Nähe, Richtung und dergleichen
    haben also keinen Einfluß auf den Wert eines bzw.
    aller Datenwerte. (Dumfarth lorup 2000)
  • Entspricht nicht der Realität ? Beispiel des
    Bodenmarktes
  • ? Ansatz der Geostatistik die Werte einer
    Variable durch eine Funktion gesteuert
  • regionalisierten Variablen Werte einer Region
    sind ähnlich, weil untereinander beeinflussbar
    und mit zunehmender Entfernung die Ähnlichkeit
    abnimmt
  • beschrieb W. Tobler mit dem ersten Gesetz der
    Geographie
  • wichtig bei Verbreitung eines Phänomens ist
    Distanz bzw. Nachbarschaft

25
3.2 Das erste Gesetz der Geographie
  • Das erste gesetzt der Geographie von W. Tobler
    beschrieb das bekannte Phänomen, das benachbarte
    Objekte oft ähnlicher waren als weit entfernte.
  • The first law of geography is that everything is
    related to everything else, but near things are
    more related than distant things.(Tobler 1970 in
    Abler 1992 155)
  • beschreibt die räumliche Autokorrelation d.h. den
    Grad, mit dem nahe und entfernte Dinge
    miteinander verbunden sind
  • In practice, the existence of spatial
    autocorrelation means that if A and B are close
    together, what happens at A is related to what
    happens at B, and vice-versa.(Abler et al 1992
    287)
  • auf die Zeit bezogen zeitliche Autokorrelation
  • wichtigsten Faktoren
  • Lage der Objekte zueinander
  • Merkmalsausprägung

26
3.2 Das erste Gesetz der Geographie
  • 3 wichtigsten Typen räumliche Autokorrelationen
  • Klassifizierung nach der relativen Verteilung
    räumlicher Objekte und ihrer Nachbarn
  • Feld A extreme positive räumliche
    Autokorrelation
  • Feld C extreme negative räumliche
    Autokorrelation
  • Feld B keine räumliche Autokorrelation

Abbildung 2 Typen der räumlichen Autokorrelation
(Lo Yeung 2002 117)
27
3.2 Das erste Gesetz der Geographie
  • praktisches Beispiel der unterschiedliche Typen
    räumliche Autokorrelation
  • in San Bernardino starke räumliche
    Autokorrelation der Bevölkerung
  • in Iowa schlechte räumliche Autokorrelation

Abbildung 3 Bevölkerungsverteilung in
Kalifornien und Iowa (Abler et al. 1992 84)
28
3.3 Berechnung der räumliche Autokorrelation
  • Berechnung
  • Vergleich zwei Werte miteinander
  • 1. Gleichwertigkeit der Attribute
  • 2. Ähnlichkeit des Ortes der Objekte, welche mit
    den Attributen besetzt sind
  • 2 wichtigsten Maße zur Angabe der räumliche
    Autokorrelation
  • Gearys (c) Index
  • Morans (I) Index

29
3.3.1 Gearys (c) Index
  • Geary Index für Objekte mit intervallskalierten
    Attributdaten
  • bei der Analyse von Datenansammlungen z.B.
    Erhebungsgebieten (engl. census tracts)
  • cij Unterschied der Attribute i, j
  • wij Grad der Nachbarschaft von i, j
  • s² Varianz
  • c 1, keine räumliche Autokorrelation
  • c lt 1, positive räumliche Autokorrelation
  • c gt 1, negative räumliche Autokorrelation

Formel 6,7 Berechnung des Gearys (c) Index (Lo
Yeung 2002 351)
30
3.3.2 Morans (I) Index
  • starke Ähnlichkeit mit Gearys Index
  • Unterschied Ergebnisse logischer für Betrachter
  • positive Ergebnisse ? positive räumliche
    Autokorrelation
  • negative Ergebnisse ? negative räumliche
    Autokorrelation
  • Index 0 ? unabhängige unkorrelierte Daten
  • Berechnung ähnlich des Gearys (c) Index
  • cij Unterschied der Attribute i, j
  • wij räumliche Nähe von i, j
  • Mittelwert
  • s² Varianz

Formel 8 Berechnung des Morans (I) Index (Lo
Yeung 2002 352)
31
3.3.3 Morans und Gearies Index
  • Morans Gearies Index für flächenhaften
    Objekten entwickelt
  • Aber über Umwege Berechnung für Punkt, Linien
    und Rasterobjekte möglich
  • Punktdaten ? Punkte in Flächen umwandeln
  • linienförmigen Objekte ? wenn Linien
    Verbindungen zwischen Punkten, die mit Merkmalen
    besetzt sind
  • Verglich der Merkmalsähnlichkeit der Punktpaaren
    mit anderen Punktpaaren
  • Messung der räumliche Nähe dadurch ob direkte
    Verbindung zwischen den Punktpaaren
  • Rasterdaten ? Vergleich ob einzelne Rasterzellen
    gleiche Außengrenzen

32
3.4 Probleme3.4.1 Datenherkunft
  • allgemeines Problem
  • Uncertainties in data lead to uncertainties in
    the result of analysis. (Longley et al. 2001
    137)
  • Ursache
  • liegt u.a. in der Generalisierung und Bündelung
    der rohen Ausgangsdaten
  • z.B. Krankheitsfälle pro Bezirk
  • Bevölkerungszahlen für bestimmtes Gebiet
  • GIS Daten unterschiedlichster Herkunft
  • Maßstabe, Detailgenauigkeit, Klassifizierung

33
3.4.2 MAUP
  • modifiable areal unit problem (MAUP)
  • tritt auf bei willkürlich festgelegte Grenzen von
    räumlichen Ereignissen
  • Beispiel
  • bei Volkszählungsdaten die in bestimmten Flächen
    angegeben werden
  • bei Angabe des Wahlergebnisses in Stadtvierteln
  • Schlussfolgerung
  • Vorsicht bei Vergleich zweier Karten oder
    Datensätze
  • die denselben Ausschnitt zeigen, aber mit
    unterschiedlichen Flächeneinheiten

34
(No Transcript)
35
3.4.2 MAUP
  • Untersuchung der Wohnqualität von Syracuse, New
    York
  • Frage Welcher Maßstab ist der beste für diese
    Analyse?
  • Antwort
  • Berechnung von Morans (I) für beide Maßstäbe
    d.h. Messung der räumlichen Verteilung zwischen
    den Voklszählungsgebieten
  • Ergebnis
  • I (Census tract) 0,51
  • I (Census block group) 0,76
  • Schlussfolgerung
  • Räumliche Autokorrelation bei Census block
    group höher als bei Census tract
  • ? Census block group für Untersuchung besser
    geeignet

36
4 Schlussbemerkung
  • Analyse räumlich korrelierter Daten ist komplexe
    und aufschlussreiche Methodik mit vielfachen
    Anwendungsmöglichkeiten
  • Analyse räumlichen korrelierter Daten nur
    schlecht GIS integriert
  • mit Idris32 möglich
  • mit Arcview nur über Umwege

37
Literatur
  • Abler R.F., Marcus G. M. J. M. Olsen (1992)
    Geographys inner worlds, Pervasive Themes in
    Contemporary American Geography. New Jersey.
  • Bahrenberg G., Giese E. J. Nipper (2003²)
    Statistische Methoden in der Geographie, Bd. 2.
    Berlin, Stuttgart.
  • Heywood I., Cornelius S. S. Carver (2002²) An
    Introduction to Geographical Information Systems.
    Essex.
  • Lo C. P. A. K.W. Yeung (2002) Concepts and
    Techniques of Geographic Information Systems. New
    Jersey.
  • Longley P. A., Goodchild M.F., Maguire D. J.
    D.W. Rhind (2001) Geographic
  • Information, Systems and Science. Chichester,
    New York.
  • Helmschrot J. M. Fink (2001) Skript zum
    Proseminar Statistik,
  • www.geogr.uni-jena.de/c8firma/Statistik/
    (letzter Aufruf 2002)
  • Dumfarth E. E. J. Lorup (2000) Geostatistik I
    - Theorie und Praxis,
  • www.geo.sbg.ac.at/staff/lorup/lv/geostats2000/
    (letzter Aufruf 3.11.04)
Write a Comment
User Comments (0)
About PowerShow.com