Title: Regresja liniowa
1Regresja liniowa
y
x
x zmienna objasniajaca (nie obarczona bledem) y
zmienna zalezna (obarczona bledem)
Naszym zadaniem jest poprowadzenie najlepszej
prostej przez te punkty.
2Wyznaczanie optymalnych parametrów a i b
3Bardziej ogólny przypadek dopasowywania równania
prostej regresja wazona
4Ocena istotnosci równania regresji
- Weryfikujemy nastepujaca hipoteze zerowa
- H0 a 0 wobec H1 a ? 0
- (jezeli a 0 w granicach bledu to nie mozna
mówic o regresji) - Przy prawdziwosci H0 statystyka
- ma rozklad t Studenta z liczba stopni swobody
równej n - 2.
5Z tablic rozkladu Studenta odczytujemy, dla
wczesniej przyjetego poziomu istotnosci ?,
wartosc krytyczna tn-2,?. Jezeli obliczona
wartosc t znajduje w dwustronnym obszarze
krytycznym (-?, - tn-2,?), (tn-2,?, ?), to H0
nalezy odrzucic na korzysc hipotezy H1
62. Zbadanie istotnosci róznicy pomiedzy róznica
wariancji odpowiadajaca wprowadzeniu czlonu
liniowego (ma ona 1 stopien swobody) a wariancja
resztowa z modelu liniowego (ma ona 2 stopnie
swobody) przy pomocy testu F(1,n-2).
73. Mozna tez przeprowadzic analize wspólczynnika
korelacji lub jego kwadratu (wspólczynnika
determinacji).
8Troche zonglerki sumami
9W ten sposób mamy wzór na wspólczynnik korelacji
przenaszalny na regresje wielokrotna a przy
okazji potrafimy wyrazic F przez wspólczynnik
korelacji
Dla dociekliwych udowodnic tozsamosc
10Linearyzacja
Mamy dopasowac funkcje nieliniowa
yf(x,ya.b) Przeksztalcamy funkcje do takiej
postaci aby uzyskac postac zlinearyzowana yaxb G
dzie y jest nowa zmienna zalezna, x nowa zmienna
objasniajaca a a i b sa nowymi parametrami, przy
czym ogólnie xx(x,y), yy(x,y), aa(a,b),
bb(a,b)
11Przyklad problemu nieliniowego linearyzowalnego
kinetyka reakcji pierwszego rzedu
12Jezeli chcemy postepowac poprawnie to nalezy
wykonac regresje wazona, wyliczajac wagi
poszczególnych przeksztalconych zmiennych
objasniajacych zgodnie z rachunkiem bledów.
W poprzednim przykladzie
13Inne przyklady linearyzacji
Równanie Michalisa-Mentena
Równanie Hilla
14Obie zmienne sa obarczone porównywalnym bledem
Sposób regresja ortogonalna
sy
sx
y
x
Poprawiona wartosc wagi zalezy od a, które jest
parametrem regresji. Problem liniowy przeksztalca
sie w nieliniowy. Problem mozna obejsc
przeprowadzajac najpierw zwykla regresje i
wyznaczyc przyblizone a, nastepnie wstawic a do
wzoru na wagi i przeprowadzic regresje jeszcze
raz.
15Regresja uogólniona albo analiza konfluentna
(x,y)
(x,y)
16Przyklad problemu nieliniowego nielinearyzowalngo
kinetyka reakcji pierwszego rzedu z produktem
przejsciowym
17Pare slów o macierzach Macierz mn tablica m na
n (m wierszy n kolumn) liczb (np. tabliczka
mnozenia). Macierz kwadradowa mn Macierz
symetryczna (zawsze kwadratowa) aijaji Macierz
transponowana AT (AT)ijaji Macierz nieosobliwa
macierz o niezerowym wyznaczniku. Macierz
dodatnio okreslona xTAxgt0 dla kazdego
niezerowego wektora x. Norma euklidesowa
macierzy Norma spektralna macierzy Wskaznik
uwarunkowania macierzy
18Regresja liniowa wielokrotna
Zmienne objasniajace x1,x2,,xm nie musza
odpowiadac róznym wielkosciom lecz moga byc
funkcjami tej samej wielkosci mierzonej (np. jej
kolejnymi potegami w przypadku dopasowywania
wielomianów). Tak wiec mozemy tu mówic o ugólnym
dopasowywaniu krzywych, które mozna przedstawic
jako liniowe funkcje parametrów lub ich
kombinacji.
19Podobnie jak w przypadku zwyklej regresji
minimalizujemy nastepujace sumy kwadratów
odchylen
regresja niewazona
regresja wazona
20Przypadek szczególny dopasowywanie wielomianu
21(No Transcript)
22Wariancja resztowa
Macierz wariancji-kowariancji parametrów
Regresja niewazona
Regresja wazona
Odchylenia standardowe poszczególnych parametrów
Regresja niewazona
Regresja wazona
23Macierz wariancji-kowariancji (dyspersji)
parametrów
Macierz wspólczynników korelacji parametrów
24Wyprowadzenie
25Test F dla istotnosci efektu liniowego
Test F dla istotnosci wlaczenia nowych parmetrów
m2gtm1 F(m2,m1) porównujemy z wartoscia krytyczna
Fa,m1-m2,n-m2 dla poziomu istotnosci a.
F porównujemy z wartoscia krytyczna Fa,m-1,n-m
Wspólczynnik determinacji i jego zwiazek z F
26Ocena istotnosci danego parametru
- Weryfikujemy nastepujaca hipoteze zerowa
- H0 pi 0 wobec H1 a ? 0
- (jezeli a 0 w granicach bledu to nie mozna
mówic o regresji) - Przy prawdziwosci H0 statystyka
- ma rozklad t Studenta z liczba stopni swobody
równej n - m.
27Przyklad dopasowywania wielomianu rozklad
cosinusa kata rozpraszania mezonów K z protonami
(zakladamy ze sjsqrt(yj).
j tjcos(Qj) yj
1 -0.9 81
2 -0.7 50
3 -0.5 35
4 -0.3 27
5 -0.1 26
6 0.1 60
7 0.3 106
8 0.5 189
9 0.7 318
10 0.9 520
28m p1 p2 p3 p4 p5 p6 f F F F0.9
1 57.85 9 833.55 -
2 82.66 99.10 8 585.45 3.92 3.458
2 47.27 185.96 273.61 7 36.41 105.55 3.589
4 37.94 126.55 312.02 137.59 6 2.85 70.65 3.776
5 39.62 119.10 276.49 151.91 52.60 5 1.68 3.48 4.060
6 39.88 121.39 273.19 136.58 56.90 16.72 4 1.66 0.05 4.545
29Przyklad zastosowania regresji wielokrotnej w
analizie QSAR (Leow et al., Bioorganic
Medicinal Chemistry Letters, 17(4), 1025-2032,
2007)
IC50 stezenie zwiazku potrzebne do polówkowej
inhibicji ludzkiej metylotransferazy
izopropenylocysteinowej. pIC50-log(IC50) PSA
powierzchnia grup polarnych A2 PV objetosc
grup polarnych A3 PB1 parametr steryczny
podstawionej grupy fenylowej pPh2 lipofilowosc
podstawionego pierscienia fenylowego
30Metody rozwiazywania ukladów równan liniowych
31- Metody skonczone
- Metoda Gaussa
- Metoda Gaussa-Jordana
- Metody Choleskiego
- Metoda Householdera
- Metoda sprzezonych gradientów
- Metody iteracyjne dla duzych ukladów równan
- Metoda Jacobiego
- Metoda Gaussa-Seidla
32Metoda eliminacji Gaussa z wyborem elementu
glównego w kolumnie Uklad równan sprowadzamy do
postaci trójkatnej
Uklad z macierza trójkatna mozna nastepnie latwo
rozwiazac zaczynajac od obliczenia wartosci xn z
n-tego równania, nastepnie wstawic xn do równania
n-1 i wyliczyc z niego xn-1, nastepnie wstawic xn
oraz xn-1 do równania n-2 i wyliczyc xn-2 az do
dotarcia do równania pierwszego i wyznaczenia x1.
33- Wybieramy równanie i takie, ze ai1 jest
najwiekszym elementem w pierwszej kolumnie po
czym przestawiamy i-te równanie na poczatek i
eliminujemy x1 z równan od 2 do n.
- Procedure powtarzamy z macierza A(1) o rozmiarach
(n-1)x(n-1) i wektorem b(1) o rozmiarze n-1,
eliminujac z nich druga zmienna i otrzymujac
macierz A(2) o rozmiarach (n-2)x(n-2) i wektor
b(2) o rozmiarze n-2. W ten sam sposób
postepujemy z kolejnymi macierzami A(2),
A(3),..., A(n-1) oraz wektorami b(2), b(3),...,
b(n-1).
34Dla j-tego kroku
Po zakonczeniu operacji otrzymujemy uklad równan
z macierza trójkatna
p jest liczba przestawien wierszy macierzy A
podczas sprowadzania ukladu równan do postaci
trójkatnej.
35- Z otrzymanego ukladu równan z macierza trójkatna
wyznaczamy po kolei xn, xn-1,..., x1.
Wysilek obliczeniowy (liczba mnozen i dzielen) w
metodzie eliminacji Gaussa Faktoryzacja macierzy
A n(n2-1)/3 operacji Przeksztalcenie wektora b
n(n-1)/2 operacji Obliczenie x n(n1)/2
operacji. Razem n3/3n2-n/3n3/3 operacji. Kod
zródlowy metody eliminacji Gaussa.
36Metody typu Choleskiego dla macierzy
symetrycznych silnie nieosobliwych
LT
D
L
L
klasyczna metoda Choleskiego tylko dla macierzy
dodatnio okreslonych.
37- Postepowanie przy rozwiazywaniu ukladów równan
metoda faktoryzacji Choleskiego. - Wyznaczenie faktorów L i D. Uklad przyjmuje
postac - LDLTxb
- 2. Obliczenie pomocniczego wektora w.
- wL-1b przez rozwiazanie ukladu równan Lwb.
- Poniewaz L jest macierza trójkatna dolna uklad
ten rozwiazuje sie wyliczajac kolejno w1, w2,,
wn podobnie jak w koncowym etapie eliminacji
Gaussa. - 3. Obliczenie zD-1w (D jest macierza diagonalna
wiec po prostu dzielimy wi przez dii. Ten etap
nie wystepuje w klasycznej metodzie Choleskiego. - 4. Obliczenie x poprzez rozwiazanie ukladu równan
z macierza trójkatna górna - LTxz
- Ten etap jest identyczny z ostatnim etapem
metody eliminacji Gaussa. - Metoda wymaga ok. n3/6 operacji (2 razy mniej niz
metoda eliminacji Gaussa). Uwaga klasyczna
metoda Choleskiego wymaga ponadto n
pierwiastkowan.
38Klasyczna faktoryzacja Choleskiego (ALLT)
39Faktoryzacja bezpierwiastkowa kod zródlowy