Jednorównaniowy model regresji

Jeżeli pomiędzy dwoma zmiennymi losowymi (cechami statystycznymi ilościowymi) istnieje zależność korelacyjna i jedną ze zmiennych (y) możemy uznać za zależną, a drugą (x) za niezależną, to można próbować sformułować zależność funkcyjną, która przedstawiałaby wartość y w zależności od wartości x i pewnej dodatkowej zmiennej losowej , która reprezentuje losową zmienność zmiennej y i jest niezależna od x:

gdzie:

y – zmienna objaśniana (zależna),

x – zmienna objaśniająca (niezależna),

 – składnik losowy,

f – postać funkcji zależności.

Przykład

Łączna wielkość plonów pszenicy (y) zależy od wielkości obszaru przeznaczonego pod zasiew tego zboża (x), ale także od pewnych innych czynników, w dużej mierze losowych. Można zatem dla tych zmiennych definiować model

.

 

Jeżeli wartość zmiennej y zależy od wartości wielu zmiennych niezależnych x1, x2, ... xk, to można tych zmiennych użyć jako zmiennych objaśniających w modelu postaci

.

 

Model regresji liniowej

W przypadku, gdy funkcja f z powyższej zależności jest funkcją liniową, model przyjmuje postać

 

,

gdzie:

y – zmienna objaśniana,

x1, x2, ... xk – zmienne objaśniające,

 – składnik losowy,

 – wartości parametrów funkcji regresji (parametry modelu).

 

Wartości parametrów funkcji regresji na ogół nie są znane i do ich dokładnego wyznaczenia potrzebna byłaby znajomość rozkładów wartości zmiennej y dla wszystkich możliwych zestawów wartości zmiennych x1, x2, ... xk.

Interpretacja parametrów modelu

Wartość parametru ai reprezentuje średnią zmianę wartości zmiennej objaśnianej y, gdy zmienna objaśniająca xi wzrasta o jedną jednostkę przy założeniu niezmienności pozostałych zmiennych objaśniających, tzn. jeżeli zmienna xi wzrośnie o jednostkę, to wartość zmiennej y zmieni się przeciętnie o ai.

Dla zmiennej czasowej t (reprezentującej kolejny numer okresu) wartość parametru przy tej zmiennej oznacza średnią zmianę y z okresu na okres.

Dla zmiennych zero-jedynkowych: w przypadku wystąpienia wariantu wyróżnionego (zmienna równa 1) wartość zmiennej objaśnianej różnie się średnio o ai w stosunku do wariantu niewyróżnionego.

Parametr a0 zazwyczaj nie ma interpretacji, ale czasem można go interpretować jako wartość zmiennej objaśnianej w warunkach, gdy wszystkie zmienne objaśniające są równe zero, o ile takie wartości są dla nich dopuszczalne.

Postać macierzowa modelu regresji liniowej

 

Jeżeli dysponujemy zbiorem (próbą) n obserwacji – wartości zmiennych objaśniających i objaśnianych, to na jego podstawie możemy próbować znaleźć oszacowania a0, a1, ... ak parametrów funkcji regresji:

Wielkości

będziemy nazywać wartościami teoretycznymi zmiennej y odpowiadającymi i-tej obserwacji, i=1, 2, ... , k.

 

Model regresji można także zapisać w postaci macierzowej jako

gdzie

 – wektor wartości (realizacji) zmiennej objaśnianej,

– wektor wartości parametrów modelu,

 – macierz wartości zmiennych objaśniających,

   wektor wartości składnika losowego.

Przykład

Wielkość popytu na pewne dobro (y w tys. szt.) zależy od kilku czynników:

x1 – przeciętny dochód na osobę (zł)

x2 – cena dobra substytucyjnego (zł)

x3 – cena danego dobra (zł).

Zaobserwowano te wielkości dla siedmiu kolejnych lat:

y

x1

x2

x3

12

100

5

8

14

100

6

7

17

300

6

6

20

200

8

5

25

400

6

6

30

400

9

5

36

600

9

5

Można przedstawić zależność między powyższymi zmiennymi jako liniowy model w postaci:

,

gdzie

, , .

Wartości elementów wektorów parametrów równania oraz składnika losowego nie są znane.

 

Założenia modelu regresji liniowej (założenia Gaussa-Markowa)

1.   Postać funkcji regresji jest liniowa i stała (jej parametry nie zmieniają się wewnątrz zbioru obserwacji), tzn. relacja między zmiennymi jest stabilna,

2.   Zmienne objaśniające są nielosowe, ich wartości są ustalonymi liczbami rzeczywistymi,

3.   Zmienne objaśniające nie są współliniowe, czyli nie występuje między nimi dokładna zależność liniowa,

4.   Liczba obserwacji przekracza liczbę szacowanych parametrów modelu, tzn. (wraz z poprzednim punktem) : rz(X)=k+1<n,

5.   Składnik losowy ma rozkład normalny o średniej równej 0 i stałym odchyleniu standardowym: , nie występuje autokorelacja składnika losowego:  dla , a także nie występuje korelacja składnika losowego ze zmiennymi objaśniającymi,

6.   Informacje zawarte w próbie są jedynymi informacjami, na podstawie których dokonuje się szacowania (estymacji) parametrów modelu.

Estymacja parametrów modelu regresji liniowej

Na podstawie próby można oszacować parametry modelu, tzn. wyznaczyć

         oraz 

gdzie

– wektor wartości teoretycznych modelu, i = 1, 2, ..., n,

– wektor wartości oszacowań parametrów modelu,

 – wektor wartości błędów (reszt) modelu.

Wartości oszacowań parametrów a0, a1, ... ak  () powinny być takie, aby wartości teoretyczne  były jak najbliższe wartościom rzeczywistym (empirycznym)  były jak najbliższe wartościom rzeczywistym (empirycznym) yi.

Metoda najmniejszych kwadratów

W metodzie najmniejszych kwadratów (MNK lub klasycznej metodzie najmniejszych kwadratów – KMNK) kryterium dokładności modelu jest minimalizacja sumy kwadratów błędów

 .

 

Dla k=1 możemy zapisać

.

Powyższa funkcja osiąga minimum dla takich wartości a0 i a1, dla których zerują się pochodne cząstkowe tej funkcji po obu zmiennych:

 

co oznacza, że , ale także ,

skąd po podzieleniu obu stron przez n otrzymamy

 oraz

.

Dla drugiej pochodnej cząstkowej otrzymamy

czyli  oraz

.

Podstawiając otrzymaną wcześniej zależność  do powyższego równania otrzymamy

skąd

 lub inaczej

 

oraz, jak poprzednio otrzymaliśmy

 

Przedstawione wzory pozwalają wyznaczyć oceny parametrów liniowej funkcji regresji dla jednej zmiennej objaśniającej.

 

W ogólnym przypadku k zmiennych dla modelu regresji liniowej w postaci macierzowej

         oraz         

z metody najmniejszych kwadratów wynika, że oceny parametrów modelu (realizacje estymatorów w próbie) można wyznaczyć jako

 

Jeżeli spełnione są założenia modelu regresji liniowej, to estymatory parametrów równania regresji otrzymane metodą najmniejszych kwadratów (MNK-estymatory) są zgodne, nieobciążone i najbardziej efektywne w klasie estymatorów liniowych (Twierdzenie Gaussa-Markowa).

Przykład

Dla prezentowanego przykładu modelu popytu na pewne dobro mamy

, , .

,

,

,

zatem model popytu oszacowany dla przedstawionych danych ma postać:

(ten model nie jest koincydentny)

Na podstawie tego równania można wyznaczyć wartości teoretyczne zmiennej objaśnianej, a także reszty modelu:

yi

x1i

x2i

x3i

12

100

5

8

12,22

-0,22

14

100

6

7

13,57

0,43

17

300

6

6

19,33

-2,33

20

200

8

5

19,80

0,20

25

400

6

6

22,88

2,12

30

400

9

5

29,56

0,44

36

600

9

5

36,65

-0,65

 

 

Dla jednej zmiennej objaśniające wzory macierzowe przyjmują postać:

     .

Miarą przeciętnej wielkości błędu dopasowania jest wariancja resztowa, która jest oceną wariancji składnika losowego:

         ,

natomiast przeciętny błąd szacunku parametru j jest równy:

 

.

Elementy pod pierwiastkiem są kolejnymi elementami głównej przekątnej tzw. macierzy kowariancji (macierzy wariancji i kowariancji) ocen parametrów:

.

Średni względny błąd szacunku parametru j wyraża się wzorem:

.

Analiza wariancji dla modelu regresji

Zmienność zmiennej objaśnianej

 można rozłożyć na zmienność wyjaśnioną przez model i zmienność niewyjaśnioną jako

.

Wariancja resztowa jest zatem równa

.

Współczynnik determinacji jest stosunkiem wariancji wyjaśnionej do wariancji ogólnej i dany jest w tym przypadku wzorem:

(określa, jaka część zmienności cechy zależnej jest wyjaśniona zmiennością cechy niezależnej).

Przykład

Dla poprzedniego przykładu mamy

 oraz

yi

x1i

x2i

x3i

ei2

12

100

5

8

12,22

-0,22

0,048659

-10

100

14

100

6

7

13,57

0,43

0,188203

-8

64

17

300

6

6

19,33

-2,33

5,433013

-5

25

20

200

8

5

19,80

0,20

0,039414

-2

4

25

400

6

6

22,88

2,12

4,515625

3

9

30

400

9

5

29,56

0,44

0,194637

8

64

36

600

9

5

36,65

-0,65

0,418685

14

196

 

 

 

 

 

Suma

10,83824

 

462

Zatem wariancja resztowa tego modelu wynosi , błąd standardowy y .

Standardowe błędy szacunku parametrów są równe:

S(a0)= =15,81794,

S(a1)=  =0,006098,

S(a2)= 1,024349 oraz

S(a3)= 1,52894.

Model często zapisuje się jako

 

Współczynnik determinacji jest równy , zatem model wyjaśnia 97,65% zmienności zmiennej objaśnianej, a 2,45% tej zmienności pozostaje niewyjaśniona.

Przedział ufności dla parametru  

jest postaci:

,

gdzie  jest współczynnikiem ufności, a  jest wartością odczytaną z tablic rozkładu t-Studenta dla n‑(k+1) stopni swobody.

Weryfikacja istotności parametrów modelu

,

Sprawdzian:   ma (przy założeniu prawdziwości H0) rozkład t-Studenta z n‑(k+1) stopniami swobody.

Weryfikacja hipotezy o łącznym wpływie zmiennych objaśniających

 (bez wyrazu wolnego), tzn.

Sprawdzian:

 

ma rozkład F (Fishera-Snedecora) z k i n-k-1 stopniami swobody.

Obszar odrzucenia .