Rachunek prawdopodobieństwa
Zdarzenie elementarne – pojęcie pierwotne (nie definiuje się go); jest to wynik (każdy z wyników) pewnego doświadczenia, zwykle takiego, w którym pewne właściwości tego wyniku nie są znane z góry. Wszystkie możliwe zdarzenia elementarne wi tworzą zbiór zdarzeń elementarnych W.
Zdarzeniem
losowym (zdarzeniem) nazywamy dowolny podzbiór A zbioru zdarzeń elementarnych. Zdarzenie losowe składa się zatem
z pewnej liczby zdarzeń elementarnych. O zdarzeniach elementarnych
składających się na zdarzenie A
mówimy, że sprzyjają zdarzeniu A.
Szczególnym zdarzeniem losowym jest zdarzenie niemożliwe, tzn. takie,
któremu nie sprzyja żadne ze zdarzeń elementarnych (jest zbiorem pustym) oraz zdarzenie
pewne, tzn. takie, któremu sprzyjają wszystkie zdarzenia ze zbioru
zdarzeń elementarnych W. Dla każdego zdarzenia A zdarzenie W\A, będące dopełnieniem zdarzenia A do zdarzenia pełnego, nazywamy zdarzeniem przeciwnym do zdarzenia A i oznaczamy
.
Borelowskim ciałem (σ-ciałem) zdarzeń nazywamy zbiór B, do którego należą zdarzenia:
· zdarzenie pewne W, zdarzenie niemożliwe Æ
oraz w którym dla każdych zdarzeń losowych A1, A2, ... należących do zbioru B należą do niego także zdarzenia:
· suma zdarzeń A1 È A2,
· iloczyn zdarzeń A1 Ç A2,
· różnica zdarzeń A1 \ A2.
Klasyczna
definicja prawdopodobieństwa:
Jeżeli na zdarzenie pewne W
składa się n jednakowo możliwych
i wzajemnie się wykluczających zdarzeń elementarnych, spośród których m sprzyja zdarzeniu losowemu A, to prawdopodobieństwem
zdarzenia A nazywamy liczbę
.
Aksjomatyczna definicja prawdopodobieństwa:
Prawdopodobieństwem zdarzenia losowego AÎB nazywamy liczbę P(A) przypisaną w sposób jednoznaczny dowolnemu zdarzeniu A i spełniającą warunki:
· 0£P(A) £1,
· prawdopodobieństwo zdarzenia pewnego P(W)=1,
·
prawdopodobieństwo sumy dowolnych, parami
wykluczających się zdarzeń A1,
A2, ... jest równe sumie
ich prawdopodobieństw: P(A1 È A2 È...) = P(A1) + P(A2)
+ ... .
Prawdopodobieństwo P jest zatem funkcją P: W →<0,1>.
Trójkę (W,B, P) nazywamy przestrzenią probabilistyczną.
Własności prawdopodobieństwa:
Prawdopodobieństwo zdarzenia niemożliwego jest równe 0: P(Æ)=0,
Prawdopodobieństwo
zdarzenia przeciwnego do zdarzenia A:
.
Jeżeli zdarzenie A1 ÌA2, to P(A1) £ P(A2).
Prawdopodobieństwo zdarzenia B w sytuacji, gdy zaszło zdarzenie A nazywamy prawdopodobieństwem warunkowym zdarzenia B i oznaczamy P(B|A).
Dwa zdarzenia A i B nazywa się niezależnymi, jeżeli zajście jednego z nich nie ma wpływu na zajście drugiego zdarzenia, tzn. P(A) = P(A|B) oraz P(B) = P(B|A).
Prawdopodobieństwo iloczynu dwóch zdarzeń:
P(AÇB) = P(A)P(B|A) = P(B)P(A|B), o ile P(A)≠0 oraz P(B) ≠0. W przeciwnym razie P(AÇB) = 0.
Jeżeli zdarzenia A i B są zdarzeniami niezależnymi, to P(AÇB) = P(A) P(B).
Prawdopodobieństwo sumy dwóch dowolnych zdarzeń: P(AÈ B) = P(A) + P(B)-P(AÇB).
Prawdopodobieństwo całkowite:
Jeżeli zdarzenie A zawiera się w sumie zdarzeń B1, B2, ..., Bn parami wyłączających się, tzn.
AÌ B1È B2È... Bn i BiÇBj=Æ dla i≠j, to
P(A)=P(B1)P(A|B1)+ P(B2)P(A|B2)+... P(Bn)P(A| Bn).
Wzór Bayesa:
Jeżeli zdarzenie A zawiera się w sumie zdarzeń B1, B2, ..., Bn parami wyłączających się, tzn.
AÌ B1È B2È... Bn i BiÇBj=Æ dla i≠j, to
.
Zmienną losową X nazywamy każdą funkcję o wartościach liczbowych (rzeczywistych)
X: W →R, określoną na zbiorze zdarzeń elementarnych i spełniającą
warunek:
ÙxÎR { ω: X(ω)<x }ÎB.
Zmienną
losową X nazywamy dyskretną
(skokową,
typu skokowego), jeżeli zbiór wartości X jest zbiorem skończonym lub przeliczalnym (tzn. wartości zmiennej
można przedstawić jako ciąg liczbowy).
Zmienną
losową X nazywamy ciągłą
(typu ciągłego), jeżeli zbiór wartości X można przedstawić jako przedział liczbowy (otwarty lub domknięty,
ograniczony lub nieograniczony).
Rozkładem zmiennej losowej (funkcją prawdopodobieństwa zmiennej losowej) X
typu skokowego nazywamy funkcję
prawdopodobieństwa, przypisującą każdej przyjmowanej przez X wartości xi
prawdopodobieństwo tej wartości:
,
gdzie P(xi) jest prawdopodobieństwem wystąpienia wartości xi oraz
dla zmiennych osiągających skończoną liczbę wartości,

dla zmiennych osiągających przeliczalną liczbę wartości.
Funkcją
gęstości prawdopodobieństwa zmiennej losowej ciągłej nazywamy funkcję f(x), określoną na zbiorze liczb
rzeczywistych i spełniającą następujące warunki:
dla każdego ![]()
xÎR
.
Z powyższej definicji wynika ważna własność funkcji gęstości:
.
Funkcją
gęstości prawdopodobieństwa może być każda funkcja całkowalna
o wartościach nieujemnych i spełniająca powyższy warunek.
Dystrybuantą zmiennej losowej X typu skokowego nazywamy funkcję F(x) określoną dla wszystkich liczb rzeczywistych w następujący
sposób:
dla każdego
.
Oczywiście

Przy
skończonej liczbie wartości zmiennej dystrybuanta osiąga wartość 1 dla x większych lub równych największej z
osiąganych wartości. Przy nieskończonej liczbie wartości zmiennej, wartość
dystrybuanty dąży do 1 dla
.
Podstawowe własności dystrybuanty zmiennej losowej dyskretnej:
·
dla każdego x,
·
,
·
F(x) jest funkcją niemalejącą,
przedziałami stałą i prawostronnie ciągłą.
Dystrybuantą zmiennej losowej ciągłej nazywamy funkcję
dla każdego
.
Własności dystrybuanty zmiennej losowej ciągłej:
·
dla każdego x,
·
,
·
F(x) jest funkcją niemalejącą i
ciągłą.
Na
podstawie dystrybuanty zmiennej losowej ciągłej można obliczyć
prawdopodobieństwo, że
w następujący sposób:

Wartością oczekiwaną (nadzieją
matematyczną, wartością przeciętną) zmiennej losowej dyskretnej X nazywamy wartość:

dla zmiennych osiągających skończoną liczbę wartości oraz:

dla zmiennych osiągających przeliczalną liczbę wartości.
Dla
zmiennej losowej ciągłej zdefiniujemy wartość oczekiwaną jako:

Wartość
oczekiwana odzwierciedla przeciętny poziom osiągany przez zmienną losową. Nie
musi to być wartość najbardziej prawdopodobna.
Własności wartości
oczekiwanej:
1. Wartość oczekiwana stałej równa się tej stałej, czyli:
.
2.
Wartość
przeciętna sumy dwóch zmiennych losowych X
i Y równa się sumie wartości
przeciętnych tych zmiennych:
.
3.
Wartość
przeciętna iloczynu dwóch niezależnych zmiennych losowych X i Y równa się
iloczynowi wartości przeciętnych tych zmiennych:
.
Wariancja
i odchylenie standardowe są miarami zróżnicowania (rozrzutu) rozkładu. Im ich
wartości są mniejsze, tym rozkład jest bardziej skupiony wokół wartości
oczekiwanej.
Wariancją zmiennej losowej X nazywamy wartość:
![]()
dla zmiennych losowych typu skokowego oraz:

dla zmiennych losowych typu ciągłego.
Wariancję
można również obliczyć jako:
.
Własności wariancji.
1. Wariancja stałej równa się zeru:
.
2. Wariancja iloczynu stałej c przez zmienną losową X równa się iloczynowi kwadratu tej stałej przez wariancję zmiennej losowej X:
.
3. Wariancja sumy dwóch niezależnych zmiennych losowych równa się sumie wariancji tych zmiennych:
.
3. Wariancja różnicy dwóch niezależnych zmiennych losowych równa się sumie wariancji tych zmiennych:
.
Jako
że sama wariancja nie posiada własnej interpretacji, definiuje się na jej
podstawie odchylenie standardowe zmiennej.
Odchyleniem standardowym D(X) zmiennej losowej X nazywamy
pierwiastek kwadratowy z wariancji:
![]()
Z rozkładem dwupunktowym mamy do czynienia wówczas, gdy
w wyniku doświadczenia możemy uzyskać tylko jedną z dwóch wartości
zmiennej losowej: x1 lub x2 z prawdopodobieństwami
odpowiednio p oraz 1-p. W szczególnym przypadku, gdy x1 =0 oraz x2 =1 rozkład ten nazywany
jest rozkładem
zero-jedynkowym. Funkcja prawdopodobieństwa w tym rozkładzie ma
postać:
|
xi |
0 |
1 |
|
pi |
1-p |
p |
Dystrybuanta rozkładu zero-jedynkowego ma postać:


Rys. Przykładowy wykres funkcji prawdopodobieństwa dla rozkładu
zero-jedynkowego

Rys. Przykładowy wykres dystrybuanty dla
rozkładu zero-jedynkowego
Wartość oczekiwana zmiennej w rozkładzie
zero-jedynkowym wynosi:
,
natomiast wariancja:
.
Rozkład
dwumianowy występuje wówczas, gdy przeprowadza się n jednakowych doświadczeń, z których każde może zakończyć się
jednym z dwóch wyników: „sukcesem” z prawdopodobieństwem p lub „porażką”
z prawdopodobieństwem 1‑ p.
Zmienną losową X w tym eksperymencie
jest liczba sukcesów w n próbach.
Może ona przyjmować wartości z przedziału <0,n>.
Rozkład
prawdopodobieństwa w rozkładzie Bernoulliego jest określony wzorem:
.

Rys. Przykładowy wykres funkcji prawdopodobieństwa zmiennej o rozkładzie
Bernoulliego dla n=10 i p=0,2.
Rozkład
Bernoulliego jest symetryczny dla p=0,5.
Im p jest bliższe 0 lub 1, tym
większa jest asymetria rozkładu.
Wartość
oczekiwana i wariancja w rozkładzie dwumianowym są równe:
,
.
Rozkład
Poissona jest rozkładem zmiennej losowej skokowej, z którym mamy do czynienia
w przypadku określania prawdopodobieństwa zajścia zdarzeń stosunkowo
rzadkich i niezależnych od siebie, takich jak np. liczba usterek w produkowanej
partii materiału. Rozkład Poissona jest przybliżeniem rozkładu Bernoulliego dla
dużych prób i przy małym prawdopodobieństwie zajścia zdarzenia („sukcesu”).
Funkcja prawdopodobieństwa w rozkładzie
Poissona o parametrze l jest dana wzorem:
,
gdzie:
e - podstawa logarytmów naturalnych,
l - stała, która jest wartością oczekiwaną i równocześnie wariancją rozkładu, czyli: E(X)=D2(X)=l. Dla partii n elementów, z prawdopodobieństwem zdarzenia p: l=np.

Rys. Przykładowy wykres funkcji prawdopodobieństwa dla rozkładu Poissona.
Rozkład hipergeometryczny jest rozkładem charakteryzującym losowanie
bez zwracania n elementów spośród N, wśród których R ma cechę wyróżniającą (np. wadę). Dla populacji nieskończonych (N=') lub losowania ze
zwracaniem stosuje się rozkład Bernoulliego lub Poissona.
Prawdopodobieństwo uzyskania k
elementów wyróżnionych w n-elementowej
próbie wynosi w rozkładzie hipergeometrycznym
.
Kształt wykresu rozkładu hipergeometrycznego jest zbliżony do kształtów
rozkładów Bernoulliego oraz Poissona.
Jest
to najprostszy z rozkładów zmiennej losowej ciągłej. Mamy z nim do czynienia
wtedy, gdy prawdopodobieństwo zajścia zdarzenia jest stałe w pewnym
przedziale <a, b>. Funkcja
gęstości tego rozkładu jest dana wzorem

Rozkład prostokątny bierze nazwę od kształtu wykresu tej funkcji.

Rys.
Wykres przykładowej funkcji gęstości dla rozkładu prostokątnego.
Dystrybuanta
zmiennej losowej o rozkładzie jednostajnym wyraża się wzorem:


Rys. Wykres dystrybuanty dla rozkładu prostokątnego.
Wartość
oczekiwana i wariancja zmiennej o rozkładzie prostokątnym są równe odpowiednio:
,
.
Rozkład
normalny, zwany także rozkładem
Gaussa-Laplace'a jest najczęściej spotykanym w naturze rozkładem zmiennej
losowej ciągłej. Ciągła zmienna losowa X
ma rozkład normalny o wartości oczekiwanej μ i odchyleniu
standardowym σ (co oznaczamy
), jeśli jej funkcja gęstości – określona dla wszystkich
rzeczywistych wartości x – da się
przedstawić za pomocą wzoru:

Przykłady
funkcji gęstości dla różnych wartości parametrów m i
przedstawiono na
rysunku.

Rys. Funkcje gęstości
rozkładu normalnego dla różnych wartości m i s
Funkcja f(x) ma następujące własności:
własność symetryczności - jest symetryczna względem prostej x=m, co oznacza, że spełniona jest zależność (wynika z niej również, że mediana rozkładu wynosi m):
oraz
,
własność jednomodalności - w punkcie x=m osiąga wartość maksymalną (co oznacza, że dominanta rozkładu wynosi m), która wynosi:
,
własność zmienności - ramiona
f(x)
mają punkty przegięcia dla
.
własność określoności -
kształt funkcji gęstości zależy od wartości dwóch parametrów: m i
. Parametr m decyduje o przesunięciu krzywej, natomiast parametr
decyduje o
„smukłości” krzywej.
Reguła trzech sigm: w rozkładzie normalnym prawie wszystkie wartości zmiennej X odchylają się od średniej o nie więcej
niż o trzy odchylenia standardowe, dokładniej:
.
Standaryzacja:
Obliczanie prawdopodobieństwa zmiennych o rozkładzie
normalnym ułatwia fakt, że wartości dystrybuanty Φ zmiennej losowej
zawarte są w
specjalnych tablicach statystycznych dla u>0, przy czym wartości dystrybuanty
dla u<0 można obliczyć z zależności Φ(-u)=1- Φ(u).
Dla każdej zmiennej
X zmienna
losowa
ma rozkład N(0,1). Zmienną u nazywa się zmienną standaryzowaną.
Funkcja
gęstości rozkładu zmiennej standaryzowanej (tj. rozkładu normalnego standaryzowanego)
N(0,1) przyjmuje postać:

O zmienna losowej X mówimy,
że ma rozkład wykładniczy z parametrem
, jeżeli jej funkcję gęstości można przedstawić jako:
.

Rys. Funkcja gęstości rozkładu
wykładniczego.
Jeżeli
rozpatrzmy ciąg niezależnych zmiennych standaryzowanych
o rozkładzie N(0;1), to zmienna losowa
(chi-kwadrat) jest
sumą kwadratów zmiennej losowej U,
tzn.:
,
przy czym zmienna losowa
(dla
>0) ma rozkład funkcji gęstości prawdopodobieństwa
określony wzorem:
,
gdzie:
k - liczba stopni swobody[1] ,
- funkcja gamma o
argumencie 0,5k:
.
Zmienna
losowa
przyjmuje wartości
dodatnie i ma rozkład całkowicie określony przez liczbę stopni swobody k. Rozkład ten ma wartość oczekiwaną
oraz odchylenie standardowe równe:
.
Dla k=1 oraz k=2 rozkład
jest rozkładem
skrajnie asymetrycznym; dla k=3
rozkład jest jeszcze silnie asymetryczny. Przy wzrastającej liczbie stopni
swobody staje się bardziej symetryczny, dla k>30
rozkład jest szybko zbieżny do rozkładu normalnego. Wykres funkcji gęstości
rozkładu
dla różnej liczby
stopni swobody przedstawiono na rysunku .

Rys. Wykres funkcji gęstości rozkładu chi-kwadrat
W tablicach podaje się wartości
krytyczne rozkładu
, tzn. dla określonej liczby stopni swobody k i ustalonej wartości a podane są wartości
takie, że
. Jeżeli k>30,
korzysta się tablic rozkładu normalnego.
Jeżeli
zmienna losowa U ma rozkład N(0;1),
zmienna losowa Y ma rozkład
o liczbie stopni
swobody k i jeśli zmienne U i Y
są niezależne, to zmienna losowa
przyjmuje rozkład t-Studenta o k stopniach swobody. Funkcja gęstości
tego rozkładu przyjmuje postać:

gdzie:
k - liczba stopni swobody,
- funkcja gamma o
argumencie p:
.
Wartość oczekiwana i odchylenie standardowe zmiennej losowej są odpowiednio równe:
.
Rozkład
tego typu po raz pierwszy otrzymał Goosset (pseudonim Student - stąd nazwa
rozkładu).
Rozkład
t-Studenta posiada następujące własności:
jest symetryczny z osią symetrii w punkcie t=0,
jedynym parametrem tego rozkładu jest liczba stopni swobody k,
jego wykres przypomina standaryzowany rozkład normalny, tzn. jest nieco bardziej spłaszczony (patrz rys.),
dla k>30 jest zbieżny do standaryzowanego rozkładu normalnego.

Rys. Porównanie wykresu funkcji gęstości
rozkładu t-Studenta z rozkładem normalnym
Tablica
rozkładu t-Studenta jest skonstruowana w ten sposób, że przy danej liczbie
stopni swobody k i dla ustalonej wartości a (dla 0<a<1) odczytana wartość
spełnia relację
.
Tablice
rozkładu t-Studenta są na ogół budowane dla k<=30.
Jeżeli liczba stopni swobody jest większa od 30, korzystamy z rozkładu N(0;1).
[1] Stopień swobody to liczba niezależnych wyników obserwacji pomniejszona o liczbę związków, które łączą wyniki obserwacji ze sobą.