Wariancja

Wygląd przypnij ukryj

Wariancja – miara zmienności zmiennej losowej będąca wartością oczekiwaną kwadratu różnicy wartości zmiennej losowej X i jej wartości oczekiwanej. W statystyce opisowej obliczana jest jako średnia arytmetyczna kwadratów odchyleń (różnic) poszczególnych wartości cechy od średniej.

Wariancja zmiennej losowej X , {\displaystyle X,} oznaczana jako Var ⁡ {\displaystyle \operatorname {Var} } lub D 2 ( X ) , {\displaystyle D^{2}(X),} zdefiniowana jest wzorem:

Var ⁡ = E , {\displaystyle \operatorname {Var} =E,}

gdzie:

E {\displaystyle E} jest wartością oczekiwaną zmiennej losowej podanej w nawiasach kwadratowych, μ {\displaystyle \mu } jest wartością oczekiwaną zmiennej X . {\displaystyle X.}

Innym, często prostszym, sposobem wyznaczania wariancji jest wzór:

D 2 ( X ) = E ( X 2 ) − 2 . {\displaystyle D^{2}(X)=E(X^{2})-^{2}.}

Wariancja jest momentem centralnym drugiego rzędu zmiennej losowej.

Jeżeli ponadto E X 2 ⩽ ∞ {\displaystyle \mathbb {E} X^{2}\leqslant \infty } oraz G {\displaystyle {\mathcal {G}}} jest σ-ciałem zdarzeń, to wariancją warunkową nazywamy:

Var ⁡ ( X | G ) := E ( ( X − E ( X | G ) ) 2 |   G ) . {\displaystyle \operatorname {Var} (X|{\mathcal {G}}):=\mathbb {E} {\Big (}{\big (}X-{\mathcal {E}}(X|{\mathcal {G}}){\big )}^{2}{\Big |}\ {\mathcal {G}}{\Big )}.}

Statystyka opisowa

Jako jedna z najpopularniejszych miar w statystyce opisowej służąca do opisu danego kompletnego zbioru danych, wariancja zdefiniowana jest dla zbioru obserwacji z cechą x {\displaystyle x} wzorem:

S 2 ( x ) = ∑ i = 1 N ( x i − x ¯ ) 2 N , {\displaystyle S^{2}(x)={\frac {\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}{N}},}

gdzie x ¯ {\displaystyle {\overline {x}}} oznacza średnią wartość cechy, a N {\displaystyle N} liczebność zbioru.

Wyrażona jest w jednostkach miary badanej cechy podniesionych do kwadratu.

Dane pogrupowane

W przypadku obliczania wariancji dla danych pogrupowanych w postaci szereg rozdzielczego punktowego, wykorzystuje się wzory:

S 2 ( x ) = ∑ i = 1 k ( x i − x ¯ ) 2 ⋅ n i n = ∑ i = 1 k x i 2 ⋅ n i n − x ¯ 2 , {\displaystyle S^{2}(x)={\frac {\sum _{i=1}^{k}(x_{i}-{\overline {x}})^{2}\cdot n_{i}}{n}}={\frac {\sum _{i=1}^{k}x_{i}^{2}\cdot n_{i}}{n}}-{\overline {x}}^{2},}

gdzie k {\displaystyle k} oznacza liczbę klas szeregu punktowego, n i {\displaystyle n_{i}} – liczebność i-tej klasy, a n {\displaystyle n} – liczebność całej zbiorowości (odpowiednik N {\displaystyle N} we wzorze powyżej).

W przypadku szeregu rozdzielczego przedziałowego za wartość x {\displaystyle x} przyjmuje się środki poszczególnych przedziałów ( x . ) {\displaystyle ({\overset {.}{x}})} :

S 2 ( x ) = ∑ i = 1 k ( x . i − x ¯ ) 2 ⋅ n i n = ∑ i = 1 k x . i 2 ⋅ n i n − x ¯ 2 . {\displaystyle S^{2}(x)={\frac {\sum _{i=1}^{k}({\overset {.}{x}}_{i}-{\overline {x}})^{2}\cdot n_{i}}{n}}={\frac {\sum _{i=1}^{k}{\overset {.}{x}}_{i}^{2}\cdot n_{i}}{n}}-{\overline {x}}^{2}.}

Ze względu na przyjęcie jako reprezentacji przedziałów wartości środkowych x . , {\displaystyle {\overset {.}{x}},} wariancja liczona według powyższego wzoru jest przybliżeniem wariancji dla danych kompletnych.

Estymatory

Wariancja próby losowej o wartościach x i , {\displaystyle x_{i},} gdzie i = 1 , 2 , 3 , … , {\displaystyle i=1,2,3,\dots ,} jest następująca:

σ 2 = lim n → ∞ 1 n ∑ i = 1 n ( x i − x ¯ ) 2 . {\displaystyle \sigma ^{2}=\lim _{n\to \infty }{\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}.}

Wariancję dla populacji można estymować za pomocą n-elementowej próby losowej. Estymator największej wiarygodności:

s 2 = 1 n ∑ i = 1 n ( x i − x ¯ ) 2 {\displaystyle s^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}

jest zgodnym, lecz obciążonym estymatorem wariancji (jest nieobciążony asymptotycznie). Innymi słowy, gdybyśmy z populacji losowali próbkę wielokrotnie i obliczali jego wyniki, to ich średnia nie byłaby równa wariancji w całej populacji. Dlatego też częściej używa się również zgodnego, lecz nieobciążonego estymatora:

s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ¯ ) 2 . {\displaystyle s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}.}

W przypadku, gdy znamy dokładną wartość oczekiwaną μ {\displaystyle \mu } w populacji, wówczas estymator

s 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 {\displaystyle s^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-\mu \right)^{2}}

jest już nieobciążony i zgodny.

Własności wariancji

Dla zmiennych losowych X , {\displaystyle X,} Y {\displaystyle Y} i dowolnych stałych a ,   b ,   c {\displaystyle a,\ b,\ c} zachodzą następujące własności:

1. D 2 ( c ) = 0 {\displaystyle D^{2}(c)=0}

Dowód. Korzystając z własności wartości oczekiwanej (wartość oczekiwana stałej jest równa tej stałej), mamy:

D 2 ( c ) = E = E = E = 0. {\displaystyle D^{2}(c)=E=E=E=0.}

2. D 2 ( X ) ⩾ 0 {\displaystyle D^{2}(X)\geqslant 0}

Dowód. Korzystamy z własności wartości oczekiwanej mówiącej o tym, że jeżeli zmienna losowa jest dodatnio określona prawie wszędzie to jej wartość oczekiwana jest dodatnia. Ponieważ zmienna losowa ( X − E X ) 2 {\displaystyle (X-EX)^{2}} jest dodatnio określona, mamy:

D 2 ( X ) = E ⩾ 0. {\displaystyle D^{2}(X)=E\geqslant 0.}

3. D 2 ( a ⋅ X ) = a 2 ⋅ D 2 ( X ) {\displaystyle D^{2}(a\cdot X)=a^{2}\cdot D^{2}(X)}

Dowód. Korzystając z definicji wariancji, a następnie z liniowości wartości oczekiwanej mamy:

D 2 ( a ⋅ X ) = E = E = E = E = a 2 E = a 2 ⋅ D 2 ( X ) . {\displaystyle {\begin{aligned}&D^{2}(a\cdot X)\\={}&E\\={}&E\\={}&E\\={}&E\\={}&a^{2}E\\={}&a^{2}\cdot D^{2}(X).\end{aligned}}}

4. D 2 ( X + b ) = D 2 ( X ) {\displaystyle D^{2}(X+b)=D^{2}(X)}

Dowód. Korzystamy z własności wartości oczekiwanej mówiącej o tym, że E c = c {\displaystyle Ec=c} dla c {\displaystyle c} stałej i z liniowości:

D 2 ( X + b ) = E = E = E = E = D 2 ( X ) . {\displaystyle {\begin{aligned}&D^{2}(X+b)\\={}&E\\={}&E\\={}&E\\={}&E\\={}&D^{2}(X).\end{aligned}}}

5. D 2 ( X ± Y ) = D 2 ( X ) + D 2 ( Y ) ± 2 Cov ⁡ ( X , Y ) {\displaystyle D^{2}(X\pm Y)=D^{2}(X)+D^{2}(Y)\pm 2\operatorname {Cov} (X,Y)} w ogólnym przypadku; (gdzie Cov ⁡ ( X , Y ) {\displaystyle \operatorname {Cov} (X,Y)} to kowariancja)

Dowód. Sprawdzone zostanie tylko twierdzenie dla sumy, twierdzenie dla różnicy rozwiązuje się analogicznie. Czyli mamy:

D 2 ( X + Y ) = E = E = E = E = … {\displaystyle {\begin{aligned}&D^{2}(X+Y)\\={}&E\\={}&E\\={}&E\\={}&E\\={}&\dots \end{aligned}}}

Korzystając z liniowości wartości oczekiwanej i definicji kowariancji, mamy:

⋯ = E + 2 E + E = D 2 ( X ) + D 2 ( Y ) + 2 Cov ⁡ ( X , Y ) . {\displaystyle {\begin{aligned}\dots ={}&E+2E+E\\={}&D^{2}(X)+D^{2}(Y)+2\operatorname {Cov} (X,Y).\end{aligned}}}

Z powyższego twierdzenia łatwo wysnuć wniosek, że jeżeli zmienne X {\displaystyle X} i Y {\displaystyle Y} są niezależne, zachodzi:

D 2 ( X ± Y ) = D 2 ( X ) + D 2 ( Y ) . {\displaystyle D^{2}(X\pm Y)=D^{2}(X)+D^{2}(Y).}

Pierwiastek kwadratowy z wariancji definiujemy jako odchylenie standardowe.

Pierwiastek z estymatora nieobciążonego wariancji jest często używany jako estymator odchylenia standardowego, jednak jest wówczas obciążony (zobacz odchylenie standardowe).

Zobacz też

Przypisy

  1. a b Wariancja, Encyklopedia PWN  .
  2. a b MirosławM. Krzysztofiak MirosławM., AndrzejA. Luszniewicz AndrzejA., Statystyka, Warszawa: Państwowe Wydawnictwo Ekonomiczne, 1976, s. 131 .
  3. EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 165–166, ISBN 978-83-7583-172-6 .
  4. EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 163, ISBN 978-83-7583-172-6 .
  5. EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 233–234, ISBN 978-83-7583-172-6 .
  6. EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 239, ISBN 978-83-7583-172-6 .
  7. EwaE. Wasilewska EwaE., Statystyka opisowa od podstaw. Podręcznik z zadaniami, Warszawa: Wydawnictwo SGGW, 2009, s. 241, ISBN 978-83-7583-172-6 .

Bibliografia

Kontrola autorytatywna (statystyka opisowa):Encyklopedie internetowe: