Statystyka matematyczna/Pobieranie próby

Statystyka matematyczna

Pobieranie próby

Licencja
Autor: Mirosław Makowiecki Absolwent UMCS Fizyki Komputerowej Uniwersytetu Marii Curie-Skłodowskiej w Lublinie Email: miroslaw(kropka)makowiecki(małpa)gmail(kropka)pl Dotyczy: książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami. Użytkownika książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami nie zwalnia z odpowiedzialności prawnoautorskiej nieprzeczytanie warunków licencjonowania. Umowa prawna: Creative Commons: uznanie autorstwa, na tych samych warunkach, z możliwością obowiązywania dodatkowych ograniczeń. Autor tej książki dołożył wszelką staranność, aby informacje zawarte w książce były poprawne i najwyższej jakości, jednakże nie udzielana jest żadna gwarancja, czy też rękojma. Autor nie jest odpowiedzialny za wykorzystanie informacji zawarte w książce, nawet jeśli wywołaby jakąś szkodę, straty w zyskach, zastoju w prowadzeniu firmy, przedsiębiorstwa lub spółki bądź utraty informacji, niezależnie czy autor (a nawet Wikibooks) został powiadomiony o możliwości wystąpienie szkód. Informacje zawarte w książce mogą być wykorzystane tylko na własną odpowiedzialność.

Wykaz modułów w książce
1Średnie w matematyce statystycznej 2Wprowadzenie do rozkładów zmiennych losowych 3Momenty statystyczne ciągłe i dyskretne 4Momenty statystyczne dla funkcji złożonej 5Momenty statystyczne w działaniu 6Pobieranie próby 7Metoda największej wiarygodności 8Funkcje charakterystyczne 9Ważniejsze rozkłady statystyczne 10Twierdzenie o rozkładzie Bernoulliego 11Twierdzenie o rozkładzie wielomianowym 12Twierdzenie o rozkładzie normalnym jednowymiarowym 13Twierdzenie o rozkładzie normalnym wielowymiarowym 14Centralne twierdzenie graniczne 15Twierdzenie o rozkładzie χ² 16Twierdzenie o rozkładzie hipergeometrycznym 17Twierdzenie o rozkładzie Poissona 18Błędy pomiarowe w fizyce 19Metoda najmniejszych kwadratów

Spis treści
1Estymatory, wyznaczenie parametru λ w wyniku doświadczenia 2Związki pomiędzy wariancjami pojedynczego pomiaru a średniej arytmetycznej 3Pobieranie próby z rozkładów cząstkowych 4Prawdopodobieństwo uzyskania wyniku przy n próbach 5Dystrybuanta w rozkładzie cząstkowym i w próbach 6Średnia arytmetyczna i wartość oczekiwana przy n próbach 7Wariancja i kwadrat z odchylenia standardowego dla n prób

Następny rozdział: Metoda największej wiarygodności. Poprzedni rozdział: Momenty statystyczne w działaniu.

Podręcznik: Statystyka matematyczna.

Próbą nazywamy skończony zespół doświadczeń wykonanych w celu wyznaczenia kształtu poszukiwanego rozkładu.

Estymatory, wyznaczenie parametru λ w wyniku doświadczenia

Dla danej próby, aby estymować parametr λ (jakiś parametr, który możemy wyznaczyć przez doświadczenie) należy przeprowadzić nieskończoną liczbę pomiarów, wówczas wynik jest dokładny. Jednak liczba pomiarów może być jedynie skończona, wtedy pojawia się problem estymacji parametrów.

Zdefiniujmy estymator zależny od niezależnych parametrów uzyskanych w wyniku doświadczenia, tzn. x₁, x₂,..., x_n:

S=S(x_{1},x_{2},...,x_{n})\;

(6.1)

Estymator nazywamy nieobciążonym, jeśli niezależnie od ilości przeprowadzonych doświadczeń, jej wartość oczekiwana jest równa estymowanemu parametrowi λ:

E\{S(x_{1},x_{2},...,x_{n})\}=\lambda \;

dla każdego parametru n

(6.2)

Jeśli wariancja estymatora (6.1) znika dla dowolnie dużej próby, to estymator nazywamy zgodnym, co piszemy wzorem:

\lim _{n\rightarrow \infty }\sigma (S)=0\;

(6.3)

Związki pomiędzy wariancjami pojedynczego pomiaru a średniej arytmetycznej

Średnią arytmetyczną wszystkich pomiarów w danej próbie określamy wedle jej definicji (1.1) jako sumę n pomiarów w uzyskanych w tej próbie przez ich liczbę:

{\overline {x}}={{\sum _{i=1}^{n}{x_{i}}} \over {n}}

(6.4)

Policzmy wartość oczekiwaną wartości średniej danej próby wykorzystując, że wartość oczekiwana sumy argumentów jest równa sumie ich wartości oczekiwanych wedle wzoru podanego w punkcie (5.3), która jest napisana wedle obliczeń:

E({\overline {x}})={{\sum _{i=1}^{n}{\hat {x}}_{i}} \over {n}}={{\sum _{i=1}^{n}{\hat {x}}} \over {n}}={{n{\hat {x}}} \over {n}}={\hat {x}}

(6.5)

Jako że rozkłady w poszczególnych pomiarów w danym doświadczeniu są jednakowe, wtedy wartość oczekiwana danego pomiaru w doświadczeniu jest równa:

E({\overline {x}}_{i})={\hat {x}}\;

(6.6)

Zatem wartość oczekiwana wartości oczekiwanej (6.4) jest równa wartości oczekiwanej danego pomiaru w doświadczeniu, zatem jeśli mamy bardzo dużo prób, to wartość oczekiwana wartości średniej jak udowodnimy, dąży do wartości oczekiwanej średniej arytmetycznej danego pomiaru, czyli przestawiana jest według:

E({\overline {x}})={\hat {x}}\;

(6.7)

Wyznaczmy błąd średniej arytmetycznej uzyskanych wyników w wyników doświadczenia (6.4) i sprawdzimy, czy to odchylenie standardowe wraz zwiększającą się ilością pomiarów w doświadczeniu powoduje malenie tejże wielkości, także dla nieskończenie dużej ilości doświadczeń, to odchylenie zaczyna dążyć do zera, co przedstawiamy:

\sigma ({\overline {x}})\rightarrow 0

(6.8)

Z definicji wariacji jako wartości oczekiwanej z liczby ${\overline {x}}-{\hat {x}}\;$ jako odchylenia wartości średniej (6.4) od wartości oczekiwanej podniesionej do kwadratu i z twierdzenia na wartościach oczekiwanych (5.3) możemy wyznaczyć, tą właśnie wielkość:

\sigma ^{2}({\overline {x}})=E\left(({\overline {x}}-{\hat {x}})^{2}\right)=E\left(({{\sum _{i=1}^{n}x_{i}} \over {n}}-{\hat {x}})^{2}\right)=\;

=\left({{\sum _{i=1}^{n}{x_{i}-{\hat {x}}}} \over {n}}\right)^{2}={{\sum _{i=1}^{n}E\left[(x_{i}-{\hat {x}})^{2}\right]+\sum _{i,j=1,i\neq j}^{n}E\left[(x_{i}-{\hat {x}})(x_{j}-{\hat {x}})\right]} \over {n^{2}}}={{\sum _{i=1}^{n}E\left[(x_{i}-{\hat {x}})^{2}\right]} \over {n^{2}}}

(6.9)

We wzorze (6.9) w drugim członie w liczniku wykorzystany został fakt, że kowariancja dla dwóch różnych zmiennych niezależnych jest równa zero, zatem na podstawie tego warunku dostajemy fakt.

\sigma ^{2}({\overline {x}})={{\sum _{i=1}^{n}\sigma ^{2}(x)} \over {n^{2}}}={{n\sigma ^{2}} \over {n^{2}}}={\sigma ^{2}(x) \over n}

(6.10)

A więc otrzymujemy bardzo ważną zależność z wyprowadzenia (6.10), które przepiszemy dla przejrzystości wykładu i jak się przekonamy, że wariancja średniej arytmetycznej zapisanej jako kwadrat odchylenia tejże średniej od wartości oczekiwanej, jest ona odwrotnie proporcjonalna do ilości pomiarów w danym doświadczeniu:

\sigma ^{2}({\overline {x}})={{\sigma ^{2}(x)} \over {n}}

(6.11)

Gdy liczba pomiarów dąży do nieskończoności, wówczas odchylenie standardowe $\sigma ({\overline {x}})\;$ przyjmuje wartość dążącą do zera według wzoru (6.11), a korzystając z wiadomości o granicach, wnioskujemy, że (6.8) jest jednak prawdą. Obierzmy teraz estymator, który jest wartością średnią kwadratów odchyleń wartości uzyskanych w doświadczeniu x_i od wartości średniej wszystkich pomiarów w danym doświadczeniu:

{s'}^{2}={{\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}} \over {n}}={{\sum _{i=1}^{n}(x_{i}-{\hat {x}}+{\hat {x}}-{\overline {x}})^{2}} \over {n}}={{\sum _{i=1}^{n}\left[(x_{i}-{\hat {x}})^{2}+({\overline {x}}-{\hat {x}})^{2}-2(x_{i}-{\hat {x}})({\overline {x}}-{\hat {x}})\right]} \over {n}}

(6.12)

We wzorze wykorzystamy fakt na podstawie wartości średniej dla trzeciego wyrazy w sumie w mianowniku (6.12):

\sum _{i=1}^{n}(x_{i}-{\hat {x}})({\overline {x}}-{\hat {x}})=({\overline {x}}-{\hat {x}})\sum _{i=1}^{n}(x_{i}-{\hat {x}})=({\overline {x}}-{\hat {x}})(n{\overline {x}}-n{\hat {x}})=n({\overline {x}}-{\hat {x}})^{2}=\sum _{i=1}^{n}({\overline {x}}-{\hat {x}})^{2}\;

Na podstawie powyższego ostatniego faktu i definicji wariancji jako wartości oczekiwanej kwadratu odchylenia zmiennej losowej od wartości oczekiwanej dla wartości średniej n pomiarów wartość oczekiwana estymatora (6.12) (s_')², korzystając przy tym ze wzoru na wariancję średniej arytmetyczne w zależności od wariancji pojedynczego pomiaru, przyjmuje postać:

E({s'}^{2})={{\sum _{i=1}^{n}{\Big (}\sigma ^{2}(x)+\sigma ^{2}({\overline {x}})-2\sigma ^{2}({\overline {x}}){\Big )}} \over {n}}={{\sum _{i=1}^{n}{\Big (}\sigma ^{2}(x)-\sigma ^{2}({\overline {x}}){\Big )}} \over {n}}={{n\sigma (x)-n\sigma ^{2}({\overline {x}})} \over {n}}={{n\sigma ^{2}(x)-{{n\sigma (x)} \over {n}}} \over {n}}\;=\;

=\;{{n\sigma ^{2}(x)-\sigma (x)} \over {n}}={{(n-1)\sigma ^{2}(x)} \over {n}}=\sigma (x){{n-1} \over {n}}

(6.13)

Na podstawie obliczeń przeprowadzonych w punkcje (6.13) przepisujemy końcowy wniosek, że wartość oczekiwana estymatora (6.12) jest:

E({s^{'}}^{2})=\sigma (x){{n-1} \over {n}}\;

(6.14)

Czyli ten nasz estymator (6.12) jest estymatorem obciążonym. Określmy inny estymator, który będzie wynikał z poprzedniego i względem wyniku na wartość oczekiwaną starego estymatora (6.14) określmy nowy estymator zdefiniowany:

s^{2}={s^{'}}^{2}{{n} \over {n-1}}

(6.15)

Korzystając z definicji estymatora s^' (6.12) i wyniku (6.14), możemy policzyć wartość oczekiwaną nowego estymatora s² (6.15) wedle:

\sigma ^{2}(s)=E(s^{2})=E({s^{'}}^{2}){{n} \over {n-1}}\rightarrow s^{2}={{\sum _{k=1}^{n}(x_{k}-{\overline {x}})^{2}} \over {n}}{{n} \over {n-1}}={{\sum _{k=1}^{n}(x_{k}-{\overline {x}})^{2}} \over {n-1}}

(6.16)

Równość σ²(s)=E(s²) wynika bezpośrednio z definicji nowego estymatora (6.15) i obliczeń (6.16). Zachodzi równość σ²(s)=E(s²)=s² dla nieskończonej ilości pomiarów, co w praktyce dla dużej ilości pomiarów zachodzi z dobrym przybliżeniem, tzn. σ²(s)=E(s²)≈ s². Doszliśmy do wniosku, że najlepiej jest wyliczać średni błąd pomiarowy bardzo dużej ilości danych doświadczalnych według:

\sigma (x)={\sqrt {{\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}} \over {n-1}}}

(6.17)

Odchylenie standardowe średniej arytmetycznej w zależności od odchyleń kwadratowych poszczególnych wyników, korzystając przy czym ze wzoru (6.11), mówiącej o związku wariancji średniej arytmetycznej z wariancją pomiaru, i ze wzoru (6.11) mówiący coś od odchyleniu standardowym pojedynczego pomiaru, zatem to odchylenie tejże średniej arytmetycznej (6.4) jest napisane:

\sigma ({\overline {x}})={{\sigma (x)} \over {\sqrt {n}}}={\sqrt {{\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}} \over {n(n-1)}}}

(6.18)

Pobieranie próby z rozkładów cząstkowych

Gdy doświadczenie składa się z prób - nie zawsze tak się dzieje, że wynik do wyznaczenia jakieś wielkości określamy względem tylko jednej próby. Czasem mamy pewną liczbę prób, a w każdej próbie jest też duża liczba doświadczeń.

Zwykle numer próby numerujemy jaki pierwszy wskaźnik przez x, a numer doświadczenia w próbie jako drugi wskaźnik zmiennej x, i w rezultacie dany pomiar w danej próbie oznaczamy x_ij, zatem rozpisując kolejno pomiary dla m prób:

Próba 1:

x_{11},x_{12},x_{13},\dots ,x_{1n_{1}}

Próba 2:

x_{21},x_{22},x_{23},\dots ,x_{2n_{2}}

Próba m:

x_{m1},x_{m2},x_{m3},\dots ,x_{mn}

Trzeba zaznaczyć, że dla ogólności: m≠ n i najlepiej, by liczba pomiarów w j-tej próbie była bardzo duża, tzn. musi zachodzić n>>1. Mając średnie arytmetyczne z uzyskiwanych prób oraz ich odchylenia standardowe, można wyznaczyć całkowitą wartość średnią i odchylenia standardowe średniej arytmetycznej dla całej serii prób.

Prawdopodobieństwo uzyskania wyniku przy n próbach

Całkowita gęstość prawdopodobieństwo uzyskania w n próbach danego wyniku x jest równe sumie po wszystkich próbach o numerach "k" względem wyrazów , które z definicji prawdopodobieństwa warunkowego są iloczynami gęstości prawdopodobieństwa uzyskania wyniku w próbie k, czyli f_k(x) przez prawdopodobieństwo danej próby p_k, która zależy od całkowitej liczby wszystkich pomiarów we wszystkich próbach i od ilości pomiarów w próbie o numerze "k":

f_{r}(x)=\sum _{k=1}^{n}f_{k}(x)p_{k}

(6.19)

Należy pamiętać, że gęstości prawdopodobieństwa f_k(x) rządzące w danej próbie, dla różnych prób mogą być one różne, ale nie muszą być. Podobnie ilość doświadczeń w danej próbie może być różna, ale tym samym może być różne p_k, ale też nie musi być tak oczywiście.

Dystrybuanta w rozkładzie cząstkowym i w próbach

Rozważając tylko k-tą próbę, dystrybuantę dla jednej zmiennej gęstości prawdopodobieństwa można wyznaczyć (patrz definicja: (2.7)) jako całkę od nieskończoności do wartości x, gdy funkcją podcałkową jest gęstości prawdopodobieństwa, która jest całkowana względem zmiennej losowej t.

F_{k}(x)=\int \limits _{-\infty }^{x}f_{k}(t)dt

(6.20)

Natomiast dla n-prób znając jakie jest prawdopodobieństwo pojedynczej próby o numerze k oraz z twierdzenia o prawdopodobieństwie warunkowych, że gęstość prawdopodobieństwa uzyskania wyników mniejszych niż x jest sumą iloczynu gęstości prawdopodobieństwa uzyskania danego wyniku z pewnego przedziału dla wartości mniejszych niż x pomnożonej przez prawdopodobieństwo opisujące daną próbę p_k:

F(x)=\sum _{k=1}^{n}F_{k}(x)p_{k}=\sum _{k=1}^{n}\int \limits _{-\infty }^{x}p_{k}f_{k}(t)dt=\int \limits _{-\infty }^{x}(\sum _{k=1}^{n}p_{k}f_{k}(t))dt=\int \limits _{-\infty }^{x}f_{r}(t)dt

(6.21)

Przy wyprowadzeniu wzoru (6.21), korzystaliśmy ze wzoru na całkowitą dystrybuantę (2.7) i wyznaczaliśmy ją dla n-prób w punkcie (6.21) oraz wiedząc, że całkowita gęstość prawdopodobieństwa rządzące n-próbami jest napisane wedle wzoru (6.19).

Średnia arytmetyczna i wartość oczekiwana przy n próbach

Wartość oczekiwaną (1.1) z j-tej próby z uzyskanych wyników pomiarów obliczamy jako iloraz sumy wszystkich wyników pomiarów uzyskanych w tej próbie przez liczbę wszystkich pomiarów w tej samej próbie:

{\overline {x}}_{j}={\sum _{i=1}^{n_{j}}x_{ij} \over n_{j}}

(6.22)

gdzie x_ij jest to pomiar i-ty próbie dla pomiaru w tej próbie o numerze j.

Wiemy jednak, że pomiary mogą się powtarzać z prawdopodobieństwem p_jk w próbie j-tej, zatem średnia ważona (1.4) (wartość oczekiwana w próbie) jest dla j-tej próby jest wyrażona jako suma prawdopodobieństwa uzyskania pomiaru x_jk przez prawdopodobieństwo tego pomiaru wspomniane wcześniej i ta średnia ważona jest:

{\overline {x}}_{j}=\sum _{k=1}^{n_{j}}p_{jk}x_{jk}

(6.23)

Dla m prób wartość średnia wszystkich wyników uzyskanych we wszystkich próbach, w rezultacie można przedstawić tą wielkość podobnie dla wzoru (6.23) dla pomiaru w próbie, tylko w tym przypadku mamy do czynienia ze średnią arytmetyczną danej próby pomiarów uzyskanych z prawdopodobieństwem p_j, jest przedstawiona:

{\overline {x}}={{\sum _{i=1}^{m}\sum _{j=1}^{n_{j}}x_{ij}} \over {\sum _{k=1}^{m}n_{k}}}={{\sum _{j=1}^{m}n_{j}{\overline {x}}_{j}} \over {\sum _{k=1}^{m}n_{k}}}{{{1} \over {n}} \over {{1} \over {n}}}={{\sum _{j=1}{{n_{j}} \over {n}}{\overline {x}}_{j}} \over {\sum _{k=1}^{m}{{n_{k}} \over {n}}}}={{\sum _{j=1}^{m}p_{j}{\overline {x}}_{j}} \over {\sum _{k=1}^{m}p_{k}}}=\sum _{j=1}^{m}p_{j}{\overline {x}}_{j}

(6.24)

We wzorze (6.24) skorzystaliśmy z faktu, że suma wszystkich prawdopodobieństw uzyskania z każdej z próby z osobna jest równa jeden, co udowodnimy we wzorze poniżej w punkcie (6.27).

Prawdopodobieństwo k-tej próby jest określone jako iloraz ilości wyników pomiarów w danej próbie n_k w próbie o numerze k przez liczbę wszystkich pomiarów w n próbach.

p_{k}={{n_{k}} \over {n}}\;

(6.25)

Oczywiste jest, że suma wszystkich pomiarów danych prób jest równa liczbie wszystkich pomiarów we wszystkich próbach:

n=\sum _{k=1}^{m}n_{k}

(6.26)

Ze wzoru (6.26) po podzieleniu go przez liczbę wszystkich pomiarów we wszystkich próbach n i korzystając z definicji prawdopodobieństwa k-tej próby (6.25) możemy napisać tożsamość, którą wcześniej z korzystaliśmy z niego.

1=\sum _{k=1}^{m}{{n_{k}} \over {n}}\Rightarrow 1=\sum _{k=1}^{m}p_{k}

(6.27)

co zostało wykorzystane w wyrażeniu (6.24)

Wzór przedstawiający wartość oczekiwaną pomiaru uzyskiwanej ze wszystkich prób zapisujemy jak dla wzoru (6.23), które można zapisać jako sumę, ale za pomocą wartości oczekiwanych dla każdej próby z osobna:

{\hat {x}}=\sum _{k=1}^{m}p_{k}{\hat {x}}_{k}

(6.28)

Średnia arytmetyczna dla funkcji złożonej H(x) jest napisana podobnie jak dla wzoru (6.28), ale zamiast wartości oczekiwanej E(x_k) jest wartość oczekiwana E(H(x_k).

E(H(x))=\sum _{k=1}^{m}p_{k}E(H(x_{k}))\;

(6.29)

Gdy dla poszczególnych prób występują zmienne losowe dyskretne, przy wykorzystaniu wzoru (6.23) na średnią arytmetyczną w próbie, wtedy średnia arytmetyczna wszystkich wyników we wszystkich próbach wyrażamy za pomocą prawdopodobieństwa uzyskania danej próby (6.25) i za pomocą prawdopodobieństwa uzyskania danego wyniku w próbie p_ki wyniku x_ki

{\overline {x}}=\sum _{k=1}^{m}p_{k}{\overline {x}}_{k}=\sum _{k=1}^{m}p_{k}\sum _{i=1}^{n_{k}}p_{ki}x_{ki}=\sum _{k=1}^{m}\sum _{i=1}^{n_{k}}p_{k}p_{ki}x_{ki}

(6.30)

Gdy dla poszczególnych prób uzyskujemy zmienne losowe ciągłe, co jest w zupełności spełnione dla bardzo dużych ilości pomiarów, i przy tym wykorzystując wzór (6.19) na gęstość uzyskania wyniku we wszystkich próbach f_r(x) otrzymujemy ten sam wzór co (6.28), ale na innej drodze wyprowadzenia.

{\hat {x}}=E(x)=\int \limits _{-\infty }^{\infty }xf_{r}(x)dx=\sum _{k=1}^{m}p_{k}\int \limits _{-\infty }^{\infty }xf_{k}(x)dx=\sum _{k=1}^{m}p_{k}{\hat {x}}_{k}

(6.31)

Wariancja i kwadrat z odchylenia standardowego dla n prób

Policzmy, jaka jest wariancja pomiaru wyniku (nie średniej z pomiarów w i-tej próbie) dla n prób przeprowadzonych przez różne zespoły, znając rozkłady prawdopodobieństwa uzyskanych pomiarów we wszystkich próbach f_k(x) (ogólnie rozkłady dla różnych prób nie muszą być jednakowe), znając także prawdopodobieństwo k-tej próby p_k (6.25), a także wartości oczekiwania uzyskanych wyników dla każdej próby z osobna E(x_k) i wartości oczekiwanej ${\hat {x}}=E(x)\;$ dla wszystkich próby razem policzone na podstawie wzoru (6.31). Zatem według ogólnej definicji wariancji (2.12), jako drugiego momentu statystycznego można napisać wariancję pomiaru dla zmiennej typu ciągłego "x" wszystkich pomiarów we wszystkich próbach razem wziętych:

\sigma ^{2}(x)=\int \limits _{-\infty }^{\infty }(x-{\hat {x}})^{2}f(x)dx=\int \limits _{-\infty }^{\infty }(x-{\hat {x}})^{2}\sum _{k=1}^{m}p_{k}f_{k}(x)dx=\sum _{k=1}^{m}p_{k}\int \limits _{-\infty }^{\infty }{\Big (}(x-{\hat {x}}_{k})+({\hat {x}}_{k}-{\hat {x}}){\Big )}^{2}f_{k}(x)dx=

=\sum _{k=1}^{m}p_{k}{\Bigg \{}\int \limits _{-\infty }^{\infty }(x-{\hat {x}}_{k})^{2}f_{k}(x)+\int \limits _{-\infty }^{\infty }({\hat {x}}_{k}-{\hat {x}})^{2}f_{k}(x)dx+2\int \limits _{-\infty }^{\infty }(x-{\hat {x}}_{k})({\hat {x}}_{k}-{\hat {x}})f_{k}(x)dx{\Bigg \}}

(6.32)

Ponieważ w ostatni składniku w nawiasie klamrowym wyraz w sumie (6.32) znika, ze względu na pierwszy moment statystyczny (3.13), który jest zawsze równy zerowy dla pomiarów występujących dla k-tej próby.

\int \limits _{-\infty }^{\infty }(x-{\hat {x}}_{k})({\hat {x}}_{k}-x_{0})f_{k}(x)dx=({\hat {x}}_{k}-{\hat {x}})\underbrace {\int \limits _{-\infty }^{\infty }(x-{\hat {x}}_{k})f_{k}(x)dx} _{0}=0

(6.33)

A więc po ważnym wyznaczeniu ostatniego składnika w sumie wewnątrz nawiasu klamrowego i jak udowodniliśmy, że jest on zawsze równy zero, zatem na podstawie tych wniosków wariancję pomiaru dla wszystkich prób napisanej wedle (6.32) możemy dokończyć obliczenia na tą wielkość idąc od obliczeń wspomnianych wcześniej:

\sigma ^{2}(x)=\sum _{k=1}^{m}p_{k}{\Bigg \{}\int \limits _{-\infty }^{\infty }(x-{\hat {x}}_{k})^{2}f_{k}(x)dx+({\hat {x}}_{k}-{\hat {x}})^{2}\int \limits _{-\infty }^{\infty }f_{k}(x)dx{\Bigg \}}=\sum _{k=1}^{m}p_{k}{\bigg \{}\sigma _{k}^{2}+({\hat {x}}_{k}-{\hat {x}})^{2}{\bigg \}}

(6.34)

gdzie:

$\sigma _{k}^{2}\;$ jest to wariancja uzyskanych pomiarów w k-tej próbie.

Wyznaczmy wariancję wszystkich prób średniej arytmetycznej od wartości oczekiwanej ${\hat {x}}\;$ wykorzystując definicję wariancji, a także definicję wartości średniej uzyskanych pomiarów we wszystkich próbach (6.24) i prawdopodobieństwa, że dana próba jest z prawdopodobieństwem p_k:

\sigma ^{2}({\overline {x}})=E\left({({\overline {x}}-{\hat {x}})}^{2}\right)=E\left[\left(\sum _{k=1}^{m}p_{k}{\overline {x}}_{k}-{\hat {x}}\right)^{2}\right]=E\left[\left(\sum _{k=1}^{m}{{n_{k}} \over {n}}{\overline {x}}_{k}-{\hat {x}}\right)^{2}\right]=E\left[\left({{\sum _{k=1}^{m}n_{k}{\overline {x}}_{k}-n{\hat {x}}} \over {n}}\right)^{2}\right]=\;

=E\left[\left({{\sum _{k=1}^{m}n_{k}{\overline {x}}_{k}-\sum _{k=1}^{m}n_{k}{\hat {x}}} \over {n}}\right)^{2}\right]=E\left[\left(\sum _{k=1}^{m}{{n_{k}} \over {n}}({\overline {x}}_{k}-{\hat {x}})\right)^{2}\right]=E{\Bigg [}\sum _{k=1}^{m}{{n_{k}^{2}} \over {n^{2}}}({\overline {x}}_{k}-{\hat {x}})^{2}+\;

+\sum _{i,j=1;i\neq j}^{m}{{n_{i}n_{j}} \over {n^{2}}}({\overline {x}}_{i}-{\hat {x}})({\overline {x}}_{j}-{\hat {x}}){\Bigg ]}=\sum _{k=1}^{m}{{n_{k}^{2}} \over {n^{2}}}E\left[({\overline {x}}_{k}-{\hat {x}})^{2}\right]+\sum _{i,j;i\neq j}^{m}{{n_{i}n_{j}} \over {n^{2}}}E\left[({\overline {x}}_{i}-{\hat {x}})({\overline {x}}_{j}-{\hat {x}})\right]=\sum _{k=1}^{m}{{n_{k}^{2}} \over {n^{2}}}E{\Big (}({\overline {x_{k}}}-{\hat {x}})^{2}{\Big )}=\;

=\sum _{k=1}^{m}{n_{k}^{2} \over n^{2}}\sigma ^{2}({\overline {x}}_{k})=\sum _{k=1}^{m}\left({n_{k} \over n}\right)^{2}\sigma ^{2}({\overline {x}}_{k})=\sum _{k=1}^{m}p_{k}^{2}\sigma ^{2}({\overline {x}}_{k})\Rightarrow \sigma ^{2}({\overline {x}})=\sum _{k=1}^{m}p_{k}^{2}\sigma ^{2}({\overline {x}}_{k})

(6.35)

gdzie $\sigma ({\overline {x}}_{k})\;$ jest to wariancja średniej w próbie o numerze k-tej.

Widzimy, że wzór na wariancję średniej arytmetycznej uzyskanych wyników pomiarów we wszystkich próbach jest sumą iloczynu kwadratu prawdopodobieństwa k-tej próby p_k (6.25) przez wariancję uzyskania średniej arytmetycznej ${\overline {x}}_{k}\;$ w próbie o numerze "k".