Statystyka matematyczna/Twierdzenie o rozkładzie hipergeometrycznym

Statystyka matematyczna
Statystyka matematyczna
Twierdzenie o rozkładzie hipergeometrycznym

Licencja
Autor: Mirosław Makowiecki
Absolwent UMCS Fizyki Komputerowej Uniwersytetu Marii Curie-Skłodowskiej w Lublinie
Email: miroslaw(kropka)makowiecki(małpa)gmail(kropka)pl
Dotyczy: książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami.
Użytkownika książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami nie zwalnia z odpowiedzialności prawnoautorskiej nieprzeczytanie warunków licencjonowania.
Umowa prawna: Creative Commons: uznanie autorstwa, na tych samych warunkach, z możliwością obowiązywania dodatkowych ograniczeń.
Autor tej książki dołożył wszelką staranność, aby informacje zawarte w książce były poprawne i najwyższej jakości, jednakże nie udzielana jest żadna gwarancja, czy też rękojma. Autor nie jest odpowiedzialny za wykorzystanie informacji zawarte w książce, nawet jeśli wywołaby jakąś szkodę, straty w zyskach, zastoju w prowadzeniu firmy, przedsiębiorstwa lub spółki bądź utraty informacji, niezależnie czy autor (a nawet Wikibooks) został powiadomiony o możliwości wystąpienie szkód. Informacje zawarte w książce mogą być wykorzystane tylko na własną odpowiedzialność.


Następny rozdział: Twierdzenie o rozkładzie Poissona. Poprzedni rozdział: Twierdzenie o rozkładzie χ².

Podręcznik: Statystyka matematyczna.

Rozkład hipergeometrycznym jest to rozkład, w której w "n" losowań ma paść "k" klocków o właściwości i l klocków o właściwości podczas losowania z urny mających K klocków.

Wzór na rozkład hipergeometryczny

edytuj

Załóżmy, że mamy N kul, przy czym K kul ma własność pierwszą, i L kul ma własność drugą, losujemy z takiej kombinacji n kul, ale i kul o własności pierwszej, i l kul o własności drugiej, także ilość wylosowanej z właściwością pierwszą i drugą razem jest równa ilości przeprowadzonych doświadczeń n, czyli powinno być i+l=n, a ilość kul o właściwościach pierwszych i drugich jest równa ilości wszystkich kul N, czyli zachodzi K+L=N, a więc prawdopodobieństwo uzyskania takiego wyniku przy losowaniu pewnej ilości kul o właściwości L i K przy n doświadczeniach jest określana przez formułę:

(16.1)

Wartość oczekiwana rozkładu hipergeometrycznego

edytuj

Policzmy teraz wartość oczekiwaną rozkładu hipergeometrycznego zdefiniowanej w punkcie (16.1) mówiącej jaka jest średnia z wylosowanych kul o właściwości K, zatem wiedząc, że wspomniany rozkład jest rozkładem dyskretnym, przestawiamy tą średnią wedle definicji (2.11), gdy xi można zapisać jako zmienna "i":


(16.2)

Dokonajmy podstawienia wedle schematu i'=i-1 do naszych obliczeń (16.2), które przeprowadzamy w celu wyznaczenia jego postaci zwartej:



(16.3)

Wartość oczekiwana zmiennej "i" jest wprost proporcjonalna do liczby losować "n", i do ilości kul o właściwości K przez ilość wszystkich kul N. Z definiujmy nową wielkość zwaną jakie jest prawdopodobieństwo wylosowania kul o właściwości K.

(16.4)

Wtedy na podstawie definicji (16.4) wzór (16.3) przyjmuje postać:

(16.5)

Czyli ten sam wzór otrzymaliśmy według (16.5) taki sam jak zapisaną w punkcie (10.6), który jest wartością oczekiwaną dla dyskretnego rozkładu rozkładu Bernoulliego.

Wariancja rozkładu hipergeometrycznego

edytuj

Wariancję w sposób ogólny zapisujemy wedle wzoru (3.19), wtedy musimy policzyć dodatkowo średnią i2, a średnią zmiennej losowej "i" już mamy policzoną w punkcie (16.5). Policzmy wartość oczekiwaną kwadratu zmiennej losowej i2.


(16.6)

Dokonajmy podstawienia wedle schematu i'=i-1, czyli i=i'+1 do naszych obliczeń (16.6), które przeprowadzamy w celu wyznaczenia jego postaci zwartej:





(16.7)

Wyznaczmy pierwszy wyraz występującej w końcowych rozważaniach (16.7) w postaci zwartej. Jeśli wyznaczymy jego postać, to wtedy ona posłuży nam do wyznaczania zwiniętej postaci powyższych obliczeń. Za punkt wyjścia weźmy pierwszy składnik sumy (16.7), czyli:

(16.8)

Dokonajmy podstawienia wedle schematu i'=i-1 do naszych obliczeń (16.8).


(16.9)

Zbierając wszystkie obliczenia przeprowadzonych w punkcie (16.9), które dokonaliśmy dla wyrażenia (16.8), zatem postać zwarta obliczeń (16.7) dla wartości oczekiwanej z wyrażenia i2 jest napisana wedle:

(16.10)

A teraz dobierzmy się do liczenia wariancji mając już obliczone wzory na wartość oczekiwaną zmiennej "i" (16.5) i wartości oczekiwanej zmiennej i2 (16.10), to na podstawie wzoru (3.19) wielkość wariacji możemy napisać jako:




(16.11)

Po krótkich przekształceniach w punkcie (16.11), otrzymujemy wariancję zmiennej losowej "i", czyli kwadrat średniego odchylenie standardowego zapisaną przy pomocy zmiennych n, K, N, których oznaczenia wytłumaczyliśmy powyżej:

(16.12)

Rozkład Bernoulliego jako szczególny przypadek rozkładu hipergeometrycznego

edytuj

Przekształćmy wzór na wariancję σ2 zmiennej "i", wychodząc od wzoru (16.12) w taki sposób, by w nim występowały stosunki K/N, co w sposób odpowiedni do poprzedniej tożsamości:

(16.13)

Jeśli wykorzystamy definicję wielkosci "p" według wzoru (16.4), a także że prawdopodobieństwo zdarzenia przeciwnego przez q=1-p, wtedy wzór (16.13):

(16.14)

Gdy liczba klocków N jest o wiele większa niż ilość przeprowadzonych doświadczeń na układzie statystycznym, wtedy wzór (16.14) zapisujemy w sposób przybliżony wedle:

(16.15)

Gdy liczba klocków jest bardzo duża od liczby klocków wylosowanych, to wariancja zmiennej "i" (16.15) przechodzi wariancję w rozkładzie Bernoulliego (10.11), wtedy wartości oczekiwane jak i wariacje w przybliżeniu w tych w dwóch rozkładach są takie same, tzn. (16.5) (rozkład hipergeometrycznym) i (10.6) (rozkład Bernoullego).