Statystyka matematyczna/Metoda największej wiarygodności
Licencja
|
---|
Autor: Mirosław Makowiecki
Absolwent UMCS Fizyki Komputerowej Uniwersytetu Marii Curie-Skłodowskiej w Lublinie Email: miroslaw(kropka)makowiecki(małpa)gmail(kropka)pl Dotyczy: książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami. Użytkownika książki, do której należy ta strona, oraz w niej zawartych stron i w nich podstron, a także w nich kolumn, wraz z zawartościami nie zwalnia z odpowiedzialności prawnoautorskiej nieprzeczytanie warunków licencjonowania. Umowa prawna: Creative Commons: uznanie autorstwa, na tych samych warunkach, z możliwością obowiązywania dodatkowych ograniczeń. Autor tej książki dołożył wszelką staranność, aby informacje zawarte w książce były poprawne i najwyższej jakości, jednakże nie udzielana jest żadna gwarancja, czy też rękojma. Autor nie jest odpowiedzialny za wykorzystanie informacji zawarte w książce, nawet jeśli wywołaby jakąś szkodę, straty w zyskach, zastoju w prowadzeniu firmy, przedsiębiorstwa lub spółki bądź utraty informacji, niezależnie czy autor (a nawet Wikibooks) został powiadomiony o możliwości wystąpienie szkód. Informacje zawarte w książce mogą być wykorzystane tylko na własną odpowiedzialność. |
Podręcznik: Statystyka matematyczna.
Metoda najmniejszej wiarygodności zajmuje się gęstością uzyskania danego pomiaru w zależności od estymowanego parametru, a także zajmuje się ilorazem wiarygodności, czy nawet funkcją wiarygodności zależącą od parametru estymowanego .
Iloraz wiarygodności, funkcje i logarytmiczne funkcje wiarygodności
edytujNiech estymowanym parametrem będzie n-wymiarowy wektor, to wartość oczekiwana estymatora S(x1,x2,...,xn) (6.1), którego elementy można przedstawić w postaci ogólnej λi:
A także niech mamy też macierz o "n" kolumnach, który każdy wiersz przedstawia "n" wyników uzyskanych w wyniku doświadczenia, który każdy taki pomiar charakteryzuje inną wielkość fizyczną, a tych serii jednoczesnych pomiarów różnych wielkości fizycznych jest "m":
Niech mamy gęstość prawdopodobieństwa, że w pomiarze uzyskamy ściśle określony macierz pomiarów (x1,x2,...,xn) (7.2) w zależności od estymowanego wektora (λ1,λ2,...,λn) napisanych w punkcie (7.1), zatem nasz rozważany obiekt statystyczny można napisać ogólnie:
Infinitezymalne prawdopodobieństwo uzyskania jednocześnie macierzy pomiarów dla macierzy o "n" kolumnach różnych "n" wielkości fizycznych (7.2) w kolejnych seriach jest:
Jeśli nasze doświadczenie jest przeprowadzone w n-próbach, to nasze infinitezymalne prawdopodobieństwo, w analogii do wzoru (7.4) uzyskania różnych wielkości fizycznych wyników pomiarów w danej próbie w zależności od numeru próby "i" i wektora parametrów estymowanych (7.1) jest napisana według wyrażenia zależnego od wspomnianego wskaźnika:
Wektor uzyskania wyników n różnych pomiarów uzyskanych w danej próbie o numerze "i" jest przestawiona symbolem , która jest wielkością statystyczną napisanej w punkcie (7.5).
Ilorazem wiarygodności nazywamy iloraz iloczynu N funkcji gęstości prawdopodobieństwa, których każda zależy od wektora n-wymiarowego pomiarów różnych wielkości fizycznych (7.2) uzyskanych w danej próbie, dla którego ta gęstość prawdopodobieństwa dotyczy. Natomiast wszystkie te gęstości prawdopodobieństwa zależą od tego samego wektora estymowanych parametrów (7.1). Należy pamiętać, że w ilorazie wiarygodności w mianowniku występuje ten sam wyraz co w liczniku, ale dla innego wektora estymowanych parametrów estymowanych :
Funkcją wiarygodności nazywamy funkcję zdefiniowanej w postaci iloczynu funkcji gęstości prawdopodobieństwa dla poszczególnych prób "i" przy danym wektorze parametru estymowanego, których jak powiedziano wcześniej, każda taka gęstość prawdopodobieństwa zależy od wektora pomiarów (7.1) wykonanych w danej próbie o numerze "i"
Logarytmiczną funkcją wiarygodności nazywamy logarytm naturalny funkcji wiarygodności L zdefiniowanych w punkcie (7.7), która jak można udowodnić, można ją przedstawić jako suma logarytmów gęstości prawdopodobieństwa dla poszczególnych prób:
Pochodną logarytmiczną gęstości prawdopodobieństwa dla próby i-tej nazywamy funkcję, która jest pochodną kierunkową funkcji logarytmicznej (7.8) względem parametru estymowanego i jak można udowodnić, że jest to iloraz pochodnej kierunkowej funkcji gęstości prawdopodobieństwa policzonej przy parametrze podzielonej przez funkcję gęstości prawdopodobieństwa "f":
W rozważanym wzorze przyjmowaliśmy, że: jest to pochodna logarytmiczna gęstości prawdopodobieństwa względem parametru estymowanego (7.1) dla próby i-tej. Wielkość statystyczna jest wektorem n-wymiarowym, i posiada elementów tyle co ilość estymowanych elementów wektora (7.1). Zatem pochodna funkcji logarytmicznej (7.8) nazywamy funkcję:
Gdy rozważamy logarytmiczną funkcją wiarygodności (7.8), to możemy wyznaczyć najlepsze parametry estymowane (7.1), w tym celu należy wyznaczyć pochodną cząstkową względem parametru , jeśli parametrów estymowanych jest jeden, dla danego elementu jednowymiarowego wektora estymowanego, dla której logarytmiczna funkcja wiarygodności przejmuje wartość ekstremalną (w tym przypadku maksymalną), dla której pochodna funkcji logarytmicznej funkcji warygodności przyjmuje wartość zero. W ogólnym przypadku, gdy wektor estymowanych parametrów nie jest jednowymiarowy, tylko ma n-parametrów, to pochodna kierunkowa funkcji (7.8) względem wektora parametrów estymowanych (7.1), który jest jak w matematyce napisana z definicji, jest równy n-wymiarowemu wektorowi, która każdy taki element przedstawia pochodną cząstkową funkcji "l" względem innej współrzędnej .
Jeśli chcemy wyznaczyć najbardziej prawdopodobne parametry estymowane, to każdą taką pochodną cząstkową w n-wymiarowym wektorze należy przyrównać do zera i mając n równań możemy wyznaczyć te parametry.
Estymatory o minimalnym obciążeniu względem parametru λ
edytujEstymator S (6.1) nazywamy nieobciążonym, jeśli jego wartość oczekiwana jest równa wartości estymowanego parametru. Wariancja estymowanego parametru zgodnie (6.3) wynosi zero, jeśli ten estymator jest zgodny. Ale my tym razem przyjmijmy, że tak nie jest, ale weźmy tym razem, że funkcja B(λ) (definicja poniżej) jest liczbą możliwie najmniejszą (nie musi być równa zero), wtedy jego pochodna zupełna względem tego parametru estymowanego przyjmowała wartość zero (ale tym razem parametr estymowany (7.1) jest wektorem jednoelementowym, niż w poprzednim podrozdziale). Funkcję B(λ) definiujemy jako różnicę wartości estymatora S i wartości estymowanej λ.
Powyższe stwierdzenia są niewystarczający by stwierdzić, by S był dobrym estymatorem, należało by także zażądać, by wariancja estymowanego parametru przyjmowała wartość najmniejszą, a w szczególnym przypadku ma przyjmować wartość według wzoru napisanego (6.3).
Aby wyznaczyć funkcję rozkładu gęstości prawdopodobieństwa w N próbach przy pomocy cząstkowych funkcji rozkładu w poszczególnych próbach gęstości prawdopodobieństwa, których każda zależy od wektora pomiarów w danej próbie i od jednakowego jednowymiarowego parametru estymowanego:
Wartość oczekiwania naszego estymatora S, która jest napisana względem N wektorów pomiarów napisanej dla każdej próby, względem funkcji prawdopodobieństwa zdefiniowanej w punkcie (7.13) i ta wielkość statystyczna przyjmuje postać:
Po zróżniczkowaniu wartości oczekiwanej (7.14) w względem parametru estymowanego λ i wykorzystując przy tym tożsamość (7.12):
Korzystając z definicji (7.10) na pochodną logarytmiczną gęstości funkcji prawdopodobieństwa obowiązującego w N próbach razem, który napiszemy dla jednej wartości estymowanej λ, czyli funkcja l', wtedy wzór (7.15) przechodzi w równoważne równanie:
Całkowita gęstość prawdopodobieństwa uzyskania jakikolwiek wyniku dla ściśle określonej próby jest ściśle określona i jest równa 1, co powinno być zrozumiałe zgodnie definicją gęstości funkcji prawdopodobieństwa:
Znając własność (7.17), to całkowita gęstość prawdopodobieństwa uzyskania jakikolwiek wyniku w n-próbach, jak można udowodnić dla całej całej przestrzeni też jest równe jeden.
Według tożsamości wynikających z obliczeń (7.18) jesteśmy pewni przepisując nasz wniosek, że jest spełniony wzór:
Różniczkując za pomocą pochodnej cząstkowej tożsamość udowodnioną wcześniej i przedstawionej w punkcie (7.19) względem parametru λ, który jest estymowanym parametrem, wtedy dostajemy inną równoważną tożsamość, jeśli przy tym wykorzystamy wzór (7.10) i policzymy jego wartość oczekiwaną, którą jak udowodnimy w naszym przypadku jest równa zero:
Doszliśmy do wniosku, że wartość oczekiwana funkcji l' jest równa na pewno zero. Zgodnie ze wzorem (7.16) i tożsamości udowodnionej (7.20), która jest równa zero, co wykorzystamy poniżej, zatem dochodzimy do wniosku, że zachodzi inna tożsamość, ale wynikającego z poprzednich rozważań:
Napiszmy pomocnicze wyrażenie poniżej, które trywialnie można udowodnić. Jak wiemy lewa strona równości na podstawie, że (ax+y)2 jest zawsze dodatnia. Z dodatniości gęstości prawdopodobieństwa wynika, że wartość oczekiwana E[(ax+y)2] jest wielkością zawsze dodatnią dla każdego parametru "a":
Z powyższych oczekiwań wartość oczekiwana (7.22) ma wartość zawsze nieujemną, tzn. powyższe równanie można potraktować jako dwumian kwadratowy względem parametru "a", którego Δ jest zawsze niedodatnia przy parametrze a≥ 0, wtedy równanie kwadratowe (7.22) przyjmuje wartości nieujemne:
Ze wzoru (7.23) dochodzimy do wniosku, że spełnione jest równanie wynikające ze wspomnianej nierówności:
Nierówność (7.24) jest nazywana nierównością Cauchy-Schwarza. Korzystając z nierówności (7.24) dochodzimy do wniosku, że według wzoru (7.21) można wywnioskować pewną nierówność:
Policzmy wartość oczekiwaną kwadratu wartości funkcji (7.10), z oczywistych powodów możemy napisać przekształcając to właśnie wyrażenie:
Policzmy drugi wyraz równości w końcowych obliczeniach w punkcie (7.26), który jak się przekonamy jest równa zero. Oczywiście wartość oczekiwana funkcji φ dla różnych prób jest równa iloczynowi wartości oczekiwanych dla każdej z prób z osobna. Dlatego tak się dzieje, ponieważ wartości oczekiwane są liczone względem n-wymiarowego wektora pomiarów, dla każdej niezależnej próby pomiarów, zatem na podstawie wzoru (5.9) można tak zrobić.
Dla każdego czynnika wyrażenia występującego w równaniu (7.27), korzystając przy tym ze wzoru (7.9) i normowania funkcji gęstości prawdopodobieństwa dla i-tej próby (7.17), dochodzimy więc do wniosku:
Ostatecznie wyrażenie (7.26) na podstawie obliczeń (7.27), a potem (7.28), przyjmuje postać:
Wiadomo, jednak ze wzoru (7.9) i jeśli z niego policzymy wartość oczekiwaną i na podstawie oczywistej tożsamości (7.17) można oczywiście udowodnić, że ta tożsamość jest zapisywana:
Wyznaczmy tożsamość napisana poniżej, która będzie nam bardzo potrzebna w poniższych obliczeniach, zatem korzystając z wiadomości z rachunku na pochodnych:
Korzystając ze wzoru (7.31) wyrażenie (7.29) możemy zapisać w innej równoważnej postaci do niego:
Zdefiniujmy podstawienie jako funkcję I(λ) zależącej od wartości oczekiwanej funkcji l'2 zdefiniowanej w punkcie (7.32), zatem:
Wariancji estymatora S zdefiniowana jako wartość oczekiwana kwadratu odchylenia (S-E(S))2 względem gęstości prawdopodobieństwa n-prób (7.13) piszemy wedle schematu:
oraz z (7.33), dostajemy wzór:
Jeśli wykorzystamy udowodnioną nierówność (7.25) a potem z definicji wariancji estymatora S i oznaczenia (7.33), dochodzimy wtedy do wniosku:
Powyższą nierówność nazywamy nierównością informacyjną. Jeśli B(λ) jest zdefiniowana według wzoru (7.12) i przyjmuje wartość najmniejszą, wtedy mamy najlepsze dopasowanie parametru estymowanego λ z warunkiem ekstremum B'(λ)=0, to wzór (7.36) ze znikającą pierwszą pochodną funkcji B(λ) jest zapisywany:
Zapytajmy siebie, jaka jest najmniejsze ograniczenie na B'(λ), co zachodzi to wtedy, gdy σ(S) zdefiniowanej wedle wzoru (7.34) przyjmuje wartość najmniejszą, czyli według wzoru (7.25), którego nierówność należy zastąpić równością, wtedy wyróżnik trójmianu (7.23) przyjmuje wartość równą zero. Na podstawie wiadomości z algebry dostajemy, że wartość oczekiwana wyrażenia (a+y)2 jest równa zero, tzn. zachodzi:
W którym położono na podstawie wcześniejszych rozważań, że x=S-E(S) oraz y=l', to ze wzoru (7.38) można powiedzieć na pewno z nieujemności gęstości prawdopodobieństwa, dzięki której liczymy wartość oczekiwaną, otrzymujemy że wyrażenie z której liczymy wartość oczekiwaną jest równa zero.
To wtedy z tożsamości końcowej (7.39) możemy wyznaczyć wyrażenie na l', które możemy napisać:
Wyrażenie (7.40) możemy przecałkować obustronnie względem parametru estymowanego λ, otrzymując końcowe wyrażenie zależne od estymatora S i stałych zależnych lub niezależnych od parametru λ, zatem:
Ze wzoru (7.8) oraz z wyprowadzonego wyrażenia (7.41) możemy napisać funkcję L, którą zapiszemy poniżej, która jest gęstością prawdopodobieństwa uzyskania pewnych pomiarów w N próbach, wyrażona wzorem:
Korzystamy ze wzoru (7.40), wtedy wartość oczekiwana tego wyrażenia względem gęstości prawdopodobieństwa N prób jest napisana:
Jeśli wyrażenie na wartość oczekiwaną l'2 podstawimy do nierówności (7.37), która staje się nierównością dla najmniejszego z możliwych dla wariacji σ(S) i biorąc definicję funkcji I(λ) (7.33), wtedy dostajemy nierówność na to obciążenie estymatora S:
Mnożąc obustronnie przez σ2(S) równość (7.44), wtedy dostajemy równoważny wzór:
Co pierwiastkując obustronnie pierwiastkiem drugiego stopnia równość (7.45), wtedy dostajemy że najmniejsza wariancja estymatora S spełnia warunek:
Czyli najmniejsza wartość dla wariancji estymatora S dla której zachodzi warunek (7.46) zależy od parametru λ wartości estymowanej.
Estymacja dla jednego estymowanego parametru
edytujNiech pochodna funkcji wiarygodności (7.7) w punkcje parametru estymatora λ0 jest równa zero, a która jest pochodną funkcją gęstości prawdopodobieństwa dla N-prób (7.7) w tym punkcie, bo mamy doczynienia z parametrem λ najbardziej prawdopodobnym, czyli dla tej wartości funkcja gęstości prawdopodobieństwa dla N-prób (7.7) przyjmuje wartość maksymalną z wiadomości o ekstremum z analizy matematycznej.
Drugą pochodną "l" względem najbardziej prawdopodobnego parametru λ0można wyrazić w innej postaci, jeśli skorzystamy ze wzoru (7.32) i potem po wyrażeniu jej w końcu przy pomocy wyrażenia (7.33) w wspomnianym punkcie, co ta wielkość jest wielkością stałą, zatem możemy ją wyrazić względem parametru b-2.
Rozłóżmy pochodną logarytmicznej funkcji wiarygodności (7.8) w szereg Taylora korzystając wtedy z obliczeń (7.48), dostajemy równość:
We wzorze (7.49) z korzystaliśmy, ze pierwsza pochodna (7.47) przyjmuje wartość zerową dla punktu λ, a także korzystaliśmy ze wzoru (7.48), która jest wyznaczona dla punktu λ0, zatem logarytmiczna funkcja wiarygodności na podstawie obliczeń (7.49), dla której policzymy całkę wspomnianego wyrażenia względem parametru λ, przedstawia się ona wzorem:
Funkcja wiarygodności (7.7) wychodząc ze wzoru (7.50) przyjmuje kształt:
Wzór (7.51) nazywamy rozkładem normalnym (Gaussa).
Estymacja dla kilku estymowanych parametrów
edytujFunkcje wiarygodności można potraktować również jako funkcję n-wielowymiarowego wektora parametrów estymowanych, które są podane w punkcie poniżej:
Rozłóżmy funkcje wiarygodności (7.8) w szereg Taylora dla wielu zmiennych względem λi, dostając:
Pierwsze pochodne przyjmują wartość zerową, ponieważ parametry λ0i są najbardziej prawdopodobne zgodnie (7.11), czyli są tak dobrane, by funkcja wiarygodności osiągała wartość maksymalną.
Można udowodnić, że funkcja logarytmiczna wiarygodności wynikających z obliczeń (7.53) przyjmuje ową postać:
W logarytmicznej funkcji wiarygodności (7.54) obrywamy wszystkie wyrazy, które są pochodnymi większego rzędu niż dwa, zatem funkcja wiarygodności (7.7) w tym przypadku przyjmuje takową postać:
Macierz B we wzorze na funkcję wiarygodności (7.55) jest zależna od drugich pochodnych logarytmicznej funkcji wiarygodności (7.8), która ta macierz jest wzięta z minusem:
Można udowodnić, że odwrotność macierzy (7.56) przyjmuje wygląd podanych według wzoru poniżej, który jakoby jest wartością oczekiwaną z pewnej funkcji macierzowej, która jest definicją kowariancji wedle jej definicji (4.34):
- Co powyższe twierdzenie jest udowodnione w rozdziale wielowymiarowym twierdzeniu normalnym, którego końcowy wynik jest podany w punkcie (13.21) oraz że wartością oczekiwaną rozkładu (7.55) jest wektor wartości dokładnych zmiennej wektorowej .