Matematyka dla liceum/Rachunek prawdopodobieństwa/Elementy statystyki opisowej

Elementy statystyki opisowej

edytuj

Statystyka - wstęp

edytuj

Statystyka zajmuje się badaniem cech danego zbioru obiektów, tj. populacji.

Z uwagi na to, że jej liczebność może być znaczna i uniemożliwiać przeprowadzenie badania, zwykle trzeba ograniczyć się do podzbioru o mniejszej ilości, zwanego próbą.

Do przedstawienia danych można użyć jednej z trzech form: tabelki, diagramu lub wykresu. Można także wyróżnić dwa szczególne diagramy:

  • histogram liczebności – oparty jest na tabelce zawierającej: (na co wskazuje nazwa – "liczebność") poszczególne 'wyniki pomiaru' oraz 'liczebność danego wyniku' (np. rodzaje ocen i ilość każdej z nich).
  • histogram częstości – podobny, jednak zamiast liczebności występują częstości względne – liczebność jest zastąpiona jej stosunkiem do łącznej liczby wyników (np. ilość 3, gdy suma wyników wynosi 10, w przypadku tego diagramu zapisana jest jako 3/10).

Szereg rozdzielczy

edytuj

Gdy liczba danych jest znaczna, można dokonać ich klasyfikacji, polegającej na określeniu klas, na które zostaną podzielone nasze dane. Wówczas klasy –czyli wyznaczone przedziały - będą w przybliżeniu reprezentować zgromadzone wartości. Jedną z metod klasyfikacji danych jest: określenie ilości klas, wyznaczenie długości każdej klasy, stworzenie klas i przyporządkowaniu im wartości.
1. liczba klas   

n – ilość danych

2. długość klasy    

  – największa i najmniejsza wartość

3. Tworzymy K przedziałów długości L, lewostronnie domkniętych i prawostronnie otwartych, tak aby pokryły wszystkie wartości.
4. Obliczamy liczebność klas (ile wartości należy do każdej klasy).

Dane przedstawione w postaci klas i ich liczebności nazywa się szeregiem rozdzielczym.
Można przyjąć, że histogram liczebności jest również przedstawieniem szeregu rozdzielczego (o jednowartościowych klasach).

Średnia

edytuj
  • Gdy dane zawierają jedynie wartości, obliczamy średnią arytmetyczną:
 
  • W przypadku danych zawierających wartości wraz z wagami, obliczamy średnią ważoną:
 
    -waga i-tej wartości
  • Średnią dla danych zawierających wartości i ich liczebność obliczamy jako średnią ważoną, podstawiając w miejscu wag liczebość danej wartości:
 
    -liczebność i-tej wartości
  • Średnią dla szeregu rozdzielczego liczymy również jako średnią ważoną, używając   - środka i-tej klasy w miejscach wag:
 
    -środek i-tej klasy (tzn połowa z sumy wartości lewego i prawego końca i-tej klasy)

Mediana

edytuj

Jeśli spróbujemy znaleźć wartość cechy najbardziej 'przeciętnej’, konkretnie – wartość środkowego elementu, będziemy szukać właśnie mediany.

  • Gdy dane zawierają jedynie wartości, medianą jest środkowy element w ciągu, uporządkowanym niemalejąco (1 3 5...), lub średnia dwóch środkowych elementów w ciągu:
  dla nieparzystego n
lub
  dla parzystego n
Zamiast wzorów wystarczy zapamiętać "medianą jest środkowa wartość w ciągu (uporządkowanym niemalejącym)", a jeśli n jest parzyste: "medianą jest średnia dwóch środkowych w ciągu".
Pozostaje znaleźć w ciągu medianę - jako wartość na pozycji Me.
  • Jeśli dane zawierają wartości wraz z ich liczebnością – postępujemy podobnie, jednak uwzględniamy w ciągu liczebność wyników (np. 1 3 5 5 7 7 7).
  • W przypadku szeregu rozdzielczego:
1. oblicza się dla kolejnych klas liczebność skumulowaną     (jest to suma liczebności od 1. do i-tej klasy),
2. określa się pozycję mediany wg wzoru (zmienionego):   oraz okreśa, w której klasie ta pozycja się znajduje,
3. szacuje się medianę wg wzoru
 
   – lewy koniec tej klasy, do której należy mediana
   - liczebność skumulowana klasy poprzedzającej klasę z medianą
   –liczebność klasy ‘z medianą’
   –długość klasy ‘z medianą’
Alternatywą jest użycie wzoru
 
   – analogicznie, prawy koniec klasy
   – liczebność skumulowana klasy 'z medianą' oraz klasy ostatniej (tzn. f = n)

Odchylenie standardowe

edytuj

Jest to wartość przybliżająca jak bardzo wartości odbiegają od średniej. Używanym terminem jest również wariancja, jest to odchylenie stand. do kwadratu. Brane pod uwagę będą różnice pomiędzy kolejnymi wartościami xi i średnią, podniesione do kwadratu, tzn.  .

Wariancja jest średnią arytmetyczną tychże kwadratów różnic pomiędzy wartościami a średnią. Obliczyć ją można z odchylenia (podnosząc je do kwadratu), wobec czego ograniczymy się do wzoru dla tej drugiej wartości. Oznaczamy jako  .

Odchylenie standardowe

  • Dla danych zawierających tylko wartości lub wartości i ich liczności – używamy wzoru na średnią arytmetyczną kwadratów różnic, znajdującą się pod pierwiastkiem. W pierwszym przypadku, za   podstawiamy 1.
 
    -liczność danej klasy
    -średnia
  • W przypadku danych w postaci szerego rozdzielczego – używamy powyższego wzoru, w miejsce wartości   wstawiając środki klas  
 
    -środek i-tej klasy


> Rozwiązane zadania