Dystrybucja empiryczna. Dystrybuanta empiryczna, właściwości Przykład funkcji rozkładu empirycznego

Wykład 13. Pojęcie szacunków statystycznych zmiennych losowych

Niech będzie znany statystyczny rozkład częstości cechy ilościowej X. Oznaczmy przez liczbę obserwacji, w których zaobserwowano wartość cechy mniejszą od x i przez n całkowitą liczbę obserwacji. Oczywiście względna częstotliwość zdarzenia X< x равна и является функцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Dystrybucja empiryczna(funkcja rozkładu próby) to funkcja, która dla każdej wartości x określa względną częstotliwość zdarzenia X< x. Таким образом, по определению ,где - число вариант, меньших x, n – объем выборки.

W przeciwieństwie do empirycznej funkcji rozkładu próby, funkcję rozkładu populacji nazywa się teoretyczna funkcja dystrybucji. Różnica między tymi funkcjami polega na tym, że określa je funkcja teoretyczna prawdopodobieństwo wydarzenia X< x, тогда как эмпирическая – częstotliwość względna to samo wydarzenie.

Wraz ze wzrostem n względna częstotliwość zdarzenia X< x, т.е. стремится по вероятности к вероятности этого события. Иными словами

Własności dystrybuanty empirycznej:

1) Wartości funkcji empirycznej należą do segmentu

2) - funkcja niemalejąca

3) Jeśli jest najmniejszą opcją, to = 0 dla , jeśli jest największą opcją, to = 1 dla .

Empiryczna funkcja rozkładu próby służy do oszacowania teoretycznej funkcji rozkładu populacji.

Przykład. Skonstruujmy funkcję empiryczną na podstawie rozkładu próby:

Opcje
Częstotliwości

Znajdźmy wielkość próby: 12+18+30=60. Najmniejsza opcja to 2, więc =0 dla x £ 2. Wartość x<6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2< x £6. Аналогично, значения X < 10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6< x £10. Так как x=10 – наибольшая варианта, то =1 при x>10. Zatem pożądana funkcja empiryczna ma postać:

Najważniejsze właściwości szacunków statystycznych

Niech będzie konieczne zbadanie jakiejś ilościowej cechy populacji ogólnej. Załóżmy, że na podstawie rozważań teoretycznych udało się to ustalić który dokładnie rozkład ma znak i konieczne jest oszacowanie parametrów, według których jest wyznaczany. Na przykład, jeśli badana cecha ma rozkład normalny w populacji, konieczne jest oszacowanie oczekiwań matematycznych i odchylenia standardowego; jeżeli cecha ma rozkład Poissona, to należy oszacować parametr l.

Zazwyczaj dostępne są jedynie przykładowe dane, np. wartości cechy ilościowej uzyskane w wyniku n niezależnych obserwacji. Biorąc pod uwagę niezależne zmienne losowe, możemy to powiedzieć znaleźć oszacowanie statystyczne nieznanego parametru rozkładu teoretycznego oznacza znaleźć funkcję obserwowanych zmiennych losowych, która daje przybliżoną wartość szacowanego parametru. Na przykład, aby oszacować matematyczne oczekiwanie rozkładu normalnego, rolę funkcji pełni średnia arytmetyczna



Aby szacunki statystyczne zapewniały prawidłowe przybliżenia szacowanych parametrów, muszą spełniać określone wymagania, spośród których najważniejszymi są wymagania nieprzesunięty I wypłacalność oceny.

Niech będzie statystycznym oszacowaniem nieznanego parametru rozkładu teoretycznego. Niech oszacowanie zostanie znalezione na podstawie próbki o rozmiarze n. Powtórzmy eksperyment, tj. wyodrębnijmy z populacji ogólnej inną próbę o tej samej wielkości i na podstawie jej danych uzyskajmy inny szacunek. Powtarzając eksperyment wielokrotnie, otrzymujemy różne liczby. Wynik można traktować jako zmienną losową, a liczby jako możliwe wartości.

Jeżeli oszacowanie podaje wartość przybliżoną w obfitości, tj. każda liczba jest większa od wartości prawdziwej, w związku z czym oczekiwanie matematyczne (wartość średnia) zmiennej losowej jest większe niż: Podobnie, jeśli podaje szacunkową kwotę z wadą, To .

Zatem zastosowanie oszacowania statystycznego, którego oczekiwanie matematyczne nie jest równe oszacowanemu parametrowi, prowadziłoby do błędów systematycznych (tego samego znaku). Przeciwnie, gwarantuje to uniknięcie błędów systematycznych.

Bezinteresowny zwane oszacowaniem statystycznym, którego matematyczne oczekiwanie jest równe oszacowanemu parametrowi dla dowolnej wielkości próby.

Przesiedlony nazywa się oszacowaniem, które nie spełnia tego warunku.

Bezstronność oszacowania nie gwarantuje jeszcze dobrego przybliżenia szacowanego parametru, ponieważ możliwe wartości można bardzo rozproszone wokół swojej średniej wartości, tj. różnica może być znacząca. W takim przypadku estymacja uzyskana np. z danych jednej próbki może okazać się znacznie odległa od wartości średniej, a co za tym idzie od szacowanego parametru.

Skuteczny jest oszacowaniem statystycznym, które dla danej wielkości próby n ma najmniejsza możliwa różnica .

Rozważając duże próby, wymagane są szacunki statystyczne wypłacalność .

Bogaty nazywa się oszacowaniem statystycznym, które, ponieważ n®¥ zmierza prawdopodobieństwem do szacowanego parametru. Na przykład, jeśli wariancja bezstronnego oszacowania dąży do zera jako n®¥, wówczas takie oszacowanie okazuje się spójne.

Jak wiadomo, prawo rozkładu zmiennej losowej można określić na różne sposoby. Dyskretną zmienną losową można określić za pomocą szeregu rozkładu lub funkcji całkowej, a ciągłą zmienną losową można określić za pomocą funkcji całkowej lub różniczkowej. Rozważmy selektywne analogi tych dwóch funkcji.

Niech będzie przykładowy zestaw wartości jakiejś losowej zmiennej objętości a każda opcja z tego zbioru jest powiązana z jej częstotliwością. Niech dalej jest jakąś liczbą rzeczywistą, oraz – liczba przykładowych wartości zmiennej losowej
, mniejszy .Następnie numer to częstotliwość wartości ilościowych obserwowanych w próbce X, mniejszy , te. częstotliwość występowania zdarzenia
. Kiedy to się zmienia X w ogólnym przypadku wartość również ulegnie zmianie . Oznacza to, że częstotliwość względna jest funkcją argumentu . A ponieważ tę funkcję można znaleźć na podstawie przykładowych danych uzyskanych w wyniku eksperymentów, nazywa się ją selektywną lub empiryczny.

Definicja 10.15. Dystrybucja empiryczna(funkcja rozkładu próby) jest funkcją
, definiując dla każdej wartości X względna częstotliwość zdarzenia
.

(10.19)

W przeciwieństwie do empirycznej funkcji rozkładu próbkowania, funkcja rozkładu F(X) populacji ogólnej nazywa się teoretyczna funkcja dystrybucji. Różnica między nimi polega na tym, że funkcja teoretyczna F(X) określa prawdopodobieństwo zdarzenia
, a empiryczny to względna częstotliwość tego samego zdarzenia. Z twierdzenia Bernoulliego wynika

,
(10.20)

te. na wolności prawdopodobieństwo
i względną częstotliwość zdarzenia
, tj.
niewiele się od siebie różnią. Z tego wynika, że ​​wskazane jest wykorzystanie empirycznej funkcji rozkładu próby w celu przybliżenia teoretycznej (całkowej) funkcji rozkładu populacji ogólnej.

Funkcjonować
I
mają te same właściwości. Wynika to z definicji funkcji.

Nieruchomości
:


Przykład 10.4. Skonstruuj funkcję empiryczną na podstawie podanego rozkładu próby:

Opcje

Częstotliwości

Rozwiązanie: Znajdźmy wielkość próbki N= 12+18+30=60. Najmniejsza opcja
, stąd,
Na
. Oznaczający
, mianowicie
zaobserwowano 12 razy, zatem:

=
Na
.

Oznaczający X< 10, a mianowicie
I
zaobserwowano 12+18=30 razy, zatem
=
Na
. Na

.

Wymagana funkcja rozkładu empirycznego:

=

Harmonogram
pokazany na ryc. 10.2

R
Jest. 10.2

Pytania kontrolne

1. Jakie główne problemy rozwiązuje statystyka matematyczna? 2. Populacja ogólna i próbna? 3. Określ wielkość próbki. 4. Jakie próbki nazywamy reprezentatywnymi? 5. Błędy reprezentatywności. 6. Podstawowe metody pobierania próbek. 7. Pojęcia częstotliwości, częstotliwość względna. 8. Pojęcie szeregów statystycznych. 9. Zapisz wzór Sturgesa. 10. Formułować pojęcia rozstępu próby, mediany i mody. 11. Wielokąt częstotliwości, histogram. 12. Pojęcie estymaty punktowej populacji próbnej. 13. Nieobciążona i bezstronna estymacja punktowa. 14. Sformułuj pojęcie średniej próbki. 15. Formułować pojęcie wariancji próby. 16. Formułować pojęcie odchylenia standardowego próbki. 17. Formułować pojęcie współczynnika zmienności próbki. 18. Formułować pojęcie średniej geometrycznej próbki.

Seria zmian. Wielokąt i histogram.

Zakres dystrybucji- reprezentuje uporządkowany rozkład jednostek badanej populacji na grupy zgodnie z pewną zmienną cechą.

W zależności od cechy leżącej u podstaw tworzenia szeregu rozkładów rozróżnia się je atrybutywne i wariacyjne rzędy dystrybucji:

§ Nazywa się serie rozkładów zbudowane w kolejności rosnącej lub malejącej wartości cechy ilościowej wariacyjny.

Seria zmian rozkładu składa się z dwóch kolumn:

Pierwsza kolumna podaje ilościowe wartości zmiennej charakterystyki, które są tzw opcje i są wyznaczone. Opcja dyskretna - wyrażona jako liczba całkowita. Opcja interwału ma zakres od i do. W zależności od rodzaju opcji można skonstruować szereg dyskretny lub przedziałowy.
Druga kolumna zawiera liczba konkretnych opcji, wyrażone w częstotliwościach lub częstotliwościach:

Częstotliwości- są to liczby bezwzględne, pokazujące, ile razy dana wartość cechy występuje w sumie, co oznacza. Suma wszystkich częstości musi być równa liczbie jednostek w całej populacji.

Częstotliwości() to częstotliwości wyrażone jako procent całości. Suma wszystkich częstotliwości wyrażona w procentach musi być równa 100% w ułamkach jednego.

Graficzne przedstawienie szeregów dystrybucyjnych

Serie dystrybucyjne są prezentowane wizualnie za pomocą obrazów graficznych.

Szeregi dystrybucji są przedstawione jako:

§ Wielokąt

§ Histogramy

§ Kumuluje się

Wielokąt

Podczas konstruowania wielokąta wartości zmiennej charakterystyki są wykreślane na osi poziomej (oś x), a częstotliwości lub częstotliwości na osi pionowej (oś y).

1. Wielokąt na ryc. 6.1 opiera się na danych z mikrospisu ludności Rosji w 1994 r.


wykres słupkowy



Aby skonstruować histogram, wartości granic przedziałów są wskazane wzdłuż osi odciętych i na ich podstawie konstruowane są prostokąty, których wysokość jest proporcjonalna do częstotliwości (lub częstotliwości).

Na ryc. 6.2. przedstawia histogram rozmieszczenia ludności Rosji w 1997 r. według grup wiekowych.

Ryc.1. Podział ludności Rosji według grup wiekowych

Dystrybucja empiryczna, własności.

Niech będzie znany statystyczny rozkład częstości cechy ilościowej X. Oznaczmy przez liczbę obserwacji, w których zaobserwowano wartość cechy mniejszą od x i przez n całkowitą liczbę obserwacji. Oczywiście względna częstotliwość zdarzenia X

Funkcja rozkładu empirycznego (funkcja rozkładu próbkowania) to funkcja, która dla każdej wartości x określa względną częstotliwość zdarzenia X

W przeciwieństwie do empirycznej funkcji rozkładu próby, rozkład populacji nazywany jest teoretyczną funkcją rozkładu. Różnica między tymi funkcjami polega na tym, że funkcja teoretyczna określa prawdopodobieństwo zdarzenia X

Wraz ze wzrostem n względna częstotliwość zdarzenia X

Podstawowe właściwości

Niech elementarny wynik zostanie ustalony. Następnie dystrybuantę rozkładu dyskretnego podaje następująca funkcja prawdopodobieństwa:

gdzie i - liczba elementów próbki równa . W szczególności, jeśli wszystkie elementy próbki są różne .

Oczekiwanie matematyczne tego rozkładu wynosi:

.

Zatem średnia próbki jest teoretyczną średnią rozkładu próbkowania.

Podobnie wariancja próbki jest teoretyczną wariancją rozkładu próbkowania.

Zmienna losowa ma rozkład dwumianowy:

Funkcja rozkładu próbki jest obiektywnym oszacowaniem funkcji rozkładu:

.

Wariancja funkcji rozkładu próbki ma postać:

.

Zgodnie z mocnym prawem wielkich liczb funkcja rozkładu próbki jest prawie na pewno zbieżna z teoretyczną funkcją rozkładu:

prawie na pewno o godz.

Funkcja rozkładu próbki jest asymptotycznie normalnym oszacowaniem teoretycznej funkcji rozkładu. Jeśli następnie

Według rozkładu o godz.

Wyznaczanie empirycznej funkcji rozkładu

Niech $X$ będzie zmienną losową. $F(x)$ jest dystrybuantą danej zmiennej losowej. Eksperymenty $n$ będziemy przeprowadzać na danej zmiennej losowej w tych samych, niezależnych od siebie warunkach. Otrzymujemy w tym przypadku ciąg wartości $x_1,\ x_2\ $, ...,$\ x_n$, który nazywany jest próbką.

Definicja 1

Każda wartość $x_i$ ($i=1,2\ $, ... ,$ \ n$) nazywana jest wariantem.

Jednym z oszacowań teoretycznej funkcji rozkładu jest rozkład empiryczny.

Definicja 3

Dystrybuanta empiryczna $F_n(x)$ jest funkcją wyznaczającą dla każdej wartości $x$ względną częstotliwość zdarzenia $X \

gdzie $n_x$ to liczba opcji mniejsza niż $x$, $n$ to wielkość próby.

Różnica między funkcją empiryczną a teoretyczną polega na tym, że funkcja teoretyczna określa prawdopodobieństwo zdarzenia $X

Własności dystrybuanty empirycznej

Rozważmy teraz kilka podstawowych właściwości funkcji rozkładu.

    Zakres funkcji $F_n\left(x\right)$ to segment $$.

    $F_n\left(x\right)$ jest funkcją niemalejącą.

    $F_n\left(x\right)$ jest funkcją ciągłą lewostronną.

    $F_n\left(x\right)$ jest funkcją stałą odcinkowo i rośnie tylko w punktach wartości zmiennej losowej $X$

    Niech $X_1$ będzie najmniejszą, a $X_n$ największą opcją. Następnie $F_n\left(x\right)=0$ dla $(x\le X)_1$ i $F_n\left(x\right)=1$ dla $x\ge X_n$.

Wprowadźmy twierdzenie łączące funkcję teoretyczną i empiryczną.

Twierdzenie 1

Niech $F_n\left(x\right)$ będzie dystrybuantą empiryczną, a $F\left(x\right)$ dystrybuantą teoretyczną próby ogólnej. Wtedy zachodzi równość:

\[(\mathop(lim)_(n\to \infty ) (|F)_n\left(x\right)-F\left(x\right)|=0\ )\]

Przykłady problemów ze znalezieniem rozkładu empirycznego

Przykład 1

Niech rozkład próbkowania będzie zawierał następujące dane zapisane za pomocą tabeli:

Obrazek 1.

Znajdź wielkość próby, utwórz empiryczną funkcję rozkładu i wykreśl ją.

Wielkość próbki: $n=5+10+15+20=50$.

Według właściwości 5 mamy to dla $x\le 1$ $F_n\left(x\right)=0$ i dla $x>4$ $F_n\left(x\right)=1$.

Wartość x

Wartość x

Wartość x

W ten sposób otrzymujemy:

Rysunek 2.

Rysunek 3.

Przykład 2

Spośród miast centralnej części Rosji losowo wybrano 20 miast, dla których uzyskano następujące dane dotyczące opłat za przejazd komunikacją miejską: 14, 15, 12, 12, 13, 15, 15, 13, 15, 12, 15, 14 , 15, 13, 13, 12, 12, 15, 14, 14.

Utwórz empiryczną funkcję rozkładu dla tej próbki i wykreśl ją.

Zapiszmy przykładowe wartości w kolejności rosnącej i obliczmy częstotliwość każdej wartości. Otrzymujemy następującą tabelę:

Rysunek 4.

Wielkość próbki: $n=20$.

Według właściwości 5 mamy to dla $x\le 12$ $F_n\left(x\right)=0$ i dla $x>15$ $F_n\left(x\right)=1$.

Wartość x

Wartość x

Wartość x

W ten sposób otrzymujemy:

Rysunek 5.

Narysujmy rozkład empiryczny:

Rysunek 6.

Oryginalność: 92,12 $\%$.

Dowiedz się, co to jest wzór empiryczny. W chemii EP to najprostszy sposób opisania związku — zasadniczo lista pierwiastków tworzących związek, oparta na ich procentach. Należy zauważyć, że ten prosty wzór nie opisuje zamówienie atomów w związku, po prostu wskazuje, z jakich elementów się składa. Na przykład:

  • Związek składający się z 40,92% węgla; 4,58% wodoru i 54,5% tlenu będzie miało wzór empiryczny C 3 H 4 O 3 (przykład obliczania EF tego związku zostanie omówiony w drugiej części).
  • Zrozum termin „skład procentowy”.„Skład procentowy” odnosi się do procentu każdego pojedynczego atomu w całym danym związku. Aby znaleźć wzór empiryczny związku, należy znać skład procentowy związku. Jeśli szukasz empirycznego wzoru na pracę domową, najprawdopodobniej zostaną podane wartości procentowe.

    • Aby określić skład procentowy związku chemicznego w laboratorium, poddaje się go pewnym eksperymentom fizycznym, a następnie analizie ilościowej. Jeśli nie jesteś w laboratorium, nie musisz przeprowadzać tych eksperymentów.
  • Pamiętaj, że będziesz musiał sobie poradzić z atomami gramów. Gramatom to określona ilość substancji, której masa jest równa jej masie atomowej. Aby znaleźć atom grama, należy skorzystać z następującego równania: Procent pierwiastka w związku dzieli się przez masę atomową pierwiastka.

    • Załóżmy na przykład, że mamy związek zawierający 40,92% węgla. Masa atomowa węgla wynosi 12, więc nasze równanie będzie wynosić 40,92 / 12 = 3,41.
  • Dowiedz się, jak znaleźć stosunki atomowe. Pracując ze związkiem, otrzymasz więcej niż jeden atom grama. Po znalezieniu wszystkich gramatomów związku spójrz na nie. Aby znaleźć stosunek atomowy, musisz wybrać najmniejszą obliczoną wartość gramatomową. Następnie będziesz musiał podzielić wszystkie atomy gramów na najmniejszy atom gramów. Na przykład:

    • Załóżmy, że pracujesz ze związkiem zawierającym trzy gramowe atomy: 1,5; 2 i 2,5. Najmniejsza z tych liczb to 1,5. Dlatego, aby znaleźć stosunek atomów, musisz podzielić wszystkie liczby przez 1,5 i umieścić między nimi znak proporcji : .
    • 1,5 / 1,5 = 1,2 / 1,5 = 1,33. 2,5 / 1,5 = 1,66. Dlatego stosunek atomów wynosi 1: 1,33: 1,66 .
  • Dowiedz się, jak konwertować wartości współczynników atomowych na liczby całkowite. Pisząc wzór empiryczny, musisz używać liczb całkowitych. Oznacza to, że nie można używać liczb takich jak 1,33. Po znalezieniu stosunku atomów musisz przekonwertować ułamki zwykłe (np. 1,33) na liczby całkowite (np. 3). Aby to zrobić, musisz znaleźć liczbę całkowitą, mnożąc każdą liczbę stosunku atomowego, przez który otrzymasz liczby całkowite. Na przykład:

    • Spróbuj 2. Pomnóż liczby stosunków atomowych (1, 1,33 i 1,66) przez 2. Otrzymasz 2, 2,66 i 3,32. To nie są liczby całkowite, więc 2 nie jest odpowiednie.
    • Spróbuj 3. Jeśli pomnożysz 1, 1,33 i 1,66 przez 3, otrzymasz odpowiednio 3, 4 i 5. Dlatego stosunek atomowy liczb całkowitych ma postać 3: 4: 5 .