Empirijska funkcija distribucije. Empirijska funkcija distribucije, svojstva Empirijska funkcija distribucije je funkcija f x

Predavanje 13. Koncept statističkih procjena slučajnih varijabli

Neka je poznata statistička distribucija učestalosti kvantitativnog obilježja X. Označimo s brojem opažanja u kojima je opažena vrijednost obilježja manja od x, a s n ukupni broj opažanja. Očito, relativna učestalost događaja X< x равна и является функцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Empirijska funkcija distribucije(funkcija distribucije uzorkovanja) je funkcija koja za svaku vrijednost x određuje relativnu učestalost događaja X< x. Таким образом, по определению ,где - число вариант, меньших x, n – объем выборки.

Za razliku od empirijske funkcije raspodjele uzorka, funkcija raspodjele populacije tzv teorijska funkcija distribucije. Razlika između ovih funkcija je u tome što teorijska funkcija određuje vjerojatnost događaji X< x, тогда как эмпирическая – relativna frekvencija isti događaj.

Kako n raste, relativna učestalost događaja X< x, т.е. стремится по вероятности к вероятности этого события. Иными словами

Svojstva empirijske funkcije distribucije:

1) Vrijednosti empirijske funkcije pripadaju segmentu

2) - neopadajuća funkcija

3) Ako je najmanja opcija, tada = 0 za , ako je najveća opcija, tada = 1 za .

Empirijska funkcija distribucije uzorka služi za procjenu teorijske funkcije distribucije populacije.

Primjer. Konstruirajmo empirijsku funkciju na temelju distribucije uzorka:

Mogućnosti
Frekvencije

Nađimo veličinu uzorka: 12+18+30=60. Najmanja opcija je 2, dakle =0 za x £ 2. Vrijednost x<6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2< x £6. Аналогично, значения X < 10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6< x £10. Так как x=10 – наибольшая варианта, то =1 при x>10. Dakle, željena empirijska funkcija ima oblik:

Najvažnija svojstva statističkih procjena

Neka je potrebno proučiti neku kvantitativnu karakteristiku opće populacije. Pretpostavimo da je iz teorijskih razmatranja to bilo moguće utvrditi koji točno distribucija ima predznak i potrebno je procijeniti parametre kojima je određena. Na primjer, ako je karakteristika koja se proučava normalno raspoređena u populaciji, tada je potrebno procijeniti matematičko očekivanje i standardnu ​​devijaciju; ako karakteristika ima Poissonovu distribuciju, tada je potrebno procijeniti parametar l.

Obično su dostupni samo uzorci podataka, na primjer, vrijednosti kvantitativne karakteristike dobivene kao rezultat n neovisnih opažanja. Promatrajući kao nezavisne slučajne varijable možemo reći da pronaći statističku procjenu nepoznatog parametra teorijske distribucije znači pronaći funkciju promatranih slučajnih varijabli koja daje približnu vrijednost procijenjenog parametra. Na primjer, za procjenu matematičkog očekivanja normalne distribucije, ulogu funkcije ima aritmetička sredina



Kako bi statističke procjene dale točnu aproksimaciju procijenjenih parametara, one moraju zadovoljiti određene zahtjeve, među kojima su najvažniji zahtjevi neraseljena I solventnost procjene.

Neka je statistička procjena nepoznatog parametra teorijske distribucije. Neka se procjena nađe iz uzorka veličine n. Ponovimo eksperiment, tj. izdvojimo drugi uzorak iste veličine iz opće populacije i na temelju njegovih podataka dobijemo drugačiju procjenu. Ponavljajući pokus više puta, dobivamo različite brojeve. Rezultat se može promatrati kao slučajna varijabla, a brojevi kao njezine moguće vrijednosti.

Ako procjena daje približnu vrijednost u izobilju, tj. svaki broj je veći od stvarne vrijednosti, i kao posljedica toga, matematičko očekivanje (prosječna vrijednost) slučajne varijable je veće od:. Isto tako, ako daje procjenu s nedostatkom, To .

Dakle, korištenje statističke procjene, čije matematičko očekivanje nije jednako procijenjenom parametru, dovelo bi do sustavnih (istog predznaka) pogrešaka. Ako je, naprotiv, to jamči protiv sustavnih pogrešaka.

Nepristran naziva se statistička procjena, čije je matematičko očekivanje jednako procijenjenom parametru za bilo koju veličinu uzorka.

Raseljeni naziva se procjena koja ne zadovoljava ovaj uvjet.

Nepristranost procjene još ne jamči dobru aproksimaciju za procijenjeni parametar, jer moguće vrijednosti mogu biti vrlo raštrkani oko svoje prosječne vrijednosti, tj. varijanca može biti značajna. U tom slučaju, procjena dobivena iz podataka jednog uzorka, na primjer, može se pokazati značajno udaljenom od prosječne vrijednosti, a time i od parametra koji se procjenjuje.

Učinkovito je statistička procjena koja, za danu veličinu uzorka n, ima najmanja moguća varijanca .

Kada se razmatraju veliki uzorci, potrebne su statističke procjene solventnost .

Imućni naziva se statistička procjena, koja, kako n®¥ teži u vjerojatnosti procijenjenom parametru. Na primjer, ako varijanca nepristrane procjene teži nuli kao n®¥, tada se takva procjena pokazuje dosljednom.

Proučimo neko kvantitativno svojstvo? općoj populaciji i pretpostavimo da je za bilo koju veličinu uzorka poznata distribucija učestalosti ove karakteristike. Fiksiranjem veličine uzorka na P, označiti sa p x broj opcija manji od x. Tada nije teško vidjeti da odnos njn izražava relativnu učestalost događaja (?

Ovaj omjer ovisi o fiksnom broju x i stoga je neka funkcija te veličine x. Označimo to sa F*(x).

Definicija 1.10. Funkcija F*(x) = -, izražavanje relativnog

učestalost događaja (? empirijska funkcija

distribucija (distribucijska funkcija uzorkovanja ili funkcija statističke distribucije).

Dakle, po definiciji

Podsjetimo se da distribucijska funkcija značajke ?, populacija se definira kao vjerojatnost događaja (?

a za razliku od empirijske funkcije distribucije naziva se teorijska funkcija distribucije. Budući da je funkcija empirijske distribucije vjerojatnost istog događaja, tada se prema Bernoullijevom teoremu (vidi odjeljak 5.4), s velikom veličinom uzorka malo razlikuju jedna od druge u smislu da

gdje je e bilo koji proizvoljno mali pozitivan broj.

Relacija (1.2) pokazuje da ako je teorijska funkcija distribucije nepoznata, tada se empirijska funkcija distribucije dobivena iz uzorka može koristiti kao procjena uzorka. Iz formule (1.2) istodobno slijedi da je ta procjena konzistentna (vidi definiciju 2.4).

Komentar 1.6. Stav nJn također se može protumačiti kao udio oni članovi uzorka koji leže lijevo od fiksnog broja x. Označimo ga sa co^.

Sada pogledajmo primjer konstruiranja empirijske funkcije distribucije za diskretni uzorak.

Primjer 1.2. Distribucija uzorka je poznata (tablica 1.7).

Tablica 1.7

Opcija x.

Frekvencija ja

Konstruirajte njegovu empirijsku funkciju distribucije.

Najprije odredimo veličinu uzorka:

Opcija x x- najmanji. Zato n x = 0 i F*(x)= 0 at x% 3, dakle P z = 6, tj. lijevo od točke x= 3 postoji šest uzoraka vrijednosti. Stoga, F*(3) = - = 0,12. Nalijevo x = 5 nalazi se

supruge n x=5 = 6 + 9= 15 opcija uzorka. Zato Fn(5) = - = 0,3. Tako

Kako n x=1 = 6 + 9 + 18 = 33, dakle Fn(7) = - = 0,66. Slično nalazimo

33 + 12 = 45. Prema tome F* (9) = ^ = 0,9.

Opcija x 5 = 9 je najveća. Stoga, za x > 9, cijeli uzorak leži lijevo od ove točke x. Zato n x>9= 50 i F*(x) = -= 1 za x > 9. 50

Dakle, iz gore izvedenih izračuna slijedi da je željena empirijska funkcija jednoznačno definirana na cijeloj realnoj osi, komadno konstantna i ima oblik

Graf ove funkcije predstavlja stepenastu figuru i prikazan je na sl. 1.6. ?

Što se tiče pitanja konstruiranja empirijske funkcije za kontinuirane uzorke, ovaj problem je, općenito govoreći, daleko od jednoznačnog rješenja. To je zbog činjenice da se vrijednosti empirijske funkcije mogu jednoznačno pronaći samo na krajnjim točkama parcijalnih intervala na koje je podijeljen glavni interval koji sadrži populaciju uzorka. Ali u unutarnjim točkama parcijalnih intervala nije definiran. U tim je točkama dalje određena ili komadično konstantnom funkcijom (vidi prethodni primjer) ili nekom rastućom kontinuiranom funkcijom, na primjer linearnom funkcijom, tj. Za konstruiranje empirijske funkcije distribucije koristi se linearna aproksimacija.

Primjer 1.3. Prema tablici 1.3 pronađite empirijsku funkciju raspodjele zaposlenika poduzeća prema radnom stažu.

Radi određenosti, pretpostavljamo da su razmatrani parcijalni intervali zatvoreni s lijeve, a otvoreni s desne strane, tj. sadrže samo svoje lijeve krajeve. Neka je x = 2. Tada je događaj n 2 = 0 i F*(2)= 0. Ako je x e (2; 6), tada je u ovom trenutku vrijednost p x više nije definirana, a time ni vrijednost empirijske funkcije. Na primjer, ako je x = 3, tada je iz uvjeta problema nemoguće odrediti broj radnika s manje od tri godine radnog staža, tj. ne mogu pronaći frekvenciju p x i stoga F*(x).

Nadalje, razmišljajući na sličan način, uvjeravamo se da tražena funkcija F*(x) uzima specifične vrijednosti na lijevim krajnjim točkama parcijalnih intervala, na primjer: "6) = 4/100 = 0,04; "10) = 0,12; "14) = 0,24; "18) = 0,59; F*(22) = 0,78; "26) = 0,90"; "30) = 1, ali nije definiran u unutarnjim točkama parcijalnih intervala. Da bi se konačno riješio problem, željena funkcija u unutarnjim točkama parcijalnih intervala dalje je definirana ili komadično konstantnom funkcijom (Sl. 1.7) ili nekom kontinuirano rastućom funkcijom (Sl. 1.8, gdje je željena empirijska funkcija dalje definirana pomoću linearna funkcija). ?

Određivanje empirijske funkcije distribucije

Neka je $X$ slučajna varijabla. $F(x)$ je funkcija distribucije zadane slučajne varijable. Provest ćemo $n$ eksperimenata na danoj slučajnoj varijabli pod istim uvjetima, neovisno jedan o drugome. U ovom slučaju dobivamo niz vrijednosti $x_1,\ x_2\ $, ... ,$\ x_n$, koji se naziva uzorak.

Definicija 1

Svaka vrijednost $x_i$ ($i=1,2\ $, ... ,$ \ n$) naziva se varijanta.

Jedna procjena teorijske funkcije distribucije je empirijska funkcija distribucije.

Definicija 3

Empirijska funkcija distribucije $F_n(x)$ je funkcija koja za svaku vrijednost $x$ određuje relativnu učestalost događaja $X \

gdje je $n_x$ broj opcija manji od $x$, $n$ je veličina uzorka.

Razlika između empirijske funkcije i teorijske je u tome što teorijska funkcija određuje vjerojatnost događaja $X

Svojstva empirijske funkcije distribucije

Razmotrimo sada nekoliko osnovnih svojstava funkcije distribucije.

    Raspon funkcije $F_n\lijevo(x\desno)$ je segment $$.

    $F_n\lijevo(x\desno)$ je neopadajuća funkcija.

    $F_n\lijevo(x\desno)$ je lijevo kontinuirana funkcija.

    $F_n\left(x\right)$ je komadno konstantna funkcija i raste samo u točkama vrijednosti slučajne varijable $X$

    Neka $X_1$ bude najmanja, a $X_n$ najveća opcija. Zatim $F_n\lijevo(x\desno)=0$ za $(x\le X)_1$ i $F_n\lijevo(x\desno)=1$ za $x\ge X_n$.

Uvedimo teorem koji povezuje teorijsku i empirijsku funkciju.

Teorem 1

Neka je $F_n\left(x\right)$ empirijska funkcija distribucije, a $F\left(x\right)$ teorijska funkcija distribucije općeg uzorka. Tada vrijedi jednakost:

\[(\mathop(lim)_(n\to \infty ) (|F)_n\lijevo(x\desno)-F\lijevo(x\desno)|=0\ )\]

Primjeri zadataka nalaženja empirijske funkcije distribucije

Primjer 1

Neka distribucija uzorkovanja ima sljedeće podatke zabilježene pomoću tablice:

Slika 1.

Pronađite veličinu uzorka, izradite empirijsku funkciju distribucije i iscrtajte je.

Veličina uzorka: $n=5+10+15+20=50$.

Prema svojstvu 5, imamo da je za $x\le 1$ $F_n\left(x\right)=0$, a za $x>4$ $F_n\left(x\right)=1$.

$x vrijednost

$x vrijednost

$x vrijednost

Tako dobivamo:

Slika 2.

Slika 3.

Primjer 2

Od gradova središnjeg dijela Rusije nasumično je odabrano 20 gradova za koje su dobiveni sljedeći podaci o cijenama javnog prijevoza: 14, 15, 12, 12, 13, 15, 15, 13, 15, 12, 15, 14 , 15, 13 , 13, 12, 12, 15, 14, 14.

Napravite empirijsku funkciju distribucije za ovaj uzorak i nacrtajte je.

Zapišimo uzorke vrijednosti uzlaznim redoslijedom i izračunajmo učestalost svake vrijednosti. Dobijamo sljedeću tablicu:

Slika 4.

Veličina uzorka: $n=20$.

Prema svojstvu 5, imamo da za $x\le 12$ $F_n\left(x\right)=0$, a za $x>15$ $F_n\left(x\right)=1$.

$x vrijednost

$x vrijednost

$x vrijednost

Tako dobivamo:

Slika 5.

Nacrtajmo empirijsku distribuciju:

Slika 6.

Izvornost: 92,12 $\%$.

Kao što je poznato, zakon raspodjele slučajne varijable može se odrediti na različite načine. Diskretna slučajna varijabla može se specificirati pomoću niza distribucije ili integralne funkcije, a kontinuirana slučajna varijabla može se specificirati pomoću integrala ili diferencijalne funkcije. Razmotrimo selektivne analoge ove dvije funkcije.

Neka postoji uzorak skupa vrijednosti neke slučajne varijable volumena a svaka opcija iz ovog skupa povezana je sa svojom učestalošću. Neka dalje je neki realni broj, i – broj uzoraka vrijednosti slučajne varijable
, manji .Onda broj je učestalost količinskih vrijednosti opaženih u uzorku x, manji , oni. učestalost pojavljivanja događaja
. Kada se mijenja x u općem slučaju promijenit će se i vrijednost . To znači da relativna učestalost je funkcija argumenta . A budući da se ova funkcija nalazi iz uzoraka podataka dobivenih kao rezultat eksperimenata, naziva se selektivna ili empirijski.

Definicija 10.15. Empirijska funkcija distribucije(funkcija distribucije uzorkovanja) je funkcija
, definirajući za svaku vrijednost x relativna učestalost događaja
.

(10.19)

Za razliku od funkcije distribucije empirijskog uzorka, funkcija distribucije F(x) opće populacije naziva se teorijska funkcija distribucije. Razlika između njih je u tome što teorijska funkcija F(x) određuje vjerojatnost događaja
, a empirijski je relativna učestalost istog događaja. Iz Bernoullijevog teorema slijedi

,
(10.20)

oni. u cjelini vjerojatnost
i relativna učestalost događaja
, tj.
malo razlikuju jedna od druge. Iz ovoga proizlazi da je uputno koristiti empirijsku funkciju distribucije uzorka za aproksimaciju teorijske (integralne) funkcije distribucije opće populacije.

Funkcija
I
imaju ista svojstva. To proizlazi iz definicije funkcije.

Svojstva
:


Primjer 10.4. Konstruirajte empirijsku funkciju na temelju dane distribucije uzorka:

Mogućnosti

Frekvencije

Riješenje: Pronađimo veličinu uzorka n= 12+18+30=60. Najmanja opcija
, stoga,
na
. Značenje
, naime
promatrano 12 puta, dakle:

=
na
.

Značenje x< 10, naime
I
promatrani su 12+18=30 puta, dakle,
=
na
. Na

.

Tražena empirijska funkcija distribucije:

=

Raspored
prikazano na sl. 10.2

R
je. 10.2

Kontrolna pitanja

1. Koje glavne probleme rješava matematička statistika? 2. Opća i ogledna populacija? 3. Definirajte veličinu uzorka. 4. Koji se uzorci nazivaju reprezentativnim? 5. Pogreške reprezentativnosti. 6. Osnovne metode uzorkovanja. 7. Pojmovi frekvencije, relativne frekvencije. 8. Pojam statističkih serija. 9. Zapišite Sturgesovu formulu. 10. Formulirajte koncepte raspona uzorka, medijana i modusa. 11. Poligon frekvencija, histogram. 12. Koncept bodovne procjene populacije uzorka. 13. Pristrana i nepristrana bodovna procjena. 14. Formulirajte pojam prosjeka uzorka. 15. Formulirajte pojam varijance uzorka. 16. Formulirajte pojam standardne devijacije uzorka. 17. Formulirajte pojam koeficijenta varijacije uzorka. 18. Formulirajte pojam geometrijske sredine uzorka.

Određivanje empirijske funkcije distribucije

Neka je $X$ slučajna varijabla. $F(x)$ je funkcija distribucije zadane slučajne varijable. Provest ćemo $n$ eksperimenata na danoj slučajnoj varijabli pod istim uvjetima, neovisno jedan o drugome. U ovom slučaju dobivamo niz vrijednosti $x_1,\ x_2\ $, ... ,$\ x_n$, koji se naziva uzorak.

Definicija 1

Svaka vrijednost $x_i$ ($i=1,2\ $, ... ,$ \ n$) naziva se varijanta.

Jedna procjena teorijske funkcije distribucije je empirijska funkcija distribucije.

Definicija 3

Empirijska funkcija distribucije $F_n(x)$ je funkcija koja za svaku vrijednost $x$ određuje relativnu učestalost događaja $X \

gdje je $n_x$ broj opcija manji od $x$, $n$ je veličina uzorka.

Razlika između empirijske funkcije i teorijske je u tome što teorijska funkcija određuje vjerojatnost događaja $X

Svojstva empirijske funkcije distribucije

Razmotrimo sada nekoliko osnovnih svojstava funkcije distribucije.

    Raspon funkcije $F_n\lijevo(x\desno)$ je segment $$.

    $F_n\lijevo(x\desno)$ je neopadajuća funkcija.

    $F_n\lijevo(x\desno)$ je lijevo kontinuirana funkcija.

    $F_n\left(x\right)$ je komadno konstantna funkcija i raste samo u točkama vrijednosti slučajne varijable $X$

    Neka $X_1$ bude najmanja, a $X_n$ najveća opcija. Zatim $F_n\lijevo(x\desno)=0$ za $(x\le X)_1$ i $F_n\lijevo(x\desno)=1$ za $x\ge X_n$.

Uvedimo teorem koji povezuje teorijsku i empirijsku funkciju.

Teorem 1

Neka je $F_n\left(x\right)$ empirijska funkcija distribucije, a $F\left(x\right)$ teorijska funkcija distribucije općeg uzorka. Tada vrijedi jednakost:

\[(\mathop(lim)_(n\to \infty ) (|F)_n\lijevo(x\desno)-F\lijevo(x\desno)|=0\ )\]

Primjeri zadataka nalaženja empirijske funkcije distribucije

Primjer 1

Neka distribucija uzorkovanja ima sljedeće podatke zabilježene pomoću tablice:

Slika 1.

Pronađite veličinu uzorka, izradite empirijsku funkciju distribucije i iscrtajte je.

Veličina uzorka: $n=5+10+15+20=50$.

Prema svojstvu 5, imamo da je za $x\le 1$ $F_n\left(x\right)=0$, a za $x>4$ $F_n\left(x\right)=1$.

$x vrijednost

$x vrijednost

$x vrijednost

Tako dobivamo:

Slika 2.

Slika 3.

Primjer 2

Od gradova središnjeg dijela Rusije nasumično je odabrano 20 gradova za koje su dobiveni sljedeći podaci o cijenama javnog prijevoza: 14, 15, 12, 12, 13, 15, 15, 13, 15, 12, 15, 14 , 15, 13 , 13, 12, 12, 15, 14, 14.

Napravite empirijsku funkciju distribucije za ovaj uzorak i nacrtajte je.

Zapišimo uzorke vrijednosti uzlaznim redoslijedom i izračunajmo učestalost svake vrijednosti. Dobijamo sljedeću tablicu:

Slika 4.

Veličina uzorka: $n=20$.

Prema svojstvu 5, imamo da za $x\le 12$ $F_n\left(x\right)=0$, a za $x>15$ $F_n\left(x\right)=1$.

$x vrijednost

$x vrijednost

$x vrijednost

Tako dobivamo:

Slika 5.

Nacrtajmo empirijsku distribuciju:

Slika 6.

Izvornost: 92,12 $\%$.