Možnosti variacije. Serija variacijskih in statističnih distribucij. Kako interpretirati vrednost merila Wilkexon

Vrsta vrednosti vrednosti, ki jo je preučila v tem poskusu ali opazovanju parametra, posredovanega obsega (naraščajoče ali padajoče), se imenuje varicijska številka.

Recimo, da smo izmerili krvni tlak pri desetih bolnikih, da smo dobili zgornji prag krvnega tlaka: sistolični tlak, t.j. Samo eno številko.

Predstavljajte si, da je vrsta opazovanj (statistični agregat) arterijskega sistočnega tlaka v 10 opazovanjih naslednja (tabela 1):

Tabela 1.

Komponente številke variacije se imenujejo možnosti. Možnosti so številska vrednost preučevanega znaka.

Zgradba iz statističnega agregatnega opazovanja variacijskih serij - samo prvi korak k razumevanju značilnosti celotnega prebivalstva. Nato je treba določiti povprečno raven nastalega količinske funkcije (povprečna raven krvnih beljakovin, povprečna teža bolnikov, povprečni čas pojava anestezije itd.)

Povprečna raven se meri z merili, ki se imenujejo povprečne vrednosti. Povprečna vrednost je posplošena numerična značilnost kvalitativno homogenih vrednosti, ki je značilna v eni številki celotnega statističnega niza na eni osnovi. Povprečna vrednost je izražena na splošno, kar je značilno za znak v tem sklopu opazovanj.

Tri vrste povprečnih vrednosti se pogosto uporabljajo: moda (), mediana () in srednje tarifno vrednost ().

Da bi določili vsako povprečje, je treba uporabiti rezultate posameznih opazovanj, ki jih pišete v obliki variacijskih serij (tabela 2).

Moda - Vrednost, ki je najpogostejša v vrsti opazovanj. V našem primeru mode \u003d 120. Če v seriji variacij ni ponavljajočih se vrednosti, pravijo, da ni načina. Če se večkrat večkrat ponovi večkrat, se najmanjši od njih vzamejo kot moda.

Mediana. - vrednost, ki razdeli porazdelitev na dva enake dele, osrednje ali srednjo vrednost vrste opazovanj, naročijo z naraščajočim ali padajočim. Torej, če je v variacijskih serijah 5 vrednot, je njen mediana enaka tretjim članu variacijskih serij, če je v vrsti celo število članov, potem je mediana aritmetično povprečje svojih dveh centralnih pripomb, tj Če obstaja 10 opazovanj, je mediana enaka povprečnih aritmetičnih 5 in 6 opazovanj. V našem primeru.

Opozarjamo na pomembno značilnost mode in medianov: številčne vrednosti ekstremne možnosti ne vplivajo na njihove vrednosti.

Srednja aritmetična vrednost Izračunana s formulo:

kjer - opažena vrednost opazovanja in število opazovanj. Za naš primer.

Povprečna aritmetična vrednost ima tri lastnosti:

Povprečje zavzema srednji položaj v seriji variacij. V strogo simetrični vrstici.

Povprečje je splošni obseg in povprečje niso vidni z naključnimi nihanji, razlike v posameznih podatkih. Odraža tipično, kar je značilno za celotno celoto.

Znesek odstopanj od vse možnosti od povprečja je nič :. \\ T Prikazana je možnost odstopanja iz medija.

Serija variacij je sestavljena iz možnosti in ustreznih frekvenc. Od desetih vrednosti števke 120 se je sestala 6-krat, 115 - 3-krat, 125 - 1 čas. Frekvenca () je absolutno število posameznih možnosti v agregatu, kar kaže, kolikokrat se ta možnost najde v seriji variacij.

Variacijska serija je lahko preprosta (frekvenca \u003d 1) ali združene skrajšane, 3-5 možnosti. Preprosto območje se uporablja z majhnim številom opažanj (), združenih - z velikim številom opažanj ().

Posebno mesto v statistični analizi spada v opredelitev srednje vrednosti preučevanega znaka ali pojava. Povprečna značilnost se meri s povprečnimi vrednostmi.

Povprečna vrednost je značilna splošna količinska raven lastnosti v študiji in je skupina lastnosti statističnega agregata. Ravni IT, oslabi naključna odstopanja posameznih opazovanj na tak ali drugačen način in poudarja glavno, tipično lastnost preučevanega znaka.

Povprečne spremenljivke se pogosto uporabljajo:

1. Oceniti stanje zdravja prebivalstva: značilnosti fizičnega razvoja (rast, teža, obseg prsnega koša itd.), Odkrivanje razširjenosti in trajanja različnih bolezni, analiza demografskih kazalnikov (naravno gibanje prebivalstva, povprečje Trajanje prihodnjega življenja, reprodukcije prebivalstva, povprečno prebivalstvo in itd.).

2. preučiti dejavnosti medicinskih in profilaktičnih institucij, medicinskega osebja in oceniti kakovost svojega dela, načrtovanja in določanja potreb prebivalstva v različnih vrstah zdravstvene oskrbe (povprečno število pritožb ali obiskov na rezident na leto, \\ t Povprečno trajanje bolnikovega bivanja v bolnišnici, povprečno trajanje ankete bolnik, povprečna varnost zdravnikov, lokov itd.).

3. Za označitev sanitarnega in epidemiološkega stanja (povprečno prah zraka v delavnici, povprečno območje na osebo, povprečne norme porabe beljakovin, maščob in ogljikovih hidratov itd.).

4. Za določitev medicinskih in fizioloških kazalnikov, običajno in patologije, med obdelavo laboratorijskih podatkov, vzpostavitev zanesljivosti rezultatov študije vzorčenja v družbeno-higienskih, kliničnih, eksperimentalnih študijah.

Izračun povprečnih vrednosti temelji na variacijskih serijah. Variacijska serija - To je homogeni statistični set v kvalitativnem odnosu, katerih nekatere enote so označene kvantitativne razlike v preučevanem atributu ali pojavu.

Kvantitativne variacije so lahko dve vrsti: prenehanje (diskretno) in neprekinjeno.

Neskončna (diskretna) funkcija je izražena samo s celo številom in ne more imeti nobenih vmesnih vrednosti (na primer število obiskov, populacije prebivalstva, število otrok v družini, resnost bolezni v točkah itd .).

Stalni znak lahko sprejme vse vrednosti v določenih mejah, vključno s frakcijsko in izraženo le približno (na primer, za odrasle je lahko omejeno na kilograme, in za novorojenčke - gramov; rast, krvni tlak, čas, porabljen na bolnikov sprejem in itd.).



Digitalna vrednost vsake posamezne funkcije ali pojav, ki je vključena v območje variacije, se imenuje možnost in je označena s črko V. . V matematični literaturi obstajajo druge oznake, na primer x. ali y.

Razpon variacije, kjer je vsaka možnost določena enkrat, se imenuje preprosto. Takšne vrstice se uporabljajo v večini statističnih nalog v primeru obdelave računalniških podatkov.

S povečanjem števila opazovanj, praviloma obstajajo ponavljajoče se vrednosti. V tem primeru je ustvarjen združene variacijekjer je navedeno število ponovitev (frekvenca je označena s črko " r. »).

Opačne variacije Sestavljen je iz možnosti, ki je razporejen v naraščajočem vrstnem redu ali padajočem. Tako preproste kot združene vrstice se lahko zbirajo z uvrstitvijo.

Interval variacijska serija Dopolnite za poenostavitev naknadnih izračunov brez uporabe računalnika, z zelo velikim številom opazovalnih enot (več kot 1000).

Stalna variacijska serija Vključuje vrednosti možnosti, ki jih lahko izrazijo vse vrednosti.

Če je v variacijskih serijah vrednosti atributa (možnosti) podana v obliki posameznih posebnih številk, nato pa je taka številka klicana diskretno.

Skupne značilnosti Znaki, ki se odražajo v seriji variacij, so povprečne vrednosti. Med njimi so najbolj uporabljeni: povprečna aritmetična vrednost M,moda Mo.in Mediana. Jaz.Vsaka od teh značilnosti je prvotno. Ne morejo se medsebojno nadomestiti in samo v celoti v celoti in v stisnjeni obliki so značilnosti variacijskih serij.

Moroy. (Mo pokličite vrednost najpogostejših možnosti.

Mediana. (Jaz) - To je vrednost možnosti, ki delijo razvrščene variacije na polovico (na vsaki strani mediana, je polovica možnosti). V redkih primerih, ko je simetrična variacijska serija, je mod in mediana enaka drug drugemu in sovpadajo z vrednostjo povprečne aritmetike.

Najbolj značilna značilnost vrednot je možnost, da je srednji aritmetični Količina ( M. ). V matematični literaturi je navedena .

Srednja aritmetična vrednost (M, ) - To je skupna količinska značilnost določenega znaka preučevanega pojava, ki sestavlja kvalitativno homogeni statistični agregat. Razlikovati med povprečnim aritmetičnim preprostim in tehtanim. Povprečna aritmetika je preprosta se izračuna za preprosto variacijsko serijo s povzetkom vse variante in delitvijo tega zneska za skupno število možnosti, vključenih v to območje variacije. Izračuni se izvajajo s formulo:

kje: M. - povprečna aritmetična enostavna;

Σ V. - možnost znaša;

n. - število opazovanj.

V združenih variacijskih serijah se določi tehtana povprečna aritmetika. Formula njegovega izračuna:

kje: M. - povprečna aritmetična tehtana;

Σ VP. - količina možnosti izdelkov pri njihovi frekvenci;

n. - število opazovanj.

Z velikim številom opažanj v primeru ročnih izračunov se lahko uporabi način trenutkov.

Povprečna aritmetika ima naslednje lastnosti:

· Znesek možnosti odstopanja od povprečja ( Σ d. ) enaka nič (glej tabelo 15);

· Po množitvi (delitev) vse možnosti na isti faktor (delilnik) se povprečna aritmetika pomnoži (razdeljena) na isti faktor (delilnik);

· Če dodate (odštejte) za vse variante, isto številko, povprečno aritmetično povečanje (zmanjša) na isto številko.

Povprečne aritmetične vrednosti, ki jih sami, brez upoštevanja variabilnosti serije, od katerih se izračunajo, ne smejo v celoti odražati v celoti lastnosti variacijskih serij, zlasti kadar je potrebna primerjava z drugimi mediji. Pravilni medij lahko dobite iz vrstice z različnimi stopnjami razprševanja. Bližje drug drugemu možnosti v svoji kvantitativni značilnosti, manj razprševanje (variabilnost, variabilnost) Število, bolj značilno za njeno povprečje.

Glavni parametri, ki omogočajo ocenjevanje variabilnosti funkcije, so:

· Obseg;

· Amplituda;

· Povprečno kvadratno odstopanje;

· Koeficient variacije.

Približno okoli oddelkov znaka se lahko ocenjuje po obsegu in amplituri variacijskih serij. Področje uporabe Označuje največje možnosti (V MAX) in najmanj (V Min) v vrstici. Amplituda (a m) je razlika teh možnosti: M \u003d V MAX - V MIN.

Glavna, splošno sprejeta mera variacij variacijskega območja, je dispersion. (D. ). Vendar najpogosteje uporabljen bolj priročen parameter, izračunan na podlagi disperzije - povprečnega kvadratnega odstopanja ( σ ). Upošteva obseg odstopanja ( d. ) vsaka varianta variacijskega območja od srednjega aritmetika ( d \u003d V - M ).

Ker odstopanja od povprečja je lahko pozitivna in negativna, potem ko sešteje, dajejo vrednost "0" (S d \u003d 0.). Da bi se izognili temu, se vrednosti odstopanja ( d.) Zgodaj v drugi stopnji in se povprečno. Tako je disperzija različice serije je povprečna kvadratna odstopanja možnost od srednjega aritmetika in se izračuna s formulo:

To je najpomembnejša značilnost variabilnosti in se uporablja za izračun številnih statističnih meril.

Ker je razpršenost izražena s kvadratom odstopanj, njena vrednost ni mogoče uporabiti v primerjavi s povprečnim aritmetiko. Za te namene velja povprečno kvadratno odstopanjeki je označen z znakom "Sigma" ( σ ). Označuje je povprečno odstopanje vseh variacij variacij od srednje aritmetične vrednosti v istih enotah kot srednjo vrednost, da se lahko uporabljajo skupaj.

Povprečno kvadratno odstopanje se določi s formulo:

Ta formula se uporablja s številom opazovanj ( n. ) več kot 30. Z manjšim številom n. Povprečna vrednost kvadratnega odstopanja bo imela napako, povezano z matematičnim premikom ( n. - Ena). V zvezi s tem je mogoče natančnejše rezultate pridobiti z upoštevanjem takšnega premika v formuli za izračun standardnega odstopanja:

standardni odklon (s. - To je ocena rikonduktivnega odstopanja naključne spremenljivke H. Glede matematičnega pričakovanja, ki temelji na neverjetni oceni njene razpršenosti.

Na vrednotah N. \u003e 30 Povprečno kvadratno odstopanje ( σ ) in standardno odstopanje ( s. ) bo isto ( Σ \u003d S. ). Zato se ta merila v večini praktičnih koristi šteje za raznoliko. V programu Excel lahko izračun standardnega odstopanja izvede s funkcijo \u003d STOOTCLONE (RANGE). In da bi izračun povprečnega kvadratnega odstopanja, mora ustvariti ustrezno formulo.

Povprečna kvadratna ali standardna deviacija vam omogoča, da ugotovite, kako pomembne vrednosti znakov se lahko razlikujejo od povprečne vrednosti. Recimo, da obstajata dve mesti z isto povprečno dnevno temperaturo poleti. Eno od teh mest se nahaja na obali, druga pa na celini. Znano je, da so v mestih na obali razlike v dnevnih temperaturah manjša od mest, ki se nahajajo znotraj celine. Zato bo povprečno kvadratno odstopanje dnevnih temperatur na obalnem mestu manj kot drugo mesto. V praksi to pomeni, da se bo povprečna temperatura zraka vsakega posameznega dneva v mestu, ki se nahaja na celini, težje od povprečne vrednosti kot v mestu na obali. Poleg tega standardni odklon omogoča oceno možnih temperaturnih odstopanj od povprečja z zahtevano stopnjo verjetnosti.

Glede na teorijo verjetnosti, v pojavih, ki je bila predložena običajni zakonodaji porazdelitve, med vrednostmi povprečnega aritmetičnega, povprečnega kvadratnega odstopanja in možnosti obstaja stroga odvisnost ( pravilo tri sigm.). Na primer, 68,3% vrednosti variacijske funkcije je znotraj M ± 1 σ , 95,5% - znotraj M ± 2 σ in 99,7% - znotraj M ± 3 σ .

Velikost povprečnega kvadratnega odstopanja omogoča presojo narave homogenosti variacijskih serij in študije. Če je obseg povprečnega kvadratnega odstopanja majhen, to kaže na dovolj visoko enakomernost pojava v študiji. Povprečna aritmetika v tem primeru je treba priznati kot precej značilno za to variacijsko serijo. Vendar pa premajhna sigma razmišlja o umetni izbor opazovanj. Z zelo velikim Sigma je povprečna aritmetika v manjši meri označena z variacijsko serijo, ki označuje pomembno variabilnost preučevanega značaja ali pojava ali heterogenosti skupine v študiji. Vendar pa je primerjava obsega povprečnega kvadratnega odstopanja možna samo za znake iste dimenzije. Če primerjate različne uteži novorojenčkov in odraslih, pri odraslih vedno dobimo višje sigma vrednote.

Primerjava variabilnosti znakov različnih dimenzij se lahko izvede z uporabo sprememba koeficienta. Izraža sorto kot odstotek povprečne vrednosti, ki omogoča primerjavo različnih znakov. Koeficient variacije v medicinski literaturi je označen z znakom " Od ", In v matematični" v."In izračunana s formulo: \\ t

Vrednosti koeficienta variacije, ki je manjša od 10%, označujejo majhno razprševanje, od 10 do 20% - približno povprečno, več kot 20% - o močni razpršitvi možnosti okoli srednjega aritmetika.

Povprečna aritmetična vrednost se običajno izračuna na podlagi selektivnega sklopa podatkov. S ponovljenimi študijami pod vplivom naključnih pojavov se lahko povprečna aritmetika spremeni. To je posledica dejstva, da se praviloma pregleda le del možnih enot opazovanja, to je selektivni agregat. Informacije o vseh možnih enotah, ki predstavljajo preučeni pojav, lahko dobite pri preučevanju celotne splošne populacije, ki ni vedno mogoče. Hkrati pa je z namenom posplošujemo eksperimentalne podatke, vrednost povprečja v splošni populaciji je zanimiva. Zato je treba za oblikovanje splošne ugotovitve o preučevanem pojavu, rezultate, pridobljene na podlagi selektivnega agregata, prenesti na splošni sklop statističnih metod.

Da bi ugotovili stopnjo naključja študije vzorčenja in splošne populacije, je treba oceniti obseg napake, ki se neizogibno pojavi pri selektivnem opazovanju. Ta napaka se imenuje " Reprezentativna napaka"Ali" srednja aritmetična napaka ". Pravzaprav je razlika med povprečjem, pridobljenim v vzorcu statistično opazovanjein podobne vrednosti, ki bi bile pridobljene s stalno študijo istega predmeta, t.j. Pri preučevanju splošne populacije. Ker je selektivno povprečje naključno vrednost, se takšna napoved izvede s sprejemljivo verjetnostjo raziskovalcem. V medicinskih študijah je vsaj 95%.

Reprezentativne napake ni mogoče mešati z referenčnimi napakami ali napakami pozornosti (itd.), Ki jih je treba zmanjšati z ustreznimi tehnikami in orodji, ki se uporabljajo v poskusu.

Velikost napake reprezentativnosti je odvisna od velikosti vzorca in spremenljivosti motivosti. Večje je število opazovanj, bližje vzorec do splošne populacije in manj napak. Več spreminjanja znaka, večja je vrednost statistične napake.

V praksi, da se ugotovi napaka reprezentativnosti v variacijskih serijah uporablja naslednjo formulo:

kje: m. - reprezentativna napaka;

σ - sekundarno kvadratno odstopanje;

n. - število opazovanj v vzorcu.

Iz formule je razvidno, da je velikost povprečne napake neposredno sorazmerna s povprečnim kvadratnim odstopanjem, t.j. variabilnost preučenega pripisovanja, in obratno sorazmerna koren trga iz števila opazovanj.

Pri opravljanju statistične analize, ki temelji na izračunu relativnih vrednosti, gradnja številke variacije ni obvezna. Hkrati se lahko opredelitev povprečne napake za relativne kazalnike izvede na poenostavljeni formuli:

kje: R.- velikosti relativnega kazalnika, izraženo v odstotkih, ppm itd.;

q. - znesek, inverzno P in izražen kot (1-P), (100-P), (1000-P), itd, odvisno od osnove, na kateri se izračuna kazalnik;

n. - število opazovanj v selektivnem agregatu.

Vendar pa se navedla formula za izračun napake reprezentativnosti za relativne vrednosti se lahko uporablja le v primeru, ko je vrednost indikatorja manjša od njene baze. V nekaterih primerih izračun intenzivnih kazalnikov ni izpolnjen s takšnim pogojem, kazalnik pa se lahko izrazi s številom več kot 100% ali 1000%. V takem primeru obstaja konjunalna serija in izračunava reprezentativne napake s formulo za povprečne vrednosti, ki temeljijo na srednjem kvadratnem odstopanju.

Napoved vrednosti povprečne aritmetike v splošni populaciji se izvaja z navedbo dveh vrednosti - najmanjšim in maksimuma. Te skrajne vrednosti možnih odstopanj, v katerih lahko želena povprečna vrednost splošne populacije nihajo, se imenujejo " Trust Borders.».

Prevodi teorije verjetnosti so dokazane, da v običajni porazdelitvi značilnosti z verjetnostjo 99,7%, ekstremne vrednosti povprečnih odstopanj ne bodo večja od velikosti potrojilirane napake reprezentativnosti ( M. ± 3. m. ); 95,5% - nič več kot vrednost dvojne povprečne napake povprečne vrednosti ( M. ± 2. m. ); 68,3% - nič več kot količina povprečne napake ( M. ± 1. m. ) (Sl. 9).

P%

Sl. 9. Gostota verjetnosti normalne porazdelitve.

Upoštevajte, da je zgornja izjava poštena samo za funkcijo, ki je predmet običajnega zakona porazdelitve Gaussa.

Večina eksperimentalnih študij, tudi na področju medicine, so povezane z meritvami, katerih rezultati lahko vzamejo skoraj vse vrednosti v določenem intervalu, zato je praviloma opisan model neprekinjenih naključnih spremenljivk. V zvezi s tem se v večini statističnih metod upoštevajo neprekinjene porazdelitve. Ena takšna porazdelitev, ki ima temeljno vlogo pri matematični statistiki normalno, ali Gaussova, distribucija.

To je razloženo z več razlogi.

1. Prvič, veliko eksperimentalnih opazovanj je mogoče uspešno opisati z običajno porazdelitvijo. Nemudoma je treba opozoriti, da ni dodeljevanja razdelitev empiričnih podatkov, ki bi bile v redu z normalno, saj običajno porazdeljena naključna vrednost od do tistega, ki nikoli ni v praksi. Vendar pa je normalna porazdelitev zelo pogosto primerna kot približek.

Ne glede na to, ali se meritve teže, rasti in drugih fizioloških parametrov človeškega telesa izvajajo - povsod imajo rezultati vpliv zelo velikega števila naključnih dejavnikov (naravni vzroki in napake pri merjenju). Poleg tega je dejanje vsakega od teh dejavnikov nepomembno. Izkušnje kažejo, da bodo rezultati v takih primerih razdeljeni približno normalno.

2. Številne razdelitve, povezane z naključnim vzorcem, s povečanjem slednjega, pojdite na normalno.

3. Normalna porazdelitev je primerna kot približen opis drugih neprekinjenih porazdelitev (na primer asimetrična).

4. Običajna porazdelitev ima številne ugodne matematične lastnosti, v mnogih pogledih, ki zagotavljajo široko uporabo v statistiki.

Hkrati je treba opozoriti, da obstaja veliko eksperimentalnih porazdelitev v medicinskih podatkih, opis katerega model normalne porazdelitve ni nemogoče. Če želite to narediti, v statističnih podatkih, ki se imenujejo "neparametrične".

Izbira statistične metode, ki je primerna za obdelavo podatkov določenega eksperimenta, je treba opraviti glede na pripadnost podatkov na običajnega zakona o distribuciji. Preverjanje hipoteze o predložitvi znaka z običajnim distribucijskim zakonom se izvaja z uporabo histograma porazdelitve frekvence (graf), kot tudi številna statistična merila. Med njimi:

Merilo asimetrije ( b. );

Merilo preverjanja exscess ( g. );

Merila Shapiro - Wilx ( W. ) .

Analiza narave porazdelitve podatkov (imenovana se tudi veljavnost distribucije) se izvede za vsak parameter. Da bi samozavestno presojati skladnost porazdelitve parametra z običajnim zakonom, je potrebno dovolj veliko število opazovalnih enot (vsaj 30 vrednosti).

Za normalno porazdelitev merila asimetrije in presežkov vzamejo vrednost 0. Če se porazdelitev premakne na desno b. \u003e 0 (pozitivna asimetrija), z b. < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g. \u003d 0. Za g. \u003e 0 Ostra distribucijska krivulja, če g. < 0 пик более сглаженный, чем функция нормального распределения.

Za preverjanje normalnosti z merilom Shapiro - WILX mora najti pomen tega merila na statističnih tabelah z zahtevano stopnjo pomembnosti in odvisno od števila opazovalnih enot (stopinj svobode). Priloga 1. Hipoteza normalnosti je zavrnjena pri majhnih vrednotah tega merila, praviloma, w. <0,8.

Kombinacija predmetov ali pojavov, združenih s skupno značilnostjo ali lastnostjo visokokakovostne ali kvantitativne narave, se imenuje opazovanje objekta .

Vsak predmet statističnega opazovanja je sestavljen iz posameznih elementov - opazovanje enot .

Rezultati statističnega opazovanja so numerične informacije - podatki . Statistični podatki - To je informacija o tem, kaj vrednote Raziskava zanima raziskovalec v statističnem agregatu.

Če so vrednosti znakov izražene s številkami, se imenuje znak kvantitativno .

Če je funkcija označuje nekaj premoženja ali stanja elementov agregata, se znak imenuje kvalitativno .

Če je študija predmet vseh elementov agregata (trdno opazovanje), se imenuje statistični agregat splošno.

Če je študija predmet del elementov splošne populacije, se imenuje statistični agregat selektivno (vzorčenje) . Izbira splošne populacije je naključno ekstrahirana, tako da ima vsak od vzorčnih elementov enake možnosti, da izberete.

Vrednosti atributa med prehodom iz enega elementa nastavljenega na drugega se spremenijo (razlikujejo), zato se v statistiki imenujejo tudi različni znaki opcije . Možnosti so običajno označene z majhnimi latinskimi črkami x, y, z.

Pokliče se zaporedna številka opcije (znakovne vrednosti) rank. . x 1 - 1. emerceilment (1. znak), X 2 - 2. 2. Možnost (2. znak znaka), X I - I-TH Variant (I-E znak).

Naročeno, da bi povečali ali zmanjšali številne znake (možnosti) z ustreznimi utežmi, imenovanimi v bližini (bližnja distribucija).

Sodišče tehta Pogostost ali frekvenca.

Frekvenca(M i) kaže, kolikokrat se naleti na eni ali drugi (vrednost znakov) v statističnem agregatu.

Pogostost ali relativna frekvenca (W i) kaže, kateri del kombiniranih enot ima eno ali drugo. Frekvenca se izračuna kot razmerje med frekvenco ene ali druge možnosti v vsoto vseh frekvenc vrstice.

. (6.1)

Vsota vseh frekvenc je enaka 1.

. (6.2)

Različne vrstice so diskretne in interval.

Diskretne variacijske vrstice Običajno se gradi v primeru, da se lahko vrednosti preučevanega znaka med seboj razlikujejo za nič manj kot nekaj končne vrednosti.

V diskretnih vrstah variacij so nastavljene točke točk.

Splošni pogled na diskretno variacijsko številko je določen v tabeli 6.1.

Tabela 6.1.

kjer sem \u003d 1, 2, ..., l.

V intervalu variacije v vsakem intervalu se razlikujejo zgornje in spodnje meje intervala.

Razlika med zgornjo in spodnjo mejo intervala se imenuje intervalna razlika ali dolžina (vrednost) Interval .

Velikost prvega intervala K 1 je določena s formulo:

k 1 \u003d. a 2 - A 1;

drugič: K 2 \u003d in 3 - A 2; ...

zadnji: K L \u003d l-A L -1.

Na splošno intervalna razlika K I se izračuna po formuli:

k i \u003d x i (max) - x i (min). (6.3)

Če ima interval obe meji, potem se imenuje zaprto .

Prvi in \u200b\u200bzadnji intervali so lahko odprto . imajo samo eno mejo.

Na primer, prvi interval se lahko nastavi kot "do 100", drugi - "100-110", ..., predzadnji - "190-200", zadnji - "200 in več". Očitno, prvi interval nima nižje meje, in zadnji vrh, oba sta odprta.

Pogosto odprt intervalov je treba posvetiti. V ta namen se prvi interval običajno vzame enako vrednosti drugega, obseg zadnjega pa je obseg predzadnje. V našem primeru je obseg drugega intervala 110-100 \u003d 10, zato je spodnja meja prvega intervala pogojno 100-10 \u003d 90; Velikost predzadnje interval je 200-190 \u003d 10, zato je zgornja meja zadnjega intervala pogojena v 200 + 10 \u003d 210.

Poleg tega lahko intervalne variacijske skupine naletijo na intervale različnih dolžin. Če imajo intervali v območju variacije enako dolžino (razlika interval), se imenujejo isometric. , sicer - neenotna.

Pri izgradnji območja variacije intervala je težava izbire velikosti intervala (intervalna razlika) pogosto obraz.

Določiti optimalno velikost intervalov (v primeru, da je vrstica z enakimi intervali zgrajena) formula StarGessa:

, (6.4)

kjer je n število agregatov,

x (MAX) in X (MIN) - največje in najmanjše vrednosti variant vrstice.

Za lastnosti variacijskih serij, skupaj s frekvencami in strankami, se uporabljajo nakopičene frekvence in frekvence.

Akumulirane frekvence (frekvence) Pokažite, koliko enot agregata (kateri del njih) ne presega določene vrednosti (opcija) x.

Akumulirane frekvence ( v I.) V skladu z diskretnim serijo je mogoče izračunati po naslednji formuli:

. (6.5)

Za intervalne različice serije - to je vsota frekvenc (frekvence) vseh intervalov, ki ne presegajo tega.

Diskretne variacije so lahko grafično zastopane poligonska frekvenčna distribucija ali frekvenca.

Pri gradnji porazdelitvenega poligona vzdolž osi abscisa, se vrednosti funkcije (različice) preložijo in vzdolž ordinatnih ali frekvenčnih osi. Na križišču vrednosti funkcije in ustreznih frekvenc (frekvenc) so točke preložene, ki so nato povezane s segmenti. Nastalo uhajanje se imenuje poligon frekvenčne distribucije (frekvenca).

X K.
X 2.
x 1 x i


Sl. 6.1.

Intervalske variacije grafično lahko zastopajo z uporabo histogrami.. Filmska tabela.

Pri gradnji histograma vzdolž osi abscisa so vrednosti preučevanega atributa (intervalne meje) odložene.

V primeru, da so intervali enake vrednosti, se lahko obdolžene ali frekvence ali frekvence preložijo vzdolž osi.

Če imajo intervali različne magnitude, vzdolž osi osi, je treba odložiti vrednosti absolutne ali relativne gostote distribucije.

Absolutna gostota - Razmerje med frekvenco intervala do velikosti intervala:

; (6.6)

kjer: f (a) i je absolutna gostota i-palt interval;

m i - frekvenca intervala I-to;

k I je vrednost intervala I-TH (intervalna razlika).

Absolutna gostota kaže, koliko enot agregata je na enoto intervala.

Relativna gostota - Razmerje med frekvenco intervala do velikosti intervala:

; (6.7)

kjer: F (O) I je relativna gostota I-TH interval;

w I je frekvenca intervala I-TH.

Relativna gostota kaže, kateri del enot agregata je na enoto intervala.

L.
1 x i
A 2.

In diskretne in intervalna variacijska serija grafično lahko zastopajo kot kumulatine in ploščadi.

Pri konstruiranju kumulati Glede na diskretne serije so vrednosti funkcije (možnosti) preložene vzdolž osi abscisa, in na akumulirane frekvence ali frekvence se nakopičijo na osi. Na križišču znakov (možnosti) in ustreznih akumuliranih frekvenc (frekvenc) so točke zgrajene, ki so v zameno, povezane s segmenti ali krivuljo. Nastalo zlomljena (krivulja) se imenuje kumulatirana (kumulativna krivulja).

Pri gradnji kumulatov po seriji interval vzdolž osi abscisa, se meje intervalov odložijo. Odvzem točk so zgornje meje intervalov. Opozori oblikovane frekvence (frekvence) ustreznih intervalov. Pogosto dodajte še eno točko, od katerih je abscisa spodnja meja prvega intervala, in Okunata je nič. Povezovanje točk z razdelki ali krivuljo, dobimo kumulating.

Ogiva. Zgrajena je podobno kot kumulativna z razliko, da se uporablja osi abscisa, ki ustreza akumuliranim frekvencam (generali), in v skladu z ordinatno os - vrednosti znakov (možnosti).

Ruska akademija za nacionalno gospodarstvo in javne službe pod predsednikom Ruske federacije

Oryol Branch.

oddelek za matematiko in matematične metode upravljanja

Neodvisno delo

Matematika

na temo "Variationtal serije in njene značilnosti"

za študente rednega oddelka fakultete "ekonomije in upravljanja"

navodila za usposabljanje "Upravljanje osebja"


Namen dela:Obvladovanje konceptov matematične statistike in sprejemov primarne obdelave podatkov.

Primer reševanja tipičnih nalog.

Naloga 1.

Z raziskavo so bili pridobljeni naslednji podatki ():

1 2 3 2 2 4 3 3 5 1 0 2 4 3 2 2 3 3 1 3 2 4 2 4 3 3 3 2 0 6

3 3 1 1 2 3 1 4 3 1 7 4 3 4 2 3 2 3 3 1 4 3 1 4 5 3 4 2 4 5

3 6 4 1 3 2 4 1 3 1 0 0 4 6 4 7 4 1 3 5

Potreba:

1) Naredite variacijsko serijo (statistična porazdelitev vzorca), pred-pisanje uvrščenega diskretnega števila možnosti.

2) Zgradite poligon in kumulat.

3) Ustvarite številne porazdelitve relativnih frekvenc (frekvence).

4) Poiščite glavne številske značilnosti variacijskih serij (uporabite poenostavljene formule za njihovo bivanje): a) povprečni aritmetični, b) mediana Jaz. in Fashion. Mo., c) disperzija s 2., d) Sekundarna kvadratna odstopanja S., e) variacijski koeficient V..

5) Pojasnite pomen doseženih rezultatov.

Sklep.

1) Za kompilacijo uvrščeno diskretno število možnosti Razvrstite podatke o velikosti in jih postavite v naraščajočem vrstnem redu.

0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

5 5 5 5 6 6 6 7 7.

Izdelali bomo variacijsko serijo, pisanje v prvi vrstici opazovanih vrednosti tabele (možnosti) in v drugi frekvenci, ki ustrezajo jim (tabela 1)

Tabela 1.

2) Frekvenčni poligon je lomljena točka povezovanja ( x I.; n I.), jAZ.=1, 2,…, m.kje m. X..

Razporedil bom poligon frekvenc variacijskih serij (sl. 1).

Sl.1. Polygon frekvenca

Kumulativna krivulja (CUMULAT) za diskretno območje variacij predstavlja lomljeno točko povezovanja ( x I.; ameriški Nacionalni inštitut za zdravje), jAZ.=1, 2,…, m..

Poiščite nakopičene frekvence ameriški Nacionalni inštitut za zdravje (Akumulirana frekvenca kaže, koliko možnosti je bilo opaženih z znakom znaka manjšega h.). Vrednosti, ki jih najdemo v tretji vrstici tabele 1.



Konstruiramo kumulativno (sl. 2).

Sl.2. Cumulat.

3) Najdemo relativne frekvence (frekvence), kjer, kje m. - število različnih znakov funkcije X.ki jih bomo izračunali z enako natančnostjo.

Napišemo številne porazdelitve relativnih frekvenc (frekvence) v obliki tabele 2

Tabela 2.

4) Ugotovimo glavne številčne značilnosti variacijskih serij:

a) Srednja aritmetika, ki jo najdemo s poenostavljeno formulo:

,

kjer - pogojne možnosti

Pot. od\u003d 3 (ena od povprečnih opazovanih vrednosti), k.\u003d 1 (razlika med dvema sosednjima možnostma) in naredite izračunano tabelo (tabela 3).

Tabela 3.

x I. n. JAZ. u I. u i n i u i 2 n i
-3 -12
-2 -26
-1 -14
Vsota -11

Potem povprečna aritmetika

b) mediana. Jaz. Serija variacij se imenuje vrednost atributa, ki je na sredini uvrščene vrstice opazovanj. To diskretno območje variacij vsebuje enako število članov ( n.\u003d 80), to pomeni, da je mediana enaka polovici sredine dveh srednjih možnosti.

Moroy. Mo. Različni razpon se imenuje možnost, na katero se najvišja frekvenca ustreza. Za to variacijsko serijo, najvišja frekvenca N. Max \u003d 24 ustreza možnosti h. \u003d 3, potem moda Mo.=3.

c) disperzija s 2.ki je merilo razprševanja možnih vrednosti kazalnika X. Okoli svojega povprečja bomo našli poenostavljeno formulo:

kje u I. - Pogojne možnosti

Vmesni izračuni prav tako prinašajo tabelo 3.

Potem disperzijo

d) sekundarna kvadratna odstopanja s. Poiščite s formulo:

.

e) Koeficient variacije V.: (),

Različni koeficient je neizmerljiva vrednost, zato je primerna za primerjavo razpršitve variacijskih serij, katerih možnosti imajo različne dimenzije.

Koeficient variacije

.

5) Pomen dobljenih rezultatov je, da vrednost označuje povprečni znak X. V obravnavanem vzorcu je bila povprečna vrednost 2.86. Povprečno kvadratno odstopanje s. opisuje absolutno raztros vrednosti kazalnika X. In v tem primeru pomeni s. ≈ 1.55. Koeficient variacije V. označuje relativno variabilnost indikatorja X., to je, da je relativni raztros okoli njene povprečne vrednosti, in v tem primeru je.

Odgovor: ; ; ; .

Naloga 2.

Obstajajo naslednji podatki na svojem kapitalu 40 največjih bank v Srednji Rusiji:

12,0 49,4 22,4 39,3 90,5 15,2 75,0 73,0 62,3 25,2
70,4 50,3 72,0 71,6 43,7 68,3 28,3 44,9 86,6 61,0
41,0 70,9 27,3 22,9 88,6 42,5 41,9 55,0 56,9 68,1
120,8 52,4 42,0 119,3 49,6 110,6 54,5 99,3 111,5 26,1

Potreba:

1) Zgradite intervalne variacije.

2) Izračunajte srednjo selektivno in selektivno disperzijo

3) Poiščite povprečno kvadratno odstopanje in koeficient variacije.

4) Zgradite histogram frekvence distribucije.

Sklep.

1) Izberite poljubno število intervalov, na primer, 8. Potem širino intervala:

.

Naredimo tabelo izračuna:

Interval x K -X K +1 Frekvenca, n I. Srednji interval. x I. Pogojna možnost in jaz. in jaz in jaz. 2 n I. (in i +.1) 2 N I.
10 – 25 17,5 – 3 – 12
25 – 40 32,5 – 2 – 10
40 – 55 47,5 – 1 – 11
55 – 70 62,5
70 – 85 77,5
85 – 100 92,5
100 – 115 107,5
115 – 130 122,5
Vsota – 5

Kot lažno ničlo je izbrana vrednost c \u003d.62.5 (ta možnost se nahaja približno na sredini variacijskih serij) .

Pogojne možnosti se določijo s formulo

Skupina številk, združenih s katerim koli znakom, se imenuje agregat.

Kot je navedeno zgoraj, je primarni statistični športni material skupina razpršenih številk, ki ne dajejo trenerju idej o bistvu pojava ali procesa. Naloga je, da to celoto obrnite na sistem in jo uporabite s kazalniki za pridobitev zahtevanih informacij.

Priprava serije variacij je prav formacija določenega matematičnega

Primer 2. Pri 34 smučarskih športnikih je bil registriran tako impulzov čas obnovitve po končani razdalji (v sekundah):

81; 78: 84; 90; 78; 74; 84; 85; 81; 84: 79; 84; 74; 84; 84;

85; 81; 84; 78: 81; 74; 84; 81; 84; 85; 81; 78; 81; 81; 84;

Kot je razvidno, ta skupina številk ne nosi nobenih informacij.

Za pripravo variacijske številke, prvi postopek proizvajanja uvrstitev - Lokacija številk je v naraščajočem vrstnem redu ali padajočem. Na primer, v naraščajočem vrstnem redu, uvrstitev vodi do naslednjega;

78; 78; 78; 78; 78; 78;

81; 81; 81; 81; 81; 81; 81; 81; 81;

84; 84; 84; 84; 84; 84; 84; 84; 84; 84; 84;

V padajočem vrstnem redu, uvrstitev vodi v takšno skupino številk:

84; 84; 84; 84; 84; 84; 84; 84: 84: 84; 84;

81; 81; 81; 81; 8!; 81: 81; 81; 81;

78; 78; 78; 78; 78; 78;

Po uvrstitvi postaja iracionalna oblika snemanja te skupine števila številk in iste številke, ki je večkrat večkrat ponovljena. Zato se naravna misel pojavi za pretvorbo snemanja na tak način, da določi, katero število se ponovi. Na primer, glede na uvrstitev v naraščajočem vrstnem redu:

Tukaj se številka evidentira s številko, ki označuje čas obnovitve športnika impulza, desno od ponovitev tega pričanja v tej skupini 34 športnikov.

V skladu z zgornjimi koncepti o matematičnih simbolih bo obravnavana skupina meritev določila vsako pismo, na primer x. Glede na naraščajočo vrstni red števila v tej skupini: X 1 -74 C; X 2 - 78 S; X 3 - 81 S; x 4 - 84 s; X 5 - 85 S; x 6 N - 90 S, vsaka obravnavana številka lahko označimo s simbolom X I.

Označuje število ponavljanj obravnavanih meril črke n. Nato:

n 1 \u003d 4; N 2 \u003d 6; N 3 \u003d 9; N 4 \u003d 11; N 5 \u003d 3; N 6 \u003d N \u003d 1, in vsako število ponovitev je mogoče označiti kot n i.

Skupno število opravljenih meritev, kot sledi iz pogoja primera, je 34. To pomeni, da je vsota vseh n enaka 34. ali v simbolni ekspresiji:

To znesek označuje z eno črko - n. Nato se lahko začetni podatki o obravnavanem primeru zabeležijo v tem obrazcu (tabela 1).

Posledična skupina številk je preoblikovana serija kaotičnega raztresenega pričevanega pričevanja, ki ga je prišel trener na začetku dela.

Tabela 1.

X I. N I.
N \u003d 34.

Takšna skupina je poseben sistem, katerega parametri označujejo izvedene meritve. Številke, ki predstavljajo rezultate meritev (X I) klic opcije; N. I - Število njihovih ponovitev - se imenujejo frekvence; n - vsota vseh frekvenc - tam obseg celote.

Celoten pridobljeni sistem se imenuje v bližini. Včasih se te vrstice imenujejo empirične ali statistične.

Enostavno je opaziti, da je možen določen primer variacijskih serij, ko so vse frekvence enake enemu n I \u003d\u003d 1, to je vsaka meritev v tej skupini številk, ki se je sestala samo enkrat.

Nastala variacijska serija, kot vsaka druga, lahko zastopajo grafično. Za izgradnjo grafa nastale serije morate najprej biti na lestvici na vodoravni in navpični osi.

V tej nalogi, na horizontalni osi, bomo deponiramo čas izterjave impulza (x 1) na tak način, da dolžina dolžine, izvoljene samovoljno ustreza vrednosti ene sekunde. Začela bo te vrednosti od 70 sekund, običajno se umakne s križišča dveh osi 0.

Na navpični osi odložite vrednosti frekvenc naše vrstice (n I), ob lestvici: enota dolžine je enaka enoti frekvence.

Pripravite pogoje za izgradnjo urnika, nadaljujte z delom z dobljenimi variacij.

Prvi par številk x 1 \u003d 74, n 1 \u003d 4 se nanese na tabelo, kot je ta: na osi x; Našli smo x 1 =74 In obnovimo pravokotno od te točke, na os na osi najdemo n 1 \u003d 4 in iz nje izvedemo vodoravno črto do križišča z obnovljenim pravokotnikom. Obe vrstici Vertikalne in vodoravne so pomožne črte in se zato naneseta na risbo pikčaste črte. Bistvo njihovega križišča je razmerje x 1 \u003d 74 in n 1 \u003d 4 na lestvici tega grafa.

Na enak način se uporabljajo vse druge točke urnika. Potem so povezani z deli ravnih linij. Da bi urnika zaprt pogled, ekstremne pike povezujejo segmente s sosednjimi točkami vodoravne osi.

Nastala slika je graf naše variacijske serije (sl. 1).

Povsem jasno je, da se zdi, da je vsaka variacijska serija njihov urnik.

Sl. 1. Grafično predstavitev variacijskih serij.

Na sl. 1 kaže:

1) vseh najbolj anketiranih je največja skupina predstavljala športnike, čas obnovitve impulza, ki 84 s;

2) veliko tokrat je 81 s;

3) Najmanjša skupina je bila športniki z majhnim časovnim iztekom impulzov - 74 s in velikimi - 90 s.

Tako je z izvajanjem vrste testov, je treba pridobljene številke razvrstiti in sestaviti variacijske serije, ki je poseben matematični sistem. Zaradi jasnosti je lahko variacije ponazorjena z urnikom.

Zgornje različice se imenuje diskretno Naprej - to, v kateri je vsaka možnost izražena v eni številki.

Dajmo še nekaj primerov za prevajanje variacijskih serij.

Primer 3. 12 Strelci, ki opravljajo vadbo, ki ležijo iz 10 posnetkov, je pokazala takšne rezultate (v očalih):

94; 91; 96; 94; 94; 92; 91; 92; 91; 95; 94; 94.

Da bi tvorili obseg variacije, bomo razvrstili podatkovno številko;

94; 94; 94; 94; 94;

Po razvrstitvi naredimo serijo variacij (tabela 3).