Variationsutbud av alternativ. Variations- och statistisk fördelningsserie. Hur man tolkar värdet av Wilcoxon -testet

Uppsättningen av värden för parametern som studerats i ett visst experiment eller en observation, rankad i storlek (ökning eller minskning), kallas variationsserien.

Antag att vi mätte blodtrycket hos tio patienter för att få en övre blodtryckströskel: systoliskt tryck, d.v.s. bara ett nummer.

Låt oss föreställa oss att en serie observationer (statistiskt aggregat) av arteriellt systoliskt tryck i 10 observationer har följande form (tabell 1):

bord 1

Komponenterna i variationsserien kallas varianter. Varianter representerar det numeriska värdet av den undersökta egenskapen.

Konstruktionen av en variationsserie från en statistisk population av observationer är bara det första steget mot att förstå egenskaperna hos hela befolkningen. Därefter är det nödvändigt att bestämma den genomsnittliga nivån för den studerade kvantitativa egenskapen (genomsnittlig nivå av blodprotein, genomsnittlig vikt för patienter, genomsnittlig tid för anestesi, etc.)

Medelnivån mäts med hjälp av kriterier som kallas medelvärden. Medelvärdet är en generaliserande numerisk egenskap för kvalitativt homogena mängder, som med ett nummer karakteriserar hela den statistiska populationen enligt ett attribut. Medelvärdet uttrycker det allmänna som är karakteristiskt för en funktion i en given uppsättning observationer.

Vanligtvis används tre typer av medelvärden: mode (), median () och aritmetiskt medelvärde ().

För att bestämma ett genomsnittligt värde är det nödvändigt att använda resultaten från enskilda observationer och registrera dem i form av en variationsserie (tabell 2).

Mode- det värde som förekommer oftast i en serie observationer. I vårt exempel, mode = 120. Om det inte finns några upprepade värden i variationserien, sägs läget vara frånvarande. Om flera värden upprepas samma antal gånger, tas det minsta av dem som läge.

Median- ett värde som delar upp fördelningen i två lika delar, det centrala eller medianvärdet för en serie observationer, ordnade i stigande eller fallande ordning. Så om det finns 5 värden i variationsserien, så är dess median lika med den tredje termen i variationsserien, om det finns ett jämnt antal medlemmar i serien, så är medianen det aritmetiska medelvärdet av dess två centrala observationer, dvs. om det finns 10 observationer i rad är medianen lika med det aritmetiska medelvärdet av 5 och 6 observationer. I vårt exempel.

Observera en viktig funktion i läget och medianen: deras värden påverkas inte av de numeriska värdena för de extrema alternativen.

Aritmetiskt medelvärde beräknat med formeln:

var är det observerade värdet i den -te observationen, och är antalet observationer. För vårt fall.

Det aritmetiska medelvärdet har tre egenskaper:

Den mellersta intar mittläget i variationsserien. I en strikt symmetrisk rad.

Genomsnittet är ett generaliserande värde och för de genomsnittliga slumpmässiga fluktuationerna är skillnader i enskilda data inte synliga. Det återspeglar vad som är typiskt för hela befolkningen.

Summan av avvikelser för alla varianter från genomsnittet är lika med noll :. Variationens avvikelse från medelvärdet anges.

Variationsserien består av en variant och motsvarande frekvenser. Av de tio erhållna värdena inträffade talet 120 6 gånger, 115 - 3 gånger, 125 - 1 gång. Frequency () - det absoluta antalet enskilda varianter i aggregatet, vilket anger hur många gånger en given variant förekommer i variationsserierna.

Variationsserierna kan vara enkla (frekvens = 1) eller grupperade förkortade, 3-5 alternativ. En enkel serie används med ett litet antal observationer (), en grupperad - med ett stort antal observationer ().

En särskild plats i statistisk analys hör till definitionen av den genomsnittliga nivån för det studerade attributet eller fenomenet. Genomsnittsnivån för en funktion mäts med medelvärden.

Medelvärdet kännetecknar den allmänna kvantitativa nivån för den undersökta egenskapen och är en gruppegenskap hos den statistiska populationen. Det neutraliserar, försvagar slumpmässiga avvikelser från enskilda observationer i en eller annan riktning och tar fram den huvudsakliga, typiska egenskapen hos den undersökta egenskapen.

Medelvärden används ofta:

1. För att bedöma befolkningens hälsotillstånd: egenskaper hos fysisk utveckling (höjd, vikt, bröstomkrets, etc.), identifiera förekomsten och varaktigheten av olika sjukdomar, analysera demografiska indikatorer (naturlig rörelse i befolkningen, genomsnittlig livslängd. , reproduktion av befolkningen, genomsnittlig befolkning och etc.).

2. Att studera medicinska institutioners, medicinsk personal och bedöma kvaliteten på deras arbete, planera och bestämma befolkningens behov inom olika typer av sjukvård (det genomsnittliga antalet samtal eller besök per invånare per år, den genomsnittliga längden patientens vistelse på sjukhuset, undersökningspatientens genomsnittliga varaktighet, genomsnittlig tillhandahållande av läkare, sängar etc.).

3. Att karakterisera det sanitära och epidemiologiska tillståndet (genomsnittligt damminnehåll i verkstaden, genomsnittlig yta per person, genomsnittlig konsumtion av proteiner, fetter och kolhydrater etc.).

4. För att fastställa de medicinska och fysiologiska indikatorerna för hälsa och sjukdom, vid bearbetning av laboratoriedata, för att fastställa tillförlitligheten av resultaten från en provstudie i sociala och hygieniska, kliniska, experimentella studier.

Medelvärden beräknas utifrån variationserier. VariationsserierÄr en kvalitativt homogen statistisk population, vars individuella enheter kännetecknar de kvantitativa skillnaderna i det drag eller fenomen som studeras.

Kvantitativ variation kan vara av två typer: diskontinuerlig (diskret) och kontinuerlig.

Ett diskontinuerligt (diskret) tecken uttrycks endast som ett heltal och kan inte ha några mellanliggande värden (till exempel antalet besök, webbplatsens befolkning, antalet barn i familjen, sjukdomens svårighetsgrad i poäng , etc.).

Ett kontinuerligt tecken kan ta alla värden inom vissa gränser, inklusive fraktionerade, och uttrycks endast ungefär (till exempel vikt - för vuxna kan du begränsa dig till kilogram och för nyfödda - gram; höjd, blodtryck, tid om att träffa en patient osv.).



Det numeriska värdet för varje enskilt drag eller fenomen som ingår i variationserien kallas en variant och betecknas med bokstaven V ... Det finns andra beteckningar i den matematiska litteraturen, till exempel x eller y.

Variationsserien, där varje alternativ anges en gång, kallas enkelt. Sådana serier används i de flesta statistiska uppgifter när det gäller databehandling.

Med en ökning av antalet observationer finns det som regel upprepade värden för varianten. I det här fallet, a grupperade variationer, där antalet repetitioner anges (frekvens, betecknad med bokstaven " R »).

Rankad variationsserie består av varianter ordnade i stigande eller fallande ordning. Både enkla och grupperade serier kan rankas.

Intervallvariationer sammanställs för att förenkla efterföljande beräkningar som utförs utan användning av en dator, med ett mycket stort antal observationsenheter (mer än 1000).

Kontinuerliga variationer inkluderar variantvärden, som kan uttryckas med valfritt värde.

Om värdena för funktionen (alternativ) i variationsserierna ges i form av separata specifika nummer, kallas en sådan serie diskret.

Generella egenskaper värdena för attributet, som återspeglas i variationsserierna, är medelvärdena. Bland dem är de mest använda: det aritmetiska medelvärdet M, mode Moe och median Mig. Var och en av dessa egenskaper är unik. De kan inte ersätta varandra, och bara totalt, helt och fullt och i en komprimerad form, representerar de funktionerna i variationsserierna.

Mode (Mo) namnge betydelsen av de vanligaste alternativen.

Median (Mig) Är värdet på variationen som delar den rankade variationen i hälften (på varje sida av medianen finns halva variationen). I sällsynta fall, när det finns en symmetrisk variationsserie, är läget och medianen lika med varandra och sammanfaller med värdet av det aritmetiska medelvärdet.

Den mest typiska egenskapen för variantvärden är aritmetiskt medelvärde mängd ( M ). I den matematiska litteraturen betecknas det .

Aritmetiskt medelvärde (M, ) Är en allmän kvantitativ egenskap hos en viss egenskap hos de studerade fenomenen som utgör en kvalitativt homogen statistisk population. Skilj mellan enkel och vägd aritmetisk medelvärde. Det enkla aritmetiska medelvärdet beräknas för en enkel variationsserie genom att summera alla alternativ och dividera denna summa med det totala antalet alternativ som ingår i den givna variationsserien. Beräkningar utförs enligt formeln:

var: M - enkelt aritmetiskt medelvärde;

Σ V - optionens storlek;

n- antalet observationer.

I de grupperade variationserierna bestäms det vägda aritmetiska medelvärdet. Formeln för dess beräkning:

var: M - viktat aritmetiskt medelvärde;

Σ Vp - summan av variantens verk på deras frekvens;

n- antalet observationer.

För ett stort antal observationer, vid manuella beräkningar, kan metoden för moment användas.

Det aritmetiska medelvärdet har följande egenskaper:

Summan av avvikelser för varianten från medelvärdet ( Σ d ) är lika med noll (se tabell 15);

· När du multiplicerar (dividerar) alla alternativ med samma faktor (divisor) multipliceras (divideras) det aritmetiska medelvärdet med samma faktor (divisor);

· Om du lägger till (subtraherar) samma tal till alla alternativ, ökar (minskar) det aritmetiska medelvärdet med samma tal.

De aritmetiska medelvärdena, tagna av sig själva, utan att ta hänsyn till variabiliteten i de serier som de beräknas från, återspeglar kanske inte helt variationsseriens egenskaper, särskilt när jämförelse med andra medelvärden är nödvändig. Genomsnitt med nära värde kan erhållas från serier med varierande grad av spridning. Ju närmare de enskilda alternativen är varandra när det gäller deras kvantitativa egenskaper, desto mindre spridning (oscillation, variabilitet) rad, desto mer typiskt är genomsnittet.

De viktigaste parametrarna som gör att vi kan bedöma egenskapens variabilitet är:

· Svep;

· Amplitud;

· Standardavvikelse;

· Variationskoefficienten.

Den ungefärliga variabiliteten för egenskapen kan bedömas utifrån variationens serie och amplitud. Swingen indikerar maximala (V max) och minsta (V min) alternativ i raden. Amplituden (A m) är skillnaden mellan dessa alternativ: A m = V max - V min.

Det huvudsakliga, allmänt accepterade måttet på variationens serie är dispersion (D ). Men den mest använda är en bekvämare parameter beräknad på grundval av varians - standardavvikelsen ( σ ). Den tar hänsyn till avvikelsens storlek ( d ) för varje variant av variationsserien från dess aritmetiska medelvärde ( d = V - M ).

Eftersom variantens avvikelser från medelvärdet kan vara positiva och negativa ger de, när de summeras, värdet "0" (S d = 0). För att undvika detta, avvikelse värden ( d) höjs till andra makten och i genomsnitt. Variansseriens varians är således medeltorget för variantens avvikelser från det aritmetiska medelvärdet och beräknas med formeln:

Det är den viktigaste egenskapen hos variabilitet och används för att beräkna många statistiska kriterier.

Eftersom variansen uttrycks i avvikelsens kvadrat kan dess värde inte användas i jämförelse med det aritmetiska medelvärdet. För dessa ändamål tillämpas den standardavvikelse, som betecknas med tecknet "Sigma" ( σ ). Det kännetecknar den genomsnittliga avvikelsen för alla varianter av variationsserierna från det aritmetiska medelvärdet i samma enheter som medelvärdet i sig, så att de kan användas tillsammans.

Standardavvikelsen bestäms av formeln:

Den angivna formeln tillämpas när antalet observationer ( n ) är större än 30. För ett mindre antal n värdet på standardavvikelsen kommer att ha ett fel associerat med den matematiska förspänningen ( n - 1). I detta avseende kan ett mer exakt resultat erhållas genom att ta hänsyn till en sådan förspänning i formeln för beräkning av standardavvikelsen:

standardavvikelse (s ) Är en uppskattning av standardavvikelsen för en slumpmässig variabel NS i förhållande till dess matematiska förväntning baserat på en opartisk uppskattning av dess varians.

Med värderingar n > 30 standardavvikelse ( σ ) och standardavvikelse ( s ) kommer att vara samma ( σ = s ). Därför anses dessa kriterier i de flesta praktiska manualer som tvetydiga. I Excel kan beräkningen av standardavvikelsen göras med funktionen = STDEV (intervall). Och för att beräkna standardavvikelsen måste du skapa en lämplig formel.

Rotmedelvärdet eller standardavvikelsen låter dig bestämma hur mycket värdena för en egenskap kan skilja sig från medelvärdet. Antag att det finns två städer med samma genomsnittliga dagtemperaturer under sommaren. En av dessa städer ligger vid kusten och den andra på kontinenten. Det är känt att i städer som ligger vid kusten är skillnaden i dagtemperaturer mindre än i städer som ligger i det inre av kontinenten. Därför kommer standardavvikelsen för dagtemperaturer för kuststaden att vara mindre än den för den andra staden. I praktiken innebär detta att den genomsnittliga lufttemperaturen för varje specifik dag i en stad på kontinenten kommer att skilja sig mer från medelvärdet än i en stad vid kusten. Med standardavvikelsen kan du dessutom uppskatta temperaturavvikelser från genomsnittet med den nödvändiga sannolikhetsnivån.

Enligt sannolikhetsteorin finns det vid fenomen som följer normalfördelningslagen ett strikt samband mellan värdena för det aritmetiska medelvärdet, standardavvikelse och alternativ ( tre sigmaregeln). Till exempel ligger 68,3% av värdena för variabelattributet inom intervallet M ± 1 σ , 95,5% - inom M ± 2 σ och 99,7% - inom M ± 3 σ .

Standardavvikelsens värde gör att vi kan bedöma arten av homogeniteten i variationsserierna och gruppen som studeras. Om standardavvikelsens värde är litet, indikerar detta en tillräckligt hög homogenitet av det fenomen som studeras. I detta fall bör det aritmetiska medelvärdet erkännas som ganska karakteristiskt för den givna variationsserien. Ett för lågt sigmavärde får dock en att tänka på ett artificiellt urval av observationer. Med en mycket stor sigma kännetecknar det aritmetiska medelvärdet variationsserierna i mindre utsträckning, vilket indikerar en signifikant variation av den studerade egenskapen eller fenomenet eller heterogeniteten hos den studerade gruppen. Jämförelsen av standardavvikelsens värde är dock endast möjlig för funktioner av samma dimension. Faktum är att om vi jämför mångfalden av vikter mellan nyfödda och vuxna får vi alltid högre sigmavärden hos vuxna.

Jämförelse av variationen i funktioner av olika dimensioner kan utföras med variationskoefficient... Den uttrycker mångfald som en procentandel av genomsnittet, vilket gör det möjligt att jämföra olika egenskaper. Variationskoefficienten i den medicinska litteraturen anges med tecknet ” MED "Och i matematik" v"Och beräknat med formeln:

Värdena på variationskoefficienten mindre än 10% indikerar en liten spridning, från 10 till 20% - ungefär genomsnittet, mer än 20% - om en stark spridningsvariant runt det aritmetiska medelvärdet.

Det aritmetiska medelvärdet beräknas som regel baserat på data från urvalspopulationen. Med upprepade studier, under påverkan av slumpmässiga fenomen, kan det aritmetiska medelvärdet förändras. Detta beror på att i regel endast en del av de möjliga observationsenheterna, det vill säga provpopulationen, undersöks. Information om alla möjliga enheter som representerar fenomenet som studeras kan erhållas genom att studera hela den allmänna befolkningen, vilket inte alltid är möjligt. Samtidigt är värdet av genomsnittet i den allmänna befolkningen av intresse för att generalisera experimentdata. För att kunna formulera en allmän slutsats om fenomenet som studeras måste resultaten som erhållits på grundval av urvalspopulationen överföras till den allmänna befolkningen med statistiska metoder.

För att bestämma graden av sammanfall mellan provstudien och den allmänna befolkningen är det nödvändigt att uppskatta storleken på felet som oundvikligen inträffar vid provobservation. Detta fel kallas " Felet med representativitet"Eller" Medelfel i det aritmetiska medelvärdet. " Faktum är att det är skillnaden mellan medelvärdena som erhålls med ett prov statistisk observation, och liknande värden som skulle ha erhållits i en kontinuerlig studie av samma objekt, d.v.s. när man studerar den allmänna befolkningen. Eftersom urvalet är en slumpmässig variabel utförs en sådan prognos med en acceptabel sannolikhetsnivå för forskaren. Inom medicinsk forskning är det minst 95%.

Felet med representativitet bör inte förväxlas med registreringsfel eller uppmärksamhetsfel (skrivfel, felberäkningar, stavfel etc.), vilket bör minimeras med en adekvat teknik och verktyg som används i experimentet.

Storleken på representativitetsfelet beror på både urvalets storlek och egenskapens variabilitet. Ju större antalet observationer, desto närmare är urvalet till den allmänna befolkningen och desto mindre fel. Ju mer flyktigt attributet är, desto större är det statistiska felets storlek.

I praktiken används följande formel för att bestämma representativitetsfelet i variationsserier:

var: m - representativitetsfel.

σ - standardavvikelse;

n- antalet observationer i urvalet.

Formeln visar att storleken på medelfelet är direkt proportionell mot standardavvikelsen, det vill säga variabiliteten hos den undersökta egenskapen och omvänt proportionell mot kvadratroten av antalet observationer.

När man utför statistisk analys baserad på beräkningen av relativa värden är konstruktionen av en variationsserie valfri. I det här fallet kan bestämningen av genomsnittsfelet för relativa indikatorer utföras med en förenklad formel:

var: R- värdet på den relativa indikatorn, uttryckt i procent, ppm, etc.

q-inversen av P och uttryckt som (1-P), (100-P), (1000-P), etc., beroende på den grund för vilken indikatorn beräknas;

n- antalet observationer i urvalet.

Den angivna formeln för att beräkna representativitetsfelet för relativa värden kan dock endast tillämpas när indikatorvärdet är mindre än dess bas. I vissa fall för beräkning av intensiva indikatorer uppfylls inte ett sådant villkor, och indikatorn kan uttryckas som ett antal på mer än 100% eller 1000%. I en sådan situation konstrueras en variationsserie och representativitetsfelet beräknas med hjälp av formeln för medelvärden baserat på standardavvikelsen.

Prognosering av värdet av det aritmetiska medelvärdet i den allmänna befolkningen utförs med angivelse av två värden- minimum och maximum. Dessa extrema värden på möjliga avvikelser, inom vilka det eftersträvade genomsnittliga värdet för den allmänna befolkningen kan fluktuera, kallas " Förtroendegränser».

Postulaten om sannolikhetsteorin visade att med en normalfördelning av ett drag med en sannolikhet på 99,7%, kommer de extrema värdena för avvikelser för medelvärdet inte att överstiga värdet av tre gånger representativitetsfelet ( M ± 3 m ); i 95,5% - inte mer än medelvärdet fördubblade medelfel ( M ± 2 m ); i 68,3% - inte mer än ett genomsnittligt fel ( M ± 1 m ) (fig. 9).

P%

Ris. 9. Sannolikhetstätheten för normalfördelningen.

Observera att ovanstående uttalande endast är giltigt för en funktion som följer den normala gaussiska distributionen.

Den mest experimentella forskningen, inklusive inom medicin, är associerad med mätningar, vars resultat kan ta nästan vilket värde som helst i ett givet intervall, därför beskrivs de som regel av en modell av kontinuerliga slumpmässiga variabler. Därför överväger de flesta statistiska metoder kontinuerliga fördelningar. En av sådana fördelningar, som har en grundläggande roll i matematisk statistik, är normal, eller gaussisk, distribution.

Det finns ett antal skäl till detta.

1. Först och främst kan många experimentella observationer framgångsrikt beskrivas med hjälp av normalfördelningen. Det bör genast noteras att det inte finns några fördelningar av empiriska data som skulle vara exakt normala, eftersom den normalt fördelade slumpmässiga variabeln sträcker sig från till, vilket aldrig sker i praktiken. Normalfördelningen är dock väldigt ofta en bra approximation.

Oavsett om mätningar av vikt, höjd och andra fysiologiska parametrar i människokroppen utförs - överallt påverkas resultaten av ett mycket stort antal slumpmässiga faktorer (naturliga orsaker och mätfel). Dessutom är effekten av var och en av dessa faktorer som regel obetydlig. Erfarenheten visar att resultaten i sådana fall kommer att vara ungefär normalt fördelade.

2. Många fördelningar associerade med ett slumpmässigt urval, med en ökning av storleken på det senare, blir normala.

3. Normalfördelningen är väl lämpad som en ungefärlig beskrivning av andra kontinuerliga fördelningar (till exempel asymmetrisk).

4. Normalfördelningen har ett antal gynnsamma matematiska egenskaper, vilket i hög grad säkerställde dess utbredda användning i statistik.

Samtidigt bör det noteras att det finns många experimentella fördelningar i medicinska data som inte kan beskrivas med en normal fördelningsmodell. För detta har statistik utvecklat metoder som vanligtvis kallas "Nonparametric".

Valet av en statistisk metod som är lämplig för behandling av data från ett visst experiment bör göras beroende på tillhörande av de erhållna uppgifterna till normalfördelningslagen. Testning av hypotesen för funktionens underordning av normalfördelningslagen utförs med hjälp av ett frekvensdistributionshistogram (graf), liksom ett antal statistiska kriterier. Bland dem:

Asymmetri -kriteriet ( b );

Kriteriet för att kontrollera kurtos ( g );

Kriteriet Shapiro - Wilkes ( W ) .

Analysen av fördelningen av data (det kallas också kontrollen för normalfördelning) utförs för varje parameter. För att säkert kunna bedöma överensstämmelsen mellan parameterfördelningen och den normala lagen krävs ett tillräckligt stort antal observationsenheter (minst 30 värden).

För en normal fördelning tar kriterierna för snedhet och kurtos värdet 0. Om fördelningen flyttas till höger b > 0 (positiv asymmetri), för b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g = 0. På g > 0, fördelningskurvan är skarpare om g < 0 пик более сглаженный, чем функция нормального распределения.

För att kontrollera om det är normalt enligt Shapiro-Wilks-testet, är det nödvändigt att hitta värdet av detta kriterium med hjälp av statistiska tabeller på den nödvändiga signifikansnivån och beroende på antalet observationsenheter (frihetsgrader). Bilaga 1. Normalhypotesen avvisas vid små värden av detta kriterium, som regel vid w <0,8.

Uppsättningen av föremål eller fenomen som förenas av någon gemensam egenskap eller egenskap av kvalitativ eller kvantitativ karaktär kallas objekt för observation .

Varje objekt för statistisk observation består av separata element - observationsenheter .

Statistiska observationsresultat är numerisk information - data . Statistisk data - detta är information om vilka värderingar attributet av intresse för forskaren har tagit i den statistiska populationen.

Om värdena för en funktion uttrycks i tal, kallas funktionen kvantitativ .

Om en funktion kännetecknar någon egenskap eller ett tillstånd för elementen i en uppsättning, kallas funktionen kvalitet .

Om alla delar av befolkningen är föremål för forskning (kontinuerlig observation), kallas den statistiska populationen allmän.

Om en del av elementen i den allmänna befolkningen är föremål för forskning, kallas den statistiska befolkningen prov (prov) ... Urvalet från den allmänna befolkningen dras slumpmässigt så att vart och ett av n urvalselementen har lika stor chans att väljas.

Attributets värden ändras (varierar) när man flyttar från ett element i befolkningen till ett annat, därför kallas olika värden för attributet i statistiken också för attributet alternativ ... Varianter betecknas vanligtvis med små latinska bokstäverna x, y, z.

Variantens sekvensnummer (karakteristiskt värde) anropas rang ... x 1 - 1: a alternativ (1: a attributvärde), x 2 - 2: a alternativ (2: a attributvärde), x i - i -th alternativ (i -th attributvärde).

En serie värden för en funktion (varianter) ordnade i stigande eller fallande ordning med motsvarande vikter kallas variationsserier (distributionsserier).

Som vågar frekvenser eller frekvenser kommer ut.

Frekvens(m i) visar hur många gånger ett visst alternativ (funktionsvärde) förekommer i en statistisk population.

Frekvens eller relativ frekvens(w i) visar vilken del av befolkningsenheterna som har denna eller den varianten. Frekvens beräknas som förhållandet mellan frekvensen för ett visst alternativ till summan av alla frekvenser i serien.

. (6.1)

Summan av alla frekvenser är 1.

. (6.2)

Variationsserier är diskreta och intervall.

Diskreta variationer De konstrueras vanligtvis om värdena för den undersökta egenskapen kan skilja sig från varandra med åtminstone ett begränsat värde.

I diskreta variationserier ställs funktionens punktvärden in.

Den allmänna uppfattningen om de diskreta variationserierna visas i tabell 6.1.

Tabell 6.1

där i = 1, 2, ..., l.

I intervallvariationerna i varje intervall skiljer sig de övre och nedre gränserna för intervallet.

Skillnaden mellan intervallets övre och nedre gräns kallas intervallskillnad eller intervallets längd (värde) .

Värdet på det första intervallet k 1 bestäms av formeln:

k 1 = a 2 - a 1;

andra: k 2 = a 3 - a 2; ...

sista: k l = a l - a l -1.

I allmänhet intervallskillnad k i beräknas med formeln:

k i = x i (max) - x i (min). (6.3)

Om intervallet har båda gränserna kallas det stängd .

Det första och sista intervallet kan vara öppen , d.v.s. har bara en gräns.

Till exempel kan det första intervallet anges som "upp till 100", det andra - "100-110", ..., näst sista - "190-200", det sista - "200 eller mer". Uppenbarligen har det första intervallet inte en nedre kant, och den sista har inte en övre, båda är öppna.

Ofta måste öppna intervall vara villkorligt stängda. För detta är värdet på det första intervallet vanligtvis taget lika med värdet på det andra, och värdet på det sista - värdet på den näst sista. I vårt exempel är värdet på det andra intervallet 110-100 = 10, därför är den nedre gränsen för det första intervallet villkorligt 100-10 = 90; värdet av det näst sista intervallet är 200-190 = 10, därför är den övre gränsen för det sista intervallet villkorligt 200 + 10 = 210.

Dessutom kan intervall med olika längd förekomma i intervallvariationerna. Om intervallerna i variationsserierna har samma längd (intervallskillnad) kallas de likvärdig , annars - olika.

Vid konstruktion av en intervallvariationsserie uppstår ofta problemet med att välja intervallens storlek (intervallskillnad).

För att bestämma den optimala storleken på intervallen (om en serie byggs med lika stora intervall), använd Sturgess formel:

, (6.4)

där n är antalet enheter i befolkningen,

x (max) och x (min) är de största och minsta värdena för alternativen i serien.

För att karakterisera variationsserierna, tillsammans med frekvenser och frekvenser, används de ackumulerade frekvenserna och frekvenserna.

Ackumulerade frekvenser (frekvenser) visa hur många enheter av befolkningen (vilken del av dem) som inte överstiger ett givet värde (alternativ) x.

Ackumulerade frekvenser ( v i) enligt data för den diskreta serien kan beräknas med följande formel:

. (6.5)

För en intervallvariationsserie är det summan av frekvenser (frekvenser) för alla intervall som inte överstiger denna.

En diskret variationsserie kan visas grafiskt med frekvens- eller frekvensfördelningspolygon.

Vid konstruktion av en fördelningspolygon ritas värdet för funktionen (varianter) längs abscissaxeln och frekvenser eller frekvenser ritas längs ordinataxeln. Vid skärningspunkten mellan attributets värden och motsvarande frekvenser (frekvenser) läggs punkter som i sin tur är sammankopplade med segment. Den resulterande brutna linjen kallas en frekvens (frekvens) fördelningspolygon.

x k
x 2
x 1 x i


Ris. 6.1.

Intervallvariationer kan visas grafiskt med histogram, d.v.s. stapeldiagram.

När man konstruerar ett histogram längs abscissaxeln, plottas värdena för den studerade funktionen (gränserna för intervallen).

Om intervallerna är av samma storlek kan frekvenser eller frekvenser ritas längs ordinatan.

Om intervallerna har olika värden bör värdena för den absoluta eller relativa fördelningstätheten ritas längs ordinataxeln.

Absolut densitet- förhållandet mellan intervallets frekvens och intervallets värde:

; (6.6)

där: f (a) i är den absoluta densiteten för det i: e intervallet;

m i - frekvensen av det i: e intervallet;

k i - värdet av i -intervallet (intervallskillnad).

Absolut densitet visar hur många befolkningsenheter som är per enhetsintervall.

Relativ densitet- förhållandet mellan intervallets frekvens och intervallets värde:

; (6.7)

där: f (o) i är den relativa densiteten för det i: e intervallet;

w i - frekvensen av det i: e intervallet.

Relativ densitet visar hur stor del av befolkningsenheterna som finns i intervallet.

a l
a 1 x i
a 2

Både diskreta och intervallvariationer kan grafiskt representeras som kumulater och ogiver.

När man bygger ackumuleras enligt data för den diskreta serien, ritas värdena för funktionen (varianter) längs abscissaxeln, och de ackumulerade frekvenserna eller frekvenserna ritas längs ordinataxeln. Vid skärningspunkten mellan värdena för funktionen (tillval) och motsvarande ackumulerade frekvenser (frekvenser) byggs punkter som i sin tur är anslutna med segment eller en kurva. Den resulterande brutna linjen (kurvan) kallas en kumulativ (kumulativ kurva).

Vid konstruktion av kumulat enligt data från intervallserierna ritas gränserna för intervallerna längs abscissaxeln. Prickarnas abscesser är intervallens övre gränser. Ordinaterna bildar de ackumulerade frekvenserna (frekvenserna) för motsvarande intervall. En punkt till läggs ofta till, vars abscissa är den nedre gränsen för det första intervallet, och ordinaten är noll. Genom att koppla ihop punkterna med segment eller en kurva får vi det kumulativa.

Ogivaär konstruerad på samma sätt som det kumulativa, med den enda skillnaden att punkterna som motsvarar de ackumulerade frekvenserna (delarna) ritas på abscissaxeln och attributvärdena (alternativen) ritas längs ordinataxeln.

RYSSKA AKADEMIEN FÖR FOLKEKONOMI OCH OFFENTLIG TJÄNST under ordföranden för RYSSKA FEDERATIONEN

ORLOV GRANCH

Institutionen för matematik och matematiska metoder inom ledning

Självständigt arbete

Matematik

om ämnet "Variationsserier och dess egenskaper"

för heltidsstuderande vid fakulteten för ekonomi och management

utbildningsområden "Personalhantering"


Syfte med arbetet: Behärska begreppen matematisk statistik och metoder för primär databehandling.

Ett exempel på att lösa typiska uppgifter.

Mål 1.

Följande data erhölls genom polling ():

1 2 3 2 2 4 3 3 5 1 0 2 4 3 2 2 3 3 1 3 2 4 2 4 3 3 3 2 0 6

3 3 1 1 2 3 1 4 3 1 7 4 3 4 2 3 2 3 3 1 4 3 1 4 5 3 4 2 4 5

3 6 4 1 3 2 4 1 3 1 0 0 4 6 4 7 4 1 3 5

Nödvändig:

1) Kompilera en variationsserie (statistisk fördelning av urvalet), som tidigare har spelat in en rankad diskret serie med alternativ.

2) Konstruera en polygon av frekvenser och kumulativ.

3) Kompilera en serie fördelningar av relativa frekvenser (frekvenser).

4) Hitta de numeriska huvudkarakteristiken för variationsserierna (använd förenklade formler för att hitta dem): a) det aritmetiska medelvärdet, b) medianen Mig och mode Moe, c) varians s 2, d) standardavvikelse s, e) variationskoefficient V.

5) Förklara innebörden av de erhållna resultaten.

Lösning.

1) Att sammanställa rankas diskret utbud av alternativ sortera undersökningsdata efter storlek och ordna dem i stigande ordning

0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

5 5 5 5 6 6 6 7 7.

Låt oss komponera en variationsserie genom att skriva de observerade värdena (alternativen) i tabellens första rad och motsvarande frekvenser i den andra (tabell 1)

Bord 1.

2) Frekvenspolygonen är en trasig linje som förbinder punkterna ( x i; n i), i=1, 2,…, m, var m X.

Låt oss rita polygonen för variationerna i frekvensserierna (bild 1).

Figur 1. Frekvenspolygon

Den kumulativa kurvan (kumulativ) för en diskret variationsserie är en streckad linje som förbinder punkterna ( x i; n i nak), i=1, 2,…, m.

Hitta de ackumulerade frekvenserna n i nak(den kumulativa frekvensen visar hur många varianter som observerades med ett funktionsvärde mindre NS). De hittade värdena anges i den tredje raden i tabell 1.



Låt oss bygga en kumulativ (Fig. 2).

Bild 2. Cumulata

3) Låt oss hitta de relativa frekvenserna (frekvenser), var, var m- antalet olika värden för egenskapen X, som kommer att beräknas med samma noggrannhet.

Låt oss skriva ner en serie fördelningar av relativa frekvenser (frekvenser) i form av tabell 2

Tabell 2

4) Låt oss hitta de numeriska huvudsakliga egenskaperna hos variationsserierna:

a) Vi hittar det aritmetiska medelvärdet med en förenklad formel:

,

var finns villkorliga alternativ

Vi lägger med= 3 (ett av de genomsnittliga observerade värdena), k= 1 (skillnaden mellan de två angränsande alternativen) och upprätta en beräkningstabell (tabell 3).

Tabell 3.

x i n i u i u i n i u i 2 n i
-3 -12
-2 -26
-1 -14
Belopp -11

Sedan det aritmetiska medelvärdet

b) Median Mig en variationsserie är värdet av en funktion som faller mitt i en rankad serie observationer. Denna diskreta variationserie innehåller ett jämnt antal termer ( n= 80), vilket innebär att medianen är lika med halvsummen av de två mellersta alternativen.

Mode Moe variationsserien är den variant som motsvarar den högsta frekvensen. För en given variationsserie, den högsta frekvensen n max = 24 motsvarar variant NS= 3 betyder mode Moe=3.

c) Dispersion s 2, vilket är ett mått på spridningen av möjliga värden för indikatorn X runt dess medelvärde finner vi att använda en förenklad formel:

, var u i- villkorade alternativ

Vi kommer också att ange mellanliggande beräkningar i tabell 3.

Sedan variansen

d) Standardavvikelse s hitta med formeln:

.

e) Variationskoefficient V: (),

Variationskoefficienten är en omätbar kvantitet; därför är den lämplig för att jämföra spridningen av variationer, vars varianter har olika dimensioner.

Variationskoefficienten

.

5) Innebörden av de erhållna resultaten är att värdet karakteriserar medelvärdet för funktionen X inom det övervägda urvalet, det vill säga medelvärdet var 2,86. Standardavvikelse s beskriver den absoluta spridningen av indikatorvärdena X och i det här fallet är det s≈ 1,55. Variationskoefficienten V kännetecknar indikatorens relativa variation X, det vill säga den relativa spridningen kring dess genomsnittliga värde, och i detta fall är.

Svar: ; ; ; .

Mål 2.

Följande data finns tillgängliga om eget kapital i de 40 största bankerna i Centrala Ryssland:

12,0 49,4 22,4 39,3 90,5 15,2 75,0 73,0 62,3 25,2
70,4 50,3 72,0 71,6 43,7 68,3 28,3 44,9 86,6 61,0
41,0 70,9 27,3 22,9 88,6 42,5 41,9 55,0 56,9 68,1
120,8 52,4 42,0 119,3 49,6 110,6 54,5 99,3 111,5 26,1

Nödvändig:

1) Konstruera en serie med intervallvariationer.

2) Beräkna medelprovet och provvariansen

3) Hitta standardavvikelsen och variationskoefficienten.

4) Konstruera ett histogram över distributionsfrekvenser.

Lösning.

1) Låt oss välja ett godtyckligt antal intervall, till exempel 8. Då är intervallets bredd:

.

Låt oss skriva en beräkningstabell:

Intervallalternativ, x k –x k +1 Frekvens, n i Mitt i intervallet x i Villkorligt alternativ, och jag och jag i och jag 2 n i (och jag + 1) 2 n i
10 – 25 17,5 – 3 – 12
25 – 40 32,5 – 2 – 10
40 – 55 47,5 – 1 – 11
55 – 70 62,5
70 – 85 77,5
85 – 100 92,5
100 – 115 107,5
115 – 130 122,5
Belopp – 5

Värdet väljs som en falsk nolla c = 62.5 (det här alternativet ligger ungefär i mitten av variationsraden) .

Villkorliga alternativ bestäms av formeln

En grupp nummer som förenas av något tecken kallas aggregerade.

Som nämnts ovan är det primära statistiska sportmaterialet en grupp spridda nummer som inte ger tränaren en uppfattning om essensen av ett fenomen eller en process. Utmaningen är att förvandla denna samling till ett system och använda dess indikatorer för att få den information som krävs.

Sammanställningen av en variationsserie är just bildandet av en viss matematisk

Exempel 2. 34 atleter-åkare registrerade följande pulsåterställningstid efter att ha passerat sträckan (i sekunder):

81; 78: 84; 90; 78; 74; 84; 85; 81; 84: 79; 84; 74; 84; 84;

85; 81; 84; 78: 81; 74; 84; 81; 84; 85; 81; 78; 81; 81; 84;

Som du kan se innehåller denna grupp av siffror ingen information.

För att sammanställa en variationsserie utför vi först operationen ranking - ordna nummer i stigande eller fallande ordning. Till exempel, i stigande ordning, resulterar rankningen i följande;

78; 78; 78; 78; 78; 78;

81; 81; 81; 81; 81; 81; 81; 81; 81;

84; 84; 84; 84; 84; 84; 84; 84; 84; 84; 84;

I fallande ordning resulterar rankningen i en grupp av siffror så här:

84; 84; 84; 84; 84; 84; 84; 84: 84: 84; 84;

81; 81; 81; 81; 8!; 81: 81; 81; 81;

78; 78; 78; 78; 78; 78;

Efter rankningen blir den irrationella formen att skriva denna grupp av siffror uppenbar - samma nummer upprepas många gånger. Därför uppstår en naturlig tanke för att omvandla posten på ett sådant sätt att det anger vilket antal som upprepas hur många gånger. Till exempel med tanke på rankningen i stigande ordning:

Här till vänster är ett nummer som anger återhämtningstiden för idrottarens puls, till höger är antalet repetitioner av denna indikation i denna grupp av 34 idrottare.

I enlighet med ovanstående begrepp om matematiska symboler kommer den övervägda mätgruppen att betecknas med någon bokstav, till exempel x. Med tanke på den ökande antalet ordningar i denna grupp: x 1 -74 s; x 2 - 78 s; x 3 - 81 s; x 4 - 84 s; x 5-85 s; x 6 -x n - 90 s, varje betraktat nummer kan betecknas med symbolen X i.

Låt oss beteckna antalet upprepningar av de övervägda mätningarna med bokstaven n. Sedan:

n 1 = 4; n2 = 6; n3 = 9; n4 = 11; n 5 = 3; n 6 = n n = 1, och varje antal repetitioner kan betecknas som n i.

Det totala antalet mätningar som utförs enligt exemplet är 34. Det betyder att summan av alla n är 34. Eller i symboliska termer:

Låt oss beteckna denna summa med en bokstav - n. Därefter kan initialdata för det övervägda exemplet skrivas i denna form (tabell 1).

Den resulterande gruppen av siffror är en transformerad serie av kaotiskt spridda avläsningar som tränaren mottog i början av arbetet.

bord 1

x i n i
n = 34

En sådan grupp är ett specifikt system, vars parametrar kännetecknar de utförda mätningarna. Siffrorna som representerar mätresultaten (x i) anropas alternativ; n i - antalet repetitioner - kallas frekvenser; n - summan av alla frekvenser - ja befolkningens volym.

Hela det resulterande systemet kallas variationer. Dessa serier kallas ibland empiriska eller statistiska.

Det är lätt att se att ett specialfall av en variationsserie är möjligt, när alla frekvenser är lika med en n i == 1, det vill säga att varje mätning i en given grupp av tal endast sker en gång.

Den resulterande variationen serier, liksom alla andra, kan representeras grafiskt. För att plotta den resulterande serien måste du först och främst komma överens om skalan på de horisontella och vertikala axlarna.

I detta problem, på den horisontella axeln, kommer vi att plotta värdena för pulsåtervinningstiden (x 1) på ett sådant sätt att längdenheten, vald godtyckligt, motsvarar värdet på en sekund. Vi kommer att börja skjuta upp dessa värden från 70 sekunder, konventionellt avvika från skärningspunkten mellan de två axlarna 0.

På den vertikala axeln kommer vi att skjuta upp värdena för frekvenserna i vår serie (n i), med skalan: längdenheten är lika med frekvensenheten.

Efter att ha förberett villkoren för plottning av grafen fortsätter vi att arbeta med den erhållna variationsserien.

Det första paret av siffror x 1 = 74, n 1 = 4 är ritat på diagrammet enligt följande: på x-axeln; hitta x 1 =74 och återställ vinkelrätt från denna punkt, hitta n 1 = 4 på n-axeln och dra en horisontell linje från den tills den skär med den tidigare återställda vinkelrät. Båda linjerna - vertikala och horisontella - är hjälplinjer och appliceras därför på ritningen med en prickad linje. Poängen med deras skärningspunkt är, på skalan i denna graf, förhållandet X 1 = 74 och n 1 = 4.

Alla andra punkter i grafen ritas på samma sätt. Sedan är de sammankopplade med linjesegment. För att grafen ska ha en sluten form kopplar vi ihop extrema punkter med segment med de intilliggande punkterna på den horisontella axeln.

Den resulterande figuren är ett diagram över våra variationer (Fig. 1).

Det är helt klart att varje variationsserie representeras av en egen graf.

Ris. 1. Grafisk framställning av variationsserierna.

I fig. 1 visar:

1) av alla de undersökta, den största gruppen bestod av idrottare, vars pulsåterhämtningstid var 84 s;

2) för många är denna tid 81 s;

3) den minsta gruppen bestod av idrottare med kort pulsåterhämtningstid - 74 s och en lång - 90 s.

Efter att ha utfört en serie tester bör man således rangordna de erhållna siffrorna och utarbeta en variationsserie, som är ett visst matematiskt system. För tydlighetens skull kan variationsserierna illustreras med ett diagram.

Ovanstående variationserie kallas också diskret nästa - en där varje alternativ uttrycks med ett tal.

Här är några fler exempel på hur man skapar variationer.

Exempel 3. 12 skyttar som utförde en 10-skott benägen övning visade följande resultat (med glasögon):

94; 91; 96; 94; 94; 92; 91; 92; 91; 95; 94; 94.

För att bilda en variationsserie rankar vi dessa nummer;

94; 94; 94; 94; 94;

Efter rankningen komponerar vi en variationsserie (tabell 3).