Tema seminarului: eșantionarea în cercetarea sociologică Concepte cheie. Eșantion reprezentativ Eșantion și populație generală

Cercetarea statistică este foarte laborioasă și costisitoare, așa că a apărut ideea înlocuirii observației continue cu una selectivă.

Scopul principal al observării discontinue este de a obține caracteristicile populației statistice studiate pentru partea examinată a acesteia.

Observarea selectivă- Aceasta este o metodă de cercetare statistică, în care indicatorii generalizați ai populației sunt stabiliți numai pentru o parte separată pe baza dispozițiilor de selecție aleatorie.

Cu metoda de eșantionare, doar o anumită parte a populației studiate este studiată, în timp ce populația statistică care urmează să fie studiată este numită populație generală.

O populație eșantion sau pur și simplu un eșantion poate fi numită o porțiune de unități selectate din populația generală care va fi supusă cercetării statistice.

Valoarea metodei de eșantionare: cu un număr minim de unități în studiu, se va efectua un studiu statistic în perioade mai scurte de timp și cu cel mai mic cost al fondurilor și al forței de muncă.

În populația generală, ponderea unităților care au trăsătura studiată se numește ponderea generală (denotată R), iar valoarea medie a caracteristicii variabilei studiate este media generală (notată cu NS).

În populația eșantion, ponderea trăsăturii studiate se numește ponderea eșantionului sau parte (notată cu w), valoarea medie din eșantion este proba medie.

Dacă în timpul anchetei sunt respectate toate regulile organizării sale științifice, atunci metoda de eșantionare va da rezultate destul de exacte și, prin urmare, este recomandabil să utilizați această metodă pentru a verifica datele de observare continuă.

Această metodă a devenit răspândită în statisticile de stat și nedepartamentale, deoarece în studiul numărului minim de unități studiate, permite efectuarea unui studiu amănunțit și precis.

Populația statistică studiată este formată din unități cu caracteristici variabile. Compoziția populației eșantionului poate diferi de compoziția populației generale; această discrepanță între caracteristicile eșantionului și populația generală este eroarea de eșantionare.

Erorile inerente observării eșantionului caracterizează dimensiunea discrepanței dintre datele observării eșantionului și întreaga populație. Erorile care apar în cursul eșantionării se numesc erori de reprezentativitate și sunt împărțite în aleatorii și sistematice.

Dacă populația eșantion nu reproduce cu precizie întreaga populație din cauza naturii discontinue a observației, atunci aceasta se numește erori aleatorii, iar dimensiunile lor sunt determinate cu o precizie suficientă pe baza legii numerelor mari și a teoriei probabilității.

Erorile sistematice apar ca urmare a încălcării principiului randomității în selectarea unităților de populație pentru observare.

2. Tipuri și scheme de selecție

Mărimea erorii de eșantionare și metodele de determinare a acesteia depind de tipul și schema de selecție.

Există patru tipuri de selecție pentru un set de unități de observare:

1) aleatoriu;

2) mecanic;

3) tipic;

4) serial (imbricat).

Eșantionare aleatorie- cea mai obișnuită metodă de selecție într-un eșantion aleatoriu, se mai numește și metoda de tragere la sorți, în care este pregătit un bilet cu număr de serie pentru fiecare unitate a populației statistice.

Mai mult, numărul selectat de unități ale populației statistice este selectat aleatoriu. În aceste condiții, fiecare dintre ele are aceeași probabilitate de a fi inclus în eșantion, de exemplu, extragerile câștigurilor, atunci când o anumită parte a numerelor pe care se încadrează câștigurile este selectată aleatoriu din numărul total de bilete emise. În același timp, tuturor numerelor li se oferă o șansă egală de a intra în eșantion.

Selecție mecanică- aceasta este o metodă atunci când întreaga populație este împărțită în grupuri de volum omogen conform unui criteriu aleatoriu, apoi se ia o singură unitate din fiecare grup. Toate unitățile din populația statistică studiată sunt aranjate preliminar într-o anumită ordine, dar în funcție de mărimea eșantionului, numărul necesar de unități este selectat mecanic la un anumit interval ...

Selecție tipică - Aceasta este o metodă în care populația statistică studiată este împărțită în funcție de o trăsătură semnificativă tipică în grupuri similare calitativ omogene, apoi un anumit număr de unități este selectat aleatoriu din fiecare din acest grup, proporțional cu greutatea specifică a grupului în întreaga populație.

Selecția tipică oferă rezultate mai precise, deoarece include reprezentanți ai tuturor grupurilor tipice din eșantion.

Selecție în serie (imbricată). Grupurile întregi (serii, cuiburi), selectate aleator sau mecanic, sunt supuse selecției. Pentru fiecare astfel de grup și serie, se efectuează observarea continuă, iar rezultatele sunt transferate întregii populații.

Precizia eșantionării depinde și de schema de selecție. Eșantionarea poate fi efectuată conform schemei eșantionării repetate și care nu se repetă.

Selecție repetată. Fiecare unitate sau serie selectată este returnată întregii populații și poate fi returnată eșantionului. Aceasta este așa-numita schemă de minge returnată.

Selecție repetată. Fiecare unitate chestionată este retrasă și nu este returnată la agregat, deci nu este reexaminată. Această schemă se numește mingea nereturnată.

Eșantionarea repetată oferă rezultate mai precise, deoarece pentru aceeași dimensiune a eșantionului, observarea acoperă mai multe unități din populația studiată.

Selecție combinată poate parcurge unul sau mai mulți pași. Eșantionarea se numește o etapă dacă odată selectate unitățile de populație sunt examinate.

Eșantionul se numește multietape dacă selecția populației trece prin etape, etape succesive și fiecare etapă, etapă de selecție are propria unitate de selecție.

Eșantionarea în mai multe etape - în toate etapele eșantionării, se menține aceeași unitate de eșantionare, dar sunt efectuate mai multe etape, faze ale sondajelor de eșantionare, care diferă în ceea ce privește amploarea programului de anchetă și dimensiunea eșantionului.

Caracteristicile parametrilor populației generale și ale populației eșantion sunt indicate de următoarele simboluri:

N- volumul populației generale;

n- marime de mostra;

X- media generală;

NS- media eșantionului;

R- cota generală;

w - cota selectivă;

2 - varianța generală (varianța unei caracteristici în populația generală);

2 - varianța eșantionului aceleiași caracteristici;

? - deviația standard în populația generală;

? - deviația standard în eșantion.

3. Erori de eșantionare

Fiecare unitate dintr-un eșantion de observație ar trebui să aibă o șansă egală cu ceilalți să fie selectată - aceasta este baza unui eșantion auto-aleatoriu.

Eșantionare auto-aleatorie - Aceasta este selecția unităților din întreaga populație generală prin tragere la sorți sau într-un alt mod similar.

Principiul randomității este că includerea sau excluderea unui obiect din eșantion nu poate fi influențată de alt factor decât caz.

Partajare eșantion Este raportul dintre numărul de unități din eșantion și numărul de unități din populația generală:


Selecția aleatorie adecvată în forma sa pură este cea inițială dintre toate celelalte tipuri de selecție; conține și pune în aplicare principiile de bază ale observației statistice selective.

Cele două tipuri principale de indicatori generalizatori care sunt utilizați în metoda de eșantionare sunt valoarea medie a unei caracteristici cantitative și valoarea relativă a unei caracteristici alternative.

Fracția eșantionului (w), sau particulară, este determinată de raportul numărului de unități cu caracteristica studiată m, la numărul total de unități ale eșantionului (n):


Pentru a caracteriza fiabilitatea indicatorilor de eșantionare, se disting erorile de eșantionare medii și marginale.

Eroarea de eșantionare, numită și eroare de reprezentativitate, este diferența dintre eșantionarea corespunzătoare și caracteristicile generale:

?x = | x - x |;

?w = | x - p |.

Eroarea de eșantionare este inerentă numai în observațiile eșantionului

Media eșantionului și ponderea eșantionului- acestea sunt variabile aleatorii care iau valori diferite în funcție de unitățile populației statistice studiate care au fost incluse în eșantion. În consecință, erorile de eșantionare sunt, de asemenea, valori aleatorii și pot lua, de asemenea, valori diferite. Prin urmare, se determină media posibilelor erori - eroarea medie de eșantionare.

Eroarea medie de eșantionare este determinată de dimensiunea eșantionului: cu cât este mai mare numărul, celelalte lucruri fiind egale, cu atât este mai mică eroarea medie de eșantionare. Acoperind un număr tot mai mare de unități ale populației generale cu un sondaj de sondaj, caracterizăm din ce în ce mai exact întreaga populație generală.

Eroarea medie de eșantionare depinde de gradul de variație al trăsăturii studiate, la rândul său, gradul de variație este caracterizat de varianță? 2 sau w (l - w)- pentru o caracteristică alternativă. Cu cât variația caracteristicii și varianța este mai mică, cu atât este mai mică eroarea medie de eșantionare și invers.

Pentru reeșantionarea aleatorie, erorile medii sunt calculate teoretic folosind următoarele formule:

1) pentru trăsătura cantitativă medie:


Unde? 2 - valoarea medie a varianței trăsăturii cantitative.

2) pentru o acțiune (caracteristică alternativă):


Deci, cum este varianța unei trăsături în populația generală? 2 nu se știe exact, în practică folosesc valoarea varianței S 2, calculată pentru populația eșantion pe baza legii numărului mare, conform căreia populația eșantion cu o dimensiune suficient de mare a eșantionului reproduce cu exactitate caracteristicile populația generală.

Formulele pentru eroarea medie de eșantionare pentru eșantionarea aleatorie sunt după cum urmează. Pentru valoarea medie a unei trăsături cantitative: varianța generală este exprimată prin electiv după cum urmează:


unde S 2 este valoarea varianței.

Prelevare mecanică- Aceasta este selecția unităților dintr-un eșantion din populația generală, care este împărțită în grupuri egale conform unui criteriu neutru; se face în așa fel încât să fie selectată o singură unitate din fiecare astfel de grup.

În selecția mecanică, unitățile populației statistice studiate sunt aranjate preliminar într-o anumită ordine, după care un număr specificat de unități sunt selectate mecanic la un anumit interval. Mai mult, dimensiunea intervalului în populația generală este egală cu reciprocitatea proporției eșantionului.

Cu o populație suficient de mare, selecția mecanică în ceea ce privește precizia rezultatelor este aproape de auto-aleatoriu. Prin urmare, pentru a determina eroarea medie de selecție mecanică, se folosesc formulele pentru eșantionarea non-repetitivă auto-aleatorie.

Pentru a selecta unități dintr-o populație eterogenă, se folosește așa-numita eșantionare tipică, este utilizată atunci când toate unitățile populației generale pot fi împărțite în mai multe grupuri calitative omogene, similare, în funcție de caracteristicile de care depind indicatorii studiați.

Apoi, din fiecare grup tipic, selectarea individuală a unităților în populația eșantionului se face printr-o eșantionare auto-aleatorie sau mecanică.

Eșantionarea tipică este de obicei utilizată atunci când se studiază populații statistice complexe.

Eșantionarea tipică oferă rezultate mai precise. Tipificarea populației generale asigură reprezentativitatea unui astfel de eșantion, reprezentarea fiecărui grup tipologic din acesta, ceea ce face posibilă excluderea influenței varianței intergrupului asupra erorii medii de eșantionare. Prin urmare, atunci când se determină eroarea medie a unui eșantion tipic, media variațiilor intragrup este utilizată ca indicator al variației.

Eșantionarea în serie implică selectarea aleatorie dintr-o populație generală de grupuri de dimensiuni egale pentru a supune toate unitățile la observație în astfel de grupuri.

Deoarece toate unitățile fără excepție sunt examinate în cadrul grupurilor (serie), eroarea medie de eșantionare (la selectarea seriilor de dimensiuni egale) depinde doar de varianța intergrup (inter-serie).

4. Modalități de distribuire a rezultatelor eșantionului populației generale

Caracterizarea populației generale pe baza rezultatelor eșantionului este scopul final al observării eșantionului.

Metoda de eșantionare este utilizată pentru a obține caracteristici ale populației generale pentru anumiți indicatori ai eșantionului. În funcție de obiectivele studiului, aceasta se realizează prin recalcularea directă a indicilor eșantionului pentru populația generală sau prin metoda de calcul a factorilor de corecție.

Metoda recalculării directe este că odată cu aceasta indicatorii din eșantion se împart w sau medie NS se aplică populației generale, luând în considerare eroarea de eșantionare.

Metoda factorilor de corecție este utilizată atunci când scopul metodei de eșantionare este de a clarifica rezultatele contabilității complete. Această metodă este utilizată pentru a rafina datele recensământului anual al animalelor în rândul populației.

Populația statistică- un set de unități cu masă, tipicitate, omogenitate calitativă și prezența variației.

Populația statistică constă din obiecte existente material (lucrători, întreprinderi, țări, regiuni), este un obiect.

Unitate agregată- fiecare unitate specifică a populației statistice.

Una și aceeași populație statistică poate fi omogenă într-un atribut și eterogenă în altul.

Uniformitate calitativă- similitudinea tuturor unităților agregatului dintr-un anumit motiv și diferența pentru toate celelalte.

Într-o populație statistică, diferențele dintre o unitate a populației și alta sunt adesea de natură cantitativă. Modificările cantitative ale valorilor unei caracteristici a diferitelor unități ale populației se numesc variație.

Variația unei caracteristici- o schimbare cantitativă a unei trăsături (pentru o trăsătură cantitativă) în timpul tranziției de la o unitate a populației la alta.

Semn Este o proprietate, trăsătură caracteristică sau altă trăsătură a unităților, obiectelor și fenomenelor care pot fi observate sau măsurate. Semnele sunt împărțite în cantitativ și calitativ. Se numește varietatea și variabilitatea valorii trăsăturii în unități individuale ale populației variație.

Caracteristicile atributive (calitative) nu se pretează la expresia numerică (compoziția populației după sex). Caracteristicile cantitative sunt exprimate numeric (compoziția populației în funcție de vârstă).

Index- este o caracteristică calitativă rezumativă cantitativ a oricărei proprietăți a unităților sau a unui ansamblu ca întreg în condiții specifice de timp și loc.

Scorecard Este un set de indicatori care reflectă în mod cuprinzător fenomenul studiat.

De exemplu, salariul este studiat:
  • Caracteristică - salarii
  • Populația statistică - toți angajații
  • Unitatea de populație - fiecare angajat
  • Omogenitate calitativă - salarii acumulate
  • Variația unui semn - o serie de numere

Populația generală și eșantion din aceasta

Baza este un set de date obținute ca urmare a măsurării uneia sau mai multor caracteristici. Setul de obiecte observat efectiv, reprezentat statistic de un număr de observații ale unei variabile aleatorii, este prelevarea de probe, și ipotetic existent (conjecturat) - populația generală... Populația generală poate fi finită (numărul de observații N = const) sau infinit ( N = ∞), iar un eșantion din populația generală este întotdeauna rezultatul unui număr limitat de observații. Numărul de observații care formează un eșantion este numit marime de mostra... Dacă dimensiunea eșantionului este suficient de mare ( n → ∞) eșantionul este luat în considerare mare altfel se numește eșantion volum limitat... Eșantionul este luat în considerare mic dacă, la măsurarea unei variabile aleatorii unidimensionale, dimensiunea eșantionului nu depășește 30 ( n<= 30 ), iar la măsurarea mai multor ( k) caracteristici în spațiul multidimensional, raportul n La k mai puțin decât 10 (n / k< 10) ... Eșantionul se formează intervalul de variație dacă membrii săi sunt statistici ordinale, adică valorile eșantionului unei variabile aleatorii NS sortate în ordine crescătoare (clasate), în timp ce valorile caracteristicii sunt numite Opțiuni.

Exemplu... Aproape același set de obiecte selectate aleatoriu - băncile comerciale ale unui district administrativ din Moscova, pot fi considerate ca un eșantion din populația generală a tuturor băncilor comerciale din acest district și ca un eșantion din populația generală a tuturor băncilor comerciale din Moscova , precum și un eșantion de la băncile comerciale ale țării etc.

Metode de eșantionare de bază

Fiabilitatea concluziilor statistice și interpretarea semnificativă a rezultatelor depind de reprezentativitate eșantionare, adică completitudinea și adecvarea reprezentării proprietăților populației generale, în raport cu care acest eșantion poate fi considerat reprezentativ. Studiul proprietăților statistice ale unei populații poate fi organizat în două moduri: folosind continuuși discontinuu. Observare continuă prevede o anchetă a tuturor unități studiat agregatul, A observarea discontinuă (selectivă)- doar părți din el.

Există cinci modalități principale de organizare a eșantionului de observare:

1. selecție aleatorie simplă, în care obiectele sunt extrase aleatoriu dintr-o populație generală de obiecte (de exemplu, folosind un tabel sau un generator de numere aleatorii), fiecare dintre probele posibile având probabilitate egală. Astfel de probe sunt numite aleatoriu propriu-zis;

2. selecție simplă folosind o procedură regulată se efectuează utilizând o componentă mecanică (de exemplu, data, ziua săptămânii, numărul apartamentului, litera alfabetului etc.) și probele obținute în acest mod se numesc mecanic;

3. stratificat selecția constă în faptul că populația generală a volumului este subdivizată în subseturi sau straturi (straturi) ale volumului astfel încât. Straturile sunt obiecte omogene în ceea ce privește caracteristicile statistice (de exemplu, populația este împărțită în straturi pe grupe de vârstă sau clasă socială; întreprinderi - după industrie). În acest caz, probele sunt numite stratificat(in caz contrar, stratificat, tipic, zonat);

4.metode serial selecția este folosită pentru a forma serial sau probe imbricate... Sunt convenabile dacă este necesar să se examineze simultan un „bloc” sau o serie de obiecte (de exemplu, un lot de bunuri, produse dintr-o anumită serie sau populația din diviziunea administrativ-teritorială a țării). Selecția loturilor poate fi efectuată într-un mod pur aleatoriu sau mecanic. În același timp, se efectuează un sondaj complet al unui anumit lot de bunuri sau al unei întregi unități teritoriale (clădire rezidențială sau cartier);

5. combinate(în trepte) selecția poate combina mai multe metode de selecție simultan (de exemplu, stratificată și aleatorie sau aleatorie și mecanică); se numește un astfel de eșantion combinate.

Tipuri de selecție

De minte distingeți între selecția individuală, de grup și combinată. La selecție individuală unitățile individuale ale populației generale sunt selectate în eșantion, cu selectarea grupului- grupuri (serii) de unități omogene calitativ și selecție combinată presupune o combinație a primului și celui de-al doilea tip.

De metodă selecție distinge repetate și nerepetate probă.

Irepetabil se apelează selecția, în care unitatea care a intrat în eșantion nu revine la populația inițială și nu participă la selecția ulterioară; în timp ce numărul de unități din populația generală N este redus în procesul de selecție. La repetat selecţie prinsîn eșantion, unitatea după înregistrare este returnată populației generale și, astfel, păstrează o șansă egală, împreună cu alte unități, de a fi utilizată în procedura de selecție ulterioară; în timp ce numărul de unități din populația generală N rămâne neschimbată (metoda este rar utilizată în cercetarea socio-economică). Cu toate acestea, cu un mare N (N → ∞) formule pentru irepetabil selecțiile se apropie de cele pentru repetat selecție și aproape mai des acestea din urmă sunt folosite ( N = const).

Principalele caracteristici ale parametrilor populației generale și ale eșantionului

Concluziile statistice ale studiului se bazează pe distribuția unei variabile aleatorii, în timp ce valorile observate (x 1, x 2, ..., x n) se numesc realizări ale variabilei aleatorii NS(n este dimensiunea eșantionului). Distribuția unei variabile aleatorii în populația generală este teoretică, ideală, iar analiza sa eșantion este empiric distribuție. Unele distribuții teoretice sunt date analitic, adică al lor Opțiuni determinați valoarea funcției de distribuție în fiecare punct din spațiul valorilor posibile ale variabilei aleatorii. Pentru un eșantion, funcția de distribuție este dificil de determinat și, prin urmare, uneori imposibilă Opțiuni sunt estimate din date empirice și apoi sunt substituite într-o expresie analitică care descrie distribuția teoretică. În acest caz, presupunerea (sau ipoteză) despre tipul de distribuție poate fi atât statistic corect, cât și eronat. Dar, în orice caz, distribuția empirică reconstruită din eșantion doar o caracterizează aproximativ pe cea adevărată. Cei mai importanți parametri de distribuție sunt valorea estimatași varianță.

Prin natura lor, distribuțiile sunt continuuși discret... Cea mai cunoscută distribuție continuă este normal... Analogii selectivi ai parametrilor și pentru aceasta sunt: ​​valoarea medie și varianța empirică. Dintre cele discrete din cercetarea socio-economică, cele mai frecvent utilizate alternativă (dihotomică) distribuție. Parametrul așteptării matematice a acestei distribuții exprimă valoarea relativă (sau acțiune) unități ale populației care au trăsătura studiată (este indicată printr-o scrisoare); proporția populației care nu are această caracteristică este notată cu litera q (q = 1 - p)... Varianța distribuției alternative are, de asemenea, un analog empiric.

Caracteristicile parametrilor de distribuție sunt calculate în moduri diferite în funcție de tipul de distribuție și de metoda de selectare a unităților populației. Cele principale pentru distribuțiile teoretice și empirice sunt date în tabel. 1.

Fracțiunea eșantionului k n este raportul dintre numărul de unități din eșantion și numărul de unități din populația generală:

k n = n / N.

Fracțiunea eșantionului w Este raportul unităților cu caracteristica studiată X la dimensiunea probei n:

w = n n / n.

Exemplu.Într-un lot de bunuri care conțin 1000 de unități, cu un eșantion de 5% fracțiunea eșantionului k nîn valoare absolută este de 50 de unități. (n = N * 0,05); dacă în acest eșantion se găsesc 2 produse defecte, atunci rata selectivă a deșeurilor w va fi 0,04 (w = 2/50 = 0,04 sau 4%).

Deoarece populația eșantion este diferită de populația generală, atunci erori de eșantionare.

Tabelul 1. Parametrii de bază ai populației generale și a eșantionului

Erori de eșantionare

Pentru orice erori (solide și selective) pot apărea de două tipuri: înregistrare și reprezentativitate. Erori înregistrare poate avea Aleatoriuși sistematic caracter. Aleatoriu erorile sunt alcătuite din mai multe cauze diferite de necontrolat, sunt neintenționate și se echilibrează de obicei în total (de exemplu, modificări ale citirilor instrumentelor în timpul fluctuațiilor de temperatură din cameră).

Sistematic erorile sunt tendențioase, deoarece încalcă regulile de selectare a obiectelor din eșantion (de exemplu, abateri la măsurători la schimbarea setării dispozitivului de măsurare).

Exemplu. Pentru a evalua statutul social al populației din oraș, este planificată examinarea a 25% din familii. Dacă, în același timp, alegerea fiecărui al patrulea apartament se bazează pe numărul său, atunci există pericolul de a selecta toate apartamentele de un singur tip (de exemplu, apartamentele cu o cameră), ceea ce va oferi o eroare sistematică și va distorsiona rezultatele; alegerea numărului apartamentului prin lot este mai preferabilă, deoarece eroarea va fi accidentală.

Erori reprezentative sunt inerente doar observației selective, nu pot fi evitate și apar ca urmare a faptului că eșantionul nu reproduce pe deplin populația generală. Valorile indicatorilor obținuți din eșantion diferă de indicatorii acelorași valori din populația generală (sau obținuți prin observare continuă).

Eșantion de observare a erorii este diferența dintre valoarea parametrului în populația generală și valoarea eșantionului său. Pentru valoarea medie a unei caracteristici cantitative, este egală cu :, și pentru o cotă (caracteristică alternativă) -.

Erorile de eșantionare sunt caracteristice numai observațiilor eșantionului. Cu cât aceste erori sunt mai mari, cu atât distribuția empirică diferă de cea teoretică. Parametrii distribuției empirice sunt valori aleatorii, prin urmare, erorile de eșantionare sunt, de asemenea, valori aleatorii, pot lua valori diferite pentru diferite eșantioane și, prin urmare, este obișnuit să se calculeze eroare medie.

Eroare medie de eșantionare există o valoare care exprimă abaterea standard a mediei eșantionului față de așteptarea matematică. Această valoare, sub rezerva principiului selecției aleatorii, depinde în primul rând de dimensiunea eșantionului și de gradul de variație al caracteristicii: cu cât variația caracteristicii (și, prin urmare, valoarea) este mai mică și cu atât este mai mică valoarea eroare medie de eșantionare. Raportul dintre varianțele populației generale și ale eșantionului este exprimat prin formula:

acestea. pentru suficient de mare, putem presupune că. Eroarea medie de eșantionare arată posibilele abateri ale parametrului populației eșantion de la parametrul populației generale. Masa 2 prezintă expresii pentru calcularea erorii medii de eșantionare pentru diferite metode de organizare a observației.

Tabelul 2. Eroarea medie (m) a mediei și proporției eșantionului pentru diferite tipuri de eșantion

Unde este media varianțelor eșantionului intragrup pentru o caracteristică continuă;

Media diferențelor de acțiuni intra-grup;

- numărul de serii selectate, - numărul total de serii;

,

unde este media seriei a-a;

- media generală pentru întregul eșantion pentru o caracteristică continuă;

,

unde este ponderea caracteristicii din seria a;

- cota totală a funcției în întregul eșantion.

Cu toate acestea, valoarea erorii medii poate fi evaluată numai cu o anumită probabilitate P (P ≤ 1). Lyapunov A.M. a demonstrat că distribuția eșantionului înseamnă, și, prin urmare, abaterile acestora de la media generală, pentru un număr suficient de mare, respectă aproximativ legea distribuției normale, cu condiția ca populația generală să aibă o medie finită și o varianță limitată.

Matematic, această afirmație pentru medie este exprimată ca:

iar pentru fracție, expresia (1) va lua forma:

Unde - există eroare de eșantionare marginală, care este un multiplu al erorii medii de eșantionare , iar factorul multiplicității este testul Studentului („factorul de încredere”) propus de SUA. Gosset (alias „Student”); valorile pentru diferite dimensiuni ale eșantionului sunt stocate într-un tabel special.

Valorile funcției Ф (t) pentru unele valori ale lui t sunt egale:

Prin urmare, expresia (3) poate fi citită după cum urmează: cu probabilitate P = 0,683 (68,3%) se poate argumenta că diferența dintre eșantion și media generală nu va depăși o valoare a erorii medii m (t = 1), cu probabilitate P = 0,954 (95,4%)- că nu va depăși valoarea a două erori medii m (t = 2), cu probabilitate P = 0,997 (99,7%)- nu va depăși trei valori m (t = 3). Astfel, determină probabilitatea ca această diferență să depășească de trei ori eroarea medie nivel de eroareși nu mai este 0,3% .

Masa 3 prezintă formulele pentru calcularea erorii de eșantionare marginală.

Tabelul 3. Eroare marginală (D) a eșantionului pentru media și proporția (p) pentru diferite tipuri de observare a eșantionului

Distribuția rezultatelor eșantionului la populația generală

Scopul final al observării selective este de a caracteriza populația generală. Pentru dimensiuni mici ale eșantionului, estimările empirice ale parametrilor (și) se pot abate semnificativ de la valorile lor reale (și). Prin urmare, devine necesar să se stabilească limitele în care se află valorile adevărate (și) pentru valorile eșantionului parametrilor (și).

Interval de încredere al oricărui parametru θ al populației generale se numește un interval aleatoriu de valori ale acestui parametru, care cu o probabilitate apropiată de 1 ( fiabilitate) conține adevărata valoare a acestui parametru.

Eroare marginală prelevarea de probe Δ vă permite să determinați valorile limită ale caracteristicilor populației generale și ale acestora intervale de încredere care sunt egale:

Linia de fund interval de încredere obținută prin scădere eroare marginală din media eșantionului (share), iar cea superioară prin adăugarea acestuia.

Interval de încredere pentru medie, folosește eroarea de eșantionare marginală și pentru un anumit nivel de încredere este determinat de formula:

Aceasta înseamnă că, cu o probabilitate dată R, care se numește nivelul de încredere și este determinat în mod unic de valoare t, se poate argumenta că adevărata valoare a mediei se află în intervalul de la , iar adevărata valoare a fracției este în intervalul de la

La calcularea intervalului de încredere pentru trei niveluri standard de încredere P = 95%, P = 99% și P = 99,9% valoarea este selectată de. Aplicații în funcție de numărul de grade de libertate. Dacă dimensiunea eșantionului este suficient de mare, atunci valorile corespunzătoare acestor probabilități t sunt egale: 1,96, 2,58 și 3,29 ... Astfel, eroarea de eșantionare marginală face posibilă determinarea valorilor limitative ale caracteristicilor populației generale și a intervalelor de încredere ale acestora:

Distribuția rezultatelor observației selective către populația generală în cercetarea socio-economică are propriile sale caracteristici, deoarece necesită completitudinea reprezentativității tuturor tipurilor și grupurilor sale. Baza posibilității unei astfel de distribuții este calculul eroare relativă:

Unde Δ % - eroare relativă de eșantionare marginală; ,.

Există două metode principale de extindere a unui eșantion de observație la populația generală: conversia directă și metoda coeficienților.

Esenta conversie directă constă în înmulțirea valorii medii a eșantionului !! \ overline (x) cu dimensiunea populației generale.

Exemplu... Să se estimeze numărul mediu de copii mici din oraș printr-o metodă de eșantionare și să fie o persoană. Dacă există 1000 de familii tinere în oraș, atunci numărul locurilor necesare în creșele municipale se obține înmulțind această medie cu dimensiunea populației generale N = 1000, adică se va ridica la 1200 de locuri.

Metoda cotelor se recomandă utilizarea în cazul în care se efectuează observarea selectivă pentru a clarifica datele de observare continuă.

În acest caz, se folosește formula:

unde toate variabilele sunt dimensiunea populației:

Dimensiunea eșantionului necesar

Tabelul 4. Dimensiunea necesară a eșantionului (n) pentru diferite tipuri de organizare a observării eșantionului

Atunci când planificați o observație a eșantionului cu o valoare prestabilită a erorii de eșantionare admisibile, este necesar să estimați corect necesarul marime de mostra... Acest volum poate fi determinat pe baza erorii admisibile în observarea eșantionului pe baza unei probabilități date care garantează valoarea acceptabilă a nivelului de eroare (luând în considerare modul de organizare a observației). Formulele pentru determinarea dimensiunii necesare a eșantionului n sunt ușor de obținut direct din formulele pentru eroarea de eșantionare marginală. Deci, din expresia erorii marginale:

mărimea eșantionului este determinată direct n:

Această formulă arată că, cu o eroare de eșantionare marginală în scădere Δ mărimea eșantionului necesar crește semnificativ, ceea ce este proporțional cu varianța și pătratul testului Studentului.

Pentru o metodă specifică de organizare a observației, dimensiunea eșantionului necesar este calculată în conformitate cu formulele date în tabel. 9.4.

Exemple practice de calcul

Exemplul 1. Calculul mediei și al intervalului de încredere pentru o caracteristică cantitativă continuă.

Pentru a evalua rapiditatea decontării cu creditorii, banca a efectuat un eșantion aleatoriu de 10 documente de plată. Valorile lor s-au dovedit a fi egale (în zile): 10; 3; 15; 15; 22; 7; opt; 1; 19; douăzeci.

Necesar cu probabilitate P = 0,954 determina eroarea marginală Δ eșantionul mediu și limitele de încredere pentru timpul mediu al calculelor.

Soluţie. Valoarea medie se calculează utilizând formula din tabel. 9.1 pentru un eșantion

Varianța este calculată prin formula din tabel. 9.1.

Eroarea medie pătrată a zilei.

Eroarea medie este calculată prin formula:

acestea. media este x ± m = 12,0 ± 2,3 zile.

Fiabilitatea medie a fost

Eroarea limitativă este calculată prin formula din tabel. 9.3 pentru re-eșantionare, deoarece dimensiunea populației este necunoscută și pentru P = 0,954 nivel de încredere.

Astfel, valoarea medie este egală cu `x ± D =` x ± 2m = 12,0 ± 4,6, adică valoarea sa reală variază între 7,4 și 16,6 zile.

Folosind masa Studentului. Aplicația ne permite să concluzionăm că pentru n = 10 - 1 = 9 grade de libertate, valoarea obținută este fiabilă cu un nivel de semnificație de 0,001 GBP, adică valoarea medie obținută este semnificativ diferită de 0.

Exemplul 2. Estimarea probabilității (ponderea generală) p.

Cu o metodă de eșantionare mecanică de supraveghere a statutului social a 1000 de familii, s-a dezvăluit că ponderea familiilor cu venituri mici era w = 0,3 (30%)(proba a fost 2% , adică n / N = 0,02). Necesar cu un nivel de încredere p = 0,997 determina indicatorul R familii cu venituri mici din întreaga regiune.

Soluţie. Conform valorilor prezentate ale funcției Ф (t) găsiți pentru un anumit nivel de încredere P = 0,997 sens t = 3(vezi formula 3). Eroare partajare marginală w determinată de formula din tabel. 9.3 pentru eșantionarea non-repetitivă (eșantionarea mecanică este întotdeauna non-repetitivă):

Eroarea relativă de eșantionare relativă în % va fi:

Probabilitatea (ponderea generală) a familiilor cu venituri mici din regiune va fi p = w ± Δ w, iar limitele de încredere p sunt calculate pe baza dublei inegalități:

w - Δ w ≤ p ≤ w - Δ w, adică adevărata valoare a lui p se află în:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Astfel, cu o probabilitate de 0,997, se poate argumenta că ponderea familiilor cu venituri mici dintre toate familiile din regiune variază de la 28,6% la 31,4%.

Exemplul 3. Calculul mediei și al intervalului de încredere pentru o caracteristică discretă specificată de o serie de intervale.

Masa 5. a fost stabilită distribuirea comenzilor pentru producerea comenzilor după momentul executării acestora de către întreprindere.

Tabelul 5. Distribuția observațiilor în funcție de momentul apariției

Soluţie. Timpul mediu de plumb este calculat folosind formula:

Perioada medie va fi:

= (3 * 20 + 9 * 80 + 24 * 60 + 48 * 20 + 72 * 20) / 200 = 23,1 luni.

Primim același răspuns dacă folosim datele de pe p i din penultima coloană a tabelului. 9.5 folosind formula:

Rețineți că mijlocul intervalului pentru ultima gradație se găsește completându-l artificial cu lățimea intervalului gradației anterioare egal cu 60 - 36 = 24 de luni.

Varianța este calculată prin formulă

Unde x i- mijlocul rândului de intervale.

Prin urmare !! \ sigma = \ frac (20 ^ 2 + 14 ^ 2 + 1 + 25 ^ 2 + 49 ^ 2) (4), iar rădăcina înseamnă eroare pătrată.

Eroarea medie este calculată utilizând formula lunii, adică media este !! \ overline (x) ± m = 23,1 ± 13,4.

Eroarea limitativă este calculată prin formula din tabel. 9.3 pentru re-eșantionare, deoarece dimensiunea populației este necunoscută, pentru un nivel de încredere de 0,954:

Deci media este:

acestea. valoarea sa reală variază de la 0 la 50 de luni.

Exemplul 4. Pentru a determina viteza decontărilor cu creditorii a N = 500 de întreprinderi ale unei corporații într-o bancă comercială, este necesar să se efectueze un studiu eșantion prin metoda selecției aleatorii nerepuse. Determinați dimensiunea necesară a eșantionului n astfel încât, cu o probabilitate de P = 0,954, eroarea eșantionului mediu să nu depășească 3 zile, dacă estimările studiului au arătat că abaterea standard s a fost de 10 zile.

Soluţie... Pentru a determina numărul de studii necesare n, vom folosi formula pentru selecția repetată din tabel. 9.4:

În ea, valoarea lui t este determinată de la nivelul de încredere P = 0,954. Este egal cu 2. Pătratul rădăcinii medii s = 10, dimensiunea populației generale este N = 500, iar eroarea marginală a mediei este Δ x = 3. Înlocuind aceste valori în formulă, obținem:

acestea. este suficient să se facă un eșantion de 41 de întreprinderi pentru a estima parametrul necesar - viteza decontărilor cu creditorii.

Probă - aceasta este:

1) totalitatea acelor elemente ale obiectului de cercetare care vor fi studiate în mod direct;

2) metode și proceduri pentru selectarea elementelor obiectului de cercetare.

Populația generală - un set complet de obiecte legate de problema studiată. În cercetarea sociologică, G.S. cel mai adesea există agregate de indivizi - populația (orașe, țări etc.), un grup social (tineri, șomeri, oameni de afaceri etc.), audiența mass-media (SMC) etc. Cu toate acestea, în multe cazuri , GS ... poate consta din elemente mai mari (obiecte) - familii (gospodării), grupuri academice, întreprinderi, comunități religioase, așezări individuale sau state etc.

Eșantion de populație - o parte din obiectele din populația generală selectate pentru studiu pentru a face o concluzie despre întreaga populație generală.

Pentru ca concluzia obținută prin examinarea eșantionului să fie extinsă la întreaga populație generală, eșantionul trebuie să aibă proprietatea reprezentativității.

Reprezentativitate Este capacitatea unui eșantion de a reprezenta populația țintă. Cu cât compoziția eșantionului reprezintă mai precis populația pe problemele studiate, cu atât este mai mare reprezentativitatea acesteia.

EXEMPLU: Reprezentativitatea poate fi ilustrată prin următorul exemplu. Să presupunem că populația este toți elevii dintr-o școală (600 de persoane din 20 de clase, 30 de persoane în fiecare clasă). Subiectul studiului este atitudinea față de fumat. Un eșantion de 60 de liceeni reprezintă o populație mult mai proastă decât un eșantion din aceiași 60 de elevi, care va include 3 elevi din fiecare clasă. Principalul motiv pentru aceasta este distribuția inegală a vârstei în clase. În consecință, în primul caz, reprezentativitatea eșantionului este scăzută, iar în al doilea caz, reprezentativitatea este ridicată (toate celelalte lucruri fiind egale).

Tipuri de probe

1. Eșantionare aleatorie.

1.1 Selecție aleatorie simplă.

1.2 Metoda de eșantionare sistematică (sau mecanică).

1.3 Eșantionare în serie (imbricată sau grupată).

1.4 Eșantion stratificat.

2. Eșantion non-aleatoriu (improbabil).

2.2. Eșantionare spontană.

2.3. Eșantionare în mai multe etape și o singură etapă.

1. Eșantionare aleatorie.

Particularitatea eșantionării aleatorii este că toate unitățile populației generale au o probabilitate egală de a fi incluse în eșantion. La eșantionare aleatorie, principiul aleatoriei... Cadrul de eșantionare poate fi listele angajaților întreprinderii, listele telefonice, listele de înmatriculare ale proprietarilor de mașini, listele electorale la secțiile de votare, cărțile de casă, precum și diferite liste întocmite de sociologul însuși, în funcție de obiectivele studiului (o listă de străzile pe care sunt apoi selectați respondenții).

Eșantionarea aleatorie este de obicei utilizată în sondajele de opinie publică înainte de alegeri, referendumuri și alte evenimente publice.

La care se adauga Această metodă este o respectare completă a principiului aleatoriei și, în consecință, evitarea erorilor sistematice.

Dezavantajele acestei metode:

- Necesitatea unei liste de elemente ale populației generale.

- Complexitatea sondajului.

- Dimensiunea eșantionului relativ mare.

În statistici, există două metode principale de cercetare - continuă și selectivă. Atunci când se efectuează un studiu de eșantionare, este obligatoriu să se respecte următoarele cerințe: reprezentativitatea populației eșantionului și un număr suficient de unități de observare. Atunci când alegeți unități de observare, este posibil Erori de compensare, adică astfel de evenimente, a căror apariție nu poate fi prezisă cu precizie. Aceste erori sunt obiective și naturale. Atunci când se determină gradul de acuratețe al unui studiu de eșantionare, se estimează cantitatea de eroare care poate apărea în timpul procesului de eșantionare - Eroare aleatorie de reprezentativitate (M) — Este diferența reală dintre valorile medii sau relative obținute dintr-un sondaj de sondaj și valori similare care ar fi obținute dintr-un sondaj asupra populației generale.

Evaluarea fiabilității rezultatelor cercetării prevede determinarea:

1. erori de reprezentativitate

2. limite de încredere ale valorilor medii (sau relative) în populația generală

3. încrederea în diferența valorilor medii (sau relative) (conform criteriului t)

Calculul erorii de reprezentativitate(mm) medie aritmetică (M):

Unde σ este abaterea standard; n este dimensiunea eșantionului (> 30).

Calculul erorii de reprezentativitate (mР) a valorii relative (Р):

Unde P este valoarea relativă corespunzătoare (calculată, de exemplu, în%);

Q = 100 - Ρ% este reciprocul lui P; n - dimensiunea eșantionului (n> 30)

În lucrările clinice și experimentale, este adesea necesar să se utilizeze Eșantion mic, Când numărul de observații este mai mic sau egal cu 30. Cu un eșantion mic pentru a calcula erorile de reprezentativitate, atât valorile medii cât și cele relative , Numărul de observații este redus cu unul, adică

; .

Mărimea erorii de reprezentativitate depinde de mărimea eșantionului: cu cât este mai mare numărul de observații, cu atât este mai mică eroarea. Pentru a evalua fiabilitatea unui indicator eșantion, se adoptă următoarea abordare: indicatorul (sau valoarea medie) trebuie să fie de 3 ori mai mare decât eroarea sa, în acest caz este considerat de încredere.

Cunoașterea amplorii erorii nu este suficientă pentru a avea încredere în rezultatele unui studiu de eșantionare, deoarece eroarea specifică a unui studiu de eșantionare poate fi semnificativ mai mare (sau mai mică) decât valoarea erorii medii de reprezentativitate. Pentru a determina acuratețea cu care un cercetător dorește să obțină un rezultat, statisticile folosesc un astfel de concept ca probabilitatea unei predicții fără erori, care este o caracteristică a fiabilității rezultatelor studiilor statistice biomedicale selective. De obicei, atunci când se efectuează studii statistice biomedicale, se utilizează probabilitatea unei predicții fără erori de 95% sau 99%. În cele mai critice cazuri, când este necesar să se tragă concluzii deosebit de importante din punct de vedere teoretic sau practic, se utilizează probabilitatea unei prognoze fără erori de 99,7%.

Un anumit grad de probabilitate a unei prognoze fără erori corespunde unei anumite valori Eroarea marginală a eșantionării aleatorii (Δ - delta), care este determinată de formula:

Δ = t * m, unde t este coeficientul de încredere, care pentru un eșantion mare cu o probabilitate de prognoză fără erori de 95% este de 2,6; cu o probabilitate de prognoză fără erori de 99% - 3,0; cu o probabilitate de prognoză fără erori de 99,7% - 3,3, iar cu un eșantion mic este determinat de un tabel special cu valorile t ale lui Student.

Folosind eroarea de eșantionare marginală (Δ), se poate determina Limite de încredere, în care, cu o anumită probabilitate de prognoză fără erori, valoarea reală a cantității statistice , Caracterizarea întregii populații generale (medie sau relativă).

Următoarele formule sunt utilizate pentru a determina limitele de încredere:

1) pentru valori medii:

Unde Mgen - limite de încredere ale mediei în populația generală;

Msample - valoare medie , Obținut atunci când se efectuează un studiu pe un eșantion de populație; t este coeficientul de încredere, a cărui valoare este determinată de gradul de probabilitate al unei prognoze fără erori cu care cercetătorul dorește să obțină rezultatul; mM este eroarea reprezentativității mediei.

2) pentru valorile relative:

Unde Pgen - limite de încredere ale valorii relative în populația generală; Psyb - o valoare relativă obținută la efectuarea unui studiu pe o populație eșantion; t este factorul de încredere; mP - eroare de reprezentativitate a valorii relative.

Limitele de încredere arată măsura în care dimensiunea eșantionului poate fluctua în funcție de motive aleatorii.

Cu un număr mic de observații (n<30), для вычисления довери­тельных границ значение коэффициента t находят по специальной таблице Стьюдента. Значения t расположены в таблице на пересечении с избранной вероятностью безошибочного прогноза и строки, Indicarea numărului de grade de libertate disponibile (n) , Care este n-1.

De fapt, vom începe nu cu una, ci cu trei întrebări: Ce este eșantionarea? cand este reprezentativ? ce este?

Agregatul Este orice grup de oameni, organizații, evenimente care ne interesează, despre care dorim să tragem concluzii și se întâmplă, sau obiect, - orice element dintr-un astfel de set 1 .Probă - orice subgrup al unui set de cazuri (obiecte) alocat analizei. Dacă dorim să studiem activitatea decizională a legislatorilor de stat, am putea investiga o astfel de activitate în legislativele statelor Virginia, Carolina de Nord și Carolina de Sud, și nu în toate cele cincizeci de state și, pe baza acestora, a imprastia datele obținute pentru populația din care au fost selectate aceste trei state. Dacă dorim să investigăm sistemul preferențial al alegătorilor din Pennsylvania, am putea face acest lucru intervievând 50 de lucrători la Yu. S. Steele ”din Pittsburgh și diseminează rezultatele sondajului către toți alegătorii din stat. La fel, dacă vrem să măsurăm inteligența studenților, am putea testa toți jucătorii defensivi din Ohio pentru un anumit sezon de fotbal și apoi să generalizăm rezultatele la populația din care fac parte. În fiecare exemplu, procedăm după cum urmează: stabilim mai degrabă un subgrup în cadrul populației studiem acest subgrup sau mostrăm în detaliu și extindem rezultatele la întreaga populație. Acestea sunt principalele etape ale eșantionării.

Cu toate acestea, pare destul de evident că fiecare dintre aceste eșantioane are un dezavantaj semnificativ. De exemplu, în timp ce legislativele din Virginia, Carolina de Nord și Carolina de Sud fac parte din agregatul legislativelor de stat, din motive istorice, geografice și politice, sunt susceptibile să acționeze în moduri foarte similare și foarte diferite față de legislativele atât de diferite de state precum New York, Nebraska și Alaska. În timp ce cei cincizeci de lucrători siderurgici din Pittsburgh pot fi într-adevăr alegători din Pennsylvania, statutul lor socio-economic, educația și experiențele de viață vor avea probabil păreri diferite de cele ale multora care sunt alegători similari. De asemenea, deși jucătorii de fotbal din Ohio sunt studenți, ei pot fi foarte diferiți de ceilalți studenți din mai multe motive. Cu alte cuvinte, deși fiecare dintre aceste subgrupuri este într-adevăr un eșantion, membrii fiecăruia sunt sistematic diferiți de majoritatea restului populației din care sunt selectați. Ca grup separat, niciunul dintre ele nu este tipic în ceea ce privește distribuția atributelor opiniilor, a motivelor de comportament și a caracteristicilor în populația generală cu care este asociat. În consecință, politologii ar spune că niciunul dintre aceste eșantioane nu este reprezentativ.

Eșantion reprezentativ - acesta este un eșantion în care toate caracteristicile principale ale populației generale din care este extras acest eșantion sunt prezentate aproximativ în aceeași proporție sau cu aceeași frecvență cu care apare această caracteristică în această populație generală. Astfel, dacă 50% din toate legislativele de stat se întrunesc doar la fiecare doi ani, aproximativ jumătate dintr-un eșantion reprezentativ de legislaturi de stat ar trebui să fie de acest tip. Dacă 30% dintre alegătorii din Pennsylvania sunt cu guler albastru, aproximativ 30% din reprezentanți mostrele pentru acești alegători (nu 100% ca în exemplul de mai sus) ar trebui să aibă guler albastru. Și dacă 2% din toți studenții sunt sportivi, atunci aproximativ aceeași proporție dintr-un eșantion reprezentativ de studenți ar trebui să fie sportivi. Cu alte cuvinte, un eșantion reprezentativ este un microcosmos, un model mai mic, dar precis al populației pe care ar trebui să îl reprezinte. În măsura în care eșantionul este reprezentativ, se poate presupune că concluziile extrase din studiul eșantionului se aplică populației inițiale. Această diseminare a rezultatelor este ceea ce numim generalizabilitate.

Poate că o ilustrare grafică va ajuta la clarificarea acestui lucru. Să presupunem că vrem să studiem tiparele de apartenență la grupul politic în rândul populației adulte din SUA. Figura 5.1 prezintă trei cercuri, împărțite în șase sectoare egale. Figura 5.1a reprezintă întreaga populație luată în considerare. Membrii populației sunt clasificați în funcție de grupurile politice (cum ar fi partidele și grupurile de interese) de care aparțin. În acest exemplu, fiecare adult aparține cel puțin unu și nu mai mult de șase grupuri politice; iar aceste șase niveluri de membru sunt la fel de comune în ansamblu (deci sectoare egale). Să presupunem că dorim să investigăm motivele persoanelor care se alătură grupului, alegerea grupului și tiparele de participare, totuși, din cauza resurselor limitate, putem analiza doar unul din fiecare șase membri ai populației. Cine ar trebui să fie selectat pentru analiză?

Orez. 5.1. Eșantionarea din populația generală

Unul dintre eșantioanele posibile ale unei dimensiuni date este ilustrat de zona umbrită din Figura 5.1b, dar nu reflectă în mod clar structura populației. Dacă am generaliza din acest eșantion, am concluziona (1) că toți adulții americani aparțin a cinci grupuri politice și (2) că tot comportamentul grupului american coincide cu comportamentul celor din exact cinci grupuri. Cu toate acestea, știm că prima concluzie nu este corectă și acest lucru ne poate ridica îndoieli cu privire la validitatea celei de-a doua. Prin urmare, Eșantionul prezentat în Figura 5.1b nu este reprezentativ, deoarece nu reflectă distribuția unei proprietăți date a populației (numită deseori parametru ) în conformitate cu distribuția sa efectivă. Se spune că un astfel de eșantion este mutat spre membri ai cinci grupuri sau s-a îndepărtat de toate celelalte modele de apartenență la grup. Pe baza unui astfel de eșantion părtinitor, tindem să tragem concluzii eronate despre populație.

Acest lucru poate fi demonstrat cel mai clar de exemplul catastrofei care a lovit revista „Literary Digest” din anii 1930, care a organizat un sondaj de opinie publică cu privire la rezultatele alegerilor. Literary Digest a fost un periodic în care au fost tipărite editoriale din ziare și alte materiale care reflectă opinia publică; această revistă a fost foarte populară la începutul sec. Începând cu 1920, revista a efectuat un sondaj la scară largă la nivel național, în care mai mult de un milion de persoane au primit buletinele de vot prin poștă, cerându-le să indice a cui candidatură au preferat pentru viitoarele alegeri prezidențiale. De-a lungul anilor, rezultatele sondajului revistei au fost atât de exacte, încât sondajul din septembrie a părut că alegerile din noiembrie nu au prea multă importanță. Și cum ar fi putut să apară o eroare într-un eșantion atât de mare? Cu toate acestea, în 1936, exact așa s-a întâmplat: cu o mare majoritate de voturi (60:40), victoria a fost prevăzută pentru candidatul republican Alf Landon. La alegeri, Landon a pierdut în fața unei persoane cu dizabilități - Franklin D. Roosevelt - cu practic același rezultat cu care ar fi trebuit să câștige. Credibilitatea „Literary Digest” a fost atât de grav subminată încât revista a încetat publicarea la scurt timp după aceea. Ce s-a întâmplat? Pur și simplu, sondajul Digest a folosit un eșantion părtinitor. Cărțile poștale au fost trimise persoanelor ale căror nume au fost extrase din două surse: liste telefonice și liste de înmatriculare a mașinilor. Și, deși această metodă de selecție nu era foarte diferită de alte metode de până acum, situația era complet diferită acum, în timpul Marii Depresii din 1936, când alegătorii mai puțin înstăriți, cel mai probabil pilon al Roosevelt, nu își permiteau să aibă un telefon, să nu mai vorbim de mașină. Astfel, de fapt, eșantionul utilizat în sondajul Digest a fost părtinitor față de cei mai probabil să fie republicani și este încă surprinzător faptul că Roosevelt a avut un rezultat atât de bun.

Cum poate fi rezolvată această problemă? Revenind la exemplul nostru, comparați eșantionul din Figura 5.1b cu eșantionul din Figura 5.1c. În acest din urmă caz, o șesime din populație a fost, de asemenea, selectată pentru analiză, dar fiecare dintre principalele tipuri de populație este reprezentată în eșantion în proporția în care este reprezentată în întreaga populație. Acest eșantion demonstrează că unul din șase adulți americani aparține unui grup politic, unul din șase la doi și așa mai departe. O astfel de eșantionare va dezvălui și alte diferențe între membrii săi care s-ar putea corela cu participarea la un număr diferit de grupuri. Astfel, eșantionul prezentat în Figura 5.1c este un eșantion reprezentativ pentru populația considerată.

Desigur, acest exemplu este simplificat din cel puțin două puncte de vedere extrem de importante. În primul rând, majoritatea populațiilor de interes pentru politologi sunt mai diverse decât cea prezentată în exemplu. Oameni, documente, guverne, organizații, decizii etc. diferă între ele nu într-una, ci într-un număr mult mai mare de semne. Astfel, un eșantion reprezentativ ar trebui să fie astfel încât fiecare din principal, distinct de celelalte zone a fost prezentat proporțional cu ponderea sa în agregat. În al doilea rând, situația în care distribuția reală a variabilelor sau caracteristicilor pe care vrem să le măsurăm nu este cunoscută în prealabil, apare mult mai des decât opusul - poate că nu a fost măsurată în recensământul anterior. Astfel, un eșantion reprezentativ ar trebui proiectat astfel încât să poată reflecta cu exactitate distribuția existentă chiar și atunci când nu suntem în măsură să evaluăm direct validitatea acesteia. Procedura de eșantionare trebuie să aibă o logică internă care să ne convingă că, dacă am putea compara eșantionul cu recensământul, ar fi într-adevăr reprezentativ.

Pentru a se asigura că organizarea complexă a unei populații date poate fi reflectată cu exactitate și un anumit grad de încredere că procedurile propuse sunt capabile să facă acest lucru, cercetătorii apelează la metodele statistice. Cu toate acestea, acționează în două direcții. În primul rând, folosind anumite reguli (logica internă), cercetătorii decid problema obiectelor specifice pe care ar trebui să le studieze, ce anume ar trebui să fie inclus într-un eșantion specific. În al doilea rând, folosind reguli foarte diferite, ei decid câte obiecte să selecteze. Nu vom studia în detaliu aceste numeroase reguli, vom lua în considerare doar rolul lor în cercetarea științelor politice. Să începem cu strategii de selectare a obiectelor care alcătuiesc un eșantion reprezentativ.