Representativitet - vad är denna process? Representativitetsfel. Representativa och icke-representativa urval

Att bilda en urvalspopulation viktig roll bestämmer dess volym och säkerställer representativitet.

"Om urvalstypen talar om för oss hur människor kommer in i urvalspopulationen, berättar urvalsstorleken oss hur många av dem som kom dit." Det vill säga att urvalsstorleken är antalet enheter som ingår i urvalspopulationen. Och det är mycket viktigt att urvalet är representativt, det vill säga inte förvränger idéer om den allmänna befolkningen som helhet. "Kraven på representativitet för urvalet innebär att, enligt de valda parametrarna (kriterierna), bör sammansättningen av de undersökta närma sig motsvarande proportioner i den allmänna befolkningen."

Ett av de nyckelproblem som vanligtvis möter en sociolog som bestämmer sig för om han ska lita på uppgifterna som erhållits under sin forskning eller inte är hur många personer som ska intervjuas för att få verkligt representativ information. Tyvärr finns inte en enda och tydlig formel, med hjälp av vilken man skulle kunna beräkna den optimala storleken på urvalspopulationen, i naturen. Och detta förklaras väldigt enkelt. Faktum är att fastställandet av urvalspopulationens storlek inte så mycket är ett statistiskt problem som ett materiellt problem.

Med andra ord beror urvalets storlek på många faktorer, de viktigaste är följande:

  • 1. Kostnader för att samla in information, inklusive tid;
  • 2. önskan om en viss statistisk tillförlitlighet hos resultaten, som forskaren hoppas få;
  • 3. värdet och nyheten av den information som erhållits till följd av undersökningen.

Urvalsstorleken bestäms av graden av homogenitet eller heterogenitet hos den allmänna populationen och antalet egenskaper som kännetecknar den. En population anses vara homogen där en kontrollerad egenskap, till exempel nivån på läskunnighet, är jämnt fördelad, det vill säga att den inte bildar tomrum eller kluster, då vi bara har intervjuat ett fåtal personer, kan vi dra slutsatsen att majoriteten av människor är läskunniga. Ju mer homogen populationen är, desto mindre urvalsstorlek. Till exempel, "låt oss säga att vi väljer från en befolkning på 2000 personer, kontrollerar sammansättningen av urvalspopulationen baserat på kön": 70 % män och 30 % kvinnor. Enligt sannolikhetsteorin kan man anta att det bland ungefär var tionde utvalda respondent kommer att finnas tre kvinnor. Om vi ​​vill intervjua minst 90 kvinnor måste vi, baserat på ovanstående förhållande, välja ut minst 300 personer. Låt oss nu anta att befolkningen består av 90% män och 10% kvinnor. I det här fallet, för att inkludera 90 kvinnor i urvalet, är det nödvändigt att välja ut minst 900 personer." Exemplet visar att urvalsstorleken beror på spridningen av attributet (dispersion), och den måste beräknas utifrån det attribut vars värdespridning är störst.

"Grad av homogenitet socialt objekt beror i huvudsak på hur detaljerat vi tänker studera det. Nästan vilket som helst, även det mest "elementära" objektet visar sig vara extremt komplext. Endast i analys presenterar vi det som relativt enkelt, och lyfter fram vissa av dess egenskaper. Ju mer noggrann och detaljerad analysen är, desto fler egenskaper hos ett givet objekt vi avser att ta hänsyn till i sin kombination, och inte isolerat, desto större bör urvalsstorleken vara.”

I ett representativt urval är alla delar av befolkningen representerade i samma proportion. Men oavsett hur noggrant denna princip följs, kommer enstaka fel fortfarande att inträffa. Vi har förmågan att fastställa representativitetsfelet. Representativitetsfelet kallas som regel "diskrepansen mellan två populationer - den allmänna befolkningen, till vilken sociologens teoretiska intresse riktas och en uppfattning om de egenskaper som han i slutändan vill få, och urvalet, dit sociologens praktiska intresse riktas, vilket fungerar både som ett undersökningsobjekt och ett medel för att få information om en befolkning.” Det är viktigt att tänka på att med hjälp av samplingsmetoden är det aldrig möjligt att erhålla en absolut exakt uppskattning av den observerade egenskapen, det finns alltid en möjlighet för fel, men om sannolikheten för fel är liten, kommer det med största sannolikhet inte att inträffa. I rysk litteratur Tillsammans med begreppet ”representativitetsfel” finns också ett annat begrepp – ”sampling error”. De används vanligtvis omväxlande, men begreppet "sampling error" är kvantitativt mer exakt än "representativitetsfel". Urvalsfel är ”avvikelsen mellan de genomsnittliga egenskaperna hos urvalspopulationen från de genomsnittliga egenskaperna hos populationen. I praktiken bestäms det genom att jämföra kända egenskaper population med urvalsmedelvärden."

Ett urvals representativitet bestäms av två komponenter: systematiska och slumpmässiga fel. Slumpmässiga fel är förknippade med "statistiska fel (beroende på dynamiken hos de egenskaper som studeras) och oförutsedda överträdelser av (förfarandefel som görs under registreringen av egenskaper)." Slumpmässiga fel minskar med ökande urvalsstorlek. Slumpmässiga fel kan mätas med metoderna för matematisk statistik, om under bildandet av urvalspopulationen slumpmässighetsprincipen observeras, säkerställd av strikt definierade regler som utgör metoden för att bilda urvalspopulationen, och kan elimineras.

I praktiken är principen om slumpmässighet mycket svår att observera, och ibland helt enkelt omöjlig, vilket leder till systematiska fel som uppstår "på grund av den ofullständiga objektiviteten hos urvalet av den allmänna befolkningen (brist på information om den allmänna befolkningen, urval av mest "bekväma" delarna av den allmänna befolkningen för forskning), och även på grund av provets inkonsekvens med målen och målen för studien." Ibland kallas sådana fel offsetfel. De uppstår under olika tv-omröstningar, när programledaren bjuder in tittare att ringa vissa telefonnummer, skicka ett sms och uttrycka sin åsikt i någon fråga. Naturligtvis kan vi inte hävda att dessa människor återspeglar åsikten från hela befolkningen i landet, och till och med tv-publiken. Troligtvis involverar sådana undersökningar fler utbildade och aktiva människor än hela befolkningen i allmänhet, så varje tv-undersökning innehåller systematisk förvrängning och är ytlig.

Men systematiska fel uppstår också vid en korrekt organiserad undersökning. Till exempel, på gatan svarar bara de som inte har bråttom på intervjuarens frågor. Förvrängning kan undvikas genom att följa principerna om stickprov och intervjua till exempel var tionde förbipasserande.

Orsaker till systematiska fel:

  • 1. "under studien kompilerades inte urvalsramen korrekt (föråldrade, ofullständiga data användes, eller så fanns det ingen statistik om vissa egenskaper som är viktiga för urvalet),
  • 2. metoden för att välja observationsenheter var dåligt vald,
  • 3. del av svarande enl olika skäl"hoppade ur" undersökningen (frånvarande, vägrade att svara) och så vidare."

Det är omöjligt att eliminera sådana fel med matematiska medel, så det är nödvändigt att utföra en logisk analys av orsakerna till systematiska fel och utveckla åtgärder som kan eliminera dem. "Det är praktiskt taget omöjligt att bestämma omfattningen av bias-fel med hjälp av matematiska formler, så de överförs automatiskt till resultaten och slutsatserna av studien. Offsetfel beror vanligtvis på:

  • - felaktiga initiala statistiska uppgifter om parametrarna för kontrollegenskaper för den allmänna befolkningen;
  • - för liten (statistiskt insignifikant) urvalsstorlek;
  • - felaktig tillämpning av metoden för att välja analysenheter (till exempel urval från en felaktigt sammanställd lista, misslyckat val av plats och tid för att genomföra undersökningen).

Det finns vissa gränser för urvalsfel som beror på syftet med studien. Ekonomiska och demografiska prognoser, såsom folkräkningen, kräver ökad tillförlitlighet och precision. För sådana prognoser leder betydande fel till miljontals förluster av materiella resurser och felberäkningar i prognoser och planering. Men oftare görs sociologiska studier för att förstå allmänna trender, allmän orientering inom det sociala området som inte kräver hundra procent tillförlitlighet. Det finns en grov bedömning av forskningsresultatens tillförlitlighet: ”ökad tillförlitlighet tillåter ett urvalsfel på upp till 3 %. Vanligt - upp till 3-10%, ungefärligt - 10 till 20%, ungefärligt - från 20 till 40% och uppskattat - mer än 40%.

Så det finns flera sätt att undvika felet:

  • § Varje del av den allmänna populationen måste ha samma sannolikhet att ingå i urvalspopulationen;
  • § befolkningen ska helst vara homogen;
  • § det är nödvändigt att ha information om den allmänna befolkningens struktur och dess karakteristiska egenskaper;
  • § vid sammanställning av en urvalspopulation, ta hänsyn till slumpmässiga och systematiska fel i förväg.

Till exempel, om vi efter att ha intervjuat 380 personer i en bosättning där den totala lösningsmedelspopulationen är 10 tusen människor fann att 36 % av de tillfrågade köparna föredrar inhemska produkter, så kan vi med en 95-procentig sannolikhet säga att 46±5 % ständigt köpa inhemska produkter (det vill säga från 41 till 51%) av invånarna i denna bosättning.

Många omständigheter komplicerar problemet med urvalsberäkning och kan ofta leda till att ett formellt statistiskt representativt urval visar sig vara kvalitativt orepresentativt.”

Kvaliteten på urvalet bedöms av två indikatorer: representativitet och tillförlitlighet. Representativitet har redan diskuterats ovan. Och för att skapa ett tillförlitligt prov är det nödvändigt att korrekt konstruera dess grund. För att göra detta är följande krav uppfyllda:

  • 1. Provets fullständighet, vilket kräver närvaro av alla delar av populationen i urvalsramen. Om provet inte innehåller många observationsenheter, särskilt de som bär objektets väsentliga egenskaper och egenskaper, kommer forskningsresultaten att vara ofullständiga och ensidiga.
  • 2. Frånvaro av dubbelarbete, vilket innebär att det inte är tillåtet att upprepad inkludering av samma observationsenhet i urvalet (till exempel en elev flyttade för att studera vid en annan skola, han ingick i ny lista utan att ta bort den från den gamla, så den ingick i provet två gånger).
  • 3. Provtagningsinformationens noggrannhet, vilket innebär att obefintliga observationsenheter utesluts från samplingsramen. Till exempel i de vallistor som förbereds inför nästa val av suppleanter på olika nivåer finns ofta avlidna personer eller boende i rivna hus kvar.
  • 4. Adekvans, vilket innebär att underlaget för det valda urvalet bör relateras till lösningen av de mål som satts upp i studien. Till exempel, fullständig lista alla skolelever - bra grund för att bilda ett urval när man studerar problemet med allmänna akademiska prestationer. Men om vi är intresserade av gymnasieelevers inställning till det huvudsakliga akademiska discipliner, då kan denna lista endast användas för att bilda ny grund prover - en lista över gymnasieelever.
  • 5. Bekvämlighet att arbeta med provtagningsramen, där det är nödvändigt att tydligt numrera alla element som ingår i den, och de sammanställda listorna måste lagras centralt.

"Det finns två huvudsakliga metoder för att motivera ett urvals representativitet:

  • 1. Med det statistiska tillvägagångssättet säkerställs representativiteten genom speciella probabilistiska provtagningsmetoder. För att generalisera forskningsresultat till den allmänna befolkningen tillämpas rigorösa induktiva statistiska slutledningsprocedurer, och provtagningsfel uppskattas med en given sannolikhet.
  • 2. Icke-statistisk motivering för representativitet innebär teoretiska bevis för att urvalet representerar populationen tillräckligt bra. Det finns ingen statistisk uppskattning av urvalsfel när man använder detta tillvägagångssätt."

Vid första anblicken verkar det som om det helt enkelt är omöjligt att säkerställa representativiteten för urvalet i praktiken, men i själva verket beror allt på programmets mål och mål för studien.

Om vi ​​genomför en undersökning av stor social betydelse, efter att ha slutförts, måste vi dra slutsatser om hela befolkningen, är det nödvändigt att strikt följa alla kraven för ett representativt urvalsprocedur, eftersom fel i sådana studier är oacceptabla.

Om vi ​​står inför mer blygsamma uppgifter och slutsatsernas tillförlitlighetsnivå kan sänkas säkert, är det nödvändigt att följa alla krav på högkvalitativ representation av urvalspopulationen. Om vi ​​bestämmer oss för att betona den statistiska tillförlitligheten av data, kommer vi att vilseleda de människor som är vana vid att tro matematiska beräkningar. Vi får inte glömma att den information vi får genom undersökningar och andra metoder endast villkorligt översätts till kvantitativa indikatorer. Och det är inte ovanligt att kvantitativa indikatorer endast ungefärligen återspeglar essensen av sociala processer. "Därför får ansträngningar som syftar till noggrannheten av den statistiska underbyggnaden av resultaten mening endast under förutsättning av allvarliga kvalitativ analys problem och dess meningsfulla studie.”

Man måste komma ihåg att sociologen måste fokusera sin uppmärksamhet just på essensen sociala problem, involvera andra specialister, praktiker och teoretiker i arbetet, noggrant studera litteraturen inom ekonomi, psykologi, sociologi i ämnet forskning. Och för att lösa statistiska problem när det gäller typen och storleken på urvalet måste han först tydligt formulera de specifika frågorna som behöver lösas, och först därefter vända sig till motsvarande beräkningar av olika statistik.

Det slutliga målet med att studera en urvalspopulation är alltid att få information om populationen. För att göra detta måste provstudien uppfylla vissa villkor. Ett av huvudvillkoren är provets representativitet. Som diskuterats tidigare finns det kvalitativ och kvantitativ representativitet.

Slumpmässighet, som garanterar den kvalitativa (strukturella) representativiteten för statistiska studier, uppnås genom att uppfylla ett antal villkor för bildandet av urvalsgrupper (populationer):

1. Varje medlem av befolkningen måste ha lika sannolikhet komma in i provet.

2. Urvalet av observationsenheter från den allmänna befolkningen ska utföras oavsett vilken egenskap som studeras. Om urvalet utförs målmedvetet, är det också nödvändigt att följa villkoren för oberoende av fördelningen av egenskapen som studeras.

3. Urval bör göras från homogena grupper.

Efterlevnaden av de villkor som garanterar maximal närhet av urvalet och allmänna populationer säkerställs genom särskilda urvalsmetoder. Beroende på bildningsmetoden särskiljs följande prover:

1. Prover som inte kräver att den allmänna populationen delas upp i delar (faktiskt slumpmässigt upprepat eller icke-repetitivt urval).

2. Prover som kräver indelning av den allmänna populationen i delar (mekaniska, typiska eller typologiska prover, kohort, parade prover).

Egentligen bildas ett slumpmässigt urval genom slumpmässigt urval - slumpmässigt. Slumpmässigt urval baseras på blandning. Till exempel: välja en boll i sportlotto efter att ha blandat alla bollar, välja vinnande lottonummer, slumpmässigt välja sjuka kort för forskning, etc. Ibland används slumptal, hämtade från slumptalstabeller eller med slumptalsgeneratorer. Enligt dessa siffror väljs observationsenheter med nummer som motsvarar de slumpmässiga siffrorna som dras från en förnumrerad grupp av den allmänna befolkningen.

När man sammanställer ett slumpmässigt urval, efter att ett objekt har valts ut och all nödvändig information om det har registrerats, finns det två alternativ: objektet kan returneras eller inte returneras till populationen. I enlighet med detta provet kallas resampling(objektet återlämnas till befolkningen) eller repeterbar(objektet återlämnas inte till befolkningen). Eftersom det i de flesta statistiska studier praktiskt taget inte finns någon skillnad mellan upprepade och icke-repetitiva prov, accepteras villkoret att provet upprepas a priori.

Uppskattning av den nödvändiga provstorleken

För att urvalspopulationen ska vara kvantitativt representativ för den allmänna populationen är det nödvändigt att först uppskatta mängden data som behöver inkluderas i urvalspopulationen.

Med en okänd befolkningsstorlek mängden omsampling som garanterar representativa resultat om resultatet återspeglas av en indikator i formuläret relativt värde (andel), bestäms av formeln:

där p är värdet på indikatorn för den egenskap som studeras, i %; q = (100- sid) ;

t – konfidenskoefficient som visar sannolikheten att storleken på indikatorn inte kommer att överskrida gränserna för det maximala felet (vanligtvis tas t = 2, vilket ger en 95 % sannolikhet för en felfri prognos);

 är det maximala felet för indikatorn.

Till exempel: En av de indikatorer som kännetecknar arbetstagarnas hälsa vid industriföretag är andelen arbetare som inte blev sjuka under året. Låt oss anta att för den industrisektor som det undersökta företaget tillhör är denna siffra 25 %. Det maximala felet som kan tillåtas så att spridningen av indikatorvärden inte överstiger rimliga gränser är 5 %. I det här fallet kan indikatorn ta värden på 25% ±5%, dvs. från 20 % till 30 %. Om vi ​​antar att t = 2 får vi

I så fall om indikatorn är ett medelvärde, då kan antalet observationer bestämmas med formeln:

där σ är standardavvikelsen, som kan erhållas från tidigare studier eller baserat på pilotstudier.

Med icke-repetitivt urval Och beroende av en känd population för att bestämma den erforderliga slumpmässiga urvalsstorleken om den används relativa värden (aktier) formeln tillämpas:

för medelvärden Formeln som används är:

där N är storleken på den allmänna befolkningen.

Baserat på förhållandena i exemplet ovan och med storleken på den allmänna befolkningen N=500 arbetare får vi:

Det är lätt att se att den erforderliga urvalsstorleken för icke-repetitiv provtagning är mindre än för upprepad provtagning (188 respektive 300 arbetare).

I allmänhet varierar antalet observationer som krävs för att erhålla representativa data omvänt med kvadraten på det acceptabla felet.

Mekanisk provtagning- Provtagning, när observationsenheter väljs ut mekaniskt från populationen som undersöks. Till exempel: urval av var femte eller var tionde arbetare med hjälp av korten från företagets HR-avdelning eller poliklinikkorten från kliniken.

Typiskt, typologiskt eller zonindelad provtagning innebär att befolkningen delas in i ett antal kvalitativt homogena grupper. Till exempel: när man studerar universitetsstudenters sjuklighet väljs studentgrupper som är typiska till sammansättningen ut för fördjupning i varje kurs. Ofta kombineras denna urvalsmetod med andra metoder. Till exempel: en stads territorium är uppdelat beroende på graden av förorening i typiska områden, och observationsgrupper bildas i dessa områden genom slumpmässigt urval.

Kohortval hänvisar till riktade urval. Med denna metod väljs individer från den allmänna befolkningen (fördelningen i undergrupper är icke-slumpmässig), förenade av ögonblicket för uppkomsten av något tecken eller den studerade effekten, vilket spelar en betydande roll i studien (födelseår, uppkomsten av sjukdomen, ta ett läkemedel, etc.).

Fallkontrollstudie(RS) är en typ av epidemiologisk studie där fördelningen av en riskfaktor jämförs i en grupp patienter med en sjukdom och en kontrollgrupp. Studien (SC) är retrospektiv, eftersom forskaren, efter att ha delat in patienter i grupper efter om de har sjukdomen eller inte, får information från dem från det förflutna.

Särskild uppmärksamhet bör ägnas åt användningen av provtagningsmetoden i sanitär statistik när man studerar befolkningens allmänna sjuklighet. De teoretiska premisserna för provtagningsmetoden testades under specialstudier. Så, V.S. Bykhovsky et al. 1928 gjorde de parallell bearbetning av 132,8 tusen kort med data om sjukdomar med den kontinuerliga metoden och metoden för mekaniskt urval av vart femte kort. Analys av resultaten av denna bearbetning visade hög representativitet för data från en provstudie av sjuklighet. Dock upp till i dag, finns det inga enhetliga metodologiska tillvägagångssätt för att utföra selektiva sanitära och statistiska studier i utbredd praxis.

Provets representativitet

Parameternamn Menande
Artikelns ämne: Provets representativitet
Rubrik (tematisk kategori) Psykologi

Provtagningskrav

Ett antal obligatoriska krav tillämpas på urvalet, som först och främst bestäms av studiens mål och syften. Planering av ett experiment bör innefatta att ta hänsyn till både urvalsstorleken och ett antal av dess egenskaper. Därför är kravet viktigt i psykologisk forskning enhetlighet prover. Det innebär att en psykolog som studerar till exempel tonåringar inte kan inkludera vuxna i samma urval. Tvärtom, en studie utförd med metoden för ålderssektioner antar i grunden närvaron av försökspersoner i olika åldrar. Samtidigt måste i detta fall provets homogenitet observeras, men enligt andra kriterier, i första hand som ålder och kön. Grunden för att bilda ett homogent urval kan vara olika egenskaper, såsom intelligensnivå, nationalitet, frånvaro av vissa sjukdomar etc. utifrån studiens syften.

I allmän statistik finns det ett begrepp upprepas Och icke-repetitiva prover, eller med andra ord prover med och utan retur. Som ett exempel, som regel, ges valet av en boll som tas från en behållare. Vid returprovtagning returneras varje vald boll till behållaren och måste därför väljas ut igen. Vid icke-repetitiva val läggs den en gång valda bollen åt sidan och kan inte längre delta i urvalet. Inom psykologisk forskning kan man hitta analoger till denna typ av metoder för att organisera en provstudie, eftersom en psykolog ofta måste testa samma försökspersoner flera gånger med samma teknik. Dessutom upprepas strängt taget testproceduren i detta fall. Urvalet av försökspersoner, med fullständig identitet av sammansättning, i fallet med upprepade studier kommer alltid att ha vissa skillnader på grund av den funktionella och åldersrelaterade variationen som är inneboende hos alla människor. På grund av förfarandets karaktär upprepas ett sådant prov, även om innebörden av termen här uppenbarligen är annorlunda än när det gäller bollar.

Det är viktigt att betona att alla krav för ett urval sammanfattar det faktum att psykologen på grundval av detta måste få den mest fullständiga, oförvrängda informationen om egenskaperna hos den allmänna populationen från vilken detta prov togs. Med andra ord bör urvalet spegla egenskaperna hos den population som studeras så fullständigt som möjligt.

Sammansättningen av det experimentella urvalet bör representera (modellera) den allmänna populationen, eftersom slutsatserna från experimentet förväntas överföras till hela populationen. Av denna anledning måste provet ha en speciell kvalitet - representativitet, gör det möjligt att utvidga slutsatserna från den till hela befolkningen.

Urvalets representativitet är mycket viktigt, men av objektiva skäl är det extremt svårt att upprätthålla. Det är alltså ett välkänt faktum att från 70 % till 90 % av alla psykologiska studier av mänskligt beteende utfördes i USA på 60-talet av 1900-talet med högskolestudentämnen, de flesta av dem var studentpsykologer. I laboratorieforskning utförd på djur är det vanligaste studieämnet råttor. Av denna anledning är det ingen slump att psykologi tidigare kallades "vetenskapen om andraårsstudenter och vita råttor." College psykologi studenter utgör endast 3% av den totala amerikanska befolkningen. Det är uppenbart att urvalet av studenter inte är representativt som en modell som säger sig representera hela befolkningen i landet.

Representant provtagning, eller, som de också säger, representant Ett urval är ett urval där alla huvudegenskaper hos den allmänna befolkningen presenteras i ungefär samma proportion och med samma frekvens som en given egenskap uppträder i en given allmän population. Med andra ord är ett representativt urval en mindre men korrekt modell av den population som det är tänkt att spegla. I den mån urvalet är representativt kan slutsatser baserade på studien av det urvalet rimligen antas gälla hela populationen. Denna fördelning av resultat brukar kallas generaliserbarhet.

Helst bör ett representativt urval vara sådant att var och en av de grundläggande egenskaperna, egenskaperna, personlighetsdragen etc. studeras av en psykolog. skulle representeras i den i proportion till samma drag i den allmänna befolkningen. Enligt dessa krav måste provtagningsförfarandet ha en intern logik som kan övertyga forskaren om att den, jämfört med den allmänna befolkningen, verkligen kommer att vara representativ.

I sina specifika aktiviteter agerar psykologen enligt följande: upprättar en undergrupp (prov) inom den allmänna befolkningen, studerar detta urval i detalj (bedriver experimentellt arbete med det) och utökar sedan resultaten om resultaten av statistisk analys tillåter det. till hela befolkningen. Dessa är huvudstadierna i en psykologs arbete med ett prov.

Den blivande psykologen måste komma ihåg ett ofta upprepat misstag: närhelst han samlar in data med någon metod och från vilken källa som helst, är han alltid frestad att generalisera sina slutsatser till hela befolkningen. För att undvika ett sådant misstag måste du inte bara ha sunt förnuft, men framför allt ha ett bra grepp om de grundläggande begreppen inom matematisk statistik.

Provets representativitet - koncept och typer. Klassificering och funktioner i kategorin "provets representativitet" 2017, 2018.

Statistisk population- en uppsättning enheter som har masskaraktär, typiskhet, kvalitativ homogenitet och förekomst av variation.

Den statistiska populationen består av materiellt existerande objekt (Anställda, företag, länder, regioner), är ett objekt.

Enhet av befolkningen— Varje specifik enhet i en statistisk population.

Samma statistiska population kan vara homogen i en egenskap och heterogen i en annan.

Kvalitativ enhetlighet- likhet mellan alla enheter i befolkningen på någon grund och olikhet på alla andra.

I en statistisk population är skillnaderna mellan en befolkningsenhet och en annan ofta av kvantitativ karaktär. Kvantitativa förändringar i värdena för en egenskap hos olika enheter i en population kallas variation.

Variation av en egenskap- en kvantitativ förändring av en egenskap (för en kvantitativ egenskap) under övergången från en enhet av befolkningen till en annan.

Tecken- det här är en fastighet karaktäristiskt drag eller andra egenskaper hos enheter, objekt och fenomen som kan observeras eller mätas. Tecken delas in i kvantitativa och kvalitativa. Mångfalden och variationen av värdet av en egenskap i enskilda enheter av en population kallas variation.

Attributiva (kvalitativa) egenskaper kan inte uttryckas numeriskt (befolkningssammansättning efter kön). Kvantitativa egenskaper har numeriskt uttryck(befolkningssammansättning efter ålder).

Indikator- detta är en generaliserande kvantitativ och kvalitativ egenskap hos alla egenskaper hos enheter eller aggregat som helhet under specifika tid- och platsförhållanden.

Score-kortär en uppsättning indikatorer som heltäckande återspeglar det fenomen som studeras.

Till exempel studeras lön:
  • Tecken - löner
  • Statistisk population - alla anställda
  • Enheten av befolkningen är varje anställd
  • Kvalitativ homogenitet - upplupna löner
  • Variation av ett tecken - en serie siffror

Population och prov från den

Grunden är en uppsättning data som erhålls som ett resultat av att mäta en eller flera egenskaper. En verkligt observerad uppsättning objekt, statistiskt representerad av ett antal observationer slumpmässig variabel, är provtagning, och det hypotetiskt existerande (konjekturiska) - allmänna befolkningen. Populationen kan vara ändlig (antal observationer N = konst) eller oändlig ( N = ∞), och ett urval från en population är alltid resultatet av ett begränsat antal observationer. Antalet observationer som bildar ett urval kallas provstorlek. Om provstorleken är tillräckligt stor ( n → ∞) provet beaktas stor, annars kallas det provtagning begränsad volym. Provet beaktas små, om urvalsstorleken inte överstiger 30 vid mätning av en endimensionell slumpvariabel ( n<= 30 ), och när man mäter flera samtidigt ( k) funktioner i flerdimensionellt relationsrum n Till k inte överstiger 10 (n/k< 10) . Provformulären variationsserie, om dess medlemmar är det ordinarie statistik, dvs. urvalsvärden för den slumpmässiga variabeln Xär ordnade i stigande ordning (rankad), kallas egenskapernas värden alternativ.

Exempel. Nästan samma slumpmässigt utvalda uppsättning objekt - affärsbanker i ett administrativt distrikt i Moskva, kan betraktas som ett urval från den allmänna befolkningen i alla affärsbanker i detta distrikt och som ett urval från den allmänna befolkningen i alla affärsbanker i Moskva , samt ett urval från landets affärsbanker och etc.

Grundläggande metoder för att organisera provtagning

Tillförlitligheten av statistiska slutsatser och meningsfull tolkning av resultaten beror på representativitet prover, dvs. fullständighet och adekvat representation av egenskaperna hos den allmänna befolkningen, i förhållande till vilken detta urval kan anses representativt. Studiet av en populations statistiska egenskaper kan organiseras på två sätt: med hjälp av kontinuerlig Och inte kontinuerligt. Kontinuerlig observation föreskriver granskning av alla enheter studerat helhet, A partiell (selektiv) observation- bara delar av den.

Det finns fem huvudsakliga sätt att organisera provobservation:

1. enkelt slumpmässigt urval, där objekt väljs slumpmässigt från en population av objekt (till exempel med hjälp av en tabell eller slumptalsgenerator), där vart och ett av de möjliga urvalen har samma sannolikhet. Sådana prover kallas faktiskt slumpmässigt;

2. enkelt urval med ett vanligt förfarande utförs med hjälp av en mekanisk komponent (till exempel datum, veckodag, lägenhetsnummer, bokstäver i alfabetet etc.) och proverna som erhålls på detta sätt kallas mekanisk;

3. stratifierad urvalet består i att volymens allmänna population är uppdelad i delpopulationer eller lager (strata) av volymen så att . Strata är homogena objekt när det gäller statistiska egenskaper (till exempel är befolkningen indelad i strata efter åldersgrupper eller social klass; företag - efter bransch). I det här fallet anropas proverna stratifierad(annat, stratifierad, typisk, regionaliserad);

4. metoder serie urval används för att bilda serie eller boprover. De är praktiska om det är nödvändigt att övervaka ett "block" eller en serie objekt på en gång (till exempel ett parti varor, produkter från en viss serie eller befolkningen i landets territoriella och administrativa indelning). Urvalet av serier kan göras rent slumpmässigt eller mekaniskt. I det här fallet utförs en fullständig inspektion av ett visst parti varor eller en hel territoriell enhet (en bostadsbyggnad eller ett block);

5. kombinerad(stegvis) urval kan kombinera flera urvalsmetoder på en gång (till exempel stratifierad och slumpmässig eller slumpmässig och mekanisk); ett sådant prov kallas kombinerad.

Typer av urval

Av sinne individuellt, grupp- och kombinerat urval urskiljs. På individuellt urval enskilda enheter av den allmänna befolkningen väljs in i urvalspopulationen, med gruppval- kvalitativt homogena grupper (serier) av enheter, och kombinerat urval involverar en kombination av den första och andra typen.

Av metod urvalet särskiljs upprepade och icke-repetitiva prov.

Upprepade kallas urval där en enhet som ingår i urvalet inte återgår till den ursprungliga populationen och inte deltar i ytterligare urval; medan antalet enheter i den allmänna befolkningen N minskas under urvalsprocessen. På upprepas urval fångad I urvalet återförs en enhet efter registrering till den allmänna befolkningen och behåller således en lika stor möjlighet, tillsammans med andra enheter, att användas i ett ytterligare urvalsförfarande; medan antalet enheter i den allmänna befolkningen N förblir oförändrad (metoden används sällan inom socioekonomisk forskning). Dock med stor N (N → ∞) formler för repeterbar urval närmar sig de för upprepas urval och de senare används praktiskt taget oftare ( N = konst).

Grundläggande egenskaper hos parametrarna för den allmänna populationen och urvalspopulationen

Studiens statistiska slutsatser baseras på fördelningen av den slumpmässiga variabeln och de observerade värdena (x 1, x 2, ..., x n) kallas realisationer av den slumpmässiga variabeln X(n är provstorlek). Fördelningen av en slumpvariabel i den allmänna populationen är av teoretisk, idealisk karaktär, och dess provanalog är empirisk distribution. Vissa teoretiska fördelningar specificeras analytiskt, d.v.s. deras parametrar bestäm värdet på fördelningsfunktionen vid varje punkt i utrymmet för möjliga värden för den slumpmässiga variabeln. För ett urval är fördelningsfunktionen därför svår och ibland omöjlig att fastställa parametrar uppskattas från empiriska data, och sedan ersätts de i ett analytiskt uttryck som beskriver den teoretiska fördelningen. I det här fallet, antagandet (eller hypotes) om typen av distribution kan vara antingen statistiskt korrekt eller felaktig. Men i alla fall kännetecknar den empiriska fördelningen som rekonstruerats från urvalet endast grovt sett den sanna. De viktigaste fördelningsparametrarna är matematiska förväntningar och varians.

Till sin natur är distributioner kontinuerlig Och separat. Den mest kända kontinuerliga distributionen är normal. Exempel på analoger av parametrarna och för det är: medelvärde och empirisk varians. Bland de diskreta inom socioekonomisk forskning, de mest använda alternativ (dikotom) distribution. Den matematiska förväntansparametern för denna fördelning uttrycker det relativa värdet (eller dela) enheter av befolkningen som har den egenskap som studeras (det anges med bokstaven); andelen av befolkningen som inte har denna egenskap anges med bokstaven q (q = 1 - p). Variansen av den alternativa fördelningen har också en empirisk analog.

Beroende på typen av fördelning och metoden för att välja populationsenheter beräknas fördelningsparametrarnas egenskaper på olika sätt. De viktigaste för teoretiska och empiriska fördelningar ges i tabell. 9.1.

Provfraktion k n Förhållandet mellan antalet enheter i urvalspopulationen och antalet enheter i den allmänna populationen kallas:

kn = n/N.

Provfraktion wär förhållandet mellan enheter som har den egenskap som studeras x till provstorlek n:

w = n n/n.

Exempel. I ett varuparti innehållande 1000 enheter, med 5 % prov provandel k n i absolut värde är 50 enheter. (n = N*0,05); om 2 defekta produkter hittas i detta prov, då provdefektfrekvens w kommer att vara 0,04 (w = 2/50 = 0,04 eller 4%).

Eftersom urvalspopulationen skiljer sig från den allmänna populationen finns det provtagningsfel.

Tabell 9.1 Huvudparametrar för den allmänna populationen och urvalspopulationerna

Provtagningsfel

I vilket fall som helst (kontinuerligt och selektivt) kan fel av två slag förekomma: registrering och representativitet. Fel registrering kan ha slumpmässig Och systematisk karaktär. Slumpmässig fel består av många olika okontrollerbara orsaker, är oavsiktliga och balanserar vanligtvis varandra (till exempel förändringar i enhetens prestanda på grund av temperaturfluktuationer i rummet).

Systematisk fel är partiska eftersom de bryter mot reglerna för att välja objekt för provet (till exempel avvikelser i mätningar vid ändring av inställningarna för mätanordningen).

Exempel. För att bedöma den sociala situationen för befolkningen i staden är det planerat att undersöka 25 % av familjerna. Om valet av var fjärde lägenhet baseras på dess antal, finns det en fara att välja alla lägenheter av endast en typ (till exempel enrumslägenheter), vilket kommer att ge ett systematiskt fel och förvränga resultaten; Att välja lägenhetsnummer genom lott är mer att föredra, eftersom felet kommer att vara slumpmässigt.

Representativitetsfelär inneboende endast i provobservation, de kan inte undvikas och de uppstår som ett resultat av att urvalspopulationen inte helt reproducerar den allmänna populationen. Värdena för indikatorerna som erhålls från urvalet skiljer sig från indikatorerna för samma värden i den allmänna befolkningen (eller erhållna genom kontinuerlig observation).

Provtagningsbiasär skillnaden mellan parametervärdet i populationen och dess urvalsvärde. För medelvärdet av en kvantitativ egenskap är det lika med: , och för andelen (alternativ egenskap) - .

Urvalsfel är enbart inneboende i provobservationer. Ju större dessa fel är, desto mer skiljer sig den empiriska fördelningen från den teoretiska. Parametrarna för den empiriska fördelningen är slumpmässiga variabler, därför är urvalsfel också slumpvariabler, de kan ta olika värden för olika urval och därför är det vanligt att beräkna medelfel.

Genomsnittligt urvalsfelär en kvantitet som uttrycker standardavvikelsen för provmedelvärdet från den matematiska förväntan. Detta värde, med förbehåll för principen om slumpmässigt urval, beror i första hand på urvalsstorleken och graden av variation av egenskapen: ju större och ju mindre variationen av egenskapen (och därmed värdet är), desto mindre är det genomsnittliga urvalsfelet. . Förhållandet mellan varianserna för den allmänna populationen och urvalspopulationen uttrycks med formeln:

dessa. när det är tillräckligt stort kan vi anta att . Det genomsnittliga urvalsfelet visar möjliga avvikelser mellan urvalspopulationsparametern från den allmänna populationsparametern. I tabell Tabell 9.2 visar uttryck för beräkning av det genomsnittliga urvalsfelet för olika metoder att organisera observation.

Tabell 9.2 Medelfel (m) av provmedelvärde och andel för olika typer av prov

Var är medelvärdet av varianserna inom gruppprovet för ett kontinuerligt attribut;

Genomsnitt av andelens varianser inom gruppen;

— Antal utvalda serier. — Totalt antal serier.

,

var är medelvärdet av den e serien;

— Det totala genomsnittet för hela urvalspopulationen för en kontinuerlig egenskap.

,

var är andelen av egenskapen i den e serien;

— Den totala andelen av egenskapen för hela urvalspopulationen.

Storleken på medelfelet kan dock endast bedömas med en viss sannolikhet P (P ≤ 1). Lyapunov A.M. bevisat att fördelningen av urvalsmedelvärden, och därför deras avvikelser från det allmänna medelvärdet, för ett tillräckligt stort antal ungefär följer normalfördelningslagen, förutsatt att den allmänna befolkningen har ett ändligt medelvärde och begränsad varians.

Matematiskt uttrycks detta påstående för genomsnittet som:

och för andelen kommer uttryck (1) att ha formen:

Där - Det finns marginellt urvalsfel, vilket är en multipel av det genomsnittliga urvalsfelet , och multiplicitetskoefficienten är studentens test ("konfidenskoefficient"), föreslagit av W.S. Gosset (pseudonym "Student"); värden för olika provstorlekar lagras i en speciell tabell.

Värdena för funktionen Ф(t) för vissa värden på t är lika med:

Därför kan uttryck (3) läsas på följande sätt: med sannolikhet P = 0,683 (68,3 %) Det kan hävdas att skillnaden mellan stickprovet och det allmänna medelvärdet inte kommer att överstiga ett värde av medelfelet m(t=1), med sannolikhet P = 0,954 (95,4 %)- att det inte kommer att överstiga värdet av två medelfel m (t = 2), med sannolikhet P = 0,997 (99,7 %)- kommer inte att överstiga tre värden m (t = 3). Sannolikheten att denna skillnad överstiger tre gånger medelfelet bestäms alltså av felnivå och uppgår inte till mer 0,3% .

I tabell 9.3 visar formler för att beräkna det maximala urvalsfelet.

Tabell 9.3 Marginalfel (D) för provet för medelvärde och proportion (p) för olika typer av provobservationer

Generalisering av provresultat till populationen

Det slutliga målet med provobservation är att karakterisera den allmänna populationen. Med små urvalsstorlekar kan empiriska uppskattningar av parametrar ( och ) avvika avsevärt från deras verkliga värden ( och ). Därför finns det ett behov av att fastställa gränser inom vilka de sanna värdena ( och ) ligger för urvalsvärdena för parametrarna ( och ).

Konfidensintervall av någon parameter θ för den allmänna populationen är det slumpmässiga värdeintervallet för denna parameter, som med en sannolikhet nära 1 ( pålitlighet) innehåller det sanna värdet för denna parameter.

Marginalt fel prover Δ låter dig bestämma gränsvärdena för egenskaperna hos den allmänna befolkningen och deras konfidensintervall, som är lika:

Nedre gräns konfidensintervall erhålls genom subtraktion maximalt fel från urvalets medelvärde (andel), och den övre genom att lägga till den.

Konfidensintervall för genomsnittet använder den det maximala urvalsfelet och för en given konfidensnivå bestäms av formeln:

Det betyder att med en given sannolikhet R, som kallas konfidensnivån och bestäms unikt av värdet t, kan det hävdas att det sanna värdet av genomsnittet ligger i intervallet från , och aktiens verkliga värde ligger i intervallet från

Vid beräkning av konfidensintervall för tre standardkonfidensnivåer P = 95 %, P = 99 % och P = 99,9 % värdet väljs av . Ansökningar beroende på antalet frihetsgrader. Om urvalsstorleken är tillräckligt stor, då värdena som motsvarar dessa sannolikheter tär lika: 1,96, 2,58 Och 3,29 . Således tillåter det marginella urvalsfelet oss att bestämma gränsvärdena för befolkningens egenskaper och deras konfidensintervall:

Fördelningen av resultaten av provobservation till den allmänna befolkningen inom socioekonomisk forskning har sina egna egenskaper, eftersom den kräver fullständig representation av alla dess typer och grupper. Grunden för möjligheten till sådan fördelning är beräkningen relativt fel:

Där Δ % - relativ maximalt samplingsfel; , .

Det finns två huvudmetoder för att utöka en provobservation till en population: direkt omräkning och koefficientmetod.

Väsen direkt omvandling består av att multiplicera urvalets medelvärde!!\overline(x) med populationens storlek.

Exempel. Låt det genomsnittliga antalet småbarn i staden uppskattas med provtagningsmetoden och uppgå till en person. Om det finns 1000 unga familjer i staden, så erhålls antalet erforderliga platser i kommunala daghem genom att multiplicera detta genomsnitt med storleken på den allmänna befolkningen N = 1000, d.v.s. kommer att ha 1200 platser.

Odds metod Det är tillrådligt att använda i fallet när selektiv observation utförs för att förtydliga data för kontinuerlig observation.

Följande formel används:

där alla variabler är populationens storlek:

Obligatorisk provstorlek

Tabell 9.4 Erforderlig urvalsstorlek (n) för olika typer av provobservationsorganisationer

När man planerar en provobservation med ett förutbestämt värde på det tillåtna urvalsfelet är det nödvändigt att korrekt uppskatta det nödvändiga provstorlek. Denna volym kan bestämmas på basis av det tillåtna felet under provobservation baserat på en given sannolikhet som garanterar det tillåtna värdet av felnivån (med hänsyn till metoden för att organisera observationen). Formler för att bestämma den erforderliga provstorleken n kan enkelt erhållas direkt från formlerna för det maximala urvalsfelet. Så, från uttrycket för det marginella felet:

provstorleken bestäms direkt n:

Denna formel visar att när det maximala urvalsfelet minskar Δ den nödvändiga urvalsstorleken ökar markant, vilket är proportionellt mot variansen och kvadraten på studentens t-test.

För en specifik metod för att organisera observation beräknas den erforderliga urvalsstorleken enligt formlerna i tabellen. 9.4.

Praktiska räkneexempel

Exempel 1. Beräkning av medelvärde och konfidensintervall för en kontinuerlig kvantitativ egenskap.

För att bedöma avvecklingshastigheten med borgenärer gjordes ett slumpmässigt urval av 10 betalningshandlingar på banken. Deras värden visade sig vara lika (i dagar): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Nödvändigt med sannolikhet P = 0,954 bestämma det marginella felet Δ provmedelvärde och konfidensgränser för genomsnittlig beräkningstid.

Lösning. Medelvärdet beräknas med hjälp av formeln från tabellen. 9,1 för urvalspopulationen

Variansen beräknas med hjälp av formeln från tabellen. 9.1.

Dagens medelkvadratfel.

Medelfelet beräknas med formeln:

dessa. genomsnittet är x ± m = 12,0 ± 2,3 dagar.

Tillförlitligheten av medelvärdet var

Vi beräknar det maximala felet med hjälp av formeln från tabellen. 9,3 för upprepad provtagning, eftersom populationsstorleken är okänd, och för P = 0,954 nivå av förtroende.

Således är medelvärdet `x ± D = `x ± 2m = 12,0 ± 4,6, dvs. dess verkliga värde ligger i intervallet från 7,4 till 16,6 dagar.

Använda en elevs t-tabell. Applikationen låter oss dra slutsatsen att för n = 10 - 1 = 9 frihetsgrader är det erhållna värdet tillförlitligt med en signifikansnivå på £ 0,001, dvs. det resulterande medelvärdet skiljer sig signifikant från 0.

Exempel 2. Uppskattning av sannolikhet (generell andel) sid.

Under en mekanisk provtagningsmetod för att kartlägga den sociala statusen för 1 000 familjer, avslöjades att andelen låginkomstfamiljer var w = 0,3 (30 %)(provet var 2% , dvs. n/N = 0,02). Krävs med konfidensnivå p = 0,997 bestämma indikatorn r låginkomstfamiljer i hela regionen.

Lösning. Baserat på de presenterade funktionsvärdena Ф(t) hitta för en given konfidensnivå P = 0,997 menande t = 3(se formel 3). Marginalfel av bråkdel w bestämma med formeln från tabellen. 9.3 för icke-repetitiv provtagning (mekanisk provtagning är alltid icke-repetitiv):

Maximalt relativ samplingsfel i % kommer att vara:

Sannolikheten (generell andel) för låginkomstfamiljer i regionen blir р=w±Δw, och konfidensgränser p beräknas baserat på den dubbla olikheten:

w — Δ w ≤ p ≤ w — Δ w, dvs. det sanna värdet av p ligger inom:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Sålunda kan man med en sannolikhet på 0,997 konstatera att andelen låginkomstfamiljer bland alla familjer i regionen varierar från 28,6 % till 31,4 %.

Exempel 3. Beräkning av medelvärde och konfidensintervall för en diskret egenskap specificerad av en intervallserie.

I tabell 9.5. fördelningen av ansökningar för produktion av beställningar enligt tidpunkten för deras genomförande av företaget specificeras.

Tabell 9.5 Fördelning av observationer efter uppträdande

Lösning. Den genomsnittliga tiden för att slutföra beställningar beräknas med formeln:

Den genomsnittliga perioden kommer att vara:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 månader.

Vi får samma svar om vi använder data på p i från tabellens näst sista kolumn. 9.5, med formeln:

Observera att mitten av intervallet för den sista graderingen hittas genom att artificiellt komplettera det med bredden på intervallet för den föregående graderingen lika med 60 - 36 = 24 månader.

Variansen beräknas med hjälp av formeln

Där x i- mitten av intervallserien.

Därför!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), och medelkvadratfelet är .

Medelfelet beräknas med hjälp av månadsformeln, d.v.s. medelvärdet är!!\overline(x) ± m = 23,1 ± 13,4.

Vi beräknar det maximala felet med hjälp av formeln från tabellen. 9,3 för upprepat urval, eftersom populationsstorleken är okänd, för en 0,954 konfidensnivå:

Så genomsnittet är:

dessa. dess verkliga värde ligger i intervallet från 0 till 50 månader.

Exempel 4. För att bestämma hastigheten för uppgörelser med fordringsägare för N = 500 företagsföretag i en affärsbank är det nödvändigt att genomföra en provstudie med en slumpmässig icke-repetitiv urvalsmetod. Bestäm den erforderliga urvalsstorleken n så att med sannolikheten P = 0,954 felet för urvalets medelvärde inte överstiger 3 dagar om provuppskattningar visade att standardavvikelsen s var 10 dagar.

Lösning. För att bestämma antalet nödvändiga studier n kommer vi att använda formeln för icke-repetitivt urval från tabellen. 9.4:

I den bestäms t-värdet från en konfidensnivå på P = 0,954. Det är lika med 2. Medelkvadratvärdet är s = 10, populationsstorleken är N = 500, och det maximala felet för medelvärdet är Δ x = 3. Genom att ersätta dessa värden i formeln får vi:

dessa. Det räcker med att sammanställa ett urval av 41 företag för att uppskatta den nödvändiga parametern - hastigheten på uppgörelser med borgenärer.

Begreppet representativitet förekommer ofta i statistisk rapportering och vid utarbetande av tal och rapporter. Det är kanske svårt att föreställa sig någon typ av presentation av information utan den.

Representativitet - vad är det?

Representativitet avspeglar i vilken utsträckning de valda objekten eller delarna motsvarar innehållet och betydelsen av datamängden från vilken de valdes.

Andra definitioner

Begreppet representativitet kan utvecklas i olika sammanhang. Men i sin mening är representativitet överensstämmelsen mellan egenskaperna och egenskaperna hos utvalda enheter från den allmänna befolkningen, som exakt återspeglar egenskaperna hos hela den allmänna databasen som helhet.

Informationens representativitet definieras också som provdatas förmåga att presentera de parametrar och egenskaper hos populationen som är viktiga ur synvinkeln av den forskning som bedrivs.

Representativt urval

Principen för provtagning är att välja de viktigaste och korrekt återspegla egenskaperna hos den övergripande datamängden. För detta används olika metoder som gör att man kan få korrekta resultat och en allmän idé med hjälp av endast selektiva material som beskriver egenskaperna hos all data.

Det finns alltså inget behov av att studera allt material, utan snarare överväga urvalets representativitet. Vad är det här? Detta är ett urval av individuella data för att få en uppfattning om den totala mängden information.

Beroende på metod särskiljs de som probabilistiska och icke-sannolika. Sannolikhet är ett urval som görs genom att beräkna de viktigaste och mest intressanta uppgifterna, som är ytterligare representanter för den allmänna befolkningen. Detta är ett medvetet val eller slumpmässigt urval, dock motiverat av dess innehåll.

Icke-sannolikhet är en av typerna av stickprov, sammanställd enligt principen om ett vanligt lotteri. I detta fall beaktas inte åsikten från den som sammanställer ett sådant prov. Endast blindritning används.

Sannolikhetsurval

Sannolikhetsprover kan också delas in i flera typer:

  • En av de enklaste och mest begripliga principerna är icke-representativt urval. Den här metoden används till exempel ofta när man gör sociala undersökningar. I det här fallet väljs undersökningsdeltagare inte ut från mängden baserat på några specifika kriterier, och information erhålls från de första 50 personerna som deltog i den.
  • Målmedvetna urval är olika genom att de har en rad krav och förutsättningar för urval, men förlitar sig ändå på slumpen, utan målet att nå bra statistik.
  • Kvoturval är en annan variant av icke-sannolikhetsurval som ofta används för att studera stora populationer av data. Det finns många villkor och normer som används för det. Objekt väljs ut som måste motsvara dem. Det vill säga, med exemplet med en social undersökning kan vi anta att 100 personer kommer att intervjuas, men endast åsikter från ett visst antal personer som uppfyller de uppställda kraven kommer att beaktas vid sammanställningen av en statistisk rapport.

Sannolikhetsprover

För sannolikhetsurval beräknas ett antal parametrar som objekten i urvalet kommer att motsvara, och bland dem kan på olika sätt väljas ut exakt de fakta och data som kommer att presenteras som representativa för urvalsdata. Dessa metoder för att beräkna nödvändig data kan vara:

  • Enkelt slumpmässigt urval. Det består i det faktum att bland det valda segmentet väljs den erforderliga mängden data med en helt slumpmässig lotterimetod, som kommer att vara ett representativt urval.
  • Systematisk och slumpmässig urval gör det möjligt att skapa ett system för att beräkna nödvändig data baserat på ett slumpmässigt valt segment. Således, om det första slumpmässiga numret som indikerar serienumret för data som valts från den totala populationen är 5, då kan den efterföljande data som väljs vara till exempel 15, 25, 35, och så vidare. Detta exempel förklarar tydligt att även ett slumpmässigt val kan baseras på systematiska beräkningar av nödvändiga indata.

Konsumentprov

Meningsfull sampling är en metod som går ut på att titta på varje enskilt segment och utifrån dess bedömning skapa en population som speglar den övergripande databasens egenskaper och egenskaper. På så sätt samlas en större mängd data in som uppfyller kraven för ett representativt urval. Det är möjligt att enkelt välja ett antal alternativ som inte kommer att ingå i totalen utan att förlora kvaliteten på den valda data som representerar den totala populationen. På så sätt bestäms studieresultatens representativitet.

Provstorlek

Inte den sista frågan som behöver tas upp är storleken på urvalet för att vara representativt för befolkningen. Urvalsstorleken beror inte alltid på antalet källor i populationen. Provpopulationens representativitet beror dock direkt på hur många segment resultatet i slutändan ska delas in i. Ju fler sådana segment, desto mer data kommer in i det effektiva urvalet. Om resultaten kräver en allmän beteckning och inte kräver specifikation, blir urvalet följaktligen mindre, eftersom informationen, utan att gå in på detaljer, presenteras mer ytligt, vilket betyder att dess läsning kommer att vara allmän.

Begreppet representativitetsbias

Representativitetsfel är en specifik diskrepans mellan populationens egenskaper och urvalsdata. När man utför en provstudie är det omöjligt att få absolut exakta data, som med en komplett studie av allmänna populationer och ett urval representerat av endast en del av informationen och parametrarna, medan en mer detaljerad studie är möjlig endast när man studerar hela populationen. Därför är vissa fel och fel oundvikliga.

Typer av fel

Det finns några fel som uppstår när man sammanställer ett representativt urval:

  • Systematisk.
  • Slumpmässig.
  • Avsiktlig.
  • Oavsiktlig.
  • Standard.
  • Begränsa.

Anledningen till uppkomsten av slumpmässiga fel kan vara den diskontinuerliga karaktären av studien av den allmänna befolkningen. Typiskt är det slumpmässiga felet i representativitet av obetydlig storlek och natur.

Systematiska fel uppstår samtidigt när reglerna för att välja data från den allmänna befolkningen överträds.

Medelfelet är skillnaden mellan medelvärdena för urvalet och huvudpopulationen. Det beror inte på antalet enheter i urvalet. Det är omvänt proportionellt. Ju större volymen är, desto mindre är medelfelet.

Marginalfel är den största möjliga skillnaden mellan medelvärdena för provet som tagits och den totala populationen. Ett sådant fel karakteriseras som det maximala antalet sannolika fel under givna förhållanden för deras förekomst.

Avsiktliga och oavsiktliga representativitetsfel

Databiasfel kan vara antingen avsiktliga eller oavsiktliga.

Sedan är orsakerna till förekomsten av avsiktliga fel metoden för dataurval med metoden för att bestämma trender. Oavsiktliga fel uppstår när man förbereder en provobservation och bildar ett representativt urval. För att undvika sådana fel är det nödvändigt att skapa en bra urvalsram för urvalsenhetslistorna. Den måste vara helt förenlig med provtagningssyften, vara tillförlitlig och täcka alla aspekter av studien.

Giltighet, tillförlitlighet, representativitet. Felberäkning

Beräkning av representativitetsfelet (Mm) för det aritmetiska medelvärdet (M).

Standardavvikelse: provstorlek (>30).

Representativitetsfel (MR) och (P): urvalsstorlek (n>30).

Om du måste studera en population där urvalsstorleken är liten och mindre än 30 enheter, kommer antalet observationer att vara mindre med en enhet.

Storleken på felet är direkt proportionell mot urvalsstorleken. Informationens representativitet och beräkningen av graden av möjlighet att göra en korrekt prognos återspeglas av ett visst värde på det maximala felet.

Representationssystem

Inte bara ett representativt urval används i processen att bedöma presentationen av information, utan den som tar emot informationen använder själv representativa system. Således bearbetar hjärnan en del genom att skapa ett representativt urval från hela informationsflödet för att kvalitativt och snabbt kunna utvärdera den tillhandahållna informationen och förstå kärnan i frågan. Svara på frågan: "Representativitet - vad är det?" - på skalan av mänskligt medvetande är ganska enkelt. För att göra detta använder hjärnan allt den kan, beroende på vilken information som behöver isoleras från det allmänna flödet. Således skiljer de åt:

  • Det visuella representationssystemet, där organen för visuell perception av ögat är involverade. Människor som ofta använder ett sådant system kallas visuella elever. Med hjälp av detta system bearbetar en person information som tas emot i form av bilder.
  • Auditiv representationssystem. Huvudorganet som används är hörseln. Information som tillhandahålls i form av ljudfiler eller tal bearbetas av detta system. Människor som uppfattar information bättre genom att höra kallas auditiva elever.
  • Det kinestetiska representationssystemet är bearbetningen av informationsflödet genom att uppfatta det genom lukt- och taktila kanaler.
  • Det digitala representationssystemet används tillsammans med andra som ett sätt att ta emot information utifrån. uppfattning och förståelse av mottagna data.

Så representativitet - vad är det? Ett enkelt urval från en uppsättning eller en integrerad procedur vid bearbetning av information? Vi kan definitivt säga att representativitet till stor del avgör vår uppfattning om dataflöden, vilket hjälper till att isolera de mest tungt vägande och betydelsefulla från det.



Dela