Mostrat probabilitare dhe mostrat jo-probabilitetit nuk janë aq të ndryshme në praktikë; në të dyja rastet, kjo është e gjitha në lidhje me peshat.
Marrjen e mostrave është thelbësore për studim hulumtim. Hulumtuesit pothuajse kurrë nuk bëjnë pyetje të tyre të gjithë në popullsinë e synuar. Në këtë drejtim, sondazhet nuk janë unike. Shumica e hulumtimeve, në një mënyrë apo një tjetër, përfshin marrjen e mostrave. Ndonjëherë kjo mostrave është bërë në mënyrë të qartë nga studiues; herë të tjera kjo ndodh në mënyrë implicite. Për shembull, një studiues i cili drejton një eksperiment laboratorik për studentë në universitetin e saj ka marrë edhe një mostër. Pra, marrjen e mostrave është një problem që vjen deri në këtë libër. Në fakt, një nga shqetësimet më të zakonshme që kam dëgjuar për burimet e moshës dixhitale të të dhënave është "ata nuk janë përfaqësuese." Siç do ta shohim në këtë nen, ky shqetësim është edhe më serioze dhe më delikate se shumë skeptikë kuptojnë. Në fakt, unë do të argumentojnë se i gjithë koncepti i "përfaqësimit" nuk është e dobishme për të menduarit rreth probabilitetit dhe jo-probabilitetit mostra. Në vend të kësaj, çelësi është të mendojmë se si janë mbledhur të dhënat dhe si çdo biases në atë mbledhjen e të dhënave mund të zhbëhet kur bën vlerësime.
Aktualisht, qasja dominuese teorike të përfaqësimit është probabiliteti mostrave. Kur të dhënat janë mbledhur me një metodë të mostrimit probabiliteti që ka ekzekutuar të përkryer, studiuesit janë në gjendje për të peshës të dhënat e tyre të bazuar në mënyrën se si ata ishin mbledhur për të bërë vlerësime të paanshme në lidhje me popullsinë e synuar. Megjithatë, marrja e mostrave të përsosur probabiliteti thelb nuk ndodh në botën e vërtetë. Nuk janë zakonisht dy probleme kryesore 1) diferencat midis popullsisë së synuar dhe popullatës kornizë dhe 2) jo-përgjigje (këto janë pikërisht problemet që shkatërruan sondazhin Literary Digest). Kështu, në vend se të menduarit e marrjes së mostrave probabilitetit si model realist të asaj që ndodh në të vërtetë në botë, është më mirë të mendojnë për marrjen e mostrave të probabilitetit, si një model të dobishme abstrakt, ashtu si mënyra se fizikanët mendojnë për një top frictionless kodrina poshtë një pafundësisht të gjatë luftoj.
Alternativa e marrjes së mostrave probabilitetit është jo-probabilitetit marrjen e mostrave. Dallimi kryesor në mes të probabilitetit dhe marrjen e mostrave jo-probabilitetit është se me probabilitet të marrjes së mostrave të gjithë në e popullsisë ka një probabilitet të njohur të përfshirjes. Ka, në fakt, shumë lloje të mostrave jo-probabilitetit, dhe këto metoda e mbledhjes së të dhënave janë duke u bërë gjithnjë e më e zakonshme në moshën dixhitale. Por, jo probabiliteti marrjen e mostrave ka një reputacion të tmerrshme ndërmjet shkencëtarëve sociale dhe statisticienët. Në fakt, marrja e mostrave jo-probabiliteti është i lidhur me disa nga dështimet më dramatike të studiuesve të studimit, të tilla si fiasko Literary Digest (diskutuar më herët) dhe parashikimit të gabuar në lidhje me zgjedhjet e SHBA presidenciale të vitit 1948 ( "Dewey Humbje Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Megjithatë, është koha e duhur që të rishqyrtojë mostrave jo-probabilitetit për dy arsye. Së pari, si mostra e probabilitetit janë bërë gjithnjë e më vështirë për të bërë në praktikë, linja midis mostrave probabilitetit dhe mostrat jo-probabilitetit është blurring. Kur ka shkalla e lartë e mos-përgjigjes (si ka në sondazhet reale tani), probabiliteti aktual i inclusions të anketuarve nuk janë të njohura, dhe në këtë mënyrë, mostrat probabiliteti dhe mostra jo-probabilitare nuk janë aq të ndryshëm sa shumë studiues besojnë. Në fakt, siç do ta shohim më poshtë, të dyja qasjet kryesisht mbështetet në të njëjtën metodë vlerësimit: pas stratifikimit. Së dyti, ka pasur shumë zhvillime në mbledhjen dhe analizën e mostrave jo-probabilitetit. Këto metoda janë mjaft të ndryshme nga metodat që e ka shkaktuar probleme në të kaluarën që unë mendoj se kjo ka kuptim për të menduar prej tyre si "jo-probabilitetit marrjen e mostrave 2.0." Ne nuk duhet të ketë një neveri të paarsyeshme për metodat jo-probabilitetit për shkak të gabimeve që kanë ndodhur kohë më parë.
Tjetra, në mënyrë që ky argument më konkret, unë do të shqyrtojë marrjen e mostrave standarde probabilitetit dhe peshën (Seksioni 3.4.1). Ideja kryesore është se si ju mbledhur të dhënat tuaja duhet të ndikojnë se si ju bëni vlerësime. Në veçanti, nëse të gjithë nuk kanë të njëjtën probabilitetin e përfshirjes, atëherë të gjithë duhet të nuk kanë të njëjtën peshë. Me fjalë të tjera, në qoftë se mostrave juaj nuk është demokratike, atëherë vlerësimet e tua nuk duhet të jetë demokratike. Pas shqyrtimit peshë, unë do të përshkruaj dy qasje për marrjen e mostrave jo-probabilitetit: një që fokusohet në peshën për t'u marrë me problemin e të dhënave të mbledhura kuturu (Seksioni 3.4.2), dhe një që përpiqet për të vendosur më shumë kontroll mbi mënyrën se si të dhënave është mbledhura (Seksioni 3.4.3). Argumentet në tekstin kryesor do të shpjegohet më poshtë me fjalë dhe fotografi; lexuesit që do të donin një trajtim më matematikore duhet gjithashtu shih shtojcën teknike.