Mostre de probabilitate și probe de bază non-probabilitate nu sunt atât de diferiți în practică; în ambele cazuri, este vorba despre greutățile.
Prelevarea de probe este fundamentală pentru studiul de cercetare. Cercetatorii au fost aproape niciodată nu pune întrebări lor tuturor celor din populația lor țintă. În această privință, sondajele nu sunt unice. Cele mai multe cercetări, într-un fel sau altul, implică prelevarea de probe. Uneori, această prelevare de probe se face în mod explicit de către cercetător; alte ori se întâmplă în mod implicit. De exemplu, un cercetător care se execută un experiment de laborator pe studenții de licență în universitatea ei a luat, de asemenea, o probă. Astfel, eșantionarea este o problemă care apare în toată această carte. De fapt, una dintre cele mai frecvente preocupări pe care le aud despre sursele de vârstă digitale de date este "acestea nu sunt reprezentative." După cum vom vedea în această secțiune, această preocupare este atât mai puțin gravă și mai subtil decât mulți sceptici dau seama. De fapt, voi argumenta că întregul concept de "reprezentativitate" nu este de ajutor pentru gândire despre probabilitate și de non-probabilitate mostre. In schimb, cheia este să se gândească la modul în care datele au fost colectate și modul în care orice prejudecăți în această colecție de date poate fi anulată atunci când se face estimări.
În prezent, abordarea teoretică dominantă a reprezentării este probabilitatea de eșantionare. Atunci când datele sunt colectate printr-o metodă de prelevare a probelor de probabilitate, care a fost executat perfect, cercetatorii sunt in masura sa cântărească datele lor bazate pe modul în care acestea au fost colectate pentru a face estimări obiective cu privire la populația țintă. Cu toate acestea, probabilitatea de eșantionare perfectă, practic, nu se întâmplă niciodată în lumea reală. Există , de obicei , sunt două probleme principale 1) , diferențele existente între populația țintă și populația cadru și 2) , non-răspuns (acestea sunt exact problemele pe care le naufragiate sondajul literar Digest). Astfel, mai degrabă decât de gândire de eșantionare este probabilitatea ca un model realist de ceea ce se întâmplă de fapt, în lume, este mai bine să se gândească la eșantionare este probabilitatea ca un model util, abstract, la fel ca și modul în care fizicienii se gândească la o minge frictionless de rulare în jos un infinit lung rampă.
Alternativa la eșantionare este probabilitatea de eșantionare non-probabilitate. Principala diferență între probabilitate și eșantionare non-probabilitate este că, cu o probabilitate de eșantionare pentru toată lumea din populație are o probabilitate cunoscută de includere. Există, de fapt, multe soiuri de eșantionare non-probabilitate, iar aceste metode de colectare a datelor sunt din ce în ce în ce mai frecvente în era digitală. Dar, prelevarea de probe de bază non-probabilitate are o reputație teribilă între oamenii de știință sociale și statisticieni. De fapt, eșantionarea non-probabilitate este asociată cu unele dintre eșecurile cele mai dramatice ale cercetătorilor, cum ar fi fiasco - ul literar Digest (discutat mai devreme) și de predicție greșită cu privire la alegerile prezidențiale din SUA din 1948 ( "Dewey Înfrângeri Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Cu toate acestea, este momentul potrivit să-și reconsidere eșantionare non-probabilitate, din două motive. În primul rând, ca probe de probabilitate au devenit din ce în ce mai greu de făcut în practică, linia dintre mostre de probabilitate și probele de bază non-probabilitate este estompează. Atunci când există rate ridicate de non-răspuns (așa cum există în sondajele reale acum), probabilitatea reală de incluziuni pentru respondenți nu sunt cunoscute, și, prin urmare, mostre de probabilitate și probe de bază non-probabilitate nu sunt la fel de diferite ca mulți cercetători cred. De fapt, după cum vom vedea mai jos, ambele abordări se bazează în principal pe aceeași metodă de estimare: post-stratificare. În al doilea rând, s-au înregistrat multe progrese în colectarea și analiza probelor de bază non-probabilitate. Aceste metode sunt destul de diferite de metodele care au provocat probleme în trecut, pe care cred că are sens să se gândească la ele ca "non-probabilitate de eșantionare 2.0." Nu ar trebui să avem o aversiune față de irațional metode non-probabilitate din cauza unor erori care au avut loc acum mult timp.
În continuare, în scopul de a face acest argument mai concret, voi examina probabilitatea de eșantionare standard, și de ponderare (secțiunea 3.4.1). Ideea cheie este că modul în care ați colectat datele ar trebui să influențeze modul în care face estimări. În special, în cazul în care toată lumea nu are aceeași probabilitate de includere, atunci toată lumea ar trebui să nu aibă aceeași greutate. Cu alte cuvinte, în cazul în care prelevarea de probe nu este democratică, atunci estimările dvs. ar trebui să nu fie democratice. După trecerea în revistă de ponderare, voi descrie două abordări pentru eșantionare non-probabilitate: una care se concentreaza pe ponderare pentru a aborda problema datelor colectate la întîmplare (secțiunea 3.4.2), și una care încearcă să pună mai mult control asupra modului în care datele sunt colectate (secțiunea 3.4.3). Argumentele în textul principal vor fi explicate mai jos cu cuvinte și imagini; cititori care ar dori un tratament mai matematic ar trebui, de asemenea, a se vedea apendicele tehnic.