Nid yw samplau Tebygolrwydd a samplau nad ydynt yn tebygolrwydd yw bod yn wahanol yn ymarferol; yn y ddau achos, mae'r cyfan am y pwysau.
Samplu yn hanfodol i wneud arolwg ymchwil. Ymchwilwyr bron byth yn gofyn eu cwestiynau i bawb yn eu poblogaeth darged. Yn hyn o beth, nid yw arolygon yn unigryw. Mae'r rhan fwyaf o ymchwil, mewn rhyw ffordd neu'i gilydd, yn cynnwys samplu. Weithiau samplu hwn yn cael ei wneud yn benodol gan yr ymchwilydd; adegau eraill mae'n digwydd yn ymhlyg. Er enghraifft, ymchwilydd sy'n rhedeg arbrawf labordy ar fyfyrwyr israddedig yn ei brifysgol hefyd wedi cymryd sampl. Felly, samplu yn broblem sy'n dod i fyny drwy gydol y llyfr hwn. Yn wir, un o'r pryderon mwyaf cyffredin yr wyf yn clywed am ffynonellau oes ddigidol o ddata yw "nid ydynt yn gynrychioliadol." Fel y gwelwn yn yr Adran hon, y pryder hwn yn y ddau llai difrifol ac yn fwy cynnil na llawer o amheuwyr yn sylweddoli. Yn wir, byddaf yn dadlau nad yw'r cysyniad cyfan o "cynrychioldeb" yn ddefnyddiol i feddwl am debygolrwydd a di-debygolrwydd samplau. Yn lle hynny, yr allwedd yw i feddwl am sut y data a gasglwyd a sut y gall unrhyw ragfarnau yn y casglu data ei ddadwneud wrth wneud amcangyfrifon.
Ar hyn o bryd, mae'r dull damcaniaethol dominyddol i gynrychiolaeth yn samplu tebygolrwydd. Pan fydd data yn cael eu casglu gyda dull samplu tebygolrwydd sydd wedi cael ei ddienyddio berffaith, ymchwilwyr yn gallu pwyso'r eu data yn seiliedig ar y ffordd y maent yn eu casglu i wneud amcangyfrifon diduedd am y boblogaeth darged. Fodd bynnag, samplu tebygolrwydd perffaith bôn byth yn digwydd yn y byd go iawn. Mae fel arfer dau brif broblemau 1) gwahaniaethau rhwng y boblogaeth darged a'r boblogaeth ffrâm a 2) diffyg ymateb (mae'r rhain yn union y problemau a ddrylliwyd y bleidlais Literary Digest). Felly, yn hytrach na meddwl o samplo tebygolrwydd fel model realistig o'r hyn sy'n digwydd mewn gwirionedd yn y byd, mae'n well i feddwl am samplu tebygolrwydd fel model defnyddiol, haniaethol, yn debyg iawn i'r ffordd y ffisegwyr yn meddwl am bêl frictionless rholio i lawr yn anfeidrol hir ramp.
Y dewis arall i samplu tebygolrwydd yn samplu di-debygolrwydd. Y prif wahaniaeth rhwng tebygolrwydd a samplu di-tebygolrwydd yw bod gyda thebygolrwydd samplu phawb yn y boblogaeth tebygolrwydd hysbys o gynhwysiad. Mae yna, mewn gwirionedd, mae llawer o wahanol fathau o samplu di-tebygolrwydd, a dulliau hyn o gasglu data yn dod yn fwyfwy cyffredin yn yr oes ddigidol. Ond, mae gan samplu di-debygolrwydd enw ofnadwy ymhlith gwyddonwyr cymdeithasol ac ystadegwyr. Yn wir, samplu di-debygolrwydd yn gysylltiedig â rhai o'r methiannau mwyaf dramatig o ymchwilwyr arolwg, megis y llanastr Llenyddol Digest (drafodwyd yn gynharach) a'r rhagfynegiad anghywir am yr etholiadau arlywyddol yr Unol Daleithiau 1948 ( "Dewey gorchfygu Truman") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Fodd bynnag, mae'r amser yn iawn i ailystyried samplu di-debygolrwydd am ddau reswm. Yn gyntaf, fel samplau tebygolrwydd wedi dod yn fwyfwy anodd i wneud yn ymarferol, mae'r llinell rhwng samplau tebygolrwydd a samplau nad ydynt yn tebygolrwydd yn cymylu'r. Pan fo cyfraddau uchel o ddiffyg ymateb (gan fod mewn arolygon go iawn erbyn hyn), nid y tebygolrwydd gwirioneddol gynhwysion ar gyfer ymatebwyr yn hysbys, ac felly, samplau tebygolrwydd a samplau nad ydynt yn cael eu tebygolrwydd nid mor wahanol â llawer o ymchwilwyr yn credu. Yn wir, fel y gwelwn isod, ddau ddull y bôn yn dibynnu ar un dull amcangyfrif: ôl-haeniad. Yn ail, cafwyd llawer o ddatblygiadau yn casglu a dadansoddi samplau nad ydynt yn tebygolrwydd. Mae'r dulliau hyn yn ddigon gwahanol i'r dulliau a achosodd problemau yn y gorffennol fy mod yn credu ei fod yn gwneud synnwyr i feddwl amdanynt fel "samplu di-debygolrwydd 2.0." Ni ddylem gael atgasedd afresymol i ddulliau nad ydynt yn tebygolrwydd oherwydd camgymeriadau a ddigwyddodd amser hir yn ôl.
Nesaf, er mwyn gwneud y ddadl hon yn fwy pendant, byddaf yn adolygu'r samplu tebygolrwydd safonol a phwysiad (Adran 3.4.1). Y syniad allweddol yw bod sut yr ydych yn casglu eich data ddylai gael effaith sut yr ydych yn gwneud amcangyfrifon. Yn benodol, os nad oes gan bawb yr un tebygolrwydd o gynhwysiant, yna dylai pawb ni gael yr un pwysau. Mewn geiriau eraill, os nad yw eich samplo yn ddemocrataidd, yna eich amcangyfrifon ni ddylai fod yn ddemocrataidd. Ar ôl adolygu pwysiad, byddaf yn disgrifio dau ddull i samplu di-debygolrwydd: un sy'n canolbwyntio ar bwysoliad i ymdrin â'r broblem o ddata a gasglwyd hap (Adran 3.4.2), ac yn un sy'n ceisio rhoi mwy o reolaeth dros y ffordd mae'r data yn gasglu (Adran 3.4.3). Bydd y dadleuon yn y prif destun yn cael ei esbonio isod gyda geiriau a lluniau; Dylai darllenwyr sy'n dymuno cael triniaeth fwy mathemategol hefyd yn gweld yr atodiad technegol.