Vzorci Verjetnost in non-verjetnostni vzorci niso tako različni v praksi; V obeh primerih, to je vse o uteži.
Vzorčenje je temeljnega pomena za raziskavo raziskave. Raziskovalci skoraj nikoli ne vprašam svoja vprašanja za vsakogar v svoji ciljni populaciji. V zvezi s tem, ankete niso enotna. Večina raziskav, na tak ali drugačen način, vključuje vzorčenje. Včasih je to vzorčenje izrecno opravi raziskovalec; včasih pa se zgodi, implicitno. Na primer, raziskovalec, ki teče laboratorijski eksperiment na dodiplomskih študentov v svoji univerzi tudi vzel vzorec. Tako vzorčenje je problem, ki se pojavi v tej knjigi. Pravzaprav je eden od najpogostejših skrbi, da slišim o digitalnih starostnih viri podatkov "niso reprezentativne.« Kot bomo videli v tem poglavju, je ta skrb je tako manj resno in bolj subtilna kot mnogi skeptiki zavedati. V bistvu bom trdijo, da je celoten koncept "reprezentativnost" ni koristno za razmišljanje o verjetnosti in ne verjetnostnih vzorcih. Namesto, ključno je, da razmišljajo o tem, kako so bili podatki zbrani in kako se vse pristranskost v tej zbirki podatkov mogoče razveljaviti, ko bodo ocene.
Trenutno prevladujoči teoretični pristop k predstavitvi je verjetnost vzorčenje. Ko so podatki zbrani z metodo verjetnosti vzorčenja, ki je bila popolnoma izvršena, raziskovalci so sposobni težo svoje podatke, ki temeljijo na način, ki so bili zbrani, da bi nepristranske ocene o ciljni populaciji. Vendar pa je popolna verjetnost, da vzorčenje v bistvu nikoli ne zgodi v resničnem svetu. Tam so ponavadi dve glavni težavi 1) razlike med ciljno populacijo in populacijo okvirjem in 2) neodzivnosti (to so ravno problemi, ki jih razbila na Literary Digest anketo). Torej, namesto da razmišljate o verjetnostnem vzorčenju kot realističen model, kaj se dejansko dogaja v svetu, je bolje razmišljati o verjetnostnem vzorčenju kot koristen, teoretičnega modela, podobno kot način, kako fiziki misliti brez trenja žogo vozni navzdol neskončno dolgo rampe.
Alternativa verjetnostnem vzorčenju je non-verjetnost vzorčenje. Glavna razlika med verjetnostjo in vzorčenje brez verjetnosti je, da je z verjetnost vzorčenja vsi v populaciji znano verjetnost vključitve. Obstajajo namreč številne vrste vzorčenja ni verjetnosti, in te metode zbiranja podatkov postajajo vedno bolj pogosta v digitalni dobi. Ampak, ne verjetnost vzorčenje je grozno ugled med družboslovci in statistiki. V resnici je vzorčenje ni verjetnosti povezana z nekaterimi izmed najbolj dramatičnih napak raziskovalcev raziskave, kot je literatura Digest polom (že rečeno) in napačne napovedi o predsedniških volitvah v ZDA leta 1948 ( "Dewey Porazi Trumana") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Vendar pa je pravi čas, da ponovno ne-verjetnostno vzorčenje iz dveh razlogov. Prvič, kot verjetnostni vzorci vedno težje narediti v praksi, je meja med verjetnostnih vzorcev in non-verjetnostnih vzorcih briše. Kadar obstaja visoka stopnja neodgovorov (kolikor jih je v realnih raziskavah zdaj), so dejanska verjetnost vključkov za vprašanih ni znana, in s tem, verjetnostni vzorci in non-verjetnostni vzorci niso tako drugačne, kot mnogi raziskovalci verjamejo. Dejstvo je, kot bomo videli v nadaljevanju, oba pristopa v bistvu opirajo na isto metodo ocenjevanja: post-stratifikacije. Po drugi strani je bilo veliko dogajanja v zbiranje in analizo ne-verjetnostnih vzorcih. Te metode so dovolj razlikujejo od metod, ki povzročajo težave v preteklosti, da mislim, da je smiselno, da mislijo, da so "ne-verjetnostno vzorčenje 2.0." Mi ne bi smeli imeti iracionalno odpor do ne-verjetnosti metod zaradi napak, ki so se zgodili dolgo časa nazaj.
Dalje, da bi ta argument bolj konkretno, bom pregledala standardne verjetnostnega vzorčenja in tehtanje (oddelek 3.4.1). Ključna ideja je, da, kako ste zbirali podatke naj bi vplivala, kako narediti ocene. Še posebej, če vsi ne imeti enako verjetnost vključitve, potem vsi ne bi smeli imeti enake teže. Z drugimi besedami, če je vaš vzorčenje ni demokratična, potem vaše ocene ne bi smelo biti demokratična. Po pregledu vrednotenje, bom opisati dva pristopa k vzorčenju ni verjetnosti: tisti, ki se osredotoča na utežjo za reševanje problema naključno zbranih podatkov (oddelek 3.4.2), in tisti, ki poskuša dati več nadzora nad tem, kako so podatki zbrani (oddelek 3.4.3). Argumenti v glavnem besedilu bo pojasnjeno v nadaljevanju z besedami in slikami; bralci, ki bi radi bolj matematično obravnavo bi morali videti tudi tehnično prilogo.