Umri wa digital unafanya sampuli uwezekano wa kufanya kazi kwa bidii na unafanya fursa mpya kwa sampuli isiyowezekana.
Katika historia ya sampuli, kumekuwa na mbinu mbili za ushindani: mbinu za sampuli ya uwezekano na mbinu zisizo uwezekano wa sampuli. Ingawa mbinu zote mbili zilitumika katika siku za mwanzo za sampuli, uwezekano wa sampuli umekuja kutawala, na watafiti wengi wa kijamii wanafundishwa kuona sampuli isiyo na uwezekano kwa wasiwasi mkubwa. Hata hivyo, kama nitakavyoelezea hapo chini, mabadiliko yaliyoundwa na umri wa digital yanamaanisha kuwa ni wakati wa watafiti kuchunguza sampuli isiyowezekana. Hasa, uwezekano wa sampuli umekuwa vigumu kufanya katika mazoezi, na sampuli isiyokuwa na uwezekano imekuwa ikipatikana kwa kasi, nafuu, na bora. Uchunguzi wa kasi na wa bei nafuu hauwezi kuishia wenyewe: huwezesha fursa mpya kama tafiti za mara kwa mara na ukubwa wa sampuli kubwa. Kwa mfano, kwa kutumia mbinu zisizowezekana Ushirikiano wa Uchaguzi wa Kikongamano (CCES) una uwezo wa kuwa na washiriki zaidi ya mara 10 zaidi kuliko masomo mapema kutumia sampuli uwezekano. Sampuli hii kubwa huwezesha watafiti wa kisiasa kujifunza tofauti katika mtazamo na tabia katika vikundi na mazingira ya kijamii. Zaidi ya hayo, kila kiwango hiki kilichoongezwa kilikuja bila kupungua kwa kiwango cha makadirio (Ansolabehere and Rivers 2013) .
Kwa sasa, njia kuu ya sampuli kwa ajili ya utafiti wa kijamii ni uwezekano wa sampuli . Katika uwezekano wa sampuli, wanachama wote wa idadi ya watu wanaolengwa wana uwezekano unaojulikana, usio wa kawaida wa kuwa sampuli, na watu wote ambao ni sampuli hujibu kwa utafiti huo. Wakati hali hizi zinapokutana, matokeo ya kifahari ya kifahari yanatoa dhahiri kuhusu uwezo wa mtafiti wa kutumia sampuli ili kufanya mazungumzo kuhusu idadi ya watu.
Katika ulimwengu wa kweli, hata hivyo, hali ya msingi ya matokeo haya ya hisabati haujafikiwa mara kwa mara. Kwa mfano, mara nyingi kuna makosa ya chanjo na bila kujali. Kwa sababu ya matatizo haya, mara nyingi wachunguzi wanapaswa kutumia marekebisho mbalimbali ya takwimu ili kufanya inference kutoka kwa sampuli yao kwa idadi yao ya watu. Kwa hiyo, ni muhimu kutofautisha kati ya sampuli ya uwezekano katika nadharia , ambayo ina dhamana ya nguvu ya kinadharia, na sampuli ya uwezekano katika mazoezi , ambayo haitoi dhamana hizo na inategemea marekebisho mbalimbali ya takwimu.
Baada ya muda, tofauti kati ya sampuli uwezekano katika sadharia na uwezekano wa sampuli katika mazoezi yameongezeka. Kwa mfano, viwango vya upendeleo vimeongezeka kwa kasi, hata kwa tafiti za juu, za gharama kubwa (takwimu 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Viwango vya kutopinga ni vya juu zaidi katika uchunguzi wa simu za kibiashara-wakati mwingine hata kama vile 90% (Kohut et al. 2012) . Hizi ongezeko la nonresponse huhatarisha ubora wa makadirio kwa sababu makadirio yanazidi kutegemea mifano ya takwimu ambazo watafiti hutumia kurekebisha kwa sababu ya uhaba. Zaidi ya hayo, hizi hupungua kwa ubora zimefanyika licha ya jitihada zinazozidi kuwa za gharama kubwa na watafiti wa uchunguzi wa kudumisha kiwango cha majibu cha juu. Watu wengine wanaogopa kwamba mwelekeo wa kupungua kwa ubora na kuongezeka kwa gharama hupunguza msingi wa utafiti wa uchunguzi (National Research Council 2013) .
Wakati huo huo kuwa kuna matatizo ya kukua kwa njia za sampuli za uwezekano, pia kuna maendeleo ya kusisimua katika mbinu zisizo uwezekano wa sampuli . Kuna mitindo mbalimbali ya mbinu zisizo na uwezekano wa sampuli, lakini jambo moja ambalo wanavyofanana ni kwamba hawawezi kufanana kwa urahisi katika mfumo wa hisabati wa uwezekano wa sampuli (Baker et al. 2013) . Kwa maneno mengine, katika mbinu zisizo uwezekano wa sampuli si kila mtu ana uwezekano wa kujulikana na usio wa uwezekano wa kuingizwa. Mbinu zisizo na uwezekano wa sampuli zina sifa kubwa kati ya watafiti wa jamii na zinahusishwa na baadhi ya kushindwa kwa watafiti wengi, kama vile Literary Digest fiasco (iliyojadiliwa hapo awali) na "Dewey Inashinda Truman," utabiri usio sahihi kuhusu Marekani uchaguzi wa rais wa 1948 (takwimu 3.6).
Aina moja ya sampuli isiyowezekana ambayo inafaa kwa umri wa digital ni matumizi ya paneli za mtandao . Watafiti wanaotumia paneli za mtandaoni hutegemea mtoa huduma wa jopo-kawaida kampuni, serikali, au chuo kikuu-kujenga kundi kubwa la watu ambao wanakubali kutumikia kama waliohojiwa kwa tafiti. Washiriki hawa wa jopo mara nyingi huajiriwa kutumia mbinu mbalimbali za matangazo kama vile matangazo ya bendera ya mtandaoni. Kisha, mtafiti anaweza kulipa mtoa huduma wa jopo kwa upatikanaji wa sampuli ya washiriki na sifa zinazohitajika (kwa mfano, mwakilishi wa kitaifa wa watu wazima). Vipande hivi vya mtandao ni mbinu zisizo na uwezekano kwa sababu si kila mtu anayejulikana, uwezekano wa non-inclusion. Ingawa vifungo visivyowezekana vya mtandao tayari vinatumiwa na watafiti wa kijamii (kwa mfano, CCES), kuna bado mjadala kuhusu ubora wa makadirio kutoka kwao (Callegaro et al. 2014) .
Licha ya mjadala huu, nadhani kuna sababu mbili kwa nini wakati ni sahihi kwa watafiti wa kijamii kutafakari sampuli isiyowezekana. Kwanza, katika umri wa digital, kumekuwa na maendeleo mengi katika ukusanyaji na uchambuzi wa sampuli zisizowezekana. Mbinu hizi mpya ni tofauti kutosha kutoka mbinu zilizosababishwa na matatizo katika siku za nyuma ambazo nadhani ni vyema kufikiria kama "sampuli isiyowezekana 2.0." Sababu ya pili kwa nini watafiti wanapaswa kufikiria sampuli isiyowezekana ni kwa sababu sampuli ya uwezekano katika mazoezi yanazidi kuwa magumu. Wakati kuna viwango vya juu vya yasiyo ya majibu-kama kuna katika tafiti halisi sasa-uwezekano halisi wa kuingizwa kwa washiriki hawajulikani, na hivyo, sampuli uwezekano na sampuli zisizowezekana sio tofauti na watafiti wengi wanaoamini.
Kama nilivyosema hapo awali, sampuli zisizo uwezekano zinazingatiwa na wasiwasi mkubwa na watafiti wengi wa kijamii, kwa sababu kwa sababu ya jukumu lao katika kushindwa kwa aibu zaidi katika siku za mwanzo za utafiti wa uchunguzi. Mfano wazi wa jinsi tumekuja na sampuli ambazo haziwezekani ni utafiti na Wei Wang, David Rothschild, Sharad Goel, na Andrew Gelman (2015) ambao kwa usahihi walipata matokeo ya uchaguzi wa 2012 wa Marekani kwa kutumia sampuli isiyowezekana ya Watumiaji wa Xbox wa Marekani - sampuli isiyo ya kawaida ya Wamarekani. Watafiti walishiriki wahojiwa kutoka mfumo wa michezo ya kubahatisha XBox, na kama unavyoweza kutarajia, sampuli ya Xbox ya kiume na ya kijana wenye umri wa miaka 18- hadi 29 wanafanya 19% ya wapiga kura lakini 65% ya sampuli ya Xbox, na wanaume kuunda 47% ya wapiga kura lakini 93% ya sampuli ya Xbox (takwimu 3.7). Kwa sababu ya uhaba mkubwa wa idadi ya watu, data ya Xbox ghafi ilikuwa kiashiria kibaya cha kurudi kwa uchaguzi. Alitabiri ushindi mkubwa kwa Mitt Romney juu ya Barack Obama. Tena, hii ni mfano mwingine wa hatari za sampuli zisizotengenezwa zisizo na uwezekano na ni kukumbusha fiasco ya Literary Digest .
Hata hivyo, Wang na wenzake walijua matatizo haya na walijaribu kurekebisha mchakato wao wa sampuli isiyo ya random wakati wa kufanya makadirio. Hasa, walitumia kuchapishwa kwa baada ya mstari, mbinu ambayo pia hutumiwa sana kurekebisha sampuli uwezekano una makosa ya chanjo na yasiyo ya majibu.
Dhana kuu ya baada ya kukamatwa ni kutumia maelezo ya wasaidizi juu ya idadi ya wakazi ili kusaidia kuboresha makadirio yanayotokana na sampuli. Wakati wa kutumia mkakati wa kutengeneza makadirio ya kufanya makadirio kutoka kwa sampuli yao isiyo ya uwezekano, Wang na mwenzake walichagua idadi ya watu katika vikundi tofauti, wakakadiriwa msaada wa Obama katika kila kikundi, na kisha akachukua wastani wa wastani wa makundi ili kuzalisha makadirio ya jumla. Kwa mfano, wangeweza kugawanisha idadi ya watu katika makundi mawili (wanaume na wanawake), inakadiriwa kuwa msaada wa Obama kati ya wanaume na wanawake, na kisha inakadiriwa msaada wa Obama kwa kuchukua wastani wa wastani ili kuhakikisha kuwa wanawake hufanya up 53% ya wapiga kura na wanaume 47%. Kwa kiasi kikubwa, baada ya stratification husaidia kusahihisha sampuli isiyosawazishwa kwa kuleta taarifa ya wasaidizi kuhusu ukubwa wa vikundi.
Funguo la kupangilia baada ya kupitishwa ni kuunda makundi sahihi. Ikiwa unaweza kuondokana na idadi ya watu katika makundi yanayofanana na hivyo kwamba ufanisi wa majibu ni sawa kwa kila mtu katika kila kikundi, kisha ufuatiliaji wa baadae utazalisha makadirio yasiyofaa. Kwa maneno mengine, baada ya kupambanua kwa jinsia itazalisha makadirio yasiyo na ubaguzi ikiwa wanaume wote wana uwezo wa kujibu na wanawake wote wanajibika sawa. Dhana hii inaitwa ufanisi wa makundi ya ndani-majibu-ndani ya makundi , na mimi huielezea zaidi katika maelezo ya hisabati mwishoni mwa sura hii.
Bila shaka, inaonekana kuwa haiwezekani kuwa vyanzo vya majibu vitakuwa sawa kwa wanaume wote na wanawake wote. Hata hivyo, dhana ya homogeneous-response-inside-groups inakuwa zaidi plausible kama idadi ya makundi kuongezeka. Karibu, inakuwa rahisi kuvuta idadi ya watu katika makundi yanayofanana ikiwa unaunda makundi zaidi. Kwa mfano, inaweza kuonekana implausible kwamba wanawake wote wana sawa na majibu ya majibu, lakini inaweza kuonekana zaidi plausible kuwa kuna majibu sawa majibu kwa wanawake wote wenye umri wa miaka 18-29, ambao walihitimu kutoka chuo kikuu, na ambao wanaishi California . Kwa hivyo, kama idadi ya vikundi vilivyotumiwa baada ya kukamatwa hupata zaidi, mawazo yanahitajika kusaidia mfumo huu kuwa wa busara zaidi. Kutokana na ukweli huu, watafiti mara nyingi wanataka kuunda idadi kubwa ya vikundi kwa ajili ya kukamatwa baada ya. Hata hivyo, kama idadi ya vikundi inavyoongezeka, watafiti huendesha shida tofauti: upepo wa data. Ikiwa kuna idadi ndogo tu ya watu katika kila kikundi, basi makadirio yatakuwa na uhakika zaidi, na katika hali mbaya sana ambapo kuna kikundi ambacho hawana washiriki, basi ufuatiliaji wa post utapungua kabisa.
Kuna njia mbili za mvutano huu wa asili kati ya uwezekano wa kukubaliana kwa makundi ya ndani-majibu-ndani-makundi na mahitaji ya ukubwa wa sampuli wa kila kundi. Kwanza, watafiti wanaweza kukusanya sampuli kubwa, tofauti zaidi, ambayo husaidia kuhakikisha ukubwa wa sampuli wa kila kundi. Pili, wanaweza kutumia mfano wa kisasa zaidi wa kufanya hesabu ndani ya makundi. Na, kwa kweli, wakati mwingine watafiti wanafanya wote wawili, kama Wang na wenzake walivyofanya utafiti wao wa uchaguzi kwa kutumia washiriki kutoka Xbox.
Kwa sababu walikuwa wakitumia njia isiyo ya uwezekano wa sampuli na mahojiano yaliyosimamiwa na kompyuta (nami nitazungumzia zaidi juu ya mahojiano yaliyosimamiwa na kompyuta katika kifungu cha 3.5), Wang na wenzake walikuwa na ukusanyaji wa data wa gharama nafuu sana, ambao uliwawezesha kukusanya taarifa kutoka kwa washiriki wa kipekee wa 345,858 , idadi kubwa kwa viwango vya kura ya uchaguzi. Ukubwa huu wa ukubwa wa sampuli uliwawezesha kuunda idadi kubwa ya makundi ya kuchapishwa. Ingawa utaratibu wa kuchapishwa kwa kawaida unahusisha kuwachagua idadi ya watu katika vikundi vingi, Wang na wenzake waligawanya idadi ya watu katika makundi 176,256 yaliyoelezewa na jinsia (makundi mawili), mbio (makundi 4), umri (4 makundi), elimu (makundi 4), hali (Makundi 51), ID ya chama (makundi 3), itikadi (makundi 3), na kura ya 2008 (makundi 3). Kwa maneno mengine, ukubwa wao mkubwa wa sampuli, uliowezeshwa kwa kukusanya data ya gharama nafuu, umewawezesha kufanya dhana zaidi ya kuonekana katika mchakato wao wa kukadiriwa.
Hata pamoja na washiriki 345,858 wa kipekee, hata hivyo, kulikuwa na makundi mengi mengi ambayo Wang na wenzake hawakuwa na washiriki. Kwa hiyo, walitumia mbinu inayoitwa regression multilevel ili kukadiria msaada katika kila kikundi. Kwa kawaida, ili kukadiria msaada wa Obama ndani ya kikundi maalum, udhibiti wa multilevel uliochanganya habari kutoka kwa makundi mengi ya karibu. Kwa mfano, fikiria kujaribu kujaribu kukadiria msaada wa Obama kati ya Hispanics ya kike kati ya miaka 18 na 29, ambao ni wahitimu wa chuo, ambao wamejiandikisha Demokrasia, ambao wanajitambulisha kuwa ni wa wastani, na ambao walipiga kura kwa Obama mwaka 2008. Hii ni sana , kikundi maalum, na inawezekana kwamba hakuna mtu katika sampuli na sifa hizi. Kwa hiyo, kufanya makadirio kuhusu kundi hili, regression ya multilevel inatumia mfano wa takwimu ili kuunganisha makadirio ya pamoja kutoka kwa watu walio katika makundi sawa.
Kwa hivyo, Wang na wenzake walitumia mbinu ambayo ilijumuisha ukandamizaji wa multilevel na baada ya kukamatwa, hivyo walisema mkakati wao wa kupindua multilevel na baada ya stratification au, zaidi ya upendo, "Mheshimiwa. P. "Wakati Wang na wenzake walitumia Mheshimiwa P. kutengeneza makadirio kutoka kwa sampuli isiyokuwa na uwezekano wa XBox, walizalisha makadirio karibu sana na msaada wa jumla ambao Obama alipata katika uchaguzi wa 2012 (takwimu 3.8). Kwa kweli makadirio yao yalikuwa sahihi zaidi kuliko jumla ya uchaguzi wa jadi wa maoni ya umma. Kwa hiyo, katika kesi hii, marekebisho ya takwimu-hasa Mheshimiwa P. wanaonekana kufanya kazi nzuri ya kurekebisha vikwazo katika data zisizowezekana; udhaifu ulioonekana wazi wakati unatazama makadirio kutoka kwa data ya Xbox isiyoyotumiwa.
Kuna masomo mawili kuu kutoka kwa utafiti wa Wang na wenzake. Kwanza, sampuli zisizo na uwezekano zisizo na uwezekano zinaweza kusababisha makadirio mabaya; hii ni somo ambalo watafiti wengi wamesikia kabla. Somo la pili, hata hivyo, ni kwamba sampuli ambazo haziwezekani, wakati zinazingatiwa vizuri, zinaweza kuzalisha makadirio mema; Sampuli zisizo uwezekano hazihitaji kuongoza moja kwa moja kwenye kitu kama fiasco ya Literary Digest .
Endelea mbele, ikiwa unajaribu kuamua kati ya kutumia mbinu ya sampuli ya uwezekano na mbinu isiyo ya uwezekano wa sampuli unakabiliwa na uchaguzi mgumu. Wakati mwingine watafiti wanataka utawala wa haraka na wenye nguvu (kwa mfano, daima utumie mbinu za sampuli uwezekano), lakini inazidi kuwa vigumu kutoa sheria hiyo. Watafiti wanakabiliwa na uchaguzi mgumu kati ya mbinu za uwezekano wa sampuli katika mazoezi-ambayo yanazidi kuwa ya gharama kubwa na mbali na matokeo ya kinadharia ambayo yanasaidia njia zao za kutumia-na zisizo uwezekano wa sampuli-ambazo ni nafuu na kwa kasi, lakini hazijui na zina tofauti. Jambo moja ambalo ni dhahiri, hata hivyo, ni kwamba ikiwa unakabiliwa kufanya kazi na sampuli ambazo haziwezekani au vyanzo vingi vya data visivyo na uwezo (fikiria nyuma kwa Sura ya 2), basi kuna sababu nzuri ya kuamini kwamba makadirio yaliyotumiwa kwa kutumia uchapishaji wa baada na mbinu zinazohusiana zitakuwa bora zaidi kuliko zisizorekebishwa, makadirio ya ghafi.