Aina moja ya kuchunguza ambayo haijajumuishwa katika sura hii ni ethnography. Kwa zaidi juu ya ethnography katika nafasi za digital, angalia Boellstorff et al. (2012) , na kwa zaidi juu ya ethnografia katika nafasi zenye mchanganyiko wa digital na kimwili, angalia Lane (2016) .
Hakuna ufafanuzi wa moja kwa moja wa "data kubwa," lakini ufafanuzi wengi unaonekana kuzingatia "3 Vs": kiasi, aina, na kasi (kwa mfano, Japec et al. (2015) ). Angalia De Mauro et al. (2015) kwa ukaguzi wa ufafanuzi.
Kuingizwa kwangu kwa data ya utawala wa serikali katika jamii ya data kubwa ni jambo la kawaida, ingawa wengine pia wamefanya kesi hiyo, ikiwa ni pamoja na Legewie (2015) , Connelly et al. (2016) , na Einav and Levin (2014) . Kwa habari zaidi juu ya thamani ya data ya utawala wa serikali kwa ajili ya utafiti, angalia Card et al. (2010) , Adminstrative Data Taskforce (2012) , na Grusky, Smeeding, and Snipp (2015) .
Kwa mtazamo wa utawala wa utawala kutoka ndani ya mfumo wa takwimu za serikali, hasa Ofisi ya Sensa ya Marekani, ona Jarmin and O'Hara (2016) . Kwa matibabu ya urefu wa kitabu cha utafiti wa rekodi za utawala katika Takwimu Sweden, ona Wallgren and Wallgren (2007) .
Katika sura hii, nilifafanua kwa ufupi utafiti wa jadi kama vile Utafiti wa Jamii Mkuu (GSS) na chanzo cha habari cha kijamii kama vile Twitter. Kwa kulinganisha kwa uangalifu na makini kati ya tafiti za jadi na data za vyombo vya habari vya kijamii, ona Schober et al. (2016) .
Tabia hizi 10 za data kubwa zimeelezewa kwa njia mbalimbali kwa waandishi mbalimbali. Kuandika ambayo imeathiri mawazo yangu juu ya masuala haya ni pamoja na Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , na Goldstone and Lupyan (2016) .
Katika sura hii, nimeitumia njia za digital , ambazo nadhani ni kiasi kidogo. Mwingine mwingine maarufu kwa njia za digital ni alama za digital (Golder and Macy 2014) , lakini kama Hal Abelson, Ken Ledeen, na Harry Lewis (2008) wanaelezea, neno linalofaa zaidi labda ni alama za kidole za digital . Unapounda vidole, unatambua kinachotokea na mguu wako hauwezi kufuatiliwa kwa wewe mwenyewe. Vile vile sio kweli kwa athari zako za digital. Kwa kweli, unatoka athari wakati wote ambao una ujuzi mdogo sana. Na, ingawa haya hayana jina lako juu yao, mara nyingi wanaweza kuunganishwa kwako. Kwa maneno mengine, wao ni kama alama za vidole: zisizoonekana na binafsi kutambua.
Kwa maelezo zaidi kwa nini datasets kubwa hutoa matatizo ya takwimu, tazama M. Lin, Lucas, and Shmueli (2013) na McFarland and McFarland (2015) . Maswala haya yanapaswa kuwaongoza watafiti kuzingatia umuhimu wa manufaa badala ya umuhimu wa takwimu.
Kwa habari zaidi kuhusu jinsi Raj Chetty na wenzake walivyopata upatikanaji wa rekodi za kodi, ona Mervis (2014) .
Dasaset kubwa zinaweza pia kuunda matatizo ya computational ambayo kwa ujumla hayawezi uwezo wa kompyuta moja. Kwa hiyo, watafiti wanafanya mahesabu juu ya dasaset kubwa mara nyingi hueneza kazi juu ya kompyuta nyingi, mchakato wakati mwingine huitwa programu sambamba . Kwa utangulizi wa programu zinazofanana, hasa lugha inayoitwa Hadoop, ona Vo and Silvia (2016) .
Wakati wa kuzingatia daima-juu ya data, ni muhimu kuchunguza kama unalinganisha watu sawa kwa muda au kama unalinganisha baadhi ya kundi la watu la kubadilisha; tazama kwa mfano, Diaz et al. (2016) .
Kitabu cha kisasa juu ya hatua zisizofaa ni Webb et al. (1966) . Mifano katika kitabu hiki kabla ya umri wa digital, lakini bado huangaza. Kwa mifano ya watu kubadilisha tabia zao kwa sababu ya kuwepo kwa ufuatiliaji wa wingi, angalia Penney (2016) na Brayne (2014) .
Reactivity ni karibu kuhusiana na nini watafiti wito madhara ya mahitaji (Orne 1962; Zizzo 2010) na Hawthorne athari (Adair 1984; Levitt and List 2011) .
Kwa zaidi juu ya kuunganisha rekodi, ona Dunn (1946) na Fellegi and Sunter (1969) (historia) na Larsen and Winkler (2014) (kisasa). Mbinu kama hiyo pia zimeandaliwa katika sayansi ya kompyuta chini ya majina kama vile upunguzaji wa data, kitambulisho cha mfano, jina vinavyolingana, kugundua duplicate, na kugundua rekodi mbili (Elmagarmid, Ipeirotis, and Verykios 2007) . Kuna pia njia za kuhifadhi faragha za kurekodi uhusiano ambao hauhitaji uhamisho wa habari za kutambua binafsi (Schnell 2013) . Facebook pia imeanzisha mchakato wa kuunganisha rekodi zao kwa tabia ya kupiga kura; hii ilifanyika kutathmini jaribio ambalo nitawaambia juu ya sura ya 4 (Bond et al. 2012; Jones et al. 2013) .
Kwa zaidi juu ya kujenga uhalali, angalia sura ya 3 ya Shadish, Cook, and Campbell (2001) .
Kwa zaidi juu ya ufuatiliaji wa utafutaji wa AOL, ona Ohm (2010) . Ninatoa ushauri kuhusu kushirikiana na makampuni na serikali katika sura ya 4 wakati mimi kuelezea majaribio. Waandishi kadhaa wameelezea wasiwasi kuhusu utafiti ambao unategemea data ambazo hazipatikani, ona Huberman (2012) na boyd and Crawford (2012) .
Njia moja nzuri kwa watafiti wa chuo kikuu kupata upatikanaji data ni kufanya kazi katika kampuni kama intern au mtafiti mgeni. Mbali na kuwezesha upatikanaji data, mchakato huu pia itasaidia mtafiti kujifunza zaidi kuhusu jinsi data iliundwa, ambayo ni muhimu kwa ajili ya uchambuzi.
Kwa upande wa kupata upatikanaji wa takwimu za serikali, Mervis (2014) anazungumzia jinsi Raj Chetty na wenzake walipata upatikanaji wa rekodi za kodi zilizotumiwa katika utafiti wao juu ya uhamaji wa kijamii.
Kwa zaidi juu ya historia ya "uwakilishi" kama dhana, angalia Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , na Kruskal and Mosteller (1980) .
Muhtasari wangu wa kazi ya theluji na kazi ya Doll na Hill zilikuwa fupi. Kwa habari zaidi juu ya kazi ya theluji kwenye cholera, angalia Freedman (1991) . Kwa zaidi juu ya Utafiti wa Madaktari wa Uingereza kuona Doll et al. (2004) na Keating (2014) .
Watafiti wengi watashangaa kujua kwamba ingawa Doll na Hill zilikusanya data kutoka kwa madaktari wa kike na kutoka kwa madaktari chini ya miaka 35, wao kwa makusudi hawakutumia data hii katika uchambuzi wao wa kwanza. Walipokuwa wanasema: "Kwa kuwa kansa ya mapafu ni ndogo sana kwa wanawake na wanaume chini ya 35, takwimu muhimu haziwezekani kupatikana katika makundi haya kwa miaka kadhaa ijayo. Kwa ripoti hii ya awali tumeweka mawazo yetu kwa wanaume wenye umri wa miaka 35 na zaidi. " Rothman, Gallacher, and Hatch (2013) , ambayo ina kichwa cha kuchochea" Kwa nini uwakilishi unapaswa kuepukwa, "fanya hoja zaidi ya thamani ya kwa makusudi kutengeneza data zisizowakilisha.
Ukosefu wa uwakilishi ni tatizo kubwa kwa watafiti na serikali wanaotaka kutoa taarifa juu ya wakazi wote. Hii ni chini ya wasiwasi kwa makampuni, ambayo kwa kawaida hulenga watumiaji wao. Kwa maelezo zaidi juu ya jinsi Takwimu za Uholanzi zinavyozingatia suala la kutoelekea kwa data kubwa ya biashara, ona Buelens et al. (2014) .
Kwa mifano ya watafiti wanaonyesha wasiwasi juu ya asili isiyo ya mwakilishi wa vyanzo vya data kubwa, angalia boyd and Crawford (2012) , K. Lewis (2015b) , na Hargittai (2015) .
Kwa kulinganisha zaidi ya malengo ya uchunguzi wa kijamii na utafiti wa magonjwa ya akili, ona Keiding and Louis (2016) .
Kwa habari zaidi juu ya majaribio ya kutumia Twitter kufanya Jungherr (2013) nje za sampuli kuhusu wapiga kura, hasa kesi kutoka uchaguzi wa Ujerumani wa 2009, angalia Jungherr (2013) na Jungherr (2015) . Baada ya kazi ya Tumasjan et al. (2010) watafiti duniani kote wametumia mbinu za fancier-kama vile uchambuzi wa hisia ili kutofautisha kati ya mazungumzo mazuri na mabaya ya vyama-ili kuboresha uwezo wa data ya Twitter kutabiri aina mbalimbali za uchaguzi (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Hivi ndivyo Huberty (2015) ilivyofupisha matokeo ya majaribio haya kutabiri uchaguzi:
"Njia zote za utabiri zinazojulikana kulingana na vyombo vya habari vya kijamii zimefanikiwa wakati wa kutimiza mahitaji ya kweli ya utabiri wa uchaguzi wa kweli. Kushindwa haya kuonekana kuwa kutokana na mali ya msingi ya vyombo vya habari vya kijamii, badala ya matatizo ya kisheria au algorithmic. Kwa kifupi, vyombo vya habari vya kijamii havipaswi, na labda haitakuja, kutoa picha imara, isiyo na maoni, ya mwakilishi wa wapiga kura; na sampuli za urahisi za vyombo vya habari vya kijamii hazina data ya kutosha ili kurekebisha matatizo haya baada ya hogi. "
Katika sura ya 3, nitaelezea sampuli na hesabu kwa undani zaidi. Hata kama data sio wawakilishi, chini ya hali fulani, wanaweza kuhesabiwa kuzalisha makadirio mazuri.
Mfumo wa drift ni ngumu sana kuona kutoka nje. Hata hivyo, mradi wa MovieLens (ulijadiliwa zaidi katika sura ya 4) imetumika kwa zaidi ya miaka 15 na kundi la utafiti wa kitaaluma. Kwa hiyo, wameweza kuandika na kushiriki habari kuhusu njia ambayo mfumo umebadilika kwa muda na jinsi hii inaweza kuathiri uchambuzi (Harper and Konstan 2015) .
Wataalamu wengi wamejitokeza kwenye Twitter: Liu, Kliman-Silver, and Mislove (2014) na Tufekci (2014) .
Njia moja ya kushughulika na idadi ya watu ni kujenga jopo la watumiaji, ambayo inaruhusu watafiti kujifunza watu sawa kwa muda, ona Diaz et al. (2016) .
Nilianza kusikia neno "algorithmically confounded" iliyotumiwa na Jon Kleinberg katika majadiliano, lakini kwa bahati mbaya sikumbuka lini ambapo mazungumzo yalitolewa. Mara ya kwanza niliyoona neno iliyochapishwa ilikuwa katika Anderson et al. (2015) , ambayo ni majadiliano ya kushangaza kuhusu jinsi taratibu zilizozotumiwa na maeneo ya urafiki zinaweza kuwafanya uwezo wa watafiti kutumia data kutoka kwa tovuti hizi ili kujifunza mapendekezo ya kijamii. Wasiwasi huu ulifufuliwa na K. Lewis (2015a) kwa kukabiliana na Anderson et al. (2014) .
Mbali na Facebook, Twitter pia inapendekeza watu kwa watumiaji kufuata kulingana na wazo la kufungwa kwa triadic; tazama Su, Sharma, and Goel (2016) . Kwa hiyo kiwango cha kufungwa kwa triadic kwenye Twitter ni mchanganyiko wa tabia fulani ya kibinadamu kuelekea kufungwa kwa triadic na tabia fulani ya algorithmic ya kukuza kufungwa kwa triadic.
Kwa zaidi juu ya ufanisi-hasa wazo kwamba baadhi ya nadharia za sayansi ya jamii ni "injini si kamera" (yaani, wao huunda ulimwengu badala ya kuelezea) -ona Mackenzie (2008) .
Mashirika ya takwimu za serikali huita data kusafisha data takwimu za uhariri . De Waal, Puts, and Daas (2014) huelezea mbinu za uhariri wa takwimu zilizopangwa kwa ajili ya data za uchunguzi na kuchunguza kiwango ambazo zinatumika kwa vyanzo vya data kubwa, na Puts, Daas, and Waal (2015) zinawasilisha mawazo sawa watazamaji zaidi.
Kwa maelezo ya jumla ya robots kijamii, ona Ferrara et al. (2016) . Kwa baadhi ya mifano ya tafiti ililenga kupata spam kwenye Twitter, ona Clark et al. (2016) na Chu et al. (2012) . Hatimaye, Subrahmanian et al. (2016) inaelezea matokeo ya Challenge ya Bodi ya Botani ya DARPA, ushirikiano wa wingi uliofanywa kulinganisha njia za kuchunguza bots kwenye Twitter.
Ohm (2015) huelezea utafiti wa awali juu ya wazo la habari nyeti na hutoa mtihani wa sababu mbalimbali. Sababu nne anazopendekeza ni ukubwa wa madhara, uwezekano wa madhara, kuwepo kwa uhusiano wa siri, na kama hatari inaonyesha wasiwasi mkubwa.
Utafiti wa Farber huko New York ulikuwa msingi wa utafiti wa awali na Camerer et al. (1997) ambayo ilitumia sampuli tatu za urahisi za karatasi za safari. Utafiti huu wa mapema uligundua kwamba madereva walionekana kuwa walengwa wafuatayo: walifanya kazi chini siku ambazo mishahara yao ilikuwa ya juu.
Katika kazi inayofuata, Mfalme na wenzake wameendelea kuchunguza udhibiti wa mtandaoni nchini China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Kwa njia inayohusiana ya kupima udhibiti wa mtandaoni nchini China, angalia Bamman, O'Connor, and Smith (2012) . Kwa zaidi juu ya mbinu za takwimu kama ile inayotumiwa kwa King, Pan, and Roberts (2013) ili kukadiria maoni ya machapisho milioni 11, ona Hopkins and King (2010) . Kwa habari zaidi juu ya kujifunza kwa kusimamiwa, angalia James et al. (2013) (chini ya kiufundi) na Hastie, Tibshirani, and Friedman (2009) (zaidi ya kiufundi).
Utabiri ni sehemu kubwa ya sayansi ya data ya viwanda (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Aina moja ya utabiri ambayo kawaida hufanyika na watafiti wa kijamii ni utabiri wa idadi ya watu; ona, kwa mfano, Raftery et al. (2012) .
Mwelekeo wa Fluji za Google sio mradi wa kwanza wa kutumia data ya utafutaji kwa kuenea kwa mafua ya sasa. Kwa kweli, watafiti nchini Marekani (Polgreen et al. 2008; Ginsberg et al. 2009) na Sweden (Hulth, Rydevik, and Linde 2009) wamegundua kwamba baadhi ya maneno ya utafutaji (kwa mfano, "mafua") yalitabiri ufuatiliaji wa afya ya kitaifa data kabla ya kufunguliwa. Baadaye, wengi miradi mingi wamejaribu kutumia data ya kufuatilia digital kwa kugundua ugonjwa; angalia Althouse et al. (2015) kwa ukaguzi.
Mbali na kutumia data ya kufuatilia digital ili kutabiri matokeo ya afya, pia imekuwa na kiasi kikubwa cha kazi kwa kutumia data ya Twitter ili kutabiri matokeo ya uchaguzi; kwa maoni ya kuona Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (sura ya 7), na Huberty (2015) . Kwa sasa, viashiria vya kiuchumi, kama vile bidhaa za ndani (Pato la Taifa), pia ni kawaida katika benki kuu, ona Bańbura et al. (2013) . meza ya 2.8 inajumuisha mifano michache ya tafiti ambazo zinatumia aina fulani ya utaratibu wa digital kutabiri aina fulani ya tukio duniani.
Piga maelezo ya Digital | Matokeo | Citation |
---|---|---|
Bodi ya mapato ya ofisi ya sinema huko Marekani | Asur and Huberman (2010) | |
Tafuta kumbukumbu | Mauzo ya sinema, muziki, vitabu, na michezo ya video nchini Marekani | Goel et al. (2010) |
Wastani wa Viwanda wa Dow Jones (soko la hisa la Marekani) | Bollen, Mao, and Zeng (2011) | |
Vyombo vya habari vya kijamii na kumbukumbu za utafutaji | Uchunguzi wa maoni ya wawekezaji na masoko ya hisa nchini Marekani, Uingereza, Canada, na China | Mao et al. (2015) |
Tafuta kumbukumbu | Kuenea kwa homa ya Dengue huko Singapore na Bangkok | Althouse, Ng, and Cummings (2011) |
Hatimaye, Jon Kleinberg na wafanyakazi wenzake (2015) wamesema kwamba matatizo ya utabiri yanaanguka katika makundi mawili tofauti na kwamba wanasayansi wa kijamii wamejaribu kuzingatia moja na kupuuza wengine. Hebu fikiria mtengeneza sera mmoja, nitamwita Anna, ambaye anakabiliwa na ukame na lazima aamua kama kuajiri shaman kufanya ngoma ya mvua ili kuongeza nafasi ya mvua. Muumba mwingine wa sera, nitamwita Betty, lazima aamua kama kuchukua mwavuli kufanya kazi ili kuepuka kupata mvua kwenye njia ya nyumbani. Wote Anna na Betty wanaweza kufanya uamuzi bora kama wanaelewa hali ya hewa, lakini wanahitaji kujua mambo tofauti. Anna anahitaji kuelewa kama ngoma ya mvua husababisha mvua. Betty, kwa upande mwingine, hawana haja ya kuelewa chochote kuhusu sababu; anahitaji tu utabiri sahihi. Watafiti wa kijamii mara nyingi huzingatia matatizo kama yale yanayokabiliwa na Anna-ambayo Kleinberg na wenzake wanaita "matatizo ya sera ya mvua-kama" kwa sababu yanahusisha maswali ya sababu. Maswali kama yale yanayokabiliwa na Betty-ambayo Kleinberg na wenzake wanaita "matatizo ya sera" kama vile pia yanaweza kuwa muhimu sana, lakini wamejali sana kutoka kwa watafiti wa kijamii.
Jarida la Sayansi ya Siasa PS lilikuwa na kikao cha habari kubwa, maelezo ya msingi, na nadharia rasmi, na Clark and Golder (2015) muhtasari kila mchango. Kitabu cha Maandishi ya Chuo cha Taifa cha Sayansi nchini Marekani kilikuwa na kikao cha habari juu ya habari na maelezo makubwa, na Shiffrin (2016) kila mchango. Kwa njia za kujifunza mashine ambazo hujaribu kugundua majaribio ya asili ndani ya vyanzo vya data kubwa, angalia Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , na Sharma, Hofman, and Watts (2016) .
Kwa upande wa majaribio ya asili, Dunning (2012) hutoa matibabu ya utangulizi, urefu wa kitabu na mifano nyingi. Kwa mtazamo wa wasiwasi wa majaribio ya asili, ona Rosenzweig and Wolpin (2000) (uchumi) au Sekhon and Titiunik (2012) (sayansi ya siasa). Deaton (2010) na Heckman and Urzúa (2010) wanasema kuwa kulenga majaribio ya asili kunaweza kusababisha watafiti kuzingatia kuzingatia madhara muhimu ya causal; Imbens (2010) hoja hizi kwa mtazamo wa matumaini zaidi ya thamani ya majaribio ya asili.
Wakati akielezea jinsi mtafiti anaweza kwenda kutoka kuhesabia athari za kuandikwa kwa athari ya kutumikia, nilikuwa nikielezea mbinu inayoitwa vigezo vya vyombo . Imbens and Rubin (2015) , katika sura zao 23 na 24, hutoa utangulizi na kutumia bahati nasibu kama mfano. Athari ya huduma ya kijeshi kwa wauzaji huitwa wakati mwingine wastani wa athari za causal (CACE) na wakati mwingine athari ya wastani ya tiba ya ndani (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , na Bollen (2012) kutoa maoni juu ya matumizi ya vigezo vya vyombo katika sayansi ya siasa, uchumi, na jamii, na Sovey and Green (2011) hutoa "orodha ya wasomaji" kwa kutathmini masomo kwa kutumia vigezo vya vyombo.
Inageuka kuwa bahati nasibu ya 1970 ilikuwa sio, kwa kweli vizuri randomized; kulikuwa na upungufu mdogo kutoka kwa randomness safi (Fienberg 1971) . Berinsky and Chatfield (2015) wanasema kwamba kupotoka kidogo hii si muhimu sana na kujadili umuhimu wa randomization uliofanywa vizuri.
Kwa upande wa vinavyolingana, angalia Stuart (2010) kwa mapitio ya matumaini, na Sekhon (2009) kwa ukaguzi wa tamaa. Kwa zaidi juu ya kuzingatia kama aina ya kupogoa, angalia Ho et al. (2007) . Kutafuta mechi moja kamili kwa kila mtu mara nyingi ni vigumu, na hii inatanguliza matatizo kadhaa. Kwanza, wakati mechi halisi haipatikani, watafiti wanahitaji kuamua jinsi ya kupima umbali kati ya vitengo viwili na kama umbali uliopewa ni wa karibu sana. Utata wa pili unatokea ikiwa watafiti wanataka kutumia mechi nyingi kwa kila kesi katika kundi la matibabu, kwa sababu hii inaweza kusababisha makadirio sahihi zaidi. Masuala haya yote, kama vile wengine, yanaelezwa kwa kina katika sura ya 18 ya Imbens and Rubin (2015) . Angalia pia Sehemu ya II ya ( ??? ) .
Angalia Dehejia and Wahba (1999) kwa mfano ambapo mbinu zinazofanana zinaweza kuzalisha makadirio sawa na yale kutoka jaribio la kudhibitiwa randomized. Lakini, angalia Arceneaux, Gerber, and Green (2006) na Arceneaux, Gerber, and Green (2010) kwa mifano ambapo mbinu zinazofananishwa Arceneaux, Gerber, and Green (2010) benchmark ya majaribio.
Rosenbaum (2015) na Hernán and Robins (2016) hutoa ushauri mwingine kwa kugundua kulinganisha muhimu katika vyanzo vya data kubwa.