ufafanuzi zaidi

Sehemu hii ni iliyoundwa kutumiwa kama rejea, badala ya kusomwa kama hadithi.

  • Kuanzishwa (Sehemu ya 2.1)

aina moja ya kuangalia kwamba si ni pamoja na katika sura hii ni ethnography. Kwa zaidi juu ya ethnography katika maeneo digital angalia Boellstorff et al. (2012) , na kwa zaidi juu ya ethnography katika mchanganyiko nafasi digital na kimwili angalia Lane (2016) .

  • Data Big (Sehemu ya 2.2)

Wakati wewe ni repurposing data, kuna mbinu mbili akili kwamba unaweza kukusaidia kuelewa matatizo inawezekana kwamba unaweza kukutana. Kwanza, unaweza kujaribu kufikiria CCD bora kwa tatizo lako na kulinganisha kwamba kwa CCD kwamba wewe ni kutumia. Jinsi ni wao sawa na jinsi wanatofautiana? Kama hakuwa na kukusanya data yako mwenyewe, kuna uwezekano wa kuwa na tofauti kati ya nini unataka na una nini. Lakini, una kuamua kama tofauti hizi ni madogo au makubwa.

Pili, kumbuka kwamba mtu kuundwa na zilizokusanywa data yako kwa sababu fulani. Unapaswa kujaribu kuelewa hoja zao. Aina hii ya reverse-uhandisi inaweza kukusaidia kutambua matatizo iwezekanavyo na biases katika data yako repurposed.

Hakuna moja makubaliano ufafanuzi wa "data kubwa", lakini ufafanuzi wengi wanaonekana kuzingatia 3 Vs: (kwa mfano, kiasi, aina mbalimbali, na kasi Japec et al. (2015) ). Badala ya kuelekeza nguvu katika tabia ya data, tafsiri yangu inalenga zaidi juu ya nini data iliundwa.

ushirikishwaji My wa data za utawala za serikali ndani ya jamii ya data kubwa ni kidogo isiyo ya kawaida. Wengine ambao wamefanya kesi hiyo, ni pamoja na Legewie (2015) , Connelly et al. (2016) , na Einav and Levin (2014) . Kwa zaidi kuhusu thamani ya data za utawala za serikali kwa ajili ya utafiti, angalia Card et al. (2010) , Taskforce (2012) , na Grusky, Smeeding, and Snipp (2015) .

Kwa mtazamo wa utafiti wa utawala kutoka ndani ya mfumo wa serikali ya takwimu, hasa Marekani Ofisi ya Sensa, angalia Jarmin and O'Hara (2016) . Kwa kitabu urefu matibabu ya utafiti utawala kumbukumbu katika Takwimu ya Sweden, angalia Wallgren and Wallgren (2007) .

Katika sura, mimi kwa ufupi ikilinganishwa utafiti jadi kama vile General Social Survey (GSS) ili kijamii data chanzo vyombo vya habari kama vile Twitter. Kwa kina na makini kulinganisha kati ya tafiti jadi na data kijamii vyombo vya habari, kuona Schober et al. (2016) .

  • Kawaida na tabia ya data kubwa (Sehemu ya 2.3)

Sifa hizi 10 ya data kubwa yameelezwa katika njia mbalimbali tofauti na aina ya waandishi mbalimbali. Kuandika kwamba kusukumwa mawazo yangu juu ya masuala haya ni pamoja na: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , na Goldstone and Lupyan (2016) .

Katika sura hii, nimekuwa kutumika mrefu athari digital, ambayo nadhani ni kiasi upande wowote. Kipindi kingine maarufu kwa athari digital ni nyayo digital (Golder and Macy 2014) , lakini kama Hal Abelson, Ken Ledeen, na Harry Lewis (2008) kumweka nje, sahihi zaidi mrefu pengine ni digital alama za vidole. Wakati kujenga nyayo, wewe ni kufahamu nini kinatokea na nyayo yako hawezi kwa ujumla kuwa chanzo chake ni wewe binafsi. huo si kweli kwa athari yako digital. Kwa kweli, wewe ni kuacha athari wakati wote kuhusu ambayo una maarifa kidogo sana. Na, ingawa athari hizi hawana jina yako juu yao, mara nyingi wanaweza kuwa na mahusiano nyuma yenu. Kwa maneno mengine, wao ni zaidi kama alama za vidole: asiyeonekana na binafsi kutambua.

Big

Kwa zaidi juu ya nini seti kubwa, atatoa vipimo takwimu tatizo, angalia Lin, Lucas, and Shmueli (2013) na McFarland and McFarland (2015) . Masuala haya lazima kusababisha watafiti kuzingatia umuhimu wa vitendo badala ya umuhimu takwimu.

Kila mara

Wakati kuzingatia daima-on data, ni muhimu kufikiria kama wewe ni kulinganisha halisi watu sawa baada ya muda au kama wewe ni kulinganisha baadhi ya kundi kubadilisha ya watu; angalia kwa mfano, Diaz et al. (2016) .

Yasiyo ya tendaji

Kitabu classic juu ya hatua za yasiyo ya tendaji ni Webb et al. (1966) . mifano katika kitabu kabla ya tarehe umri digital, lakini wao ni bado chenye. Kwa mifano ya watu kubadili tabia zao kwa sababu ya uwepo wa wingi ufuatiliaji, angalia Penney (2016) na Brayne (2014) .

pungufu

Kwa zaidi juu ya rekodi uhusiano, angalia Dunn (1946) na Fellegi and Sunter (1969) (historical) na Larsen and Winkler (2014) (ya kisasa). Sawa ufanyike pia wamekuwa maendeleo katika sayansi ya kompyuta chini ya majina kama vile data deduplication, mfano kitambulisho, jina vinavyolingana, duplicate kugundua, na duplicate rekodi kugundua (Elmagarmid, Ipeirotis, and Verykios 2007) . Pia kuna faragha kuhifadhi mbinu kurekodi uhusiano ambayo hayahitaji maambukizi ya taarifa binafsi kutambua (Schnell 2013) . Facebook pia ina maendeleo kuendelea na kuhusisha rekodi zao na tabia ya kupiga kura; hii ilifanyika ili kutathmini majaribio kwamba mimi nitakuambia kuhusu katika sura ya 4 (Bond et al. 2012; Jones et al. 2013) .

Kwa zaidi juu ya kujenga uhalali, angalia Shadish, Cook, and Campbell (2001) , Sura ya 3.

inaccessible

Kwa zaidi juu ya AOL search gogo debacle, angalia Ohm (2010) . Mimi kutoa ushauri kuhusu kushirikiana na makampuni na serikali katika sura ya 4 wakati mimi kuelezea majaribio. Idadi ya waandishi wameonyesha wasiwasi kuhusu utafiti kwamba hutegemea data inaccessible, angalia Huberman (2012) na boyd and Crawford (2012) .

Njia moja nzuri kwa watafiti wa chuo kikuu kupata upatikanaji data ni kufanya kazi katika kampuni kama intern au mtafiti mgeni. Mbali na kuwezesha upatikanaji data, mchakato huu pia itasaidia mtafiti kujifunza zaidi kuhusu jinsi data iliundwa, ambayo ni muhimu kwa ajili ya uchambuzi.

Zisizo mwakilishi

Zisizo representativeness ni tatizo kubwa kwa watafiti na serikali ambao wangependa kufanya taarifa kuhusu idadi ya watu wote. Hii ni chini ya wasiwasi kwa makampuni ambayo ni kawaida ililenga watumiaji yao. Kwa zaidi juu ya jinsi ya Takwimu Uholanzi anaona suala la zisizo representativeness ya data biashara kubwa, angalia Buelens et al. (2014) .

Katika Sura ya 3, mimi itabidi kuelezea sampuli na makadirio kwa undani zaidi. Hata kama data ni yasiyo ya mwakilishi, katika hali fulani, wanaweza kuwa mizigo kuzalisha makadirio nzuri.

drifting

System drift ni vigumu sana kuona kutoka nje. Hata hivyo, MovieLens mradi (kujadiliwa zaidi katika Sura ya 4) imekuwa kukimbia kwa zaidi ya miaka 15 na kundi utafiti wa kitaaluma. Kwa hiyo, wao na kumbukumbu na alishiriki habari kuhusu njia ambayo mfumo imebadilika baada ya muda na jinsi hii inaweza kuathiri uchambuzi (Harper and Konstan 2015) .

Idadi ya wasomi ililenga drift katika Twitter: Liu, Kliman-Silver, and Mislove (2014) na Tufekci (2014) .

algorithmically kuhangaika

Mimi kwanza kusikia neno "algorithmically kuhangaika" kutumiwa na Jon Kleinberg katika majadiliano. Wazo kuu nyuma performativity ni kwamba baadhi ya sayansi nadharia ya kijamii ni "injini si kamera" (Mackenzie 2008) . Yaani, kwa kweli sura dunia badala ya kukamata yake.

chafu

Kiserikali mashirika ya takwimu kuwaita data kusafisha, takwimu data editing. De Waal, Puts, and Daas (2014) kuelezea takwimu mbinu data editing maendeleo kwa ajili ya takwimu za utafiti na kuchunguza ambayo kiasi wao ni husika kwa vyanzo big data, na Puts, Daas, and Waal (2015) inatoa baadhi ya mawazo sawa kwa ajili ya watazamaji zaidi kwa ujumla.

Kwa baadhi ya mifano ya tafiti kulenga spam katika Twitter, Clark et al. (2016) na Chu et al. (2012) . Hatimaye, Subrahmanian et al. (2016) inaeleza matokeo ya DARPA Twitter BoT Challenge.

nyeti

Ohm (2015) mapitio ya utafiti wa awali juu ya wazo la habari nyeti na inatoa mbalimbali sababu mtihani. mambo manne anachopendekeza ni: uwezekano wa madhara; uwezekano wa madhara; uwepo wa uhusiano siri; na kama hatari kutafakari wasiwasi majoritarian.

  • Kuhesabu mambo (Sehemu ya 2.4.1)

Utafiti Farber ya teksi mjini New York ilikuwa misingi ya utafiti mapema na Camerer et al. (1997) kwamba kutumika tatu sampuli tofauti urahisi wa karatasi safari shuka karatasi fomu kutumiwa na madereva wa kurekodi safari kuanza wakati, wakati wa mwisho, na nauli. Utafiti huu mapema iligundua kuwa madereva walionekana kuwa lengo watu wa kipato: walifanya kazi chini ya siku ambako mishahara yao yalikuwa juu.

Kossinets and Watts (2009) ilikuwa ililenga katika asili ya homophily katika mitandao ya kijamii. Angalia Wimmer and Lewis (2010) kwa mfumo tofauti wa tatizo moja ambayo inatumia data kutoka Facebook.

Katika kazi ya baadae, King na wenzake kuwa zaidi kutalii online udhibiti katika China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Kwa mbinu kuhusiana na kupima online udhibiti katika China, angalia Bamman, O'Connor, and Smith (2012) . Kwa zaidi juu ya mbinu za takwimu kama mmoja kutumika katika King, Pan, and Roberts (2013) na makisio mawazo ya posts milioni 11, angalia Hopkins and King (2010) . Kwa zaidi juu ya kujifunza inasimamiwa, angalia James et al. (2013) (chini ya kiufundi) na Hastie, Tibshirani, and Friedman (2009) (zaidi ya kiufundi).

  • Utabiri (Sehemu ya 2.4.2)

Utabiri ni sehemu kubwa ya data viwanda sayansi (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Aina moja ya utabiri kwamba ni kawaida kufanywa na watafiti wa jamii ni idadi ya watu utabiri, kwa mfano Raftery et al. (2012) .

Google Flu Mwelekeo hakuwa mradi wa kwanza kutumia data search kwa nowcast kiwango cha maambukizi ya mafua. Kwa kweli, watafiti nchini Marekani (Polgreen et al. 2008; Ginsberg et al. 2009) na Sweden (Hulth, Rydevik, and Linde 2009) wamegundua kwamba suala fulani search (kwa mfano, "homa") alikadiria kitaifa umma ufuatiliaji wa afya data kabla hiyo ilitolewa. Baada ya hapo wengi, miradi mingi wamejaribu kutumia data digital kuwaeleza kwa ajili ya kugundua ufuatiliaji ugonjwa, angalia Althouse et al. (2015) kwa ajili ya mapitio.

Mbali na kutumia data digital kuwaeleza kutabiri matokeo ya afya, pia kumekuwa na kiasi kikubwa cha kazi kwa kutumia data Twitter kutabiri matokeo ya uchaguzi; kwa ajili ya mapitio angalia Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), na Huberty (2015) .

Kwa kutumia data search kwa utabiri wa kiwango cha maambukizi ya mafua na kutumia data Twitter kutabiri uchaguzi ni mifano wote wawili wa kutumia aina fulani ya digital kuwaeleza kutabiri aina fulani ya tukio katika dunia. Kuna idadi kubwa ya masomo ambayo muundo huu mkuu. Meza 2.5 ni pamoja na mifano mingine.

Jedwali 2.5: Baadhi orodha ya tafiti hutumia baadhi kuwaeleza digital kutabiri baadhi ya tukio.
Digital kuwaeleza matokeo citation
Twitter Box mapato ofisi ya sinema katika Marekani Asur and Huberman (2010)
tafuta kumbukumbu Mauzo ya sinema, muziki, vitabu, na michezo ya video katika Marekani Goel et al. (2010)
Twitter Dow Jones Viwanda Average (Marekani soko) Bollen, Mao, and Zeng (2011)
  • Approximating majaribio (Sehemu ya 2.4.3)

Jarida PS Sayansi ya Siasa na kongamano la data kubwa, causal inference, na nadharia rasmi, na Clark and Golder (2015) muhtasari wa kila mchango. Jarida Kesi ya Chuo cha Taifa cha Sayansi ya Marekani alikuwa na kongamano la inference causal na data kubwa, na Shiffrin (2016) muhtasari wa kila mchango.

Katika suala la majaribio asili, Dunning (2012) hutoa bora kitabu urefu matibabu. Kwa zaidi juu ya kutumia Vietnam rasimu bahati nasibu kama majaribio ya asili, kuona Berinsky and Chatfield (2015) . Kwa mbinu kujifunza mashine kwamba jaribio la moja kwa moja kugundua majaribio ya asili ndani ya vyanzo kubwa data, angalia Jensen et al. (2008) na Sharma, Hofman, and Watts (2015) .

Katika suala la vinavyolingana, kwa ajili ya mapitio na matumaini, angalia Stuart (2010) , na kwa ajili ya mapitio tamaa angalia Sekhon (2009) . Kwa zaidi juu ya vinavyolingana kama aina ya kupogoa, angalia Ho et al. (2007) . Kwa vitabu ambavyo kutoa matibabu bora ya vinavyolingana, angalia Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , na Imbens and Rubin (2015) .