Din it-taqsima hija mfassla biex tintuża bħala referenza, aktar milli jinqraw bħala narrattiva.
Tip wieħed ta 'osservazzjoni li mhuwiex inkluż f'dan il-kapitolu huwa Ethnography. Għal aktar tagħrif dwar Ethnography fl-ispazji diġitali tara Boellstorff et al. (2012) , u għal aktar fuq Ethnography fl-ispazji diġitali u fiżiċi mħallta ara Lane (2016) .
Meta inti qed repurposing data, hemm żewġ tricks mentali li jistgħu jgħinuk tifhem il-problemi possibbli li inti tista 'tiltaqa. L-ewwel, inti tista 'tipprova li wieħed jimmaġina-dataset ideali għall-problema tiegħek u l jqabblu l-dataset li qed tuża. Kif huma simili u kif dawn huma differenti? Jekk inti ma ġabrux id-data tiegħek innifsek, hemm x'aktarx li jkunu differenza bejn dak li trid u dak li għandek. Iżda, inti għandek tiddeċiedi jekk dawn id-differenzi żgħar jew kbar.
It-tieni nett, ftakar li xi ħadd ħoloq u miġbura data tiegħek għal xi raġuni. Inti għandek tipprova tifhem ir-raġunament tagħhom. Dan it-tip ta 'reverse inġinerija jistgħu jgħinuk tidentifika problemi u preġudizzji possibbli fir-dejta repurposed tiegħek.
M'hemm l-ebda definizzjoni konsensus waħda ta ' "data kbar", iżda ħafna definizzjonijiet jidher li jiffokaw fuq il vs 3: (e.ż. volum, il-varjetà, u l-veloċità Japec et al. (2015) ). Pjuttost milli jiffoka fuq il-karatteristiċi tad-data, definizzjoni tiegħi tiffoka aktar fuq għaliex id-data ġiet maħluqa.
inklużjoni tiegħi ta 'dejta amministrattiva tal-gvern ġewwa l-kategorija ta' dejta kbar huwa daqsxejn mhux tas-soltu. Oħrajn li għamlu f'dan il-każ, jinkludu Legewie (2015) , Connelly et al. (2016) , u Einav and Levin (2014) . Għal aktar dwar il-valur tad-data amministrattiva tal-gvern għar-riċerka, ara Card et al. (2010) , Taskforce (2012) , u Grusky, Smeeding, and Snipp (2015) .
Għal għan ta 'riċerka amministrattiv minn ġewwa s-sistema statistika gvern, b'mod partikolari l-Uffiċċju taċ-Ċensiment Amerikan, ara Jarmin and O'Hara (2016) . Għal trattament tul ktieb tar-riċerka rekords amministrattivi fl-Istatistika Isvezja, ara Wallgren and Wallgren (2007) .
Fil-kapitolu, I qosor imqabbla stħarriġ tradizzjonali bħall-Istħarriġ soċjali ġeneralizzata (GSS) ma 'sors tad-data soċjali media bħal Twitter. Għal paragun bir-reqqa u bil-ħsieb bejn stħarriġ tradizzjonali u data media soċjali, ara Schober et al. (2016) .
Dawn l-10 il-karatteristiċi ta 'data kbar ġew deskritti fil-varjetà ta' modi differenti minn varjetà ta 'awturi differenti. Kitba li influwenzaw il-ħsieb tiegħi dwar dawn il-kwistjonijiet jinkludu: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , u Goldstone and Lupyan (2016) .
Matul dan il-kapitolu, stajt użati l-traċċi diġitali fit-tul, li naħseb huwa relattivament newtrali. Ieħor tul popolari għall traċċi diġitali hija footprints diġitali (Golder and Macy 2014) , iżda bħala Ħal Abelson, Ken Ledeen, u Harry Lewis (2008) jenfasizzaw, terminu iktar xierqa hija probabbilment marki tas-swaba diġitali. Meta inti toħloq footprints, int konxju ta 'x'qed jiġri u footprints tiegħek ġeneralment ma jistax jiġi ntraċċat lilek personalment. L-istess ma japplikax għal traċċi diġitali tiegħek. Fil-fatt, inti tħalli traċċi l-ħin kollu dwar fejn inti għandek għarfien ftit li xejn. U, għalkemm dawn it-traċċi m'għandhomx ismek fuqhom, dawn jistgħu spiss ikunu marbuta lura lilek. Fi kliem ieħor, dawn huma aktar simili marki tas-swaba: inviżibbli u personalment identifikabbli.
big
Għal aktar tagħrif dwar għaliex ġabriet kbar, jirrendu testijiet statistiċi problematiċi, ara Lin, Lucas, and Shmueli (2013) u McFarland and McFarland (2015) . Dawn il-kwistjonijiet għandhom iwasslu riċerkaturi li tiffoka fuq sinifikat prattiku milli sinifikat statistiku.
Dejjem fuq
Meta tikkunsidra dejjem fuq data, huwa importanti li jiġi kkunsidrat jekk inti tqabbel l-istess nies eżatt maż-żmien jew jekk inti tqabbel xi grupp li qed jinbidlu ta 'nies; ara per eżempju, Diaz et al. (2016) .
Mhux reattiv
Ktieb klassiku fuq miżuri mhux reattivi huwa Webb et al. (1966) . L-eżempji fil-ktieb qabel id-data tal-era diġitali, iżda dawn għadhom jdawwal. Għal eżempji ta 'nies li qed jinbidlu l-imġieba tagħhom minħabba l-preżenza ta' sorveljanza fuq skala kbira, ara Penney (2016) u Brayne (2014) .
mhux kompluta
Għal aktar dwar ir-rabta tar-rekords, ara Dunn (1946) u Fellegi and Sunter (1969) (storiku) u Larsen and Winkler (2014) (moderni). Simili avviċinat ġew żviluppati wkoll fix-xjenza tal-kompjuter taħt l-ismijiet bħal deduplication data, l-identifikazzjoni eżempju, l-isem tqabbil, duplikat skoperta, u duplikat skoperta rekord (Elmagarmid, Ipeirotis, and Verykios 2007) . Hemm ukoll il-privatezza preservazzjoni approċċi biex jirreġistra rabta li ma jeħtiġux it-trażmissjoni ta 'informazzjoni personalment identifikabbli (Schnell 2013) . Facebook ukoll żviluppat tipproċedi biex tagħmel link rekords tagħhom għall-imġieba tal-votazzjoni; dan sar biex jevalwa l-esperiment li jien ser jgħidlek dwar fil-Kapitolu 4 (Bond et al. 2012; Jones et al. 2013) .
Għal aktar tagħrif dwar validità tibni, ara Shadish, Cook, and Campbell (2001) , Kapitolu 3.
inaċċessibbli
Għal aktar tagħrif dwar il AOL ġurnal tfittxija debacle, ara Ohm (2010) . I joffru pariri dwar sħubijiet ma 'kumpaniji u gvernijiet fil-Kapitolu 4 meta I jiddeskrivi esperimenti. Numru ta 'awturi esprimew tħassib dwar ir-riċerka li jistrieħ fuq dejta inaċċessibbli, ara Huberman (2012) u boyd and Crawford (2012) .
Mod wieħed tajjeb għar-riċerkaturi universitarji biex jiksbu aċċess għad-data huwa li taħdem fuq kumpannija bħala intern jew li jżuru riċerkatur. Minbarra d jippermettu aċċess għad-data, dan il-proċess se jgħin ukoll lir-riċerkatur jitgħallmu aktar dwar kif id-data tkun inħolqot, li hija importanti għall-analiżi.
Non-rappreżentant
Mhux rappreżentattività hija problema kbira għar-riċerkaturi u l-gvernijiet li jixtiequ jagħmlu dikjarazzjonijiet dwar popolazzjoni intiera. Dan huwa inqas ta 'tħassib għall-kumpaniji li huma tipikament ffukati fuq l-utenti tagħhom. Għal aktar tagħrif dwar kif Istatistika Olandiż jikkunsidra l-kwistjoni ta 'nuqqas ta' rappreżentattività tad-data negozju kbir, ara Buelens et al. (2014) .
Fil-Kapitolu 3, jien ser jiddeskrivu teħid ta 'kampjuni u l-istima fid-dettall ħafna akbar. Anki jekk id-data mhumiex rappreżentattivi, taħt ċerti kundizzjonijiet, dawn jistgħu jiġu peżati jiġu prodotti estimi tajba.
riesqa
drift sistema huwa ferm diffiċli li wieħed jara minn barra. Madankollu, il-proġett MovieLens (diskussi aktar fil-Kapitolu 4) tkun tħaddmet għal aktar minn 15 snin minn grupp ta 'riċerka akkademika. Għalhekk, huma dokumentati u informazzjoni dwar il-mod li s-sistema evolviet matul iż-żmien u kif kondiviża dan jista 'jaffettwa l-analiżi (Harper and Konstan 2015) .
Numru ta 'skulari ffukaw fuq drift Twitter: Liu, Kliman-Silver, and Mislove (2014) u Tufekci (2014) .
algorithmically mħawwda
I ewwel jinstemgħu-terminu "algorithmically mħawwda" użat minn Jon Kleinberg fi talk. L-idea prinċipali wara performativity hija li xi teoriji xjenza soċjali huma "magni mhumiex kameras" (Mackenzie 2008) . Jiġifieri, huma fil-fatt forma id-dinja aktar milli sempliċement qbid dan.
maħmuġ
Aġenziji ta 'statistika mhux governattivi jitolbu t-tindif tad-data, l-editjar tad-dejta statistika. De Waal, Puts, and Daas (2014) jiddeskrivu tekniki editjar tad-dejta statistika żviluppati għal data ta' stħarriġ u teżamina sa liema punt dawn ikunu applikabbli għas-sorsi ta 'dejta kbar, u Puts, Daas, and Waal (2015) jippreżenta xi wħud mill-istess ideat għal udjenza aktar ġenerali.
Għal xi eżempji ta 'studji ffokati fuq ispam Twitter, Clark et al. (2016) u Chu et al. (2012) . Fl-aħħarnett, Subrahmanian et al. (2016) jiddeskrivi r-riżultati ta 'l-DARPA Twitter Bot Isfida.
sensittivi
Ohm (2015) reviżjonijiet riċerka qabel fuq l-idea ta 'informazzjoni sensittiva u joffri test li tikkonsidra ħafna fatturi. L-erba 'fatturi hu jipproponi huma: il-probabbiltà ta' ħsara; probabbiltà ta 'ħsara; preżenza ta 'relazzjoni kunfidenzjali; u jekk ir-riskju jirrifletti tħassib majoritarian.
Studju Farber ta 'taxis fi New York kienet ibbażata fuq studju qabel mill Camerer et al. (1997) li jintużaw tliet kampjuni konvenjenza differenti ta 'vjaġġ karta forom folji tal-karti użati minn sewwieqa biex jirreġistraw ħin tal-bidu tal-vjaġġ, ħin tat-tmiem, u nol. Dan l-istudju preċedenti sab li s-sewwieqa deher li kien jaqla mira: dawn ħadmu inqas fil-jiem fejn il-pagi tagħhom kienu ogħla.
Kossinets and Watts (2009) kien iffukat fuq l-oriġini tal homophily fin-netwerks soċjali. Ara Wimmer and Lewis (2010) għal approċċ differenti għall-istess problema li juża data minn Facebook.
Fix-xogħol sussegwenti, ir-Re u l-kollegi jkunu esplorati aktar ċensura fuq l-internet fiċ-Ċina (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Għal approċċ relatat mal-kejl ċensura fuq l-internet fiċ-Ċina, ara Bamman, O'Connor, and Smith (2012) . Għal aktar tagħrif dwar metodi ta 'statistika bħal dak użat fil King, Pan, and Roberts (2013) tiġi stmata l-sentiment ta' 11-il miljun-postijiet, ara Hopkins and King (2010) . Għal aktar tagħrif dwar it-tagħlim sorveljata, ara James et al. (2013) (inqas tekniku) u Hastie, Tibshirani, and Friedman (2009) (iktar tekniku).
Tbassir hija parti kbira ta 'attivitajiet industrijali xjenza data (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Tip wieħed ta 'tbassir li huma komunement magħmula mir-riċerkaturi soċjali huma tbassir demografiku, per eżempju Raftery et al. (2012) .
Google Flu Xejriet ma kienx l-ewwel proġett li tintuża data tat-tiftix biex nowcast prevalenza influwenza. Fil-fatt, ir-riċerkaturi fl-Istati Uniti (Polgreen et al. 2008; Ginsberg et al. 2009) u l-Isvezja (Hulth, Rydevik, and Linde 2009) sabu li ċerti termini ta 'tiftix (eż, "influwenza") mbassra nazzjonali ta' sorveljanza tas-saħħa pubblika data qabel kien rilaxxat. Sussegwentement ħafna, ħafna proġetti oħra ppruvaw jużaw id-dejta traċċi diġitali għall-iskoperta sorveljanza tal-mard, ara Althouse et al. (2015) għal reviżjoni.
Minbarra l-użu tad-data traċċi diġitali li wieħed ibassar qagħda tas-saħħa, kien hemm ukoll ammont kbir ta 'xogħol li jużaw data Twitter biex jitbassru riżultati elettorali; għal reviżjonijiet ara Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Kap. 7), u Huberty (2015) .
Użu ta 'data tat-tiftix biex tbassir prevalenza influwenza u jużaw data Twitter biex wieħed ibassar elezzjonijiet huma t-tnejn eżempji ta' użu xi tip ta 'traċċa diġitali li wieħed ibassar xi tip ta' avveniment fid-dinja. Hemm numru enormi ta 'studji li għandhom din l-istruttura ġenerali. Tabella 2.5 jinkludi eżempji oħra ftit.
traċċa diġitali | eżitu | Ċitazzjoni |
---|---|---|
Dħul uffiċċju kaxxa ta 'films fl-Istati Uniti | Asur and Huberman (2010) | |
Fittex zkuk | Bejgħ ta 'films, mużika, kotba, u video games fl-Istati Uniti | Goel et al. (2010) |
Dow Jones Medja industrijali (US istokk tas-suq) | Bollen, Mao, and Zeng (2011) |
Il-ġurnal PS Xjenza Politika kellhom simpożju fuq data kbar, inferenza kawżali, u t-teorija formali, u Clark and Golder (2015) tiġbor fil-qosor kull kontribuzzjoni. -Proċedimenti ġurnal tal-Akkademja Nazzjonali tax-Xjenzi tal-Istati Uniti tal-Amerika kellhom simpożju dwar inferenza kawżali u data kbar, u Shiffrin (2016) tiġbor fil-qosor kull kontribuzzjoni.
F'termini ta 'esperimenti fiżiċi, Dunning (2012) jipprovdi trattament tul ktieb eċċellenti. Għal aktar dwar kif jużaw l-abbozz lotterija Vjetnam bħala esperiment naturali, ara Berinsky and Chatfield (2015) . Għal strateġiji ta 'tagħlim magna li jippruvaw awtomatikament jiskopru esperimenti naturali ġewwa ta' sorsi ta 'data kbar, ara Jensen et al. (2008) u Sharma, Hofman, and Watts (2015) .
F'termini ta 'tqabbil, għal reviżjoni ottimista, ara Stuart (2010) , u għal reviżjoni pessimista tara Sekhon (2009) . Għal aktar tagħrif dwar tqabbil bħala tip ta 'żbir, ara Ho et al. (2007) . Għall-kotba li jipprovdu trattamenti eċċellenti ta 'tqabbil, ara Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , u Imbens and Rubin (2015) .