Ang seksyon na ito ay dinisenyo upang magamit bilang isang sanggunian, sa halip na basahin bilang isang nagkukuwento.
Isang uri ng pagmamasid na ay hindi kasama sa kabanatang ito ay etnograpya. Para sa higit sa etnograpya sa digital puwang makita Boellstorff et al. (2012) , at para sa higit pa sa etnograpya sa mixed digital at pisikal na puwang makita Lane (2016) .
Kapag kayo ay repurposing data, mayroong dalawang mental tricks na maaaring makatulong sa iyo na maunawaan ang mga posibleng mga problema na maaari mong nakakaharap. Una, maaari mong subukang isipin ang ideal dataset para sa iyong problema at ang ihambing na sa dataset na iyong ginagamit. Paano ang mga ito ay katulad at kung paano ang mga ito ay iba't-ibang? Kung hindi mo mangolekta ng iyong data sa iyong sarili, may mga malamang na maging pagkakaiba sa pagitan ng kung ano ang gusto mo at kung ano ang mayroon kang. Ngunit, kailangan mong magpasya kung ang mga pagkakaiba ay menor de edad o major.
Pangalawa, tandaan na ang isang tao na nilikha at na nakolekta ang iyong data para sa ilang kadahilanan. Dapat mong subukan upang maunawaan ang kanilang pangangatwiran. Ang ganitong uri ng reverse-engineering ay maaaring makatulong sa iyo na makilala ang mga posibleng problema at biases sa iyong repurposed data.
Walang iisang pinagkasunduan kahulugan ng "malaki data", ngunit maraming mga kahulugan tila mag-focus sa ang 3 Vs: (eg, volume, iba't-ibang, at bilis Japec et al. (2015) ). Sa halip na tumututok sa mga katangian ng ang data, ang aking mga kahulugan ay nakatutok more sa kung bakit ang data ay nilikha.
Aking pagsasama ng pamahalaan administrative data sa loob ng kategorya ng malaking data ay isang bit unusually. Ang iba na may ginawa kasong ito, isama Legewie (2015) , Connelly et al. (2016) , at Einav and Levin (2014) . Para sa karagdagang tungkol sa halaga ng pamahalaan administrative data para sa pananaliksik, tingnan Card et al. (2010) , Taskforce (2012) , at Grusky, Smeeding, and Snipp (2015) .
Para sa isang tanawin ng administrative pananaliksik mula sa loob ng pamahalaan statistical system, lalo na ang US Census Bureau, tingnan Jarmin and O'Hara (2016) . Para sa isang haba ng libro paggamot ng mga administrative records pananaliksik sa Statistics Sweden, tingnan Wallgren and Wallgren (2007) .
Sa kabanatang ito, ako ay dagli kumpara sa isang tradisyunal na survey tulad ng General Social Survey (GSS) sa isang social pinagmulan ng data ng media tulad ng Twitter. Para sa isang ganap at maingat na paghahambing sa pagitan ng tradisyunal na mga survey at social media data, tingnan Schober et al. (2016) .
Ang mga 10 na mga katangian ng malaking data ay nai-inilarawan sa isang iba't ibang mga iba't-ibang paraan sa pamamagitan ng isang iba't ibang mga iba't ibang mga may-akda. Pagsusulat na naiimpluwensyahan ang aking pag-iisip sa mga isyung ito ay kinabibilangan ng: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , at Goldstone and Lupyan (2016) .
Sa buong kabanatang ito, Ko na ginamit ang terminong digital traces, na sa palagay ko ay medyo neutral. Isa pang popular na kataga para sa mga digital traces ay digital footprints (Golder and Macy 2014) , ngunit bilang Hal Abelson, Ken Ledeen, at Harry Lewis (2008) point out, ang isang mas angkop na kataga ay marahil digital fingerprints. Kapag lumikha ka ng footprints, ikaw ay may kamalayan ng kung ano ang nangyayari at ang iyong mga yapak ay hindi maaaring pangkalahatan ay maaaring traced sa iyo nang personal. Ang parehong ay hindi tunay na para sa iyong mga digital traces. Sa katunayan, ikaw ay hindi umaalis traces sa lahat ng oras tungkol sa kung aling ka ng napakakaunting kaalaman. At, bagaman ang mga ito traces walang ang iyong pangalan sa mga ito, sila ay madalas na ma-link pabalik sa iyo. Sa ibang salita, ang mga ito ay higit pa tulad ng fingerprints: invisible at personal na.
malaki
Para sa karagdagang sa kung bakit malaking dataset, render statistical pagsusulit may problemang, tingnan Lin, Lucas, and Shmueli (2013) at McFarland and McFarland (2015) . Ang mga isyu ay dapat na humantong sa mga mananaliksik upang tumutok sa mga praktikal na kabuluhan sa halip na kahalagahang pang-istatistika.
Always-on
Kapag isinasaalang-alang laging-on data, ito ay mahalaga upang isaalang-alang kung ikaw ay paghahambing ng ang eksaktong parehong mga tao sa paglipas ng panahon o kung ikaw ay paghahambing ng ilang mga pagbabago ng grupo ng mga tao; tingnan ang halimbawa, Diaz et al. (2016) .
Non-reaktibo
Ang isang klasikong libro sa di-reaktibo hakbang ay Webb et al. (1966) . Ang mga halimbawa sa aklat pre-date ang mga digital na edad, ngunit ang mga ito ay pa rin nag-iilaw. Para sa mga halimbawa ng mga tao ang pagbabago ng kanilang pag-uugali dahil sa pagkakaroon ng mass surveillance, tingnan Penney (2016) at Brayne (2014) .
kulang
Para sa karagdagang sa record linkage, tingnan Dunn (1946) at Fellegi and Sunter (1969) (makasaysayang) at Larsen and Winkler (2014) (modernong). Katulad nilapitan na rin ang binuo sa computer science sa ilalim ng mga pangalan tulad ng data deduplication, halimbawa identification, pangalan matching, i-duplicate detection, at dobleng record detection (Elmagarmid, Ipeirotis, and Verykios 2007) . Mayroon ding mga privacy pagpepreserba diskarte upang i-record linkage na hindi nangangailangan ng sa pagpapadala ng personal na nakakapagpakilalang impormasyon (Schnell 2013) . Facebook din ay bumuo ng isang magpatuloy na mag-link ang kanilang mga talaan sa pag-uugali ng pagboto; ito ay ginawa upang suriin ang isang eksperimento na kukunin ko na sabihin sa iyo ang tungkol sa Kabanata 4 (Bond et al. 2012; Jones et al. 2013) .
Para sa higit sa validity tayuan, tingnan Shadish, Cook, and Campbell (2001) , Kabanata 3.
hindi mararating
Para sa higit sa AOL search log debacle, tingnan Ohm (2010) . Nag-aalok ko ng payo tungkol sa partnering sa mga kumpanya at mga pamahalaan sa Kabanata 4 kapag ilarawan ko eksperimento. Ang bilang ng mga may-akda na ipinahayag alalahanin tungkol sa pananaliksik na umaasa sa hindi mararating ng data, tingnan ang Huberman (2012) at boyd and Crawford (2012) .
Isang mabuting paraan para sa unibersidad mananaliksik upang kumuha ng data access ay upang gumana sa isang kumpanya bilang isang makulong o pagbisita researcher. Sa karagdagan sa pagpapagana ng access sa data, ang prosesong ito ay makakatulong din sa mga researcher matuto nang higit pa tungkol sa kung paano ang data ay nilikha, kung saan ay mahalaga para sa pagtatasa.
Non-kinatawan
Non-representativeness ay isang pangunahing problema para sa mga mananaliksik at mga pamahalaan na nais upang gumawa ng mga pahayag tungkol sa isang buong populasyon. Ito ay mas mababa ng pag-aalala para sa mga kumpanya na karaniwang nakatutok sa kanilang mga gumagamit. Para sa karagdagang sa kung paano isinasaalang-alang Statistics Netherlands ang isyu ng non-representativeness ng negosyo malaki data, tingnan Buelens et al. (2014) .
Sa Kabanata 3, kukunin ko na ilarawan sampling at kuru-kuro sa mas higit na detalye. Kahit na data ay non-kinatawan, sa ilalim ng ilang mga kundisyon, maaari sila ay tinimbang upang makabuo ng magandang pagtatantya.
Pag-anod ng
System drift ay napakahirap upang makita ang mula sa labas. Gayunman, ang MovieLens proyekto (tinalakay pa sa Chapter 4) ay tumakbo para sa higit sa 15 taon sa pamamagitan ng isang akademikong research group. Samakatuwid, sila ay dokumentado at ibinahagi impormasyon tungkol sa mga paraan na ang sistema ay may nagbago sa paglipas ng panahon at kung paano ito ay maaaring makaapekto sa pag-aaral (Harper and Konstan 2015) .
Ang isang bilang ng mga iskolar ay may nakatutok sa naaanod na sa Twitter: Liu, Kliman-Silver, and Mislove (2014) at Tufekci (2014) .
algorithm confounded
Ako unang narinig ang salitang "algorithm napahiya" na ginagamit ng Jon Kleinberg sa isang talk. Ang pangunahing ideya sa likod ng performativity ay na ang ilang mga social theories agham ay "engine ay hindi camera" (Mackenzie 2008) . Iyon ay, ang mga ito ay aktwal hugis ng mundo sa halip na lamang makuha ito.
marumi
Governmental statistical ahensiya tumawag data paglilinis, statistical data sa pag-edit. De Waal, Puts, and Daas (2014) ilarawan statistical techniques data editing na binuo para sa data ng survey at suriin kung saan lawak ang mga ito ay naaangkop sa malaking pinagkukunan ng data, at Puts, Daas, and Waal (2015) nagtatanghal ng ilan sa mga parehong mga ideya para sa isang mas pangkalahatang madla.
Para sa ilang halimbawa ng pag-aaral na nakatutok sa spam sa Twitter, Clark et al. (2016) at Chu et al. (2012) . Sa wakas, Subrahmanian et al. (2016) na naglalarawan ng mga resulta ng DARPA Twitter bot Hamon.
sensitive
Ohm (2015) review naunang pananaliksik sa mga ideya ng mga sensitibong impormasyon at nag-aalok ng isang multi-factor test. Ang apat na mga kadahilanan siya ay nagmumungkahi ay ang mga: ang posibilidad ng pinsala; posibilidad ng pinsala; pagkakaroon ng isang kompidensyal na relasyon; at kung ang mga panganib sumasalamin majoritarian alalahanin.
Ni Farber pag-aaral ng taxi sa New York ay batay sa isang mas maagang pag-aaral ng Camerer et al. (1997) na ginamit ng tatlong iba't ibang mga convenience samples ng papel trip forms sheet-paper na ginagamit ng mga driver upang i-record oras ng simula trip, oras ng pagtatapos, at pamasahe. Ito nang mas maaga pag-aaral natagpuan na ang mga driver ay tila na maging target earners: sila nagtrabaho nang mas kaunti sa araw na kung saan ang kanilang mga sahod ay mas mataas.
Kossinets and Watts (2009) ay nakatutok sa ang mga pinagmulan ng homophily sa mga social network. Tingnan Wimmer and Lewis (2010) para sa isang iba't ibang mga diskarte sa parehong problema na kung saan ay gumagamit ng data mula sa Facebook.
Sa kasunod na trabaho, Hari at mga kasamahan ay may karagdagang ginalugad online censorship sa China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Para sa isang kaugnay na diskarte sa pagsukat online censorship sa China, tingnan Bamman, O'Connor, and Smith (2012) . Para sa higit sa statistical pamamaraan na tulad ng isa na ginagamit sa King, Pan, and Roberts (2013) upang matantya ang damdamin ng mga 11 milyong mga post, tingnan Hopkins and King (2010) . Para sa higit sa supervised pag-aaral, tingnan ang James et al. (2013) (less teknikal) at Hastie, Tibshirani, and Friedman (2009) (more teknikal).
Forecasting ay isang malaking bahagi ng pang-industriya data agham (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Isang uri ng pagtataya na karaniwang ginagawa sa pamamagitan ng mga social mga mananaliksik ay demographic forecasting, halimbawa Raftery et al. (2012) .
Google Flu Trends ay hindi ang unang proyekto upang gamitin ang data ng paghahanap upang nowcast influenza pagkalat. Sa katunayan, ang mga mananaliksik sa Estados Unidos (Polgreen et al. 2008; Ginsberg et al. 2009) at Sweden (Hulth, Rydevik, and Linde 2009) ay natagpuan na ang ilang mga termino para sa paghahanap (halimbawa, "flu") hinulaang national public health surveillance data bago ito ay inilabas. Sa dakong huli maraming, maraming iba pang mga proyekto ay may tried sa gumamit ng digital data trace para sa sakit surveillance detection, tingnan Althouse et al. (2015) para sa isang pagsusuri.
Bilang karagdagan sa paggamit ng mga digital data trace upang mahulaan kinalabasan kalusugan, nagkaroon din ng isang malaking halaga ng mga trabaho na ba ang Twitter data upang mahulaan ang kinalabasan ng halalan; para sa mga review makita Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), at Huberty (2015) .
Paggamit ng data sa paghahanap sa predicting influenza pagkalat at paggamit ng Twitter data upang mahulaan elections ay parehong mga halimbawa ng paggamit ng ilang mga uri ng mga digital na bakas upang mahulaan ilang mga uri ng kaganapan sa mundo. Mayroong isang malaking bilang ng mga pag-aaral na ito ay may pangkalahatang istraktura. Table 2.5 nagsasama ng isang ilang mga iba pang mga halimbawa.
Digital trace | kinalabasan | banggit |
---|---|---|
kaba | Box office kita ng pelikula sa US | Asur and Huberman (2010) |
Search logs | Ang mga benta ng mga pelikula, musika, mga libro, at mga video game sa US | Goel et al. (2010) |
kaba | Dow Jones Industrial Average (US stock market) | Bollen, Mao, and Zeng (2011) |
Ang journal PS Political Science ay nagkaroon ng isang panayam sa malaking data, pananahilan hinuha, at pormal na teorya, at Clark and Golder (2015) summarizes bawat contribution. Ang journal pamamaraan ng National Academy of Sciences ng Estados Unidos ng Amerika ay nagkaroon ng isang panayam sa pananahilan hinuha at malaki data, at Shiffrin (2016) summarizes bawat contribution.
Sa mga tuntunin ng natural na mga eksperimento, Dunning (2012) ay nagbibigay ng isang mahusay na haba ng libro paggamot. Para sa karagdagang sa paggamit ng Vietnam draft lottery bilang isang natural na eksperimento, tingnan Berinsky and Chatfield (2015) . Para pamamaraang machine learning na pagtatangka upang awtomatikong matuklasan natural na mga eksperimento sa loob ng malaking pinagkukunan ng data, tingnan ang Jensen et al. (2008) at Sharma, Hofman, and Watts (2015) .
Sa mga tuntunin ng pagtutugma, para sa isang maasahin sa mabuti pagsusuri, tingnan ang Stuart (2010) , at upang maging pesimista pagsusuri makita Sekhon (2009) . Para sa higit sa pagtutugma bilang isang uri ng pruning, tingnan Ho et al. (2007) . Para sa mga aklat na nagbibigay ng mahusay na paggamot ng pagtutugma, tingnan Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , at Imbens and Rubin (2015) .