Kini nga seksyon mao ang gihimo aron gamiton ingon nga usa ka reperensiya, inay kay sa pagbasa ingon sa usa ka asoy.
Usa ka matang sa obserbar nga wala gilakip niini nga kapitulo mao ang ethnography. Alang sa dugang pa ethnography sa digital nga luna makakita Boellstorff et al. (2012) , ug alang sa dugang sa ethnography sa nagkasagol nga digital ug pisikal nga luna makakita sa Lane (2016) .
Kon kamo repurposing data, adunay duha ka mental limbong nga makatabang kanimo nga makasabut sa mga posible nga mga problema nga mahimo mo maatubang. Una, kamo mahimo sa pagsulay sa paghunahuna sa mga sulundon nga panid alang sa inyong problema ug ang itandi ngadto sa panid nga imong gigamit. Sa unsa nga paagi sila mga susama nga ug sa unsa nga paagi sila mga lain-laing mga? Kon kamo wala pagkolekta sa inyong mga data sa imong kaugalingon, adunay lagmit nga kalainan tali sa unsay imong gusto ug unsa kamo. Apan, ikaw sa paghukom kon kini nga mga kalainan sa mga menor de edad o mayor nga.
Ikaduha, hinumdumi nga ang usa ka tawo gilalang ug nakolekta sa inyong mga datos alang sa pipila ka rason. Ikaw kinahanglan nga maningkamot sa pagsabut sa ilang mga pangatarongan. Kini nga matang sa Reverse-engineering makatabang sa pag-ila nga kamo posible nga mga problema ug mga pagpihig sa imong repurposed data.
Walay ka consensus kahulugan sa "dagko nga impormasyon", apan daghan depinisyon daw sa pag-focus sa 3 Ber: (pananglitan, gidaghanon, matang, ug tulin, kabad Japec et al. (2015) ). Imbes mag-focus sa mga kinaiya sa mga data, ang akong kahulugan nagpokus sa ngano nga ang data sa gilalang.
Akong paglakip sa gobyerno administratibo nga data sa sulod sa kategoriya sa dagkong data mao ang usa ka gamay nga talagsaon. Ang uban nga naghimo sa niini nga kaso, naglakip sa Legewie (2015) , Connelly et al. (2016) , ug ang Einav and Levin (2014) . Alang sa dugang mahitungod sa bili sa gobyerno administratibo nga data alang sa research, tan-awa Card et al. (2010) , Taskforce (2012) , ug ang Grusky, Smeeding, and Snipp (2015) .
Kay sa usa ka panglantaw sa administratibo nga research gikan sa sulod sa gobyerno statistical nga sistema, ilabi sa US Census Bureau, tan-awa Jarmin and O'Hara (2016) . Kay sa usa ka gitas-on nga basahon pagtambal sa mga administratibo nga mga rekord research sa Statistics Sweden, tan-awa Wallgren and Wallgren (2007) .
Sa kapitulo, ako sa mubo itandi sa usa ka tradisyonal nga survey sama sa General Social Survey (GSS) sa usa ka social tinubdan sa data media sama sa Twitter. Kay sa usa ka bug-os ug mag-amping pagtandi tali sa tradisyonal nga mga survey ug sa social media sa data, tan-awa Schober et al. (2016) .
Kini nga mga 10 nga mga kinaiya sa dagko nga impormasyon nga gihulagway diha sa usa ka matang sa lain-laing mga mga paagi pinaagi sa usa ka matang sa lain-laing mga mga awtor. Pagsulat nga nakaimpluwensya sa akong panghunahuna sa niini nga mga isyu naglakip sa: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ug ang Goldstone and Lupyan (2016) .
Sa tibuok niini nga kapitulo, ako gigamit na ang termino digital mga timailhan, nga sa akong hunahuna mao ang medyo neyutral. Ang laing popular nga termino alang sa digital timailhan mao ang digital tunob (Golder and Macy 2014) , apan ingon nga Hal Abelson, Ken Ledeen, ug Harry Lewis (2008) itudlo, usa ka labaw nga tukma nga termino mao ang lagmit nga digital fingerprints. Kon maghimo ka tunob, ikaw nahibalo sa kon unsay nagakahitabo ug sa imong mga tunob dili sa kinatibuk-masubay ngadto sa kaninyo sa personal. Ang sama nga dili tinuod alang sa imong digital timailhan. Sa pagkatinuod, kamo pagbiya sa timailhan sa tanan nga mga panahon nga kamo adunay gamay kaayo nga kahibalo. Ug, bisan tuod kini nga mga timailhan dili ang imong ngalan kanila, sila sagad nga nalambigit sa imo. Sa lain nga mga pulong, sila mas sama sa fingerprints: dili makita ug personal nga pag-ila sa.
Big
Alang sa dugang nganong dako datasets, magahatag statistical pagsulay problemado, tan-awa Lin, Lucas, and Shmueli (2013) ug sa McFarland and McFarland (2015) . Kini nga mga isyu kinahanglan nga mogiya sa mga tigdukiduki sa pag-focus sa mga praktikal nga kahulogan kay sa statistical nga kahulogan.
Kanunay-sa
Sa diha nga naghunahuna sa kanunay-sa data, kini mao ang importante nga binagbinagon kon kamo pagtandi sa eksaktong sama nga mga tawo sa panahon o kon kamo pagtandi sa pipila usab-usab nga grupo sa mga tawo; tan-awa ang alang sa panig-ingnan, Diaz et al. (2016) .
Non-sumbalik
Ang usa ka classic nga basahon sa mga dili-sumbalik mga lakang mao ang Webb et al. (1966) . Ang mga ehemplo diha sa basahon pre-petsa sa digital edad, apan sila sa gihapon ag. Alang sa mga ehemplo sa mga tawo pag-usab sa ilang kinaiya tungod sa presensya sa mga masa sa surveillance, tan-awa Penney (2016) ug sa Brayne (2014) .
dili kompleto
Alang sa dugang nga rekord kalambigitan, tan-awa Dunn (1946) ug sa Fellegi and Sunter (1969) (sa kasaysayan) ug Larsen and Winkler (2014) (modernong). Ang susamang miduol usab naugmad sa computer science sa ilalum sa mga ngalan sama sa mga data deduplication, Pananglitan sa pag-ila, sa ngalan sa matching, pagsundog detection, ug usban rekord detection (Elmagarmid, Ipeirotis, and Verykios 2007) . Adunay usab privacy pagpreserbar pamaagi sa pagrekord kalambigitan nga wala nagkinahanglan sa transmission sa personal nga pag-ila sa impormasyon (Schnell 2013) . Facebook usab og usa ka mopadayon sa pagsumpay sa ilang mga rekord sa kinaiya pagbotar; kini gibuhat aron sa pagtimbang-timbang sa usa ka eksperimento nga ako mosulti kaninyo mahitungod sa sa Kapitulo 4 (Bond et al. 2012; Jones et al. 2013) .
Alang sa dugang kabalido maghimo og, tan-awa Shadish, Cook, and Campbell (2001) , Kapitulo 3.
inaccessible
Alang sa dugang sa AOL search log nga kapakyasan, tan-awa Ohm (2010) . ihalad ko tambag mahitungod sa pakigtambayayong sa mga kompanya ug mga gobyerno sa Kapitulo 4 sa diha nga paghulagway ako eksperimento. Ang usa ka gidaghanon sa mga awtor nagpahayag kabalaka mahitungod sa research nga nagsalig sa inaccessible mga data, tan-awa Huberman (2012) ug sa boyd and Crawford (2012) .
Usa ka maayo nga paagi alang sa unibersidad mga tigdukiduki sa pag-angkon sa data access mao ang sa pagtrabaho sa usa ka kompanya sa ingon nga usa ka intern o visiting tigdukiduki. Dugang pa sa makaabag nga data sa access, kini nga proseso usab sa pagtabang sa mga tigdukiduki nga makakat-on og dugang mahitungod sa kon sa unsang paagi nga ang data sa gibuhat, nga mao ang importante alang sa pagtuki.
Non-representante
Non-representativeness mao ang usa ka mayor nga problema sa mga tigdukiduki ug mga gobyerno nga gusto sa paghimo sa mga pahayag mahitungod sa usa ka bug-os nga populasyon. Kini mao ang dili kaayo sa kabalaka alang sa mga kompanya nga kasagaran naka-focus sa ilang mga tiggamit. Alang sa dugang kon sa unsang paagi giisip Statistics Netherlands ang isyu sa mga dili-representativeness sa negosyo dagko nga impormasyon, tan-awa Buelens et al. (2014) .
Sa Kapitulo 3, ko paghulagway sa sampling ug pagpabili sa mas detalye. Bisan kon ang mga datos sa mga non-representante, ubos sa pipila ka mga kahimtang, sila mahimong gitimbang sa paghimo sa maayo nga mga banabana.
maanod
System drift kaayo lisud nga sa pagtan-aw gikan sa gawas. Apan, ang mga MovieLens proyekto (gihisgutan labaw pa sa Kapitulo 4) nga modagan alang sa labaw pa kay sa 15 ka tuig pinaagi sa usa ka academic nga grupo research. Busa, sila documented ug mipakigbahin sa impormasyon mahitungod sa dalan nga sistema nga milambo sa panahon ug sa unsang paagi kini mahimo epekto pagtuki (Harper and Konstan 2015) .
Ang usa ka gidaghanon sa mga eskolar nga naka-focus sa drift sa Twitter: Liu, Kliman-Silver, and Mislove (2014) ug sa Tufekci (2014) .
Algorithmically pagalibugon
Ako unang nakadungog sa termino nga "algorithmically pagalibugon" nga gigamit ni Jon Kleinberg sa usa ka pakigpulong. Ang nag-unang ideya sa luyo performativity mao nga ang pipila ka sosyal nga mga teoriya siyensiya mao ang "makina dili cameras" (Mackenzie 2008) . Nga mao, nga sila sa pagkatinuod porma sa kalibutan kay sa lang pagdakop niini.
Hugaw
Sa gobyerno statistical nga mga ahensya sa pagtawag sa data pagpanglimpyo, statistical data sa pag-usab. De Waal, Puts, and Daas (2014) paghulagway sa statistical mga teknik sa data pag-usab og alang sa data sa survey ug susihon nga gidak-on nga sila magamit sa dagkong mga tinubdan sa data, ug Puts, Daas, and Waal (2015) nagpresentar sa pipila sa sama nga mga ideya alang sa usa ka labaw nga kinatibuk-ang mga mamiminaw.
Alang sa pipila ka mga ehemplo sa mga pagtuon focus sa spam sa Twitter, Clark et al. (2016) ug Chu et al. (2012) . Sa kataposan, Subrahmanian et al. (2016) naghulagway sa mga resulta sa DARPA Twitter Bot Challenge.
sensitibo
Ohm (2015) reviews sa sayo pa sa research sa ideya sa sensitibo nga impormasyon ug nagtanyag sa usa ka multi-butang pagsulay. Ang upat ka mga butang nga iyang hanyag mao ang: ang kalagmitan sa kadaot; kalagmitan sa kadaot; atubangan sa usa ka confidential nga relasyon; ug kon ang risgo pagpamalandong majoritarian kabalaka.
Ni Farber pagtuon sa taxi sa New York gipasukad sa usa ka sayo pa sa pagtuon sa Camerer et al. (1997) nga gigamit sa tulo ka lain-laing mga kasayon sample sa papel nga biyahe nga mga porma sheets-papel nga gigamit sa mga drayber sa pagrekord sa panahon pagsugod biyahe, sa katapusan sa panahon, ug sa pamasahe. Kini sa sayo pa sa pagtuon nga makita nga ang mga drayber daw target earners: sila nagtrabaho dili kaayo sa mga adlaw diin ang ilang mga suhol nga mga mas taas.
Kossinets and Watts (2009) nga naka-focus sa mga sinugdanan sa homophily sa mga social network. Tan-awa ang Wimmer and Lewis (2010) alang sa usa ka lain-laing mga pamaagi sa sa mao gihapon nga problema nga naggamit sa data gikan sa Facebook.
Sa sunod-sunod nga buhat, Hari ug mga kauban sa dugang pa nga gisusi online censorship sa China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Kay sa usa ka may kalabutan nga mga pamaagi sa pagsukod sa online censorship sa China, tan-awa Bamman, O'Connor, and Smith (2012) . Alang sa dugang pa statistical nga mga pamaagi sama sa usa nga gigamit sa King, Pan, and Roberts (2013) sa pagbanabana sa sentimento sa 11 ka milyon haligi, tan-awa Hopkins and King (2010) . Alang sa dugang supervised pagkat-on, tan-awa James et al. (2013) (dili kaayo sa teknikal) ug Hastie, Tibshirani, and Friedman (2009) (nga mas teknikal nga).
Forecasting mao ang usa ka dako nga bahin sa industriya sa data sa siyensiya (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Usa ka matang sa pagpanagna sa nga sagad gibuhat sa sosyal nga mga tigdukiduki mga demographic forecasting, alang sa panig-ingnan Raftery et al. (2012) .
Google Flu Trends dili mao ang unang proyekto sa paggamit sa data search nowcast influenza prevalence. Sa pagkatinuod, ang mga tigpanukiduki sa Estados Unidos (Polgreen et al. 2008; Ginsberg et al. 2009) ug Sweden (Hulth, Rydevik, and Linde 2009) nakakaplag nga ang pipila ka termino search (pananglitan, "flu") gitagna sa nasudnong sa panglawas sa publiko surveillance nga data sa wala pa kini gibuhian. Human sa daghan, daghan pang ubang mga proyekto sa misulay sa paggamit sa digital data sa pagsubay alang sa sakit sa surveillance detection, tan-awa Althouse et al. (2015) alang sa usa ka review.
Dugang pa sa paggamit sa digital data nga pagsubay sa pagtagna sa resulta sa panglawas, adunay usab sa usa ka dako nga kantidad sa buhat sa paggamit sa Twitter sa data sa pagtagna nga resulta sa eleksyon; alang sa mga reviews tan-awa ang Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), ug Huberty (2015) .
Pinaagi sa paggamit sa data sa search pagtagna trangkaso prevalence ug sa paggamit sa Twitter sa data sa pagtagna eleksyon duha mga ehemplo sa paggamit sa pipila ka mga matang sa digital pagsubay sa pagtagna ka matang sa panghitabo sa kalibutan. Adunay usa ka dakong gidaghanon sa mga pagtuon nga adunay niining kinatibuk-gambalay. Table 2.5 naglakip sa usa ka pipila sa ubang mga ehemplo.
digital pagsubay | resulta | citation |
---|---|---|
Kahon sa opisina revenue sa mga salida sa sine sa US | Asur and Huberman (2010) | |
Pangita logs | Sales sa mga salida sa sine, musika, mga libro, ug mga video game sa US | Goel et al. (2010) |
Dow Jones Industrial Average (US stock market) | Bollen, Mao, and Zeng (2011) |
Ang journal PS Political Science may usa ka symposium sa dagko nga impormasyon, causal inference, ug pormal nga teoriya, ug Clark and Golder (2015) summarize sa matag kontribusyon. Ang journal Proceedings sa National Academy sa siyensiya sa Estados Unidos sa Amerika may usa ka symposium sa causal pangagpas ug dagkong data, ug Shiffrin (2016) summarize sa matag kontribusyon.
Sa termino sa mga natural nga eksperimento, Dunning (2012) naghatag og usa ka maayo kaayo nga gitas-on nga basahon pagtambal. Alang sa dugang sa paggamit sa Vietnam draft loterya ingon sa usa ka natural nga eksperimento, tan-awa Berinsky and Chatfield (2015) . Kay pamaagi sa makina sa pagkat-on nga misulay sa awtomatikong pagdiskobre sa natural nga mga eksperimento sa sulod sa dagkong tinubdan sa data, tan-awa Jensen et al. (2008) ug sa Sharma, Hofman, and Watts (2015) .
Sa termino sa matching, alang sa usa ka malaumon nga review, tan-awa Stuart (2010) , ug alang sa usa ka negatibo nga review tan-awa ang Sekhon (2009) . Alang sa dugang sa matching ingon nga usa ka matang sa galab, tan-awa Ho et al. (2007) . Alang sa mga libro nga naghatag sa labing maayo nga mga paagi sa pagtambal sa matching, tan-awa Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ug ang Imbens and Rubin (2015) .