Yon kalite obsèvasyon ki pa enkli nan chapit sa a se etnik. Pou plis enfòmasyon sou etnik nan espas dijital, gade Boellstorff et al. (2012) , ak pou plis sou etnikografi nan espas melanje dijital ak fizik, gade Lane (2016) .
Pa gen okenn definisyon konsansis sèl nan "gwo done," men anpil definisyon sanble yo konsantre sou "3 Vs" la: volim, varyete, ak vitès (egzanp, Japec et al. (2015) ). Gade De Mauro et al. (2015) pou yon revizyon definisyon.
Enklizyon mwen nan done gouvènman administratif nan kategori a nan done gwo se yon ti jan ki ra, byenke lòt moun yo te tou te fè ka sa a, ki gen ladan Legewie (2015) , Connelly et al. (2016) , ak Einav and Levin (2014) . Pou plis enfòmasyon sou valè done gouvènman administratif la pou rechèch, gade Card et al. (2010) , Adminstrative Data Taskforce (2012) , ak Grusky, Smeeding, and Snipp (2015) .
Pou yon gade nan rechèch administratif nan andedan sistèm estatistik gouvènman an, patikilyèman US Census Bureau la, gade Jarmin and O'Hara (2016) . Pou yon tretman liv-longè nan rechèch la administratif dosye nan Estatistik Syèd, gade Wallgren and Wallgren (2007) .
Nan chapit la, mwen yon ti tan konpare yon sondaj tradisyonèl tankou Sondaj jeneral sosyal (GSS) ak yon sous medya sosyal tankou Twitter. Pou yon konpreyansyon bon jan ak anpil prekosyon ant sondaj tradisyonèl ak done medya sosyal, gade Schober et al. (2016) .
Sa yo karakteristik 10 nan done gwo yo te dekri nan yon varyete de diferan fason pa yon varyete de otè diferan. Ekri ki enfliyanse panse mwen sou pwoblèm sa yo gen ladan Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ak Goldstone and Lupyan (2016) .
Pandan tout chapit sa a, mwen te itilize tèm tras dijital yo , ki mwen panse ke se relativman net. Yon lòt tèm popilè pou tras dijital se mak pye dijital (Golder and Macy 2014) , men kòm Hal Abelson, Ken Ledeen, ak Harry Lewis (2008) pwen soti, yon tèm ki pi apwopriye se pwobableman dwèt anprent dijital . Lè ou kreye mak pye, ou konnen sa k ap pase e mak pye ou pa ka jeneralman ka remonte ou pèsonèlman. Menm bagay la tou se pa vre pou tras dijital ou. An reyalite, w ap kite tras tout tan tout tan an sou kote ou gen anpil konesans. Epi, byenke sa yo tras pa gen non ou sou yo, yo ka souvan dwe lye tounen nan ou. Nan lòt mo, yo plis tankou anprent dwèt: envizib ak pèsonèlman idantifye.
Pou plis enfòmasyon sou rezon ki fè gwo ansan yo rann tès estatistik pwoblèm, gade M. Lin, Lucas, and Shmueli (2013) ak McFarland and McFarland (2015) . Pwoblèm sa yo ta dwe mennen chèchè yo konsantre sou siyifikasyon pratik olye ke estatistik siyifikasyon.
Pou plis enfòmasyon sou kijan Raj Chetty ak kòlèg li yo jwenn aksè nan dosye taks yo, gade Mervis (2014) .
Gwo ansanbl kapab kreye tou pwoblèm enfòmatik ke yo jeneralman pi lwen pase kapasite yo nan yon òdinatè sèl. Se poutèt sa, chèchè fè kalkil sou ansasaj gwo souvan gaye travay la sou òdinatè anpil, yon pwosesis pafwa yo rele paralèl pwogramasyon . Pou yon entwodiksyon nan pwogram paralèl, an patikilye yon lang ki rele Hadoop, gade Vo and Silvia (2016) .
Lè w ap konsidere toujou-sou done, li enpòtan pou w konsidere si ou konpare egzak moun yo menm sou tan oswa si ou konpare kèk moun ki chanje gwoup; gade pou egzanp, Diaz et al. (2016) .
Yon liv klasik sou mezi ki pa reyaktif se Webb et al. (1966) . Egzanp yo nan liv sa a prevwa laj dijital la, men yo toujou limine. Pou egzanp moun ki chanje konpòtman yo paske yo te prezans nan siveyans mas, wè Penney (2016) ak Brayne (2014) .
Reyaktivite se pre relasyon ak sa ki chèchè rele efè demann (Orne 1962; Zizzo 2010) ak efè a Hawthorne (Adair 1984; Levitt and List 2011) .
Pou plis sou koneksyon dosye, gade Dunn (1946) ak Fellegi and Sunter (1969) (istorik) ak Larsen and Winkler (2014) (modèn). Apwòch ki sanble yo tou te devlope nan syans òdinatè anba non tankou done deduplikasyon, egzanp idantifikasyon, non matche, deteksyon diplikata, ak kopi deteksyon dosye (Elmagarmid, Ipeirotis, and Verykios 2007) . Genyen tou konsèy sou vi prive ki konsève nan koneksyon lyen ki pa mande pou transmisyon nan enfòmasyon ki idantifye pèsonèlman (Schnell 2013) . Facebook tou te devlope yon pwosesis pou konekte dosye yo nan konpòtman pou vote; sa a te fè evalye yon eksperyans ke mwen pral di ou sou nan chapit 4 (Bond et al. 2012; Jones et al. 2013) .
Pou plis sou konstwi validite, gade chapit 3 nan Shadish, Cook, and Campbell (2001) .
Pou plis enfòmasyon sou fim nan boutèy AOL rechèch, gade Ohm (2010) . Mwen ofri konsèy sou patenarya ak konpayi yo ak gouvènman yo nan chapit 4 lè mwen dekri eksperyans. Yon nimewo de otè yo te eksprime enkyetid sou rechèch ki depann sou done aksesib, gade Huberman (2012) ak boyd and Crawford (2012) .
Yon bon fason pou chèchè inivèsite a jwenn done aksè se nan travay nan yon konpayi kòm yon estajyè oubyen vizite chèchè. Anplis de sa nan pèmèt done aksè, pwosesis sa a pral tou pou ede chèchè a aprann plis sou ki jan done a te kreye, ki se enpòtan pou analiz.
An tèm de jwenn aksè nan done gouvènman an, Mervis (2014) diskite sou ki jan Raj Chetty ak kòlèg li yo jwenn aksè nan dosye taks yo itilize nan rechèch yo sou mobilite sosyal.
Pou plis enfòmasyon sou istwa "reprezantativite" tankou yon konsèp, gade Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , ak Kruskal and Mosteller (1980) .
Rezime mwen an nan travay la nan nèj ak travay la nan poupe ak Hill te kout. Pou plis sou travay nèj lan sou kolera, gade Freedman (1991) . Pou plis enfòmasyon sou etid la doktè britanik yo wè Doll et al. (2004) ak Keating (2014) .
Anpil chèchè yo pral etone yo aprann ke byenke poupe ak Hill te ranmase done ki sòti nan doktè fi ak nan doktè ki poko gen 35, yo entansyonèlman pa t 'sèvi ak done sa a nan premye analiz yo. Kòm yo te diskite: "Depi kansè nan poumon se relativman ra nan fanm ak gason ki poko gen 35, figi itil yo fasil yo dwe jwenn nan gwoup sa yo pou kèk ane rive. Nan Rapò sa a preliminè, nou oblije mete aksan sou atansyon nou sou gason ki gen laj 35 ak pi wo a. " Rothman, Gallacher, and Hatch (2013) , ki gen tit pwovokan" Poukisa reprezantativite yo ta dwe evite, "fè yon agiman pi jeneral pou valè entansyonèlman kreye done ki pa reprezantan.
Nonrepresentativeness se yon gwo pwoblèm pou chèchè ak gouvènman ki vle fè deklarasyon sou yon popilasyon tout moun. Sa a se mwens nan yon enkyetid pou konpayi yo, ki se tipikman konsantre sou itilizatè yo. Pou plis enfòmasyon sou ki jan Estatistik Netherlands konsidere pwoblèm lan nan nonrepresentativeness nan done gwo biznis, gade Buelens et al. (2014) .
Pou egzanp chèchè ki eksprime enkyetid sou nati ki pa reprezantan nan gwo done gwo, gade boyd and Crawford (2012) , K. Lewis (2015b) , ak Hargittai (2015) .
Pou yon konparezon pi detaye sou objektif yo nan sondaj sosyal ak rechèch epidemyoloji, gade Keiding and Louis (2016) .
Pou plis enfòmasyon sou tantativ pou itilize Twitter fè jeneralizasyon sou-echantiyon sou votè yo, espesyalman ka a nan eleksyon 2009 Alman an, al gade Jungherr (2013) ak Jungherr (2015) . Apre sa nan travay Tumasjan et al. (2010) chèchè atravè lemond te itilize metòd fancier tankou tankou analiz santiman pou distenge ant pozitif ak negatif mansyone pati yo pou yo kapab amelyore kapasite done Twitter yo pou yo prevwa yon varyete diferan kalite eleksyon yo (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Men kouman Huberty (2015) rezime rezilta tantativ sa yo pou prevwa eleksyon yo:
"Tout metòd prévisions li te ye ki baze sou medya sosyal yo te echwe lè yo te sibi demand demand vrèman kap prévue elektoral la. Sa yo echèk parèt yo dwe akòz pwopriyete fondamantal nan medya sosyal, olye ke difikilte metodolojik oswa algorithmik. Nan ti bout tan, medya sosyal pa fè sa, ak pwobableman pa janm pral, ofri yon ki estab, san patipri, foto reprezantan elektora a; ak echantiyon konvenyans nan medya sosyal manke done ase ranje pwoblèm sa yo pòs hoc. "
Nan chapit 3, mwen pral dekri echantiyon ak estimasyon nan pi plis detay. Menm si done yo ki pa reprezante, nan sèten kondisyon yo, yo ka filaplon yo pwodwi estimasyon bon.
Flote sistèm trè difisil pou wè deyò. Sepandan, pwojè a MovieLens (diskite plis nan chapit 4) te kouri pou plis pase 15 ane pa yon gwoup rechèch akademik. Se konsa, yo te kapab dokimante ak pataje enfòmasyon sou fason ke sistèm lan te evolye sou tan ak ki jan sa a ta ka enpak sou analiz (Harper and Konstan 2015) .
Yon nimewo de savan te konsantre sou drift nan Twitter: Liu, Kliman-Silver, and Mislove (2014) ak Tufekci (2014) .
Yon apwòch pou fè fas ak drift popilasyon an se kreye yon panèl nan itilizatè, ki pèmèt chèchè yo etidye moun yo menm sou tan, al gade Diaz et al. (2016) .
Premye fwa, mwen te tande tèm "algorithmically confounded" Jon Jonberg te itilize nan yon diskou, men malerezman, mwen pa sonje lè oswa kote yo te pale. Premye fwa ke mwen te wè tèm nan nan ekri ak lèt detache te nan Anderson et al. (2015) , ki se yon diskisyon enteresan sou jan algoritm yo itilize pa sit date ta ka konplike kapasite chèchè yo sèvi ak done ki sòti nan sit entènèt sa yo nan etid preferans sosyal. Enkyetid sa a te ogmante pa K. Lewis (2015a) pou reponn ak Anderson et al. (2014) .
Anplis Facebook, Twitter tou rekòmande pou moun pou itilizatè yo swiv ki baze sou lide nan fèmti triyad; Gade Su, Sharma, and Goel (2016) . Se konsa, nivo nan fèmti triyad nan Twitter se yon konbinezon de tandans imen an nan direksyon triyak fèmti ak kèk tandans algorithmik ankouraje triyak fèmti.
Pou plis sou pèfòmans-an patikilye lide ke gen kèk teyori syans sosyal yo se "motè pa kamera" (sètadi, yo fòme mond lan olye ke jis dekri li) - wè Mackenzie (2008) .
Gouvènman ajans estatistik yo rele done netwayaj estatistik koreksyon done . De Waal, Puts, and Daas (2014) dekri teknik statistik done koreksyon devlope pou done sondaj yo epi egzaminen ki kote yo aplikab nan gwo done done yo, ak Puts, Daas, and Waal (2015) prezante kèk nan ide yo menm pou yon odyans pi jeneral.
Pou yon BECA de bots sosyal, gade Ferrara et al. (2016) . Pou kèk egzanp nan syans konsantre sou jwenn Spam nan Twitter, gade Clark et al. (2016) ak Chu et al. (2012) . Finalman, Subrahmanian et al. (2016) dekri rezilta DARPA Twitter Bot Challenge, yon kolaborasyon mas ki fèt pou konpare apwòch pou detekte bots sou Twitter.
Ohm (2015) revize pi bonè rechèch sou lide a nan enfòmasyon sansib epi li ofri yon tès milti-faktè. Kat faktè yo li pwopoze yo se grandè mal, pwobabilite pou mal, prezans yon relasyon konfidansyèl, ak si wi ou non risk la reflete enkyetid majoritè.
Etid Farber a nan taksi nan New York te baze sou yon etid pi bonè pa Camerer et al. (1997) ki itilize twa echantiyon konvenyans diferan nan fèy papye vwayaj. Etid sa a pi bonè te jwenn ke chofè te sanble yo dwe sib travayè: yo te travay mwens nan jou kote salè yo te pi wo.
Nan travay ki vin apre, wa ak kòlèg li yo te eksplore plis sou entènèt sansi nan Lachin (King, Pan, and Roberts 2014, [@king_how_2016] ) . Pou yon apwòch ki gen rapò ak mezi sou entènèt sansi nan peyi Lachin, gade Bamman, O'Connor, and Smith (2012) . Pou plis enfòmasyon sou metòd estatistik tankou yon sèl ki itilize nan King, Pan, and Roberts (2013) pou estime santiman 11 milyon posts, gade Hopkins and King (2010) . Pou plis sou aprantisaj sipèvize, al gade James et al. (2013) (mwens teknik) ak Hastie, Tibshirani, and Friedman (2009) (plis teknik).
Forecasting se yon gwo pati nan syans endistriyèl done (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Yon kalite prévisions ki souvan fè pa chèchè sosyal se demografik prévisions; gade, pou egzanp, Raftery et al. (2012) .
Tandans Grip Google pa t 'premye pwojè pou itilize done rechèch pou prévalence grip kounyeya. An reyalite, chèchè nan Etazini yo (Polgreen et al. 2008; Ginsberg et al. 2009) ak Syèd (Hulth, Rydevik, and Linde 2009) te jwenn ke tèm rechèch sèten (pa egzanp, "grip") prevwa nasyonal sante piblik siveyans done anvan li te libere. Imedyatman anpil, anpil lòt pwojè te eseye sèvi ak done tras dijital pou deteksyon siveyans maladi; gade Althouse et al. (2015) pou yon revizyon.
Anplis de sa nan sèvi ak done tras dijital pou predi rezilta sante yo, te genyen tou yon kantite lajan gwo travay ki te itilize done Twitter pou predi rezilta eleksyon an; pou revizyon wè Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (chapit 7), ak Huberty (2015) . Lansman nan endikatè ekonomik, tankou pwodwi brit domestik (GDP), se tou komen nan bank santral, wè Bańbura et al. (2013) . Tablo 2.8 gen ladan kèk egzanp nan etid ki itilize kèk kalite tras dijital pou predi kèk kalite evènman nan mond lan.
Digital tras | Rezilta | Sitasyon |
---|---|---|
Revni biwo Box nan sinema nan peyi Etazini | Asur and Huberman (2010) | |
Search logs | Komèsyal nan sinema, mizik, liv, ak videyo jwèt nan peyi Etazini an | Goel et al. (2010) |
Dow Jones Endistriyèl mwayèn (US mache dechanj) | Bollen, Mao, and Zeng (2011) | |
Medya sosyal ak mòso bwa rechèch | Sondaj nan santiman envestisè ak mache estòk nan Etazini, Wayòm Ini, Kanada, ak Lachin | Mao et al. (2015) |
Search logs | Prevalans nan Lafyèv Dengue nan Singapore ak Bangkok | Althouse, Ng, and Cummings (2011) |
Finalman, Jon Kleinberg ak kòlèg yo (2015) te fè remake ke prévisions pwoblèm tonbe nan de, kategori subtile diferan ak syantis sosyal yo te tandans yo konsantre sou yon sèl ak inyore lòt la. Imajine yon makè politik, mwen pral rele Anna l ', ki moun ki ap fè fas a yon sechrès epi yo dwe deside si anboche yon chajman fè yon dans lapli ogmante chans pou lapli. Yon lòt makè politik, mwen pral rele Betty li, dwe deside si yo pran yon parapli nan travay pou fè pou evite ap resevwa mouye sou wout la lakay yo. Tou de Anna ak Betty ka pran yon desizyon pi bon si yo konprann move tan, men yo bezwen konnen bagay diferan. Anna bezwen konprann si dans lapli a lakòz lapli. Betty, sou lòt men an, pa bezwen konprann anyen sou kozalite; li jis bezwen yon pwevwa egzat. Chèchè sosyal souvan konsantre sou pwoblèm sa yo tankou youn nan fè fas a pa Anna-ki Kleinberg ak kòlèg yo rele "lapli dans-renmen" pwoblèm politik-yo paske yo te enplike kesyon nan kozalite. Kesyon tankou yon sèl fè fas a pa Betty-ki Kleinberg ak kòlèg yo rele "parapli-renmen" pwoblèm politik-yo ka byen enpòtan tou, men yo te resevwa anpil mwens atansyon nan chèchè sosyal.
Jounal PS Syans Politik la te gen yon senpozyòm sou done gwo, enferans kozatif, ak teyori fòmèl, ak Clark and Golder (2015) rezime chak kontribisyon. Pwosedi jounal nan Akademi Nasyonal Syans nan Etazini nan Amerik te gen yon senpozyòm sou enferans kozatif ak gwo done, ak Shiffrin (2016) rezime chak kontribisyon. Pou apwòch aprantisaj machin ki eseye otomatikman dekouvri eksperyans natirèl andedan gwo sous done, gade Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , ak Sharma, Hofman, and Watts (2016) .
An tèm de eksperyans natirèl, Dunning (2012) bay yon entwodiksyon, liv-longè tretman ak anpil egzanp. Pou yon gade dout nan eksperyans natirèl, gade Rosenzweig and Wolpin (2000) (ekonomi) oswa Sekhon and Titiunik (2012) (syans politik). Deaton (2010) ak Heckman and Urzúa (2010) diskite ke konsantre sou eksperyans natirèl ka mennen chèchè yo konsantre sou estimasyon efè enpòtan kozatif; Imbens (2010) kontè sa yo agiman ak yon gade pi optimis nan valè eksperyans natirèl la.
Lè w dekri ki jan yon chèchè te kapab soti nan estimasyon efè a ke yo te tire nan efè a nan sèvi, mwen te dekri yon teknik ki rele varyab enstrimantal . Imbens and Rubin (2015) , nan chapit yo 23 ak 24, bay yon entwodiksyon epi sèvi ak lotri a bouyon kòm yon egzanp. Se efè a nan sèvis militè sou konpliman ki pafwa yo rele efè a konplè mwayèn kozatif (CACE) epi pafwa efè lokal tretman an mwayèn (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , ak Bollen (2012) ofri revi de itilizasyon varyab varyab enstitisyonèl nan syans politik, ekonomi, ak sosyoloji, ak Sovey and Green (2011) bay yon lis verifikasyon lektè pou evalye syans lè l sèvi avèk varyab enstrimantal.
Li sanble ke lotri a bouyon 1970 pa t ', an reyalite byen owaza; te gen ti devyasyon soti nan o aza pi (Fienberg 1971) . Berinsky and Chatfield (2015) diskite ke sa a devyasyon ti se pa enpòtan anpil epi diskite sou enpòtans ki genyen nan o aza òganize.
An tèm de matche, gade Stuart (2010) pou yon revizyon optimis, ak Sekhon (2009) pou yon revizyon pesimism. Pou plis sou matche kòm yon kalite koupe, gade Ho et al. (2007) . Jwenn yon sèl matche ak pafè pou chak moun se souvan difisil, ak sa a entwodui yon nimewo nan complexités. Premyèman, lè alimantasyon egzak yo pa disponib, chèchè yo bezwen deside kouman yo mezire distans ki genyen ant de inite ak si yon distans bay se ase pre. Yon dezyèm konpleksite rive si chèchè vle itilize alimèt miltip pou chak ka nan gwoup tretman an, depi sa a ka mennen nan estimasyon plis presi. Tou de nan pwoblèm sa yo, osi byen ke lòt moun, yo dekri an detay nan chapit 18 nan Imbens and Rubin (2015) . Gade tou Pati II nan ( ??? ) .
Al gade nan Dehejia and Wahba (1999) pou yon egzanp kote matche metòd yo te kapab pwodwi estimasyon menm jan ak moun ki sòti nan yon eksperyans kontwole owaza. Men, gade Arceneaux, Gerber, and Green (2006) ak Arceneaux, Gerber, and Green (2010) pou egzanp kote matche metòd echwe pou repwodui yon referans eksperimantal.
Rosenbaum (2015) ak Hernán and Robins (2016) ofri lòt konsèy pou dekouvri konparezon itil nan sous gwo done yo.