Jeden druh pozorování, který není v této kapitole zahrnut, je etnografie. Další informace o etnografii v digitálních prostorách viz Boellstorff et al. (2012) a více o etnografii ve smíšených digitálních a fyzických prostorech, viz Lane (2016) .
Neexistuje žádná jednotná definice pojmu "velké údaje", ale mnoho definic se zdá být zaměřeno na "3 Vs": objem, rozmanitost a rychlost (např. Japec et al. (2015) ). Viz De Mauro et al. (2015) pro přezkum definic.
Moje zařazení vládních administrativních dat do kategorie velkých dat je trochu neobvyklé, ačkoli jiní také učinili tento případ, včetně Legewie (2015) , Connelly et al. (2016) a Einav and Levin (2014) . Další informace o hodnotě vládních administrativních údajů pro výzkum viz Card et al. (2010) , Adminstrative Data Taskforce (2012) Grusky, Smeeding, and Snipp (2015) Adminstrative Data Taskforce (2012) a Grusky, Smeeding, and Snipp (2015) .
Pro pohled na administrativní výzkum uvnitř vládního statistického systému, zejména amerického sčítání lidu, viz Jarmin and O'Hara (2016) . Knižní zpracování výzkumu administrativních záznamů ve statistice Švédsko viz Wallgren and Wallgren (2007) .
V této kapitole jsem krátce porovnal tradiční průzkum, jako je obecný sociální průzkum (GSS) se zdrojem sociálních médií, jako je Twitter. Pro důkladné a důkladné porovnání tradičních průzkumů a dat sociálních médií viz Schober et al. (2016) .
Tyto deseti charakteristiky velkých dat byly popsány řadou různých autorů různými způsoby. Psaní, které ovlivnilo moje myšlení v těchto otázkách, zahrnuje Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) a Goldstone and Lupyan (2016) .
V této kapitole jsem použil termín digitální stopy , což je podle mého názoru relativně neutrální. Dalším populárním termínem pro digitální stopy jsou digitální stopy (Golder and Macy 2014) , ale jak zdůrazňují Hal Abelson, Ken Ledeen a Harry Lewis (2008) , vhodnější termín je pravděpodobně digitální otisky prstů . Když vytváříte stopy, jste si vědom toho, co se děje, a vaše stopy nelze obecně vysledovat s vámi osobně. Totéž se nevztahuje na vaše digitální stopy. Ve skutečnosti zanecháváte stopy po celou dobu, o kterých máte velmi málo znalostí. A i když tyto stopy nemají na vás jméno, mohou být často spojeny zpět k vám. Jinými slovy, jsou spíš jako otisky prstů: neviditelné a osobní identifikace.
Další informace o tom, proč velké datové soubory způsobují problémy statistických testů, viz M. Lin, Lucas, and Shmueli (2013) a McFarland and McFarland (2015) . Tyto problémy by vedly výzkumníky k tomu, aby se zaměřily spíše na praktický význam než na statistickou významnost.
Další informace o tom, jak Raj Chetty a kolegové získali přístup k daňovým záznamům, viz Mervis (2014) .
Velké datové množiny mohou také vytvářet výpočetní problémy, které jsou obecně mimo možnosti jediného počítače. Výzkumníci, kteří provádějí výpočty na rozsáhlých datových sadách, proto často rozšiřují práci na mnoho počítačů, proces nazývaný někdy i paralelní programování . Pro úvod do paralelního programování, zejména jazyka nazvaného Hadoop, viz Vo and Silvia (2016) .
Při uvažování o datech vždycky je důležité zvážit, zda srovnáváte přesně tytéž lidi v průběhu času nebo zda srovnáváte některou měnící se skupinu lidí; viz například Diaz et al. (2016) .
Klasická kniha o nereaktivních opatřeních je Webb et al. (1966) . Příklady v této knize předcházejí digitálnímu věku, ale stále svítí. Příklady lidí, kteří mění své chování kvůli přítomnosti hromadného dozoru, viz Penney (2016) a Brayne (2014) .
Reaktivita úzce souvisí s tím, co výzkumníci nazývají dopady na poptávku (Orne 1962; Zizzo 2010) a Hawthorne efekt (Adair 1984; Levitt and List 2011) .
Více o záznamu vazby viz Dunn (1946) a Fellegi and Sunter (1969) (historický) a Larsen and Winkler (2014) (moderní). Podobné přístupy byly vyvinuty také v oblasti počítačové vědy pod názvy jako deduplikace dat, identifikace instancí, shoda jmen, duplicitní detekce a detekce duplicitních záznamů (Elmagarmid, Ipeirotis, and Verykios 2007) . Existují také postupy zachování soukromí pro záznam spojení, které nevyžadují přenos osobně identifikujících informací (Schnell 2013) . Společnost Facebook také vyvinula proces propojení svých záznamů s hlasovým chováním; Toto bylo provedeno za účelem vyhodnocení experimentu, o kterém vám budu informovat v kapitole 4 (Bond et al. 2012; Jones et al. 2013) .
Další informace o platnosti konstrukce viz kapitola 3 Shadish, Cook, and Campbell (2001) .
Více informací o debaklu protokolu AOL naleznete v článku Ohm (2010) . Nabízím poradenství ohledně partnerství se společnostmi a vládami v kapitole 4, když popíšu experimenty. Řada autorů vyjádřila obavy z výzkumu, který se spoléhá na nepřístupná data, viz Huberman (2012) a boyd and Crawford (2012) .
Jeden dobrý způsob, jak pro univerzitní výzkumníci získat přístup k datům je pracovat ve společnosti, jako stážista nebo hostující vědec. Kromě povolení přístupu k datům, tento proces bude také pomáhat výzkumník se dozvědět více o tom, jak byla data vytvořena, což je důležité pro analýzu.
Pokud jde o získání přístupu k vládním údajům, Mervis (2014) pojednává o tom, jak Raj Chetty a kolegové získali přístup k daňovým záznamům používaným při výzkumu sociální mobility.
Další informace o historii "reprezentativnosti" jako pojetí viz Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) a Kruskal and Mosteller (1980) .
Moje souhrny práce Sněhu a díla Doll a Hill byly krátké. Více o Snowově práci o choleře viz Freedman (1991) . Další informace o studii britských lékařů viz Doll et al. (2004) a Keating (2014) .
Mnozí vědci se překvapí, když zjistili, že ačkoli Doll a Hill shromáždily údaje od lékařů a lékařů do 35 let, úmyslně tyto údaje v první analýze nevyužily. Jak tvrdí: "Vzhledem k tomu, že rakovina plic je u žen a mužů mladších než 35 let relativně vzácná, v některých skupinách je nepravděpodobné, V této předběžné zprávě jsme tedy omezili naši pozornost na muže ve věku 35 a více let. " Rothman, Gallacher, and Hatch (2013) , který má provokativní titul" Proč se má vyhnout reprezentativnosti ", obecně argumentují pro hodnotu úmyslně vytvářet nereprezentativní údaje.
Nereprezentativnost je hlavním problémem pro výzkumníky a vlády, které chtějí učinit prohlášení o celé populaci. To je méně důležité pro společnosti, které se obvykle zaměřují na své uživatele. Další informace o tom, jak statistické údaje Nizozemsko považují problém nereprezentativnosti obchodních dat za velké, viz Buelens et al. (2014) .
Příklady výzkumníků vyjadřujících znepokojení nad nereprezentativním charakterem velkých datových zdrojů, viz boyd and Crawford (2012) , K. Lewis (2015b) a Hargittai (2015) .
Pro podrobnější srovnání cílů sociálních průzkumů a epidemiologického výzkumu viz Keiding and Louis (2016) .
Další informace o pokusech o využívání Twitteru pro generování výsledků mimo voleb, zejména o případu německých voleb v roce 2009, viz Jungherr (2013) a Jungherr (2015) . Následně po práci Tumasjan et al. (2010) vědci po celém světě používali chytřejší metody - například analýzu sentimentu k rozlišování mezi pozitivními a negativními názory stran - s cílem zlepšit schopnost údajů z Twitteru předvídat různé druhy voleb (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Takhle Huberty (2015) shrnul výsledky těchto pokusů předpovědět volby:
"Všechny známé prognostické metody založené na sociálních médiích selhaly, když byly podrobeny požadavkům skutečné předvídavé předpovědi voleb. Zdá se, že tyto nedostatky jsou spíše důsledkem základních vlastností sociálních médií než metodických nebo algoritmických obtíží. Stručně řečeno, sociální média neposkytují a pravděpodobně nikdy neposkytnou stabilní, nezaujatý a reprezentativní obraz voličů; a pohodlí vzorků sociálních médií postrádají dostatečné údaje k vyřešení těchto problémů post hoc. "
V kapitole 3 podrobněji popíšu vzorkování a odhady. Dokonce i v případě, že údaje nejsou reprezentativní, za určitých podmínek mohou být váženy, aby poskytly dobré odhady.
Systémový posun je velmi těžké vidět zvnějšku. Projekt MovieLens (diskutován více v kapitole 4) však pracuje více než 15 let akademická výzkumná skupina. Mohli tak dokumentovat a sdílet informace o tom, jak se systém časem vyvíjel a jak to může mít vliv na analýzu (Harper and Konstan 2015) .
Řada vědců se soustředila na posun v Twitteru: Liu, Kliman-Silver, and Mislove (2014) a Tufekci (2014) .
Jedním z přístupů k řešení populačního driftu je vytvoření panelu uživatelů, který umožňuje vědcům časem studovat stejné osoby, viz Diaz et al. (2016) .
Poprvé jsem slyšel termín "algoritmicky zmatený" používaný Jonem Kleinbergem v rozhovoru, ale bohužel si nepamatuji, kdy nebo kde byla řeč. Poprvé, co jsem viděl termín v tisku, bylo v Anderson et al. (2015) , což je zajímavá diskuse o tom, jak algoritmy používané seznamovacími místy mohou komplikovat schopnost výzkumných pracovníků využívat údaje z těchto webových stránek ke studiu sociálních preferencí. Tato obava byla vznesena K. Lewis (2015a) v odpovědi na Anderson et al. (2014) .
Vedle Facebooku Twitter také doporučuje lidem, aby se uživatelé řídili na základě myšlenky triadického uzavření; viz Su, Sharma, and Goel (2016) . Takže úroveň triadického uzavření v Twitteru je kombinací nějaké lidské tendence k triadskému uzavření a nějaké algoritmické tendence podporovat triadické uzavření.
Další informace o výkonnosti - zejména myšlenka, že některé teorie společenských věd jsou "motory, nikoliv kamery" (tj. Formují svět spíše než jen popisovat) - viz Mackenzie (2008) .
Vládní statistické úřady volají zpracování údajů o statistických údajích . De Waal, Puts, and Daas (2014) popisují techniky pro zpracování statistických dat vyvinutých pro data průzkumu a zkoumají, do jaké míry jsou použitelné pro velké datové zdroje, a Puts, Daas, and Waal (2015) představují některé ze stejných myšlenek obecnější publikum.
Přehled sociálních robotů viz Ferrara et al. (2016) . Některé příklady studií zaměřených na nalezení spamu ve službě Twitter, viz Clark et al. (2016) a Chu et al. (2012) . Nakonec, Subrahmanian et al. (2016) popisuje výsledky DARPA Twitter Bot Challenge, což je masová spolupráce určená ke srovnání přístupů k detekci robotů na Twitteru.
Ohm (2015) zkoumá dřívější výzkum myšlenky na citlivé informace a nabízí test s více faktory. Čtyři faktory, které navrhuje, jsou rozsah poškození, pravděpodobnost poškození, přítomnost důvěrného vztahu a to, zda riziko odráží majoritní obavy.
Farberova studie o taxi v New Yorku byla založena na dřívější studii, kterou Camerer et al. (1997) které používaly tři různé komfortní vzorky výtisků papíru. Tato dřívější studie zjistila, že řidiči se zdají být cíloví příjemci: méně pracovali v dnech, kdy byly jejich platy vyšší.
V následné práci King a kolegové dále prozkoumali online cenzuru v Číně (King, Pan, and Roberts 2014, [@king_how_2016] ) . Pro související přístup k měření cenzury online v Číně viz Bamman, O'Connor, and Smith (2012) . Další informace o statistických metodách, jako je metoda použitá v King, Pan, and Roberts (2013) aby odhadli sentiment 11 milionů příspěvků, viz Hopkins and King (2010) . Více o supervizovaném učení viz James et al. (2013) (méně technický) a Hastie, Tibshirani, and Friedman (2009) (více technický).
Prognóza je velkou částí vědy o průmyslových datech (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Jeden typ prognóz, který běžně provádí výzkumní pracovníci v sociální oblasti, je demografické prognózy; viz například Raftery et al. (2012) .
Chřipkové trendy Google nebyly prvním projektem, který využíval data vyhledávání k prevalenci chřipky v současné době. Ve skutečnosti výzkumníci ve Spojených státech (Polgreen et al. 2008; Ginsberg et al. 2009) a Švédsko (Hulth, Rydevik, and Linde 2009) zjistili, že některé vyhledávací termíny (např. před uvolněním. Následně se mnoho jiných projektů pokusilo použít digitální stopové údaje pro detekci sledování onemocnění; viz Althouse et al. (2015) .
Navíc k tomu, aby bylo možné předpovědět zdravotní výsledky, bylo využito digitálních stopových dat, které umožnily předvídat výsledky voleb pomocí údajů z Twitteru. pro recenze viz Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kapitola 7) a Huberty (2015) . V centrálních bankách je také běžné používání ekonomických ukazatelů, jako je hrubý domácí produkt (HDP), viz Bańbura et al. (2013) . tabulka 2.8 obsahuje několik příkladů studií, které používají nějaký druh digitální stopy k předpovědi nějakého druhu události na světě.
Digitální trasování | Výsledek | Citace |
---|---|---|
Cvrlikání | Pokladní příjmy z filmů v USA | Asur and Huberman (2010) |
Vyhledávací protokoly | Prodej filmů, hudby, knih a videohier v USA | Goel et al. (2010) |
Cvrlikání | Dow Jones Industrial Average (americký akciový trh) | Bollen, Mao, and Zeng (2011) |
Sociální média a protokoly vyhledávání | Průzkumy sentimentu investorů a akciových trhů ve Spojených státech, ve Spojeném království, v Kanadě a v Číně | Mao et al. (2015) |
Vyhledávací protokoly | Prevalence horečky dengue v Singapuru a Bangkoku | Althouse, Ng, and Cummings (2011) |
Konečně, Jon Kleinberg a kolegové (2015) poukázali na to, že prognostické problémy spadají do dvou kategorií, které jsou poněkud odlišné, a že sociální vědci mají tendenci soustředit se na jednu a ignorovat druhou. Představte si jednoho tvůrce politik, říkám jí Annu, která čelí suchu a musí se rozhodnout, zda si najme šaman, aby dělal déšť tanec, aby se zvýšila možnost deště. Jiný tvůrce politik, který jí říkám Betty, se musí rozhodnout, zda má dát deštník do práce, aby se nemusel mokrý po cestě domů. Anna i Betty mohou lépe rozhodnout, pokud chápou počasí, ale potřebují znát různé věci. Anna potřebuje pochopit, zda déšť tanec způsobuje deště. Betty na druhé straně nemusí chápat nic o kauzalitě; potřebuje přesnou prognózu. Sociální vědci se často zaměřují na problémy, jako je ten, s nímž se setkává Anna - což Kleinberg a jeho kolegové nazývají "problémy s déšťovými tancemi" - protože se jedná o otázky kauzality. Otázky, jako je ten, s kterým se setkává Betty - což Kleinberg a jeho kolegové nazývají "politické problémy" jako "deštník" - mohou být také velmi důležité, ale od sociálních vědců se věnuje mnohem méně pozornosti.
Časopis PS Political Science měl sympozium o velkých datech, kauzální závěr a formální teorii a Clark and Golder (2015) shrnou každý příspěvek. V časopise Proceedings of the National Academy of Sciences ve Spojených státech amerických se konalo symposium o kauzálním závěru a velkých datech a Shiffrin (2016) shrnuje každý příspěvek. Pro přístupy k strojnímu učení, které se pokoušejí automaticky objevovat přirozené experimenty uvnitř velkých datových zdrojů, viz Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) a Sharma, Hofman, and Watts (2016) .
Pokud jde o přirozené experimenty, společnost Dunning (2012) poskytuje úvodní knihu o délce léčby s mnoha příklady. Pro skeptický pohled na přirozené experimenty viz Rosenzweig and Wolpin (2000) (ekonomika) nebo Sekhon and Titiunik (2012) (politická věda). Deaton (2010) a Heckman and Urzúa (2010) argumentují, že zaměřování se na přirozené experimenty může vést výzkumníky k tomu, aby se soustředili na odhad nepodstatných kauzálních efektů; Imbens (2010) tyto argumenty Imbens (2010) s optimistickým pohledem na hodnotu přirozených experimentů.
Při popisu toho, jak by výzkumný pracovník mohl jít z odhadu účinku, že byl navržen k účinkům podávání, popsal jsem techniku nazvanou instrumentální proměnné . Imbens and Rubin (2015) ve svých kapitolách 23 a 24 poskytují úvod a jako příklad používají návrh loterie. Účinky vojenské služby na padlíce se někdy nazývají průměrným kauzálním efektem (CAcE) a někdy i lokálním průměrným léčebným účinkem (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) a Bollen (2012) nabízejí přehledy o využití instrumentálních proměnných v politické vědě, ekonomii a sociologii a Sovey and Green (2011) hodnocení studií pomocí instrumentálních proměnných.
Ukázalo se, že návrh loterie v roce 1970 nebyl ve skutečnosti náhodně rozdělen; existovaly malé odchylky od čisté náhodnosti (Fienberg 1971) . Berinsky and Chatfield (2015) tvrdí, že tato malá odchylka není podstatně důležitá a diskutuje o významu náležitě prováděné randomizace.
Pokud jde o shodu, viz Stuart (2010) za optimistický přehled a Sekhon (2009) za pesimistickou recenzi. Další informace o tom, jak se hodí jako druh prořezávání, viz Ho et al. (2007) . Hledání jediné dokonalé shody pro každého člověka je často obtížné a to přináší řadu složitostí. Za prvé, pokud nejsou přesné zápasy k dispozici, vědci se musí rozhodnout, jak měřit vzdálenost mezi dvěma jednotkami a pokud je daná vzdálenost dostatečně blízko. Druhá složitost nastává tehdy, pokud výzkumníci chtějí použít více zásahů pro každý případ ve skupině léčby, protože to může vést k přesnějším odhadům. Obě tyto otázky, stejně jako další, jsou podrobně popsány v kapitole 18 Imbens and Rubin (2015) . Viz také část II ( ??? ) .
Viz Dehejia and Wahba (1999) pro příklad, kdy odpovídající metody dokázaly produkovat odhady podobné náhodným kontrolovaným experimentům. Ale viz. Arceneaux, Gerber, and Green (2006) a Arceneaux, Gerber, and Green (2010) pro příklady, kdy metody shody nedokázaly reprodukovat experimentální měřítko.
Rosenbaum (2015) a Hernán and Robins (2016) nabízejí další rady pro objevování užitečných srovnání ve velkých zdrojích dat.