Jeden druh pozorovania, ktorý nie je zahrnutý v tejto kapitole, je etnografia. Viac informácií o etnografii v digitálnych priestoroch nájdete v Boellstorff et al. (2012) a viac o etnografii v zmiešaných digitálnych a fyzických priestoroch, pozri Lane (2016) .
Neexistuje jednotná definícia konsenzu "veľké údaje", ale mnohé definície sa zdajú byť zamerané na "3 Vs": objem, rozmanitosť a rýchlosť (napr. Japec et al. (2015) ). Pozri De Mauro et al. (2015) na preskúmanie definícií.
Moje zahrnutie vládnych administratívnych údajov do kategórie veľkých údajov je trochu nezvyčajné, hoci aj iní tak urobili, vrátane Legewie (2015) , Connelly et al. (2016) a Einav and Levin (2014) . Viac informácií o hodnote administratívnych administratívnych údajov pre výskum nájdete v dokumente Card et al. (2010) , Adminstrative Data Taskforce (2012) a Grusky, Smeeding, and Snipp (2015) .
Z hľadiska administratívneho výskumu z Jarmin and O'Hara (2016) štatistického systému, najmä amerického sčítania ľudu, pozri Jarmin and O'Hara (2016) . Na zaobchádzanie s výskumom administratívnych záznamov v Štatistickom Wallgren and Wallgren (2007) Švédsko pozri Wallgren and Wallgren (2007) .
V tejto kapitole stručne porovnávam tradičný prieskum, akým je napríklad Všeobecný sociálny prieskum (GSS) so zdrojom sociálnych médií, ako je napríklad Twitter. Podrobné a dôkladné porovnanie medzi tradičnými prieskumami a údajmi o sociálnych médiách nájdete v Schober et al. (2016) .
Tieto desať charakteristík veľkých údajov bolo popísané rôznymi spôsobmi rôznymi autormi rôznymi spôsobmi. Písanie, ktoré ovplyvnilo moje myslenie v týchto otázkach, zahŕňa Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) a Goldstone and Lupyan (2016) .
V celej tejto kapitole používam pojem digitálne stopy , ktorý je podľa mňa pomerne neutrálny. Ďalším populárnym termínom pre digitálne stopy sú digitálne stopy (Golder and Macy 2014) , ale ako poukázali Hal Abelson, Ken Ledeen a Harry Lewis (2008) , vhodnejším termínom sú pravdepodobne digitálne odtlačky prstov . Keď vytvárate stopy, ste si vedomí toho, čo sa deje a vaše stopy nemôžu byť vo všeobecnosti vysledované s vami osobne. To isté sa nevzťahuje na digitálne stopy. V skutočnosti opúšťate stopy po celú dobu, o ktorých máte veľmi málo vedomostí. A napriek tomu, že tieto stopy nemajú vaše meno, môžu byť často spojené s vami. Inými slovami, sú viac ako odtlačky prstov: neviditeľné a osobne identifikujúce.
Viac informácií o tom, prečo veľké množiny údajov spôsobujú problematické štatistické testy, pozri M. Lin, Lucas, and Shmueli (2013) a McFarland and McFarland (2015) . Tieto problémy by mali vedúcich výskumníkov zamerať skôr na praktický význam než na štatistickú významnosť.
Ďalšie informácie o tom, ako Raj Chetty a kolegovia získali prístup k daňovým záznamom, nájdete v Mervis (2014) .
Veľké množiny údajov môžu tiež vytvárať výpočtové problémy, ktoré sú vo všeobecnosti mimo možností jedného počítača. Preto výskumníci, ktorí robia výpočty na rozsiahlych súboroch údajov, často rozširujú prácu na mnoho počítačov, čo sa niekedy nazýva paralelné programovanie . Pre úvod do paralelného programovania, najmä jazyka nazvaného Hadoop, pozri Vo and Silvia (2016) .
Pri posudzovaní údajov vždy je dôležité zvážiť, či porovnávate presne tých istých ľudí v čase, alebo či porovnávate niektorú meniacu sa skupinu ľudí. pozri napríklad Diaz et al. (2016) .
Klasická kniha o nereaktívnych opatreniach je Webb et al. (1966) . Príklady v tejto knihe predchádzajú digitálnemu veku, ale stále sú osvietené. Príklady ľudí, ktorí zmenili svoje správanie kvôli prítomnosti masového sledovania, sa nachádzajú v Penney (2016) a Brayne (2014) .
Reaktivita úzko súvisí s tým, čo výskumníci nazývajú dopytové efekty (Orne 1962; Zizzo 2010) a Hawthorne efekt (Adair 1984; Levitt and List 2011) .
Pre viac informácií o spojení pozri Dunn (1946) a Fellegi and Sunter (1969) (historický) a Larsen and Winkler (2014) (moderný). Podobné prístupy boli vyvinuté aj v oblasti počítačovej vedy pod názvami ako deduplikácia údajov, identifikácia inštancií, priraďovanie názvov, duplicitná detekcia a detekcia duplicitných záznamov (Elmagarmid, Ipeirotis, and Verykios 2007) . Existujú aj prístupy zachovávania súkromia na zaznamenávanie prepojení, ktoré nevyžadujú prenos osobne identifikujúcich informácií (Schnell 2013) . Spoločnosť Facebook tiež vytvorila proces prepojenia svojich záznamov s volebným správaním; to bolo vykonané s cieľom vyhodnotiť experiment, o ktorom vám poviem v kapitole 4 (Bond et al. 2012; Jones et al. 2013) .
Viac informácií o platnosti konštruktu nájdete v kapitole 3 Shadish, Cook, and Campbell (2001) .
Viac informácií o debakle denníka vyhľadávania AOL nájdete v článku Ohm (2010) . Ponúkam vám rady týkajúce sa partnerstva so spoločnosťami a vládami v kapitole 4, keď opisujem experimenty. Viacerí autori vyjadrili obavy v súvislosti s výskumom, ktorý sa spolieha na nedostupné údaje, pozri Huberman (2012) a boyd and Crawford (2012) .
Jeden dobrý spôsob, ako pre univerzitnú výskumníci získať prístup k dátam je pracovať v spoločnosti, ako stážista alebo hosťujúci vedec. Okrem povolenie prístupu k dátam, tento proces bude tiež pomáhať výskumník sa dozvedieť viac o tom, ako boli dáta vytvorená, čo je dôležité pre analýzu.
Pokiaľ ide o získanie prístupu k vládnym údajom, Mervis (2014) diskutuje o tom, ako Raj Chetty a jeho kolegovia získali prístup k daňovým záznamom používaným pri výskume sociálnej mobility.
Viac o histórii "reprezentatívnosti" ako konceptu pozri Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) a Kruskal and Mosteller (1980) .
Moje súhrny práce snehu a práce Doll a Hill boli stručné. Viac informácií o snehovej práci o cholere pozri Freedman (1991) . Viac informácií o Britskej lekárskej štúdii nájdete v Doll et al. (2004) a Keating (2014) .
Mnohí vedci sa prekvapia, keď zistia, že hoci Doll a Hill zhromaždili údaje od lekárov a lekárov do 35 rokov, úmyselne tieto údaje nepoužili v prvej analýze. Ako tvrdili: "Pretože rakovina pľúc je relatívne zriedkavá u žien a mužov mladších ako 35 rokov, je nepravdepodobné, že by sa v týchto skupinách získali užitočné údaje už niekoľko rokov. V tejto predbežnej správe sme preto obmedzili našu pozornosť na mužov vo veku 35 rokov a viac. " Rothman, Gallacher, and Hatch (2013) , ktorý má provokatívny názov" Prečo reprezentatívnosť by sa mala vyhnúť ", všeobecnejšie argumentujú pre hodnotu úmyselné vytváranie nereprezentatívnych údajov.
Nereprezentatívnosť je hlavným problémom pre výskumníkov a vlády, ktoré chcú robiť vyhlásenia o celej populácii. To je menej dôležité pre spoločnosti, ktoré sa zvyčajne zameriavajú na svojich používateľov. Ďalšie informácie o tom, ako štatistika Holandsko považuje otázku nereprezentatívnosti podnikov za veľké údaje, pozri Buelens et al. (2014) .
Príklady výskumníkov, ktorí vyjadrujú obavu z nereprezentatívnej povahy veľkých zdrojov údajov, pozri boyd and Crawford (2012) , K. Lewis (2015b) a Hargittai (2015) .
Podrobnejšie porovnanie cieľov sociálnych prieskumov a epidemiologického výskumu nájdete v dokumente Keiding and Louis (2016) .
Ďalšie informácie o pokusoch použiť Twitter na generalizáciu voličov mimo výberu, najmä prípadu z nemeckých volieb v roku 2009, pozri Jungherr (2013) a Jungherr (2015) . Následne po práci Tumasjan et al. (2010) výskumníci po celom svete použili chytľavé metódy - ako je použitie analýzy sentimentu na rozlíšenie medzi pozitívnymi a negatívnymi zmienkami strán - s cieľom zlepšiť schopnosť údajov zo služby Twitter predpovedať rôzne druhy volieb (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Tu je návod, ako Huberty (2015) zhrnul výsledky týchto pokusov predpovedať voľby:
"Všetky známe prognostické metódy založené na sociálnych médiách zlyhali, keď boli vystavené požiadavkám skutočného predvídavého predpovedania volieb. Tieto zlyhania sa zdajú byť dôsledkom základných vlastností sociálnych médií, a nie metodických alebo algoritmických ťažkostí. Stručne povedané, sociálne médiá neposkytujú a pravdepodobne nikdy neposkytujú stabilný, nezaujatý a reprezentatívny obraz voličov; a užitočné vzorky sociálnych médií nemajú dostatok údajov na odstránenie týchto problémov po hoc. "
V kapitole 3 opíšem odber vzoriek a odhady oveľa podrobnejšie. Aj za predpokladu, že údaje nie sú reprezentatívne, môžu byť za určitých podmienok vyvážené, aby poskytli dobré odhady.
Systém drift je veľmi ťažké vidieť zvonka. Projekt MovieLens (diskutovaný viac v kapitole 4) však pracuje viac ako 15 rokov akademická výskumná skupina. Takto dokázali zdokumentovať a zdieľať informácie o tom, ako sa systém časom vyvíjal a ako to môže mať dopad na analýzu (Harper and Konstan 2015) .
Niekoľko vedcov sa zameralo na posun v službe Twitter: Liu, Kliman-Silver, and Mislove (2014) a Tufekci (2014) .
Jeden prístup k riešeniu posunu obyvateľstva je vytvoriť skupinu užívateľov, ktorá umožňuje výskumníkom študovať rovnakých ľudí v čase, pozri Diaz et al. (2016) .
Počula som prvý termín "algoritmicky zmätený", ktorý používal Jon Kleinberg v rozprávaní, ale bohužiaľ nepamätám, kedy alebo kde sa hovorilo. Prvýkrát, keď som videl ten pojem v tlači, bol v Anderson et al. (2015) , čo je zaujímavá diskusia o tom, ako algoritmy, ktoré používajú zoznamovacie stránky, by mohli komplikovať schopnosť výskumníkov využívať údaje z týchto webových stránok na štúdium sociálnych preferencií. Túto obavu nastolil K. Lewis (2015a) v reakcii na Anderson et al. (2014) .
Okrem Facebooku Twitter tiež odporúča ľuďom, aby ich používatelia mohli sledovať na základe myšlienky triadického zatvárania; pozri Su, Sharma, and Goel (2016) . Takže úroveň triadického zatvárania na Twitteru je kombináciou nejakej ľudskej tendencie k trojradovému uzatvoreniu a nejakej algoritmickej tendencii podporovať triadické uzavretie.
Pre viac o výkonnosti - najmä o myšlienke, že niektoré teórie sociálnych vied sú "motormi nie kamerami" (tj tvarujú svet skôr než len opisujú) - pozri Mackenzie (2008) .
Štátne štatistické agentúry volajú údaje na čistenie štatistických údajov . De Waal, Puts, and Daas (2014) opisujú techniky na spracovanie štatistických údajov vyvinuté pre údaje z prieskumov a skúmajú rozsah, v akom sú použiteľné na veľké zdroje údajov a Puts, Daas, and Waal (2015) prezentujú niektoré rovnaké myšlienky všeobecnejšie publikum.
Prehľad sociálnych robotov pozri Ferrara et al. (2016) . Niektoré príklady štúdií zameraných na vyhľadávanie spamu v službe Twitter sa nachádzajú v Clark et al. (2016) a Chu et al. (2012) . Nakoniec, Subrahmanian et al. (2016) opisujú výsledky DARPA Twitter Bot Challenge, masovej spolupráce určenej na porovnanie prístupov na detekciu robotov na Twitteri.
Ohm (2015) hodnotí predchádzajúci výskum o myšlienke citlivých informácií a ponúka test s viacerými faktormi. Štyri faktory, ktoré navrhuje, sú rozsah poškodenia, pravdepodobnosť poškodenia, prítomnosť dôverného vzťahu a to, či riziko odráža majoritné obavy.
Farberova štúdia taxíkov v New Yorku bola založená na skoršej štúdii, ktorú Camerer et al. (1997) ktorý použil tri rôzne komfortné vzorky papierových výliskov. Táto skoršia štúdia zistila, že vodiči sa zdajú byť cieľovými príjemcami: menej pracovali v dňoch, keď boli ich mzdy vyššie.
V ďalšej práci King a kolegovia ďalej skúmali online cenzúru v Číne (King, Pan, and Roberts 2014, [@king_how_2016] ) . Pre súvisiaci prístup k meraniu online cenzúry v Číne pozri Bamman, O'Connor, and Smith (2012) . Viac informácií o štatistických metódach, ako je ten, ktorý sa použil v King, Pan, and Roberts (2013) na odhad sentimentu 11 miliónov príspevkov, pozri Hopkins and King (2010) . Viac informácií o vzdelávaní pod dohľadom pozri James et al. (2013) (menej technický) a Hastie, Tibshirani, and Friedman (2009) (technickejší).
Prognóza je veľká časť vedy o priemyselných údajoch (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Jedným z typov prognóz, ktoré obyčajne robia výskumní pracovníci v sociálnej oblasti, je demografická prognóza; pozri napríklad Raftery et al. (2012) .
Google Chrípkové trendy nebol prvým projektom, ktorý používal údaje vyhľadávania na prevalenciu chrípky nowcast. V skutočnosti výskumní pracovníci v Spojených štátoch (Polgreen et al. 2008; Ginsberg et al. 2009) a Švédsko (Hulth, Rydevik, and Linde 2009) zistili, že niektoré hľadané výrazy (napr. pred uvoľnením. Následne sa veľa ďalších projektov pokúsilo použiť digitálne stopové údaje na detekciu choroby; pozri Althouse et al. (2015) na preskúmanie.
Okrem používania digitálnych údajov o sledovaní na predpovedanie výsledkov v oblasti zdravia sa vďaka údajom zo služby Twitter dalo aj obrovské množstvo práce na predpovedanie výsledkov volieb. pre recenzie pozri Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kapitola 7) a Huberty (2015) . Aktualizácia ekonomických ukazovateľov, ako je hrubý domáci produkt (HDP), je tiež bežná v centrálnych bankách, pozri Bańbura et al. (2013) . tabuľka 2.8 obsahuje niekoľko príkladov štúdií, ktoré používajú nejaký druh digitálnej stopy na predpovedanie nejakej udalosti na svete.
Digitálna stopa | výsledok | citácie |
---|---|---|
cvrlikání | Príjmy filmov z kín v USA | Asur and Huberman (2010) |
Vyhľadávacie denníky | Predaj filmov, hudby, kníh a videohier v USA | Goel et al. (2010) |
cvrlikání | Dow Jones Industrial Average (americký akciový trh) | Bollen, Mao, and Zeng (2011) |
Sociálne médiá a denníky vyhľadávania | Prieskumy sentimentu investorov a akciových trhov v Spojených štátoch, Veľkej Británii, Kanade a Číne | Mao et al. (2015) |
Vyhľadávacie denníky | Prevalencia horúčky dengue v Singapure a Bangkoku | Althouse, Ng, and Cummings (2011) |
Napokon, Jon Kleinberg a kolegovia (2015) poukázali na to, že prognostické problémy spadajú do dvoch jemne odlišných kategórií a že sociálni vedci majú tendenciu sústrediť sa na jednu a ignorovať druhú. Predstavte si jedného tvorcu politík, zavolám jej Anna, ktorá čelí suchu a musí sa rozhodnúť, či si najme šaman, aby urobil dážďový tanec, aby zvýšil možnosť dažďa. Iný tvorca politík, nazývam ju Betty, sa musí rozhodnúť, či si vezme dáždnik do práce, aby sa vyhýbal mokrému cestovaniu. Anna aj Betty môžu lepšie rozhodnúť, ak chápu počasie, ale potrebujú poznať rôzne veci. Anna musí pochopiť, či dážď tanec spôsobuje dážď. Betty na druhej strane nemusí chápať nič o kauzalite; potrebuje presnú prognózu. Sociálni vedci sa často zameriavajú na problémy, ako je ten, s ktorým čelí Anna - ktorú Kleinberg a jeho kolegovia nazývajú "problémy s dážďovými tancami" - pretože ide o otázky príčinnosti. Otázky, ako je tá, s ktorou sa stretáva Betty - ktorú Kleinberg a kolegovia nazývajú politické problémy "ako dáždnik" - môžu byť tiež veľmi dôležité, ale od sociálnych výskumníkov sa venuje oveľa menej pozornosti.
Časopis PS Political Science mal sympózium o veľkých údajoch, príčinných záveroch a formálnej teórii a Clark and Golder (2015) zhrnuli každý príspevok. V časopise zboru Národnej akadémie vied Spojených štátov amerických sa uskutočnilo sympózium o príčinných záveroch a veľkých údajoch a Shiffrin (2016) zhŕňa každý príspevok. V prípade strojových prístupov, ktoré sa pokúšajú automaticky objaviť prirodzené experimenty vo vnútri veľkých zdrojov údajov, pozri Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) a Sharma, Hofman, and Watts (2016) .
Pokiaľ ide o prirodzené experimenty, Dunning (2012) poskytuje úvodnú knihu o dĺžke liečby s mnohými príkladmi. Pre skeptický pohľad na prirodzené experimenty pozri Rosenzweig and Wolpin (2000) (ekonomika) alebo Sekhon and Titiunik (2012) (politická veda). Deaton (2010) a Heckman and Urzúa (2010) tvrdia, že zameranie sa na prirodzené experimenty môže viesť vedcov k tomu, aby sa zamerali na odhad nedôležitých kauzálnych účinkov; Imbens (2010) tieto argumenty Imbens (2010) s optimistickejším pohľadom na hodnotu prirodzených experimentov.
Pri opise toho, ako by výskumník mohol ísť z odhadu efektu navrhovania na účinok podávania, opísal som techniku nazývanú inštrumentálne premenné . Imbens and Rubin (2015) vo svojich kapitolách 23 a 24 poskytujú ako príklad úvod a používajú návrh lotérie. Účinok vojenskej služby na zlozvykov sa niekedy nazýva priemerný kauzálny účinok (CAcE) a niekedy aj lokálny priemerný účinok liečby (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) a Bollen (2012) ponúkajú prehľad o používaní inštrumentálnych premenných v politických vedách, ekonomike a sociológii a Sovey and Green (2011) poskytuje "čitateľský kontrolný zoznam" hodnotenie štúdií pomocou inštrumentálnych premenných.
Ukazuje sa, že lotéria v roku 1970 nebola v skutočnosti náhodne rozdelená; existovali malé odchýlky od čistej náhodnosti (Fienberg 1971) . Berinsky and Chatfield (2015) tvrdia, že táto malá odchýlka nie je podstatne dôležitá a diskutuje o dôležitosti správne vykonanej randomizácie.
Čo sa týka zhody, pozri Stuart (2010) za optimistický prehľad a Sekhon (2009) za pesimistický prehľad. Viac informácií o zaradení ako druhu prerezávania nájdete v Ho et al. (2007) . Nájdenie jednej perfektnej zhody pre každú osobu je často ťažké a to prináša množstvo zložitostí. Po prvé, ak presné zápasy nie sú k dispozícii, vedci musia rozhodnúť, ako merať vzdialenosť medzi dvoma jednotkami a ak je daná vzdialenosť dostatočne blízko. Druhá zložitosť vzniká vtedy, ak výskumníci chcú v každej skupine liečených skupín použiť viaceré zápalky, pretože to môže viesť k presnejším odhadom. Obe tieto otázky, ako aj iné, sú podrobne popísané v kapitole 18 Imbens and Rubin (2015) . Pozri tiež časť II ( ??? ) .
Pozri Dehejia and Wahba (1999) na príklad, kde Dehejia and Wahba (1999) metódy boli schopné produkovať odhady podobné tým z randomizovaného kontrolovaného experimentu. Ale pozri Arceneaux, Gerber, and Green (2006) a Arceneaux, Gerber, and Green (2010) na príklady, kde metódy zhody nedokázali reprodukovať experimentálnu referenčnú hodnotu.
Rosenbaum (2015) a Hernán and Robins (2016) ponúkajú ďalšie rady na objavovanie užitočných porovnaní vo veľkých zdrojoch údajov.