Další komentáře

Tato část je určena k použití jako referenční, spíše než aby se číst jako příběh.

  • Úvod (oddíl 2.1)

Jeden druh pozorování, která není zahrnuta v této kapitole je etnografie. Pro více informací o etnografii v digitálních prostorech viz Boellstorff et al. (2012) , a pro více informací o etnografii ve smíšených digitálních a fyzických prostorů vidět Lane (2016) .

  • Zpracování velkých objemů dat (viz kapitola 2.2)

Když jste při využití stávajících dat, existují dva mentální triky, které vám pomohou pochopit možné problémy, které se mohou vyskytnout. Za prvé, můžete se pokusit představit ideální datovou sadu pro váš problém a porovnat, že do datové sady, kterou používáte. Jak jsou podobné a jak se liší? Pokud tomu tak není sbírat vaše data sami, existuje pravděpodobné, že bude rozdíl mezi tím, co chcete a co máte. Ale musíte se rozhodnout, zda tyto rozdíly jsou menší nebo major.

Za druhé, pamatujte, že někdo vytvořil a sbíral data z nějakého důvodu. Měli byste se pokusit pochopit jejich uvažování. Tento druh reverzní inženýrství vám může pomoci identifikovat možné problémy a předsudky ve vašich repurposed dat.

Neexistuje žádná jednotná definice konsensus "big data", ale mnoho definic Zdá se, že se zaměřují na 3 Vs: (např objem, rozmanitost a rychlost Japec et al. (2015) ). Spíše než aby se soustředil na charakteristice dat, moje definice více zaměřuje na to, proč byl vytvořen dat.

Můj zahrnutí vládních administrativních dat uvnitř kategorie zpracování velkých objemů dat je trochu nezvykle. Jiní, kteří učinili tento případ, zahrnují Legewie (2015) , Connelly et al. (2016) , a Einav and Levin (2014) . Pro více informací o hodnotě vládních administrativních dat pro výzkum, viz Card et al. (2010) , Taskforce (2012) , a Grusky, Smeeding, and Snipp (2015) .

Za účelem správního výzkumu zevnitř vládního statistického systému, zejména amerického sčítání lidu Bureau, viz Jarmin and O'Hara (2016) . Pro léčbu knize délky výzkumu administrativních záznamů na statistiku Švédsku, viz Wallgren and Wallgren (2007) .

V kapitole jsem stručně oproti tradičním průzkumu jako General Social Survey (GSS) na zdroj sociálních médií dat, jako je Twitter. Pro důkladné a pečlivé srovnání mezi tradičními průzkumy a data sociálních médií, viz Schober et al. (2016) .

  • Společné charakteristiky zpracování velkých objemů dat (viz kapitola 2.3)

Těchto 10 charakteristiky velkých dat byly popsány v mnoha různými způsoby, podle mnoha různých autorů. Psaní, který ovlivnil mé uvažování o těchto otázkách patří: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , a Goldstone and Lupyan (2016) .

V této kapitole, jsem použil termín digitální stopy, což myslím, že je relativně neutrální. Další populární termín pro digitální stopy jsou digitální stopy (Golder and Macy 2014) , ale jako Hal Abelsona, Ken Ledeen a Harry Lewis (2008) poukázat na to, vhodnější termín je pravděpodobně digitální otisky prstů. Při vytváření stopy, jste si vědomi toho, co se děje a vaše otisky nemohou být obecně vysledovat pro vás osobně. To samé neplatí pro vaše digitální stopy. Ve skutečnosti jste zanechání stop po celou dobu, o které mají velmi málo znalostí. A přestože tyto stopy nemají své jméno na nich, oni mohou často být spojeny zpět k vám. Jinými slovy, oni jsou spíš jako otisky prstů: neviditelné a identifikaci osob.

Velký

Pro více informací o tom, proč velké soubory dat, činí statistické testy problematické, viz Lin, Lucas, and Shmueli (2013) a McFarland and McFarland (2015) . Tyto otázky by měly vést výzkumníky, aby se zaměřují na praktický význam spíše než statistické významnosti.

Vždy na

Při zvažování vždy-na datech, je důležité zvážit, zda jste porovnávání přesně stejné lidi v průběhu času, nebo zda jste porovnávání nějakou měnící skupinu lidí; viz například Diaz et al. (2016) .

Nereaktivní

Klasická kniha o non-reaktivní opatření je Webb et al. (1966) . Příklady v knize antedatují digitálního věku, ale stále jsou poučné. Pro příklady lidí, kteří změní své chování v důsledku přítomnosti hromadný dozor, viz Penney (2016) a Brayne (2014) .

Neúplný

Pro více informací o systému vazeb mezi jednotlivými viz Dunn (1946) a Fellegi and Sunter (1969) (historical) a Larsen and Winkler (2014) (moderní). Podobná přiblížil také byly vyvinuty v informatice pod jmény jako je například deduplikace dat, identifikace například párování jméno, duplicitní detekce a detekce duplicitních záznamů (Elmagarmid, Ipeirotis, and Verykios 2007) . Tam jsou také soukromí chránit přístupy k zaznamenávání propojení, které nevyžadují přenos osobních identifikačních údajů (Schnell 2013) . Facebook také vyvinula pokračovat spojit své záznamy do volebního chování; toto bylo děláno pro vyhodnocení experiment, který Povím ti o v kapitole 4 (Bond et al. 2012; Jones et al. 2013) .

Pro více informací o konstruktové platnosti, viz Shadish, Cook, and Campbell (2001) , kapitola 3.

Nepřístupný

Pro více informací o AOL vyhledávání log debakl, viz Ohm (2010) . I nabízet poradenství o partnerství s firmami a vládami v kapitole 4, když jsem popsal experimenty. Řada autorů vyjádřili obavy výzkumu, který se opírá o nepřístupná data, naleznete v Huberman (2012) a boyd and Crawford (2012) .

Jeden dobrý způsob, jak pro univerzitní výzkumníci získat přístup k datům je pracovat ve společnosti, jako stážista nebo hostující vědec. Kromě povolení přístupu k datům, tento proces bude také pomáhat výzkumník se dozvědět více o tom, jak byla data vytvořena, což je důležité pro analýzu.

Nereprezentativní

Non-reprezentativnost je velkým problémem pro výzkumníky a vlád, kteří si přejí, aby učinil prohlášení o celé populaci. To je méně obav pro společnosti, které jsou obvykle zaměřeny na jejich uživatelů. Pro více informací o tom, jak Statistics Netherlands zabývá otázkou non-reprezentativnosti obchodních velkých dat, viz Buelens et al. (2014) .

V kapitole 3, budu popisovat vzorkování a odhady v mnohem větším detailu. I když údaje nejsou reprezentativní, za určitých podmínek, které mohou být váženy k dobrým odhady.

Drifting

Systém drift je velmi těžké vidět zvenčí. Projekt však MovieLens (podrobněji diskutováno v kapitole 4) byl spuštěn již více než 15 let akademické výzkumné skupiny. Z tohoto důvodu mají zdokumentovány a sdílet informace o způsobu, jakým systém se vyvíjel v průběhu času a jak se tato analýza by mohla ovlivnit (Harper and Konstan 2015) .

Řada vědců se zaměřili na drift v Twitteru: Liu, Kliman-Silver, and Mislove (2014) a Tufekci (2014) .

algoritmicky zmatl

Jsem poprvé slyšel termín "algoritmicky zahanben" Jon Kleinberg použit v rozhovoru. Hlavní myšlenkou performativity je, že některé vědecké teorie sociální jsou "motory nejsou kamery" (Mackenzie 2008) . To znamená, že ve skutečnosti utvářet svět, spíše než jen zachytit jej.

Špinavý

Vládní statistické úřady říkají čištění dat, statistické editaci dat. De Waal, Puts, and Daas (2014) popisuje statistické metody úpravy dat vyvinuté pro údajů průzkumu a prozkoumat, do jaké míry jsou použitelné do velkých zdrojů dat, a Puts, Daas, and Waal (2015) prezentuje některé stejné myšlenky pro obecnější publikum.

Pro některé příklady studií zaměřených na spam v Twitteru, Clark et al. (2016) a Chu et al. (2012) . Konečně, Subrahmanian et al. (2016) popisuje výsledky DARPA Twitter Bot Challenge.

Citlivý

Ohm (2015) recenze dřívější výzkum na myšlence citlivých informací a nabízí test multi-faktor. Tyto čtyři faktory navrhuje, jsou: pravděpodobnost škod; pravděpodobnost škod; Přítomnost důvěrného vztahu; a zda riziko odrážejí většinovým obavy.

  • Počítání věci (§ 2.4.1)

Studie Farber je taxíků v New Yorku bylo založeno na dřívější studie Camerer et al. (1997) která byla použita tři různé vzorky pohodlí papír výletních listů-papírových formulářů řidičů zvyklých na rekordní výlet čas začátku, čas konce, a jízdné. Tato starší studie zjistila, že řidiči se zdálo být cílové příjmy: oni pracovali méně ve dnech, kdy jejich platy byly vyšší.

Kossinets and Watts (2009) byla zaměřena na počátky homophily v sociálních sítích. Viz Wimmer and Lewis (2010) pro jiný přístup ke stejnému problému, který využívá data z Facebooku.

V další práci, král a jeho kolegové dále zkoumány on-line cenzuru v Číně (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Pro příbuzné přístup k měření on-line cenzuru v Číně, viz Bamman, O'Connor, and Smith (2012) . Pro více informací o statistických metod, jako byl použit v King, Pan, and Roberts (2013) pro odhad sentiment 11 milionů pracovních míst, viz Hopkins and King (2010) . Pro více informací o učení s učitelem, viz James et al. (2013) (méně technických) a Hastie, Tibshirani, and Friedman (2009) (více technické).

  • Forecasting (§ 2.4.2)

Forecasting je velká část průmyslových dat vědy (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Jeden typ prognózy, které se běžně provádí sociálních vědců jsou demografické prognózy, například Raftery et al. (2012) .

Google Flu Trends nebyl prvním projektem použít vyhledávání dat nowcast chřipky prevalence. Ve skutečnosti, vědci ve Spojených státech (Polgreen et al. 2008; Ginsberg et al. 2009) a ve Švédsku (Hulth, Rydevik, and Linde 2009) bylo zjištěno, že určité hledané výrazy (např, "chřipka") předpokládaná národní dohled v oblasti veřejného zdraví Data před tím, než byl propuštěn. Následně mnoho, mnoho dalších projektů se pokusili použít digitální data trasování pro detekci dozoru onemocnění, viz Althouse et al. (2015) o přezkoumání.

Kromě použití digitální data trasování předpovídat výsledky v oblasti zdraví, tam byl také obrovské množství práce s využitím data služby Twitter předpovídat výsledky voleb; recenze viz Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kap. 7) a Huberty (2015) .

Použití vyhledávání dat na předpovídání chřipky prevalence a používat Twitter údaje k předpovědi volby jsou oba příklady použití nějaké digitální stopy předvídat nějaké události ve světě. Existuje obrovské množství studií, které mají tuto obecnou strukturu. Tabulka 2.5 obsahuje několik dalších příkladů.

Tabulka 2.5: Částečný seznam studií použít některé digitální stopu předpovědět nějakou událost.
Digitální stopy Výsledek Citace
Cvrlikání Kasovní tržby filmů v USA Asur and Huberman (2010)
hledání protokoly Prodej filmů, hudby, knih a videoher v USA Goel et al. (2010)
Cvrlikání Dow Jones Industrial Average (US akciový trh) Bollen, Mao, and Zeng (2011)
  • Sbližování experimenty (viz kapitola 2.4.3)

Časopis PS Political Science měla uspořádat sympozium o zpracování velkých objemů dat, kauzální inference a formální teorii, a Clark and Golder (2015) shrnuje každý příspěvek. The Journal Proceedings of the National Academy of Sciences Spojených států amerických měl uspořádat sympozium o příčinné odvozování a zpracování velkých objemů dat, a Shiffrin (2016) shrnuje každý příspěvek.

Z hlediska přirozených experimentů, Dunning (2012) poskytuje vynikající léčbu kniha délky. Pro více informací o používání vietnamskou návrh loterii jako přirozený experiment, viz Berinsky and Chatfield (2015) . Pro strojového učení přístupy, které automaticky zaznamenávají přirozené experimenty uvnitř velkých datových zdrojů naleznete Jensen et al. (2008) a Sharma, Hofman, and Watts (2015) .

Pokud jde o vyrovnání, k optimistickému přehled viz Stuart (2010) , a pesimistické přehled viz Sekhon (2009) . Pro více informací o odpovídající jako druh prořezávání, viz Ho et al. (2007) . U knih, které poskytují vynikající ošetření vyrovnání, viz Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , a Imbens and Rubin (2015) .