Ďalšie komentáre

Táto časť je určená na použitie ako referenčný, skôr než aby sa čítať ako príbeh.

  • Úvod (oddiel 2.1)

Jeden druh pozorovania, ktorá nie je zahrnutá v tejto kapitole je etnografia. Pre viac informácií o etnografii v digitálnych priestoroch pozri Boellstorff et al. (2012) , a pre viac informácií o etnografii v zmiešaných digitálnych a fyzických priestorov vidieť Lane (2016) .

  • Spracovanie veľkých objemov dát (pozri kapitolu 2.2)

Keď ste pri využití existujúcich dát, existujú dva mentálne triky, ktoré vám pomôžu pochopiť možné problémy, ktoré sa môžu vyskytnúť. Po prvé, môžete sa pokúsiť predstaviť ideálny sadu dát pre váš problém a porovnať, že do dátovej sady, ktorú používate. Ako sú podobné a ako sa líšia? Ak tomu tak nie je zbierať vaše dáta sami, existuje pravdepodobné, že bude rozdiel medzi tým, čo chcete a čo máte. Ale musíte sa rozhodnúť, či tieto rozdiely sú menšie alebo major.

Po druhé, pamätajte, že niekto vytvoril a zbieral dáta z nejakého dôvodu. Mali by ste sa pokúsiť pochopiť ich uvažovania. Tento druh reverzné inžinierstvo vám môže pomôcť identifikovať možné problémy a predsudky vo vašich repurposed dát.

Neexistuje žiadna jednotná definícia konsenzus "big data", ale mnoho definícií Zdá sa, že sa zameriavajú na 3 Vs: (napr objem, rôznorodosť a rýchlosť Japec et al. (2015) ). Skôr než aby sa sústredil na charakteristike dát, moja definícia viac zameriava na to, prečo bol vytvorený dát.

Môj zahrnutie vládnych administratívnych dát vnútri kategórie spracovanie veľkých objemov dát je trochu nezvyčajne. Iní, ktorí urobili tento prípad, zahŕňajú Legewie (2015) , Connelly et al. (2016) , a Einav and Levin (2014) . Pre viac informácií o hodnote vládnych administratívnych dát pre výskum, pozri Card et al. (2010) , Taskforce (2012) , a Grusky, Smeeding, and Snipp (2015) .

Na účely administratívneho výskumu zvnútra vládneho štatistického systému, najmä amerického sčítania ľudu Bureau, pozri Jarmin and O'Hara (2016) . Na liečbu knihe dĺžky výskumu administratívnych záznamov na štatistiku Švédsku, pozri Wallgren and Wallgren (2007) .

V kapitole som stručne oproti tradičným prieskumu ako General Social Survey (GSS) na zdroj sociálnych médií dát, ako je Twitter. Pre dôkladné a starostlivé porovnanie medzi tradičnými prieskumy a dáta sociálnych médií, pozri Schober et al. (2016) .

  • Spoločné charakteristiky spracovanie veľkých objemov dát (pozri kapitolu 2.3)

Týchto 10 charakteristiky veľkých dát boli popísané v mnohých rôznymi spôsobmi, podľa mnohých rôznych autorov. Písania, ktorý ovplyvnil moje uvažovanie o týchto otázkach patria: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , a Goldstone and Lupyan (2016) .

V tejto kapitole, som použil termín digitálne stopy, čo myslím, že je relatívne neutrálny. Ďalšie populárne termín pre digitálne stopy sú digitálne stopy (Golder and Macy 2014) , ale ako Hal Abelson, Ken Ledeen a Harry Lewis (2008) poukázať na to, vhodnejší termín je pravdepodobne digitálne odtlačky prstov. Pri vytváraní stopy, ste si vedomí toho, čo sa deje a vaše odtlačky nemôžu byť všeobecne vysledovať pre vás osobne. To isté neplatí pre vaše digitálne stopy. V skutočnosti ste zanechania stôp po celú dobu, o ktoré majú veľmi málo vedomostí. A hoci tieto stopy nemajú svoje meno na nich, oni môžu často byť spojené späť k vám. Inými slovami, oni sú skôr ako odtlačky prstov: neviditeľné a identifikáciu osôb.

veľký

Pre viac informácií o tom, prečo veľké súbory dát, činí štatistické testy problematické, pozri Lin, Lucas, and Shmueli (2013) a McFarland and McFarland (2015) . Tieto otázky by mali viesť výskumníkmi, aby sa zameriavajú na praktický význam skôr než štatistickej významnosti.

Vždy zapnutý

Pri zvažovaní vždy-na dátach, je dôležité zvážiť, či ste porovnávanie presne rovnaké ľudí v priebehu času, alebo či ste porovnávanie nejakú meniace skupinu ľudí; pozri napríklad Diaz et al. (2016) .

Nereaktívny

Klasická kniha o non-reaktívne opatrenia je Webb et al. (1966) . Príklady v knihe antedatuje digitálneho veku, ale stále sú poučné. Pre príklady ľudí, ktorí zmenia svoje správanie v dôsledku prítomnosti hromadný dozor, pozri Penney (2016) a Brayne (2014) .

neúplný

Pre viac informácií o systéme väzieb medzi jednotlivými pozri Dunn (1946) a Fellegi and Sunter (1969) (historical) a Larsen and Winkler (2014) (moderné). Podobná priblížil tiež boli vyvinuté v informatike pod menami ako je napríklad deduplikácie dát, identifikácia napríklad párovanie meno, duplicitné detekcia a detekcia duplicitných záznamov (Elmagarmid, Ipeirotis, and Verykios 2007) . Tam sú tiež súkromie chrániť prístupy k zaznamenávanie prepojenia, ktoré nevyžadujú prenos osobných identifikačných údajov (Schnell 2013) . Facebook tiež vyvinula pokračovať spojiť svoje záznamy do volebného správania; toto bolo robené pre vyhodnotenie experiment, ktorý Poviem ti o v kapitole 4 (Bond et al. 2012; Jones et al. 2013) .

Pre viac informácií o konstruktové platnosti, pozri Shadish, Cook, and Campbell (2001) , kapitola 3.

neprístupný

Pre viac informácií o AOL vyhľadávanie log debakel, pozri Ohm (2010) . Aj ponúkať poradenstvo o partnerstve s firmami a vládami v kapitole 4, keď som opísal experimenty. Rad autorov vyjadrili obavy výskumu, ktorý sa opiera o neprístupná dáta, nájdete v Huberman (2012) a boyd and Crawford (2012) .

Jeden dobrý spôsob, ako pre univerzitnú výskumníci získať prístup k dátam je pracovať v spoločnosti, ako stážista alebo hosťujúci vedec. Okrem povolenie prístupu k dátam, tento proces bude tiež pomáhať výskumník sa dozvedieť viac o tom, ako boli dáta vytvorená, čo je dôležité pre analýzu.

nereprezentatívne

Non-reprezentatívnosť je veľkým problémom pre výskumníkov a vlád, ktorí si želajú, aby urobil vyhlásenie o celej populácii. To je menej obáv pre spoločnosti, ktoré sú zvyčajne zamerané na ich užívateľov. Pre viac informácií o tom, ako Statistics Netherlands zaoberá otázkou non-reprezentatívnosti obchodných veľkých dát, pozri Buelens et al. (2014) .

V kapitole 3, budem popisovať vzorkovanie a odhady v oveľa väčšom detaile. Aj keď údaje nie sú reprezentatívne, za určitých podmienok, ktoré sa môžu vážiť k dobrým odhady.

drifting

Systém drift je veľmi ťažké vidieť zvonku. Projekt však MovieLens (podrobnejšie diskutované v kapitole 4) bol spustený už viac ako 15 rokov akademické výskumné skupiny. Z tohto dôvodu majú zdokumentované a zdieľať informácie o spôsobe, akým systém sa vyvíjal v priebehu času a ako sa táto analýza by mohla ovplyvniť (Harper and Konstan 2015) .

Rad vedcov sa zamerali na drift v Twitteri: Liu, Kliman-Silver, and Mislove (2014) a Tufekci (2014) .

algoritmickým zmiatol

Som prvýkrát počul termín "algoritmickým zahanbený" Jon Kleinberg použitý v rozhovore. Hlavnou myšlienkou performativity je, že niektoré vedecké teórie sociálnej sú "motory nie sú kamery" (Mackenzie 2008) . To znamená, že v skutočnosti utvárať svet, skôr než len zachytiť ho.

znečistený

Vládne štatistické úrady hovoria čistenie dát, štatistické editáciu dát. De Waal, Puts, and Daas (2014) opisuje štatistické metódy úpravy dát vyvinuté pre údajov prieskumu a preskúmať, do akej miery sú použiteľné do veľkých zdrojov dát, a Puts, Daas, and Waal (2015) prezentuje niektoré rovnaké myšlienky pre všeobecnejší publikum.

Pre niektoré príklady štúdií zameraných na spam v Twitteri, Clark et al. (2016) a Chu et al. (2012) . Napokon, Subrahmanian et al. (2016) opisuje výsledky DARPA Twitter Bot Challenge.

Citlivý

Ohm (2015) recenzia skoršie výskum na myšlienke citlivých informácií a ponúka test multi-faktor. Tieto štyri faktory navrhuje, sú: pravdepodobnosť škôd; pravdepodobnosť škôd; Prítomnosť dôverného vzťahu; a či riziko odrážajú väčšinovým obavy.

  • Počítanie veci (§ 2.4.1)

Štúdia Farber je taxíkov v New Yorku bolo založené na skoršie štúdie Camerer et al. (1997) ktorá bola použitá tri rôzne vzorky pohodlie papier výletných listov-papierových formulárov vodičov zvyknutých na rekordný výlet čas začiatku, čas konca, a cestovné. Táto staršia štúdia zistila, že vodiči sa zdalo byť cieľovej príjmy: oni pracovali menej v dňoch, kedy ich platy boli vyššie.

Kossinets and Watts (2009) bola zameraná na počiatky homophily v sociálnych sieťach. Pozri Wimmer and Lewis (2010) pre iný prístup k rovnakému problému, ktorý využíva dáta z Facebooku.

V ďalšej práci, kráľ a jeho kolegovia ďalej preskúmať on-line cenzúru v Číne (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Pre príbuzných prístup merania on-line cenzúru v Číne, pozri Bamman, O'Connor, and Smith (2012) . Pre viac informácií o štatistických metód, ako bol použitý v King, Pan, and Roberts (2013) pre odhad sentiment 11 miliónov pracovných miest, pozri Hopkins and King (2010) . Pre viac informácií o učenie s učiteľom, pozri James et al. (2013) (menej technických) a Hastie, Tibshirani, and Friedman (2009) (viac technické).

  • Forecasting (§ 2.4.2)

Forecasting je veľká časť priemyselných dát vedy (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Jeden typ prognózy, ktoré sa bežne vykonáva sociálnych vedcov sú demografické prognózy, napríklad Raftery et al. (2012) .

Google Flu Trends nebol prvým projektom použiť vyhľadávanie dát nowcast chrípky prevalencia. V skutočnosti, vedci v Spojených štátoch (Polgreen et al. 2008; Ginsberg et al. 2009) a vo Švédsku (Hulth, Rydevik, and Linde 2009) bolo zistené, že určité hľadané výrazy (napr, "chrípka") predpokladaná národný dohľad v oblasti verejného zdravia dáta, než bol prepustený. Následne mnoho, mnoho ďalších projektov sa pokúsili použiť digitálne dáta trasovanie pre detekciu dozoru ochorení, pozri Althouse et al. (2015) o preskúmanie.

Okrem použitia digitálne dáta trasovanie predpovedať výsledky v oblasti zdravia, tam bol tiež obrovské množstvo práce s využitím dáta služby Twitter predpovedať výsledky volieb; recenzia pozri Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (kap. 7) a Huberty (2015) .

Použitie vyhľadávanie dát na predpovedanie chrípky prevalencia a používať Twitter údaje k predpovedi voľby sú oba príklady použitia nejaké digitálne stopy predvídať nejakej udalosti vo svete. Existuje obrovské množstvo štúdií, ktoré majú túto všeobecnú štruktúru. Tabuľka 2.5 obsahuje niekoľko ďalších príkladov.

Tabuľka 2.5: Čiastočný zoznam štúdií použiť niektoré digitálne stopu predpovedať nejakú udalosť.
Digitálne stopy výsledok citácie
cvrlikání Kasové tržby filmov v USA Asur and Huberman (2010)
hľadanie protokoly Predaj filmov, hudby, kníh a videohier v USA Goel et al. (2010)
cvrlikání Dow Jones Industrial Average (US akciový trh) Bollen, Mao, and Zeng (2011)
  • Aproximácii experimenty (viď kapitola 2.4.3)

Časopis PS Political Science mala usporiadať sympózium o spracovanie veľkých objemov dát, kauzálny inference a formálne teóriu, a Clark and Golder (2015) sumarizuje každý príspevok. The Journal Proceedings of the National Academy of Sciences Spojených štátov amerických mal usporiadať sympózium o príčinnej odvodzovania a spracovanie veľkých objemov dát, a Shiffrin (2016) sumarizuje každý príspevok.

Z hľadiska prirodzených experimentov, Dunning (2012) poskytuje vynikajúcu liečbu kniha dĺžky. Pre viac informácií o používaní vietnamskú návrh lotérii ako prirodzený experiment, pozri Berinsky and Chatfield (2015) . Pre strojového učenia prístupy, ktoré automaticky zaznamenávajú prirodzené experimenty vnútri veľkých dátových zdrojov nájdete Jensen et al. (2008) a Sharma, Hofman, and Watts (2015) .

Pokiaľ ide o vyrovnanie, k optimistickému prehľad viď Stuart (2010) , a pesimistické prehľad pozri Sekhon (2009) . Pre viac informácií o zodpovedajúce ako druh prerezávanie, pozri Ho et al. (2007) . U kníh, ktoré poskytujú vynikajúce ošetrenie vyrovnanie, pozri Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , a Imbens and Rubin (2015) .