Această secțiune este proiectat pentru a fi utilizat ca referință, mai degrabă decât să fie citit ca o narațiune.
Un anumit tip de care nu este dezvăluirea inclusă în acest capitol este de etnografie. Pentru mai multe detalii despre etnografie în spații digitale vezi Boellstorff et al. (2012) , iar pentru mai multe despre etnografie , în spațiile digitale și fizice mixte a se vedea Lane (2016) .
Atunci când sunt date repurposing, există două trucuri mentale care vă pot ajuta să înțelegeți posibilele probleme pe care le-ar putea întâlni. În primul rând, puteți încerca să imagineze setul de date ideal pentru problema dvs. și comparați setul de date pe care îl utilizați. Cum sunt ele similare și cum sunt ele diferite? Dacă nu ați colecta datele le sunt susceptibile de a fi o diferență între ceea ce vrei si ceea ce ai. Dar, trebuie să decidă dacă aceste diferențe sunt minore sau majore.
În al doilea rând, amintiți-vă că cineva a creat și a colectat datele pentru un motiv oarecare. Ar trebui să încercați să înțeleagă raționamentul lor. Acest tip de reverse engineering poate ajuta să identificați posibilele probleme și prejudecăți în datele dvs. repurposed.
Nu există nici o definiție unică consens "date de mare", dar multe definiții par să se concentreze pe 3 Vs: ( de exemplu, volumul, varietatea și viteza Japec et al. (2015) ). Mai degrabă decât concentrându-se pe caracteristicile datelor, definiția mea se concentrează mai mult pe de ce a fost creat datele.
includerea mea de date administrative guvernamentale în interiorul categoriei de date de mare este un pic neobișnuit. Alții , care au făcut acest caz, se numără Legewie (2015) , Connelly et al. (2016) , și Einav and Levin (2014) . Pentru mai multe detalii despre valoarea datelor administrative guvernamentale pentru cercetare, vezi Card et al. (2010) , Taskforce (2012) , și Grusky, Smeeding, and Snipp (2015) .
Pentru o vedere de cercetare administrativă din interiorul sistemului statistic guvernamental, în special US Census Bureau, a se vedea Jarmin and O'Hara (2016) . Pentru un tratament de carte de lungime a cercetării înregistrărilor administrative Statistică al Suediei, a se vedea Wallgren and Wallgren (2007) .
În capitolul, am comparat pe scurt un studiu tradițional, cum ar fi studiile sociale generale (GSS) la o sursă de date mass-media sociale, cum ar fi Twitter. Pentru o comparație aprofundată și atentă între sondajele tradiționale și date sociale mass - media, vezi Schober et al. (2016) .
Aceste 10 de caracteristici de date mari au fost descrise într-o varietate de moduri diferite de o varietate de diferiți autori. Scriere care a influențat gândirea mea cu privire la aceste aspecte se numără: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , și Goldstone and Lupyan (2016) .
De-a lungul acestui capitol, am folosit urmele digitale pe termen lung, care cred că este relativ neutru. Un alt termen popular pentru urme digitale este amprente digitale (Golder and Macy 2014) , dar Hal Abelson, Ken Ledeen, și Harry Lewis (2008) indică faptul, un termen mai adecvat este , probabil , amprente digitale. Atunci când creați urme de pași, sunteți conștienți de ceea ce se întâmplă și urmele tale nu pot fi, în general, urmărite pentru tine personal. Același lucru nu este valabil și pentru urmele digitale. De fapt, voi lăsa urme tot timpul despre care ai foarte puține cunoștințe. Si, cu toate că aceste urme nu au numele tau pe ele, ele pot adesea fi legate de tine. Cu alte cuvinte, ele sunt mai mult ca amprentele digitale: invizibile și de identificare personală.
Mare
Pentru mai multe detalii despre ce seturi mari de date, fac teste statistice problematice, a se vedea Lin, Lucas, and Shmueli (2013) și McFarland and McFarland (2015) . Aceste probleme ar trebui să conducă cercetătorii să se concentreze pe o semnificație practică, mai degrabă decât o semnificație statistică.
Mereu pe
Atunci când se analizează întotdeauna pe date, este important să se ia în considerare dacă comparați aceiași oameni exact în timp sau dacă vi se compara un grup de oameni în schimbare; vezi , de exemplu, Diaz et al. (2016) .
Non reactiv
O carte clasică privind măsurile de bază non-reactive este Webb et al. (1966) . Exemplele din cartea de pre-data la vârsta digitală, dar ele sunt încă luminoase. Pentru exemple de oameni schimbarea comportamentului lor , din cauza prezenței supravegherii în masă, a se vedea Penney (2016) și Brayne (2014) .
Incomplet
Pentru mai multe detalii despre înregistrarea de legătură, vezi Dunn (1946) și Fellegi and Sunter (1969) (historical) și Larsen and Winkler (2014) (moderne). Similare au fost abordate , de asemenea , dezvoltate în știința calculatoarelor sub numele , cum ar fi deduplicarea datelor, identificarea exemplu, potrivirea nume, duplicat de detectare și de detectare duplicat înregistrări (Elmagarmid, Ipeirotis, and Verykios 2007) . Există, de asemenea , păstrarea vieții private abordări pentru a înregistra o legătură care nu necesită transmiterea de informații de identificare personală (Schnell 2013) . Facebook, de asemenea, a dezvoltat o continua pentru a lega înregistrările lor la comportamentul de vot; acest lucru a fost făcut pentru a evalua un experiment pe care am să - ți spun despre capitolul 4 (Bond et al. 2012; Jones et al. 2013) .
Pentru mai multe detalii cu privire la validitatea de construct, vezi Shadish, Cook, and Campbell (2001) , capitolul 3.
Inaccesibil
Pentru mai multe detalii despre AOL jurnal de căutare Dezastrul, a se vedea Ohm (2010) . Am oferi sfaturi cu privire la parteneriatul cu companiile și guvernele din capitolul 4, atunci când am descrie experimente. Un număr de autori au exprimat îngrijorarea cu privire la cercetare , care se bazează pe date inaccesibile, a se vedea Huberman (2012) și boyd and Crawford (2012) .
O modalitate de bună pentru cercetătorii universității pentru a dobândi accesul la date este de a lucra la o companie ca intern sau cercetător aflat în vizită. În plus față de a permite accesul la date, acest proces va ajuta, de asemenea, cercetătorul a afla mai multe despre modul în care a fost creat date, ceea ce este important pentru analiză.
Nereprezentative
Non-reprezentativitate reprezintă o problemă majoră pentru cercetători și guvernele care doresc să facă declarații cu privire la o populație întreagă. Acest lucru este mai puțin de îngrijorare pentru companiile care sunt de obicei concentrate pe utilizatorii lor. Pentru mai multe detalii cu privire la modul de Statistică din Olanda consideră că problema de bază non-reprezentativitate a datelor de afaceri mari, vezi Buelens et al. (2014) .
În Capitolul 3, voi descrie prelevarea de probe și de estimare în detaliu mult mai mare. Chiar dacă datele sunt non-reprezentative, în anumite condiții, acestea pot fi ponderate pentru a produce estimări bune.
drifting
Sistemul de drift este foarte greu de văzut din exterior. Cu toate acestea, proiectul MovieLens (discutat mai în Capitolul 4) a fost rulat timp de mai mult de 15 ani de către un grup de cercetare academică. Prin urmare, ei au documentat și informații despre modul în care sistemul a evoluat în timp și modul în care această analiză partajată ar putea avea un impact (Harper and Konstan 2015) .
Un număr de oameni de știință s- au concentrat pe Twitter în derivă: Liu, Kliman-Silver, and Mislove (2014) și Tufekci (2014) .
algoritmic , încurcat
Am auzit prima oară termenul "algoritmic, încurcat", folosit de Jon Kleinberg într-o discuție. Ideea principala din spatele performativitatea este faptul că unele teorii din stiintele sociale , sunt "motoarele care nu aparate foto" (Mackenzie 2008) . Asta este, de fapt, ei modelează lumea, mai degrabă decât doar captura.
Murdar
Agențiile de statistică guvernamentale numesc curățare de date, editarea de date statistice. De Waal, Puts, and Daas (2014) descriu tehnici statistice de editare a datelor elaborate pentru datele anchetei și să examineze în ce măsură acestea sunt aplicabile surselor de date mari și Puts, Daas, and Waal (2015) prezintă unele dintre aceleași idei pentru un public mai larg.
Pentru unele exemple de studii s -au concentrat pe spam Twitter, Clark et al. (2016) și Chu et al. (2012) . În cele din urmă, Subrahmanian et al. (2016) descrie rezultatele DARPA Twitter Bot Challenge.
Sensibil
Ohm (2015) comentarii mai devreme de cercetare pe ideea de informații sensibile și oferă un test de multi-factor. Cei patru factori le propune sunt: probabilitatea de vătămare; probabilitatea de vătămare; prezența unei relații confidențiale; și dacă riscul reflecta preocupările majoritare.
Studiu de taxiuri din New York , Farber sa bazat pe un studiu anterior de Camerer et al. (1997) care au utilizat trei eșantioane de comoditate diferite forme de călătorie hârtie foi cu aspect de hârtie utilizat de drivere pentru a înregistra călătoria ora de începere, ora de încheiere și tarif. Acest studiu anterior a constatat că șoferii au părut a fi persoanele cu salarii țintă: au lucrat mai puțin în zilele în care salariile lor au fost mai mari.
Kossinets and Watts (2009) sa concentrat asupra originilor homophily în rețelele sociale. A se vedea Wimmer and Lewis (2010) pentru o abordare diferită a aceleiași probleme , care utilizează date de la Facebook.
În munca ulterioară, King si colegii sai au explorat in continuare cenzura on - line în China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Pentru o abordare legate de măsurarea cenzurii on - line în China, a se vedea Bamman, O'Connor, and Smith (2012) . Pentru mai multe detalii cu privire la metodele statistice , cum ar fi cel utilizat în King, Pan, and Roberts (2013) pentru a estima sentimentul de 11 milioane de posturi, a se vedea Hopkins and King (2010) . Pentru mai multe detalii despre învățarea supravegheată, vezi James et al. (2013) (mai puțin tehnic) și Hastie, Tibshirani, and Friedman (2009) (mai tehnic).
Estimarea este o mare parte din industrie știință de date (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tip de previziune , care sunt de obicei efectuate de către cercetătorii sociali sunt de prognoză demografice, de exemplu , Raftery et al. (2012) .
Google Tendințele gripei nu a fost primul proiect de a utiliza datele de căutare pentru a nowcast prevalenta gripei. De fapt, cercetătorii din Statele Unite ale Americii (Polgreen et al. 2008; Ginsberg et al. 2009) și Suedia (Hulth, Rydevik, and Linde 2009) au constatat că anumiți termeni de căutare ( de exemplu, "gripa") a prezis național de supraveghere a sănătății publice date înainte de a fi eliberat. Ulterior , multe, multe alte proiecte au încercat să utilizeze datele digitale pentru detectarea urmelor de supraveghere a bolii, vezi Althouse et al. (2015) pentru o revizuire.
În plus față de utilizarea de date digitale pentru a urmelor prezice rezultatele de sanatate, a existat, de asemenea, o mare cantitate de muncă, folosind datele de pe Twitter pentru a prezice rezultatele alegerilor; pentru a se vedea comentarii Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7) și Huberty (2015) .
Folosind datele de căutare pentru a prezice prevalenta gripei si folosind datele de pe Twitter pentru a prezice alegerile sunt ambele exemple de utilizare un fel de urme digitale pentru a prezice un fel de eveniment din lume. Există un număr enorm de studii care au această structură generală. Tabelul 2.5 include alte câteva exemple.
urme digitale | Rezultat | Citare |
---|---|---|
Stare de nervozitate | venituri din box office-ul de filme în SUA | Asur and Huberman (2010) |
jurnalele de căutare | Vanzarile de filme, muzică, cărți și jocuri video în SUA | Goel et al. (2010) |
Stare de nervozitate | Dow Jones Industrial Average (bursa de valori din SUA) | Bollen, Mao, and Zeng (2011) |
Revista PS Științe Politice a avut un simpozion pe date de mare, inferenta cauzală, și teoria formală, și Clark and Golder (2015) rezumă fiecare contribuție. Proceedings Oficial al Academiei Naționale de Științe a Statelor Unite ale Americii au avut un simpozion despre inferență cauzală și de date mari, și Shiffrin (2016) rezumă fiecare contribuție.
În ceea ce privește experimentele naturale, Dunning (2012) oferă un tratament excelent carte lungime. Pentru mai multe detalii cu privire la utilizarea Vietnam proiectul de loterie ca un experiment natural, a se vedea Berinsky and Chatfield (2015) . Pentru abordări de învățare automată , care încearcă să descopere automat experimente naturale în interiorul surselor de date mari, vezi Jensen et al. (2008) și Sharma, Hofman, and Watts (2015) .
În ceea ce privește potrivirea, o revizuire optimistă, vezi Stuart (2010) , iar pentru o revizuire pesimistă a se vedea Sekhon (2009) . Pentru mai multe detalii despre potrivirea ca un fel de tăiere, a se vedea Ho et al. (2007) . Pentru cărțile care oferă tratamente excelente de potrivire, vezi Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , și Imbens and Rubin (2015) .