Un tipo di osservazione che non è incluso in questo capitolo è l'etnografia. Per maggiori informazioni sull'etnografia negli spazi digitali, vedi Boellstorff et al. (2012) , e per ulteriori informazioni sull'etnografia in spazi misti digitali e fisici, vedi Lane (2016) .
Non esiste una definizione univoca di "big data", ma molte definizioni sembrano focalizzarsi sui "3 V": volume, varietà e velocità (ad esempio, Japec et al. (2015) ). Vedi De Mauro et al. (2015) per una revisione delle definizioni.
La mia inclusione di dati amministrativi governativi nella categoria dei big data è un po 'insolita, sebbene altri abbiano fatto anche questo caso, incluso Legewie (2015) , Connelly et al. (2016) , Einav and Levin (2014) . Per ulteriori informazioni sul valore dei dati amministrativi governativi per la ricerca, vedi Card et al. (2010) , Adminstrative Data Taskforce (2012) e Grusky, Smeeding, and Snipp (2015) .
Per una visione della ricerca amministrativa dall'interno del sistema statistico governativo, in particolare l'Ufficio censimento degli Stati Uniti, vedi Jarmin and O'Hara (2016) . Per una trattazione a lungo termine della ricerca sui registri amministrativi di Statistics Sweden, vedi Wallgren and Wallgren (2007) .
Nel capitolo, ho brevemente confrontato un sondaggio tradizionale come il General Social Survey (GSS) con una fonte di dati sui social media come Twitter. Per un confronto accurato e accurato tra indagini tradizionali e dati sui social media, vedi Schober et al. (2016) .
Queste 10 caratteristiche dei big data sono state descritte in una varietà di modi diversi da una varietà di autori diversi. La scrittura che ha influenzato il mio modo di pensare su questi temi include Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , e Goldstone and Lupyan (2016) .
In tutto questo capitolo, ho usato il termine tracce digitali , che ritengo sia relativamente neutrale. Un altro termine popolare per le tracce digitali è impronte digitali (Golder and Macy 2014) , ma come sottolineano Hal Abelson, Ken Ledeen e Harry Lewis (2008) , un termine più appropriato è probabilmente impronte digitali . Quando crei impronte, sei consapevole di ciò che sta accadendo e le tue impronte non possono generalmente essere tracciate personalmente. Lo stesso non è vero per le tue tracce digitali. In effetti, lasci sempre tracce su cui hai pochissima conoscenza. E sebbene queste tracce non abbiano il tuo nome su di esse, possono spesso essere ricondotte a te. In altre parole, sono più simili alle impronte digitali: invisibili e personali.
Per ulteriori informazioni sul perché i dataset di grandi dimensioni rendono problematici i test statistici, si vedano M. Lin, Lucas, and Shmueli (2013) e McFarland and McFarland (2015) . Queste problematiche dovrebbero portare i ricercatori a concentrarsi sul significato pratico piuttosto che sulla significatività statistica.
Per ulteriori informazioni su come Raj Chetty e colleghi hanno ottenuto l'accesso ai documenti fiscali, consultare Mervis (2014) .
I set di dati di grandi dimensioni possono anche creare problemi computazionali che sono generalmente al di là delle capacità di un singolo computer. Pertanto, i ricercatori che effettuano calcoli su dataset di grandi dimensioni spesso diffondono il lavoro su molti computer, un processo chiamato talvolta programmazione parallela . Per un'introduzione alla programmazione parallela, in particolare un linguaggio chiamato Hadoop, vedi Vo and Silvia (2016) .
Quando si considerano i dati sempre attivi, è importante considerare se si stanno confrontando le stesse persone nel tempo o se si stanno confrontando alcuni gruppi di persone che cambiano; vedi ad esempio, Diaz et al. (2016) .
Un classico libro sulle misure non reattive è Webb et al. (1966) . Gli esempi in quel libro precedono l'era digitale, ma sono ancora illuminanti. Per esempi di persone che cambiano il loro comportamento a causa della presenza di sorveglianza di massa, vedi Penney (2016) e Brayne (2014) .
La reattività è strettamente correlata a ciò che i ricercatori chiamano effetti della domanda (Orne 1962; Zizzo 2010) e all'effetto Hawthorne (Adair 1984; Levitt and List 2011) .
Per ulteriori informazioni sul linkage, vedere Dunn (1946) e Fellegi and Sunter (1969) (storico) e Larsen and Winkler (2014) (moderno). Approcci simili sono stati sviluppati anche nell'informatica con nomi come la deduplicazione dei dati, l'identificazione dell'istanza, la corrispondenza dei nomi, il rilevamento dei duplicati e il rilevamento dei record duplicati (Elmagarmid, Ipeirotis, and Verykios 2007) . Esistono anche approcci che preservano la privacy per registrare il collegamento che non richiede la trasmissione di informazioni di identificazione personale (Schnell 2013) . Facebook ha anche sviluppato un processo per collegare i propri record al comportamento di voto; questo è stato fatto per valutare un esperimento di cui parlerò nel capitolo 4 (Bond et al. 2012; Jones et al. 2013) .
Per ulteriori informazioni sulla validità del costrutto, consultare il capitolo 3 di Shadish, Cook, and Campbell (2001) .
Per ulteriori informazioni sulla debacle del registro di ricerca AOL, vedere Ohm (2010) . Offro consigli sulla collaborazione con aziende e governi nel capitolo 4 quando descrivo gli esperimenti. Un certo numero di autori ha espresso preoccupazione per la ricerca che si basa su dati inaccessibili, vedi Huberman (2012) e boyd and Crawford (2012) .
Un buon modo per i ricercatori universitari di acquisire l'accesso ai dati è quello di lavorare in una società come stagista o un ricercatore in visita. Oltre a consentire l'accesso ai dati, questo processo aiuterà anche il ricercatore ulteriori informazioni su come è stato creato il dato, che è importante per l'analisi.
In termini di accesso ai dati governativi, Mervis (2014) discute di come Raj Chetty e colleghi hanno ottenuto l'accesso ai registri fiscali utilizzati nella loro ricerca sulla mobilità sociale.
Per ulteriori informazioni sulla storia della "rappresentatività" come concetto, vedi Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) e Kruskal and Mosteller (1980) .
Le mie sintesi del lavoro di Snow e del lavoro di Doll e Hill erano brevi. Per ulteriori informazioni sul lavoro di Snow sul colera, vedi Freedman (1991) . Per ulteriori informazioni su British Doctors Study vedi Doll et al. (2004) e Keating (2014) .
Molti ricercatori saranno sorpresi di apprendere che, sebbene Doll e Hill abbiano raccolto dati da dottoresse e da medici sotto i 35 anni, intenzionalmente non hanno usato questi dati nella loro prima analisi. Come hanno affermato: "Poiché il cancro del polmone è relativamente raro nelle donne e negli uomini sotto i 35 anni, è improbabile che si possano ottenere cifre utili in questi gruppi per alcuni anni a venire. In questo rapporto preliminare abbiamo pertanto limitato la nostra attenzione agli uomini di 35 anni e oltre. " Rothman, Gallacher, and Hatch (2013) , che ha il titolo provocatorio" Perché la rappresentatività dovrebbe essere evitata ", fanno un argomento più generale per il valore di creare intenzionalmente dati non rappresentativi.
La non rappresentatività è un grosso problema per i ricercatori e i governi che desiderano rilasciare dichiarazioni su un'intera popolazione. Questo è meno preoccupante per le aziende, che sono tipicamente focalizzate sui loro utenti. Per ulteriori informazioni su come Statistics Netherlands considera la questione della non rappresentatività dei big data aziendali, vedi Buelens et al. (2014) .
Per esempi di ricercatori che esprimono preoccupazione sulla natura non rappresentativa delle fonti di Big Data, vedi boyd and Crawford (2012) , K. Lewis (2015b) e Hargittai (2015) .
Per un confronto più dettagliato degli obiettivi delle indagini sociali e della ricerca epidemiologica, vedi Keiding and Louis (2016) .
Per ulteriori informazioni sui tentativi di utilizzare Twitter per fare generalizzazioni fuori dal campione sugli elettori, in particolare il caso delle elezioni tedesche del 2009, vedi Jungherr (2013) e Jungherr (2015) . In seguito al lavoro di Tumasjan et al. (2010) ricercatori di tutto il mondo hanno utilizzato metodi più elaborati - come utilizzare l'analisi del sentimento per distinguere tra le menzioni positive e negative delle parti - al fine di migliorare la capacità dei dati di Twitter di prevedere una varietà di diversi tipi di elezioni (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Ecco come Huberty (2015) riassunto i risultati di questi tentativi di prevedere le elezioni:
"Tutti i metodi di previsione noti basati sui social media sono falliti se sottoposti alle richieste di una previsione elettorale lungimirante. Questi insuccessi sembrano dovuti a proprietà fondamentali dei social media, piuttosto che a difficoltà metodologiche o algoritmiche. In breve, i social media non offrono, e probabilmente non lo faranno mai, un quadro rappresentativo stabile e imparziale dell'elettorato; e i campioni di convenienza dei social media mancano di dati sufficienti per risolvere questi problemi post hoc ".
Nel capitolo 3 descriverò il campionamento e la stima in modo molto più dettagliato. Anche se i dati non sono rappresentativi, in determinate condizioni, possono essere ponderati per produrre stime attendibili.
La deriva del sistema è molto difficile da vedere dall'esterno. Tuttavia, il progetto MovieLens (discusso di più nel capitolo 4) è stato gestito per più di 15 anni da un gruppo di ricerca accademico. Pertanto, sono stati in grado di documentare e condividere informazioni sul modo in cui il sistema si è evoluto nel tempo e su come ciò potrebbe influire sull'analisi (Harper and Konstan 2015) .
Un numero di studiosi si è concentrato sulla deriva in Twitter: Liu, Kliman-Silver, and Mislove (2014) e Tufekci (2014) .
Un approccio per affrontare la deriva della popolazione è quello di creare un gruppo di utenti, che consente ai ricercatori di studiare le stesse persone nel tempo, vedi Diaz et al. (2016) .
Ho sentito per la prima volta il termine "algoritmicamente confuso" usato da Jon Kleinberg in un discorso, ma sfortunatamente non ricordo quando e dove è stato dato il discorso. La prima volta che ho visto il termine in stampa era in Anderson et al. (2015) , che è un'interessante discussione su come gli algoritmi utilizzati dai siti di incontri potrebbero complicare la capacità dei ricercatori di utilizzare i dati di questi siti web per studiare le preferenze sociali. Questa preoccupazione è stata sollevata da K. Lewis (2015a) in risposta a Anderson et al. (2014) .
Oltre a Facebook, Twitter consiglia anche alle persone di seguirli in base all'idea della chiusura triadica; vedi Su, Sharma, and Goel (2016) . Quindi il livello di chiusura triadica in Twitter è una combinazione di una certa tendenza umana verso la chiusura triadica e una certa tendenza algoritmica a promuovere la chiusura triadica.
Per saperne di più sulla performatività, in particolare l'idea che alcune teorie della scienza sociale siano "motori non macchine fotografiche" (cioè, modellano il mondo piuttosto che descriverlo semplicemente) - vedi Mackenzie (2008) .
Le agenzie statali governative chiamano i dati per la pulizia dei dati statistici . De Waal, Puts, and Daas (2014) descrivono tecniche di editing dei dati statistici sviluppati per i dati dei sondaggi ed esaminano in che misura sono applicabili alle fonti di big data e Puts, Daas, and Waal (2015) presentano alcune delle stesse idee per un pubblico più generale.
Per una panoramica dei social bot, vedi Ferrara et al. (2016) . Per alcuni esempi di studi incentrati sulla ricerca di spam in Twitter, vedi Clark et al. (2016) e Chu et al. (2012) . Infine, Subrahmanian et al. (2016) descrivono i risultati della DARPA Twitter Bot Challenge, una collaborazione di massa progettata per confrontare gli approcci per rilevare i bot su Twitter.
Ohm (2015) esamina le ricerche precedenti sull'idea di informazioni sensibili e offre un test multi-fattore. I quattro fattori che propone sono l'entità del danno, la probabilità di danno, la presenza di una relazione confidenziale e se il rischio rifletta preoccupazioni di tipo maggioritario.
Lo studio dei taxi di Farber a New York si basava su uno studio precedente di Camerer et al. (1997) che utilizzava tre diversi campioni di convenienza dei fogli di viaggio cartacei. Questo studio precedente ha rilevato che i conducenti sembravano essere destinatari: lavoravano meno nei giorni in cui i loro stipendi erano più alti.
Nel lavoro successivo, King e colleghi hanno ulteriormente esplorato la censura online in Cina (King, Pan, and Roberts 2014, [@king_how_2016] ) . Per un approccio correlato alla misurazione della censura online in Cina, vedi Bamman, O'Connor, and Smith (2012) . Per ulteriori informazioni su metodi statistici come quello usato in King, Pan, and Roberts (2013) per stimare il sentimento degli 11 milioni di post, vedi Hopkins and King (2010) . Per ulteriori informazioni sull'apprendimento supervisionato, vedi James et al. (2013) (meno tecnico) e Hastie, Tibshirani, and Friedman (2009) (più tecnico).
La previsione è una parte importante della scienza dei dati industriali (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tipo di previsione che viene comunemente fatto dai ricercatori sociali è la previsione demografica; vedi, per esempio, Raftery et al. (2012) .
Google Trend influenzali non è stato il primo progetto a utilizzare i dati di ricerca per la prevalenza dell'influenza da oggi. Infatti, i ricercatori negli Stati Uniti (Polgreen et al. 2008; Ginsberg et al. 2009) e in Svezia (Hulth, Rydevik, and Linde 2009) hanno scoperto che alcuni termini di ricerca (es. "Influenza") predicevano la sorveglianza della salute pubblica nazionale dati prima che fosse rilasciato. Successivamente molti, molti altri progetti hanno cercato di utilizzare i dati di traccia digitali per il rilevamento della sorveglianza delle malattie; vedi Althouse et al. (2015) per una recensione.
Oltre a utilizzare i dati della traccia digitale per prevedere i risultati sanitari, c'è stata anche un'enorme quantità di lavoro utilizzando i dati di Twitter per prevedere i risultati elettorali; per le recensioni vedi Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (capitolo 7) e Huberty (2015) . Anche la diffusione degli indicatori economici, come il prodotto interno lordo (PIL), è comune nelle banche centrali, vedi Bańbura et al. (2013) . la tabella 2.8 include alcuni esempi di studi che utilizzano una sorta di traccia digitale per prevedere un qualche tipo di evento nel mondo.
Traccia digitale | Risultato | Citazione |
---|---|---|
cinguettio | Entrate al botteghino di film negli Stati Uniti | Asur and Huberman (2010) |
Registri di ricerca | Vendite di film, musica, libri e videogiochi negli Stati Uniti | Goel et al. (2010) |
cinguettio | Dow Jones Industrial Average (mercato azionario USA) | Bollen, Mao, and Zeng (2011) |
Social media e registri di ricerca | Indagini sul sentimento degli investitori e sui mercati azionari negli Stati Uniti, nel Regno Unito, in Canada e in Cina | Mao et al. (2015) |
Registri di ricerca | Prevalenza della febbre dengue a Singapore e Bangkok | Althouse, Ng, and Cummings (2011) |
Infine, Jon Kleinberg e colleghi (2015) hanno sottolineato che i problemi di previsione si dividono in due categorie sottilmente diverse e che gli scienziati sociali tendono a concentrarsi su uno e ignorare l'altro. Immagina un decisore politico, la chiamerò Anna, che sta affrontando una siccità e deve decidere se assumere uno sciamano per fare una danza della pioggia per aumentare le probabilità di pioggia. Un altro decisore politico, la chiamo Betty, deve decidere se prendere un ombrello per lavorare per evitare di bagnarsi sulla strada di casa. Sia Anna che Betty possono prendere una decisione migliore se capiscono il tempo, ma hanno bisogno di sapere cose diverse. Anna ha bisogno di capire se la pioggia fa piovere. Betty, d'altra parte, non ha bisogno di capire nulla sulla causalità; lei ha solo bisogno di una previsione accurata. I ricercatori sociali si concentrano spesso su problemi come quello affrontato da Anna - che Kleinberg e colleghi chiamano problemi di politica della "pioggia-danza" - perché riguardano questioni di causalità. Domande come quella affrontata da Betty - che Kleinberg e colleghi chiamano problemi politici "a ombrello" - possono essere anche molto importanti, ma hanno ricevuto molta meno attenzione dai ricercatori sociali.
La rivista PS Political Science ha tenuto un simposio sui big data, l'inferenza causale e la teoria formale, e Clark and Golder (2015) riassumono ogni contributo. Gli atti del giornale della National Academy of Sciences degli Stati Uniti d'America hanno avuto un simposio sull'inferenza causale e sui big data, e Shiffrin (2016) riassume ogni contributo. Per approcci di apprendimento automatico che tentano di scoprire automaticamente esperimenti naturali all'interno di grandi fonti di dati, vedi Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) e Sharma, Hofman, and Watts (2016) .
In termini di esperimenti naturali, Dunning (2012) fornisce un trattamento introduttivo a lunghezza di libro con molti esempi. Per una visione scettica degli esperimenti naturali, vedi Rosenzweig and Wolpin (2000) (economia) o Sekhon and Titiunik (2012) (scienze politiche). Deaton (2010) e Heckman and Urzúa (2010) sostengono che concentrarsi su esperimenti naturali può portare i ricercatori a concentrarsi sulla stima di effetti causali non importanti; Imbens (2010) contesta questi argomenti con una visione più ottimistica del valore degli esperimenti naturali.
Quando descrivevo come un ricercatore poteva passare dalla stima dell'effetto di essere redatto all'effetto di servire, stavo descrivendo una tecnica chiamata variabili strumentali . Imbens and Rubin (2015) , nei loro capitoli 23 e 24, forniscono un'introduzione e usano la bozza della lotteria come esempio. L'effetto del servizio militare sui costruttori è talvolta chiamato effetto causale medio del compilatore (CAcE) e talvolta l'effetto del trattamento medio locale (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) e Bollen (2012) offrono recensioni sull'uso di variabili strumentali in scienze politiche, economia e sociologia e Sovey and Green (2011) fornisce una "lista di controllo del lettore" per valutare gli studi usando variabili strumentali.
Si scopre che la lotteria del draft del 1970 non era, in effetti, propriamente randomizzata; c'erano piccole deviazioni dalla pura casualità (Fienberg 1971) . Berinsky and Chatfield (2015) sostengono che questa piccola deviazione non è sostanzialmente significativa e discute l'importanza di una randomizzazione condotta correttamente.
In termini di abbinamento, vedi Stuart (2010) per una recensione ottimistica e Sekhon (2009) per una recensione pessimistica. Per ulteriori informazioni sulla corrispondenza come una sorta di potatura, vedere Ho et al. (2007) . Trovare una singola corrispondenza perfetta per ogni persona è spesso difficile, e questo introduce una serie di complessità. Innanzitutto, quando non sono disponibili corrispondenze esatte, i ricercatori devono decidere come misurare la distanza tra due unità e se una determinata distanza è abbastanza vicina. Una seconda complessità insorge se i ricercatori vogliono utilizzare più corrispondenze per ciascun caso nel gruppo di trattamento, poiché ciò può portare a stime più precise. Entrambi questi problemi, così come altri, sono descritti in dettaglio nel capitolo 18 di Imbens and Rubin (2015) . Vedi anche la parte II di ( ??? ) .
Vedere Dehejia and Wahba (1999) per un esempio in cui i metodi di abbinamento erano in grado di produrre stime simili a quelle di un esperimento controllato randomizzato. Ma, vedi Arceneaux, Gerber, and Green (2006) e Arceneaux, Gerber, and Green (2010) per esempi in cui i metodi di corrispondenza non sono riusciti a riprodurre un benchmark sperimentale.
Rosenbaum (2015) e Hernán and Robins (2016) offrono altri consigli per scoprire utili confronti all'interno di grandi fonti di dati.