Un tipu d'observazione chì ùn hè micca inclusu n stu capitu hè l'etnografia. Per più nantu à etnugrafia in spazii digitale, vede Boellstorff et al. (2012) , è per più nantu à etnografia in spazii digitali mixte è fisichi, vede Lane (2016) .
Ùn ci hè micca una consensus unica difinuta di "big data", ma parechji definizione parevanu fussinu nantu à a "3 Vs": volumi, varietà è veloce (per esempiu, Japec et al. (2015) ). Vede De Mauro et al. (2015) per una rivista di e definizione.
A me menzione di l'infurmazioni amministrativi amministrativi in a categuria di grande dati hè un pocu pocu cumuni, ma altri ancu fattu dinò u casu, cumpresa Legewie (2015) , Connelly et al. (2016) è Einav and Levin (2014) . Per più nantu à u valore di e guadettazione amministrativa di dati per a ricerca, vede Card et al. (2010) , Adminstrative Data Taskforce (2012) , Grusky, Smeeding, and Snipp (2015) .
Per una vista di a ricerca amministrativa di u internu di u sistema statisticu di u guvernu, particulari u Census Bureau, vede Jarmin and O'Hara (2016) . Per un trattamentu di libru à a ricerca amministrativi amministrativi in Statistics Sweden, vede Wallgren and Wallgren (2007) .
In u capiu, aghju tempu parechjardu una storia tradiziunale cum'è l'Ecumenica Social Survey (GSS) cun una basa di dati media cum'è Twitter. Per una compunia diluziosa è diliziu cù l'enversi tradiziunali è i dati di i media social, vede Schober et al. (2016) .
Questi 10 caratteristiche di e grandi dati sò stati scritti in una varietà diversa di modi per una varietà d'autri autori. Scriverete chì influenze u mo penseru nantu à queste issi discorsi include Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , è Goldstone and Lupyan (2016) .
In tuttu stu capitulu, aghju usatu u terminu traces digitale , chì pensu hè relativamente neutrali. Un altru termini famigliali per i traccia digitali hè imprese digitale (Golder and Macy 2014) , ma cum'è Hal Abelson, Ken Ledeen è Harry Lewis (2008) assenyini, un termini più appropritu hè pussibile stampate digitale . Quandu creasti footprints, cunnisciutu di ciò chì succede è e vostre footprings ùn sò micca signalatu à rinsignà u vostru persone. U stessu ùn hè micca veru per i vostri traces digitale. In fatti, ùn abbandunà traccia di tutte u tempu da quellu chì avete assai sapienza. E, anche si sti trazzi ùn avete micca u vostru nome nantu à elli, spessu pò esse ligatu à voi. In altri palori, sò più parechji palisades: invisibule è identifying personalmente.
Perchè più per perchè perditi grandi datu chì facenu pruvedde statistichi, vede M. Lin, Lucas, and Shmueli (2013) è McFarland and McFarland (2015) . Questi articuli anu bisognu à i ricchieri à fucalizza nantu à a significazione prublema in quantu à a significazione statistica
Per più nantu à cumu chì Raj Chetty è i culleghi anu acquistatu l'accessu à i registrazioni tributari, vedi Mervis (2014) .
Grandi datasets poni ancu creà problemi di computational chì sò in generale annantu à a capacità di un unicu computer. Per quessa, i circunsidenti chì facenu i scalti per e grandi datu anu spessu travaglianu u travagliu nantu à parechji computers, un prucessu à volte volte denominate programazioni parallele Per una introduzione per a programazioni parallele, in particulare una lingua chjamata Hadoop, vede Vo and Silvia (2016) .
Quandu si pensa sempre nantu à e dati, hè impurtante per esse cunsideratu cum'è si cumparanu l'identità di l'altri persone nantu à u tempu o se cercanu qualchì gruppu cambiante di persone; vede per esempiu, Diaz et al. (2016) .
Un libru classicu nantu à adopru nonreattivi hè Webb et al. (1966) . L'esempi in quellu libru predatu l'era digitale, ma sò sempre illuminati. Per esempi di pirsuni cancianu u so cumpurtamentu per a prisenza di a vigilenza di massa, vede Penney (2016) è Brayne (2014) .
A reactività hè assuciata à u quali ricchieri mettiri effetti di demanda (Orne 1962; Zizzo 2010) è l'effettu Hawthorne (Adair 1984; Levitt and List 2011) .
Per più nantu à u ligame, vedi Dunn (1946) è Fellegi and Sunter (1969) (storicu) è Larsen and Winkler (2014) (mudernu). E avvicinamenti simili anu avutu statu ancu sviluppatu in l'informatica sottu nomi, per esempiu di deduplicazione di dati, identità di stanza, nome di cunnessione, duplicate detection, and duplicate record detection (Elmagarmid, Ipeirotis, and Verykios 2007) . Ci hè ancu avvicinamenti privata di prutezzione di u viaghju di culligatu chì ùn mancanu a trasmissioni d'infurmazione d'identità privata (Schnell 2013) . A Facebook hà ancu fattu un prucessu per ligà i so registri à u cumpurtamentu di u votu; hè stata fatta à evaluà un sperimentu chì vi dicu in u capitu 4 (Bond et al. 2012; Jones et al. 2013) .
Per più di validità di custruisce, vedi u capítulo 3 di Shadish, Cook, and Campbell (2001) .
Per più nantu à AOL search log debacle, vede Ohm (2010) . Aghju cunsigliu di partinariare cù l'imprese è i guverni in u Chapter 4 quand'aghju scappu l'esperimenti. Un veru numaru di auturi anu spressu cuncernamenti annantu à a ricerca chì si basa di data inaccessibile, vede Huberman (2012) è boyd and Crawford (2012) .
Una bona manera di circadori università à acquistà un accessu dati è a furmazioni à un impresa cum'è un limit o militante di visità. In più di attivà un accessu data, stu prucessu hà ancu aiutà u so ricerca amparà più vicinu comu fu criata la data, ca è mpurtanti pi analisi.
In quantu d'accade l'accessu di e dati di u guvernu, Mervis (2014) discusseghja cumu chì Raj Chetty è i culleghji puderanu u accessu à i rimborsi fisichi utilizati in a so ricerca nantu à a mobilità suciale.
Per più nantu à a storia di "representatività" cum'è cuncettu, vede Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) è Kruskal and Mosteller (1980) .
I sumeri di u travagliu di Snow è l'opara di Doll è Hill sò stati pronti. Per più nantu à u travagliu di a Snow on u colerà, vidite Freedman (1991) . Per più nantu à i studienti medichi inglessi see Doll et al. (2004) è Keating (2014) .
Parechji circhendu ci anu surprised per amparà chì ancu u Doll è Hill anu recullatu e dati di e donne è da i medichi sottu à 35, ùn anu micca usu di stu dati in u so prima analisi. Mentre ch'elli dicenu: "Dopu chì u cancer vulgarisi hè pocu raru in i donne è l'omi sottu à 35 anni, ci sò improbabile numeri utili in questi gruppi in parechji anni veni. In questa rapportu preliminu avemu dunque confined our attention to men aghjuntu 35 anni è altri. " Rothman, Gallacher, and Hatch (2013) , chì hà u titulu pruvucativu" Perchè u sensu di representatività si deve esse evitata ", fate un argumentu più generale per u valore di creazione intencionadamente di e dati non representanti.
A rapprisagghia ùn hè un prublema più grande per i ricchieri è i guverni chì vulete fà affirmazioni annantu à una populazione sana. Questu hè menu di una prublema per i impresi, chì sò tipicamenti centrale in i so utenti. Per più nantu à Buelens et al. (2014) Statale hà cunsideratu l'issue di nonrepresentativeness di e grande datu di l'affari, vede Buelens et al. (2014) .
Per esempi di cirzetti chì esprimenu preoccupari di a natura non representativa di e grande fonti di fonti, vede boyd and Crawford (2012) , K. Lewis (2015b) è Hargittai (2015) .
Per una cumparazione più detallada di i scopi di i scuperzi suciali è a ricerca epidemiulogica, vede Keiding and Louis (2016) .
Per più di tentazione di usà Twitter per fà generalizazioni di generale nantu à i votante, soprattuttu u casu da l'alizzioni in u 2009, vede Jungherr (2013) è Jungherr (2015) . Dopu à u travagliu di Tumasjan et al. (2010) i circhurianati di u mondu utilizonu mètudi più fancieri-cum'è usu di l'analisi sentimentu per distinguishà trà e cose di i partiti pusitivi è negativu di i partiti-per migliurà a capacità di e dati Twitter per predichjà una varietà di varii tipi d'alizzioni (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Eccu cumu Huberty (2015) sintumu i risultati di questi tentattivi di predizioni di l'alizzioni:
"Tutti i mudelli di prevene cunnisciuti nantu à i media suciali ùn anu fallutu quand'ellu hè sottumessu à e prublemi di predizioni elettorali veramente futuli. Questi fiaschi parevenu degnu di propietati fundamentali di e social media, più ca à difficultà metulogicu o algorithmicu. In brevi, e social media ùn averanu micca, è di prubabilmente micca mai, prupone una stampa stabile, imparu, rappresentante di l'elettore; è e mostrenza di cunzunzione di e media suciali ùn mancà bè dati per rimpiazzari questi problemi post hoc ".
In u capitu 3, aghju dettamintazione è stima in moltu più di più. Ancu chì i dati ùn sò micca rappresentante, in certi cundizioni, ponu esse pustelati per pruduce boni stimi.
A riflittura di u sistema hè assai diffughi à vede da l'esternu. In ogni casu, u prughjettu MovieLens (discututu più in u Chapter 4) hè stata di più di 15 anni da un gruppu d'accadimentu akkademicu. Cusì, anu capace di documentà è aghjunghje infurmazione nantu à a manera chì u sistema hà evolutu à u tempu è cumu questu quì puderia influenzari l'analisi (Harper and Konstan 2015) .
Parechji studienti anu focatu annantu à a ricerca in Twitter: Liu, Kliman-Silver, and Mislove (2014) è Tufekci (2014) .
Un accordu di tratta di a rivolta di a pupulazione hè di creà un panellu d'utilizatori, chì permette à i ricerca studienti a stessa persona à u tempu, vede Diaz et al. (2016) .
U primu sminticà u terminu "cunformatu algorithmically" utilatu da Jon Kleinberg in una parolla, ma sfurtunatamenti ùn ricurdate micca quandu o quandu u parli era datu. A prima volta chì aghju vistu u terminu in print era in Anderson et al. (2015) , chì hè una discussioni interessanti di cumu l'algoritmi addevi cù i siti di datà si puderanu complicà l'abilità di l'investigatore per l'usu di dati di sti siti per studià e preferenzi soziale. Questa importància hè statu risposta da K. Lewis (2015a) in risposta à Anderson et al. (2014) .
In più di Facebook, Twitter also recommands people for users to follow based on the idea of closing triadic; vede Su, Sharma, and Goel (2016) . Allura u nivellu di u pezzu triadic in Twitter hè una cumminazzioni di qualchì tendenza umana versu u pezzu triadicu è una certa tendenza algorithmmica per prumove a serezza triadica.
Per più nantu à u performativitate - in particulare l'idea chì certi teori di a ciencia suciali sò "motore di e camberti" (per esempiu, fannu furmà u mondu invece di sulla ghjustificazione) -vi Mackenzie (2008) .
L'agenzii statistici guvernamentale chjamanu l'editurii di data statistica di limpezza di dati De Waal, Puts, and Daas (2014) scrivenu e tecniche statistici di editoriali sviluppati per i dati di a storia è analizà a quantità à quali sò appiecenu à i grandi fonti di dati, è Puts, Daas, and Waal (2015) ponu parechji idee un auditu più generale.
Per una visione di i bots soziale, vede Ferrara et al. (2016) . Per unepochi di studii centrati in sviutà puzzicheghja in Twitter, vede Clark et al. (2016) è Chu et al. (2012) . Infine, Subrahmanian et al. (2016) detti i risultati di u DARPA Twitter Bot Challenge, una cullaburazione massiva aiuta per paralizzà l'approcqui di scopre bots in Twitter.
Ohm (2015) riviste prusione di ricerca nantu à l'idea di l'infurmazione sensittiva è offre un testu multi-fattore. I quatre fatturi chì proposa sò a magnitudine di u danu, a probabilità di dannu, a presenza di una relazione confidenciale, è chì u risicu riflette i prublemi majoritarii.
U studiu di u taxis di Farber in New York fu basatu annantu à un studiu di Camerer et al. (1997) chì anu usatu trè specie di cunzunzione diffirenti di carta di viaghji di carta. Stu studiu pricidenti truvò chì i cuncurrenti parevanu esse crescitanti di destinazione: travagliàvanu menu in i ghjorni chì i so salario era più altu.
In u travagliu successivu, Re è i culleghi anu scuperta a censura in linea in China (King, Pan, and Roberts 2014, [@king_how_2016] ) . Per un accordumente cunnessu à misurà a censura in linea in Cina, vede Bamman, O'Connor, and Smith (2012) . Per più nantu à i metudi statistici cum'è quellu chì s'utilice in King, Pan, and Roberts (2013) per stimi u sentimentu di i 11 milioni pubblicamente, vede Hopkins and King (2010) . Per più nantu à u studiu tutale, vedi James et al. (2013) (pocu tecnicu) è Hastie, Tibshirani, and Friedman (2009) (più tecniche).
A previsioni hè una gran parte di a ciencia di data industrial (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un tipu di previsione chì hè cumunimentu fattu da i ricercati sociale hè a previsione demográfica; vede, per esempiu, Raftery et al. (2012) .
Google Trèvuli di Flu ùn hè micca u primu prughjettu di utilizà a ricerca di dati à a prevalenza di l'influenza di u spaziu. In fattu, i ricercati in i Stati Uniti (Polgreen et al. 2008; Ginsberg et al. 2009) è Svezia (Hulth, Rydevik, and Linde 2009) anu truvatu chì certi termini di ricerca (per esempiu, "gripe") previsti sorveljanza tas-saħħa pubblika nazzjonali datu prima hè stata liberata. Doppu tanti, assai altri prughjetti pruvate d'utilizà trace digitale per a deteczione di a surviglianza di malatie; vedi Althouse et al. (2015) per una scuperta.
In più di l'utilizazione di traccia digitale per prevede risultati salutati, ci hè statu ancu una quantità enorme di travagliu cù a dati Twitter per prevedisce risultati di l'elezzioni; per Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (capítulo 7), è Huberty (2015) . L'ischiamentu di l'indikatore ecunomicu, cum'è u pruduttu domesticu grossu (PIB), hè ancu comuni in i banche centrale, vede Bańbura et al. (2013) . A tabel 2.8 includenu unepochi di studienti chì anu utilizatu qualcosa di traccia digitale per prevede un kinde d'avvenimentu in u mondu.
Traccia digitale | Risurrezzione | Citation |
---|---|---|
Prughjetti di u Boxu di i film in i Stati Uniti | Asur and Huberman (2010) | |
Ricerca i logs | Vendita di filmi, musica, libri è video ghjucate in i Stati Uniti | Goel et al. (2010) |
Dow Jones Industrial Average (US stock market) | Bollen, Mao, and Zeng (2011) | |
Suciali è ricerca di logs | E encui di sentimentu d'investituri è i marcati bibbliuti in i Stati Uniti, u Regnu Unitu, Canada è Chine | Mao et al. (2015) |
Ricerca i logs | Prevalenza di Dengue Fever in Singapore è Bangkok | Althouse, Ng, and Cummings (2011) |
Finalmente, Jon Kleinberg è i culleghji (2015) anu indicatu chì i prublemi di previsione diventanu à dui, categurî sutiliamenti distinti è chì i scientifichi sociale sò tendiri à fighjà nantu à unu è ignore l'altru. Pensa l'imagine di una pulitica, averaghju chjamatu Anna, chì hè in fronte à una seculu, è deve decide si allora un chjamatu per fà un danzo di acqua per incrementà a chance di piova. Un altru mettore di pulitica, averaghju chjamatu Betty, deve decide di piglià un parapuperta per u travagliu per ùn esse umucciu nantu à a strada di casa. Tanti Anna e Betty ponu una decisione megliu si capiscenu u tempu, ma necessanu bisognu di e diverse cose. Anna hà bisognu di capiscenu s'ellu u pioggia di danza pruvucalla. Betty, à l'altra banda, ùn hà bisognu di capiscenu a causa di a causalità; ella hè precisu una pronica precisa. I sperimentali sucietà spessu centanu nantu à i prublemi cum'è quellu chì Face di Anna, chì Kleinberg è i culleghji chjamanu "pulitorii à a caccia" di prublemi di pulitica, perchè involenu mutage di causalitati. Questione cum'è quellu di Betty, chì Kleinberg è i culleghji chjamanu "pulitichi", ponu esse impurtante assai, ma anu ricivutu assai più attenzione da i cullighjenti sociale.
A rivista PS Scienze Politica possediu un simposi nantu à grande dati, inferenza causale è a teoria formale, è Clark and Golder (2015) sintetizza ogni cuntributu. A prucessu di Journal of Accademia Naziunale di Scienze di i Stati Uniti d'America avianu un simposium nantu à inferenza causale è di grande datu, è Shiffrin (2016) sintesi ogni cuntributu. Per appruvisioni in macchine apprupta chì prova di scopre automaticamente e sperimenti naturali in l'internu di i grandi funzioni di dati, vedi Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , è Sharma, Hofman, and Watts (2016) .
In i termini di l'esperimenti naturali, Dunning (2012) furnisce un trattatu introductoru di u libru di longa cù assai esempi. Per una vista scettica di l'esperimenti naturali, vede Rosenzweig and Wolpin (2000) (ecunumia) o Sekhon and Titiunik (2012) (scienza pulitica). Deaton (2010) è Heckman and Urzúa (2010) sustene chì l'enfasi di l'esperimenti naturali pò guidà i circunsidenti di centri in l'estimazione di effetti causali impurtante; Imbens (2010) cuntene questi argumenti cun una vista ottimista di u valore di l'esperimenti naturali.
Quandu anu descrizzione cumu un ricunnisciutu puderia d'estimà l'effettu di l'esse redazzione à l'effettu di u sirvivu, stava discrivinu una tecnica chjamata varà funnamintali . Imbens and Rubin (2015) , in i capudi 23 è 24, furnisce una presentazione è utilizate l'abbozzu lotterie com'è un esempiu. L'effettu di u servitariu militare à i cumplimenti hè di qualchì tempu chjamatu l'effettu causale mediu cumpletu (CAcE) è quarchi u trattamentu mediu lucali (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , è Bollen (2012) offre rivisioni di l'utilizazione di e varianti instrumentali in a scienza pulitica, l'economia è a sucioluggìa, è Sovey and Green (2011) furnisce una "lista di verificatu di lettore" per a valutazione di l'studii cù varizaduli instrumentali.
Ci hè chì a lotterie di u 1970 ùn era micca, in fatti avianu randomized; Ci sò stati petitsi viulenza di puteru chjucu (Fienberg 1971) . Berinsky and Chatfield (2015) sustene chì questa tinta devenza ùn hè sustantivamenti impurtante è discute l'impurtanza di l'aleatoriu accadutu direttamente.
Cumu cunnessione, truverete Stuart (2010) per una critica ottimista, è Sekhon (2009) per una scossa pessimista. Per più di cunnessione cum'è una natura di pruning, vede Ho et al. (2007) . Circate una unica partituma perfetta per ogni persona hè spessu difficiuli, è questu introduces un gran complexità. Prima, quandu e precetti ùn sò micca dispunibili, i circuncisi necessanu decide di manera di misurà a distanza entre duie unità è se una distanza particulari hè abbastanza vicine. A secunna cumplicità nasciuta si i circherosu vuleva usà parechji partiti per ogni casu in u gruppu di trattamentu, postu chì chistu pò guasgi a rigioni più precisi. I dui questi, è ancu altri, sò discritti in detail in u capítol 18 di Imbens and Rubin (2015) . Vede ancu a Parte II di ( ??? ) .
Vede Dehejia and Wahba (1999) per un esempiu di i metudi di currispundenza puderanu pruducerà estimi simili à quelli di un esperimentu cuntrullatatu aleatu. Ma, vede Arceneaux, Gerber, and Green (2006) è Arceneaux, Gerber, and Green (2010) per esempi in casu chì i metudi in casu pudianu ripruduce un ripertamentu esperimentali.
Rosenbaum (2015) è Hernán and Robins (2016) offri cunsiglii per scopre a comparazione utili in grandi fonti di dati.