In seguita Samari

Stu rùbbrica hè disignatu a ièssiri usatu comu nu rifirimentu, piuttostu chè per esse lettu comu na fàvula.

  • I MUVRINI (Section 2.1)

Unu tipu de esaminai, chì ùn hè contu in stu capitulu hè etnugrafia. Pè sapenne di più nantu à etnugrafia in i spazi digitale voir Boellstorff et al. (2012) , e di più nantu à etnugrafia in i spazi digitale è fìsica mixte de voir Lane (2016) .

  • Big dati (Section 2.2)

Quandu si sò repurposing data, ùn ci sò dui scherzi mentale chì pò aiutà vi capì u pussibule prublemi chi vo pudia accade. Prima, pudete pruvà à pinsà la dataset ideale per u vostru prublema è i parauni ca a lu dataset chi vo aduprate. Comu chi sunnu simili e quantu sunnu diffirenti? S'è tù ùn hai sorte i vostri dati invece, ci sò parrata avissi a èssiri diffarenza trà ciò chì vo vulete, è ciò chì vo avete. Ma, vo avete a dicidiri siddu sti diffarenzi sò minor, o maiò.

Siconda, ricordati beni, ca quarcunu criatu e studiusu di i vostri dati di quarchi ragiuni. You deve pruvà à capì a so ragiunamentu. Stu tipu di riversu-santurbano ponu aiutà vi mudellu pussìbbili prublemi è biases in i vostri dati repurposed.

Ùn ci hè micca sola definizione aaniim di "dati granni", ma parechje definizione parenu di ritruvà nant'à u 3 Di Bonaventura: (per esempiu, vulumi, varietà, e vilucitati Japec et al. (2015) ). Chiu tostu dissiminati nantu à i carattaristichi di i dati, u mio definizione incalca di più nantu à quessa hè statu creatu u dati.

I mo esse integratu di dati amministrativu di guvernu dintra lu categuria di grande data, hè un pocu numerose. Altri chì anu fattu stu casu, prividia Legewie (2015) , Connelly et al. (2016) , e Einav and Levin (2014) . Pè sapenne di circa lu valuri di dati amministrativu di guvernu di a ricerca, vede Card et al. (2010) , Taskforce (2012) , e Grusky, Smeeding, and Snipp (2015) .

Per una vista di a ricerca amministrativu da drentu u sistemu di statìstiche cuvernu, 'n particulari lu Census Bureau US, voir Jarmin and O'Hara (2016) . Per un trattamentu lunghezza libbru di li ricerchi amministrativi à Statistiche Sweden, voir Wallgren and Wallgren (2007) .

In u capitulu, aghju prestu prestu paragunatu à log tradizziunali, comu lu bambino General Suciali (GSS) à una surgente di dati di cumunicazione suciale, comu Twitter. Di u paraguni lu Galateu e attentu trà Salumeria tradizziunali e dati a sucetà di cumunicazione, voir Schober et al. (2016) .

  • Caratteristiche cumune di grande dati (Section 2.3)

Sti 10 caratteristiche di a grande dati hannu statu discrittu in una varietà di versi da una varietà di scrittori sfarenti. Scritta chì influenzatu u mio pensà nantu à sti resultati incrudunu: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , e Goldstone and Lupyan (2016) .

Ntô mentri di 'stu capitulu, Corsu a francisata troppu usatu li vistichi digitale tèrmini, ca ci pensu è rilitivamenti niutrali. N'àutra termini pupulari di e tracce digitale è femmina, digitale (Golder and Macy 2014) , ma comu Hal Abelson, Ken Ledeen, è Harry Lewis (2008) a dirizzioni, nu tèrmini cchiù degne eni prubbabirmenti a parnochja * numerica. Quandu ti créer femmina, vi sò micca cuscenza di ciò chì hè pusitivu, è u vostru femmina ùn pò indicà attròvanu à voi di pirsuna. Lu stissu nun è veru per a vostra vistichi numerica. In fatti, ci sò sumena vistichi tuttu u tempu di e quali vo avete puchissima a cunniscenza. E, siddu issi vistichi ùn debbanu micca u vostru nomu nantu à elli, si ponnu spissu èssiri alleatu daretu à voi. Nta àutri paroli, si sò più cum'è a parnochja *: ochji è parsunali, identificà.

Big

Pè sapenne di u percentuale di grande datasets, cuntentezza à i testi di statìstiche prubbrimàticu, voir Lin, Lucas, and Shmueli (2013) e McFarland and McFarland (2015) . Sti resultati avissi a puttari circadori di ritruvà u significatu pratica piuttostu chè significatu di statìstiche.

Sempre-in u

Quandu cunsidirari sempre-in u data, hè impurtante à lagnà s'è vo sò comparing lu stissu pòpulu esattu filu di u tempu, o siddu vi sò comparing qualchi gruppu cambiendu di genti; si vìdinu pî esempiu, Diaz et al. (2016) .

Non-particulars

Un libru classicu nantu à misure non-particulars hè Webb et al. (1966) . Li siquenti sunnu asempî in u libru pré-data di l 'età numerica, ma ch'elli ùn sò à bastanza illuminated. Di li siquenti sunnu asempî di genti di trasfurmà u so cumpurtamentu a causa di la presenza di surviglianza di massa, voir Penney (2016) e Brayne (2014) .

ncumpreta

Pè sapenne di più nantu à a memoria lingua, voir Dunn (1946) e Fellegi and Sunter (1969) (historical) è Larsen and Winkler (2014) (mudernu). Simili si avvicina è sò stati ancu elaburatu in la nfurmàtica sottu à u nomi comu deduplication data, identificazione esempiu, nomu BILINGUE, replicà dittizzioni è replicà dittizzioni fiche (Elmagarmid, Ipeirotis, and Verykios 2007) . Ci si trovanu dinò a privacy quali cunzerva avvicinamenti pi nutari lingua ca nun s'avissi a trasmissioni di identificà i parsunali, nantu à u corsu (Schnell 2013) . Facebook hè ancu elaburatu un pinsà à lià i so ricordi à un cumpurtamentu vutendu; chistu fu fattu a evaluate nu spirimentu ca ora ti dicu circa a Chapter 4 (Bond et al. 2012; Jones et al. 2013) .

Pè sapenne di più nantu à validità custruiscia, voir Shadish, Cook, and Campbell (2001) , Chapter 3.

inaccessibili

Pè sapenne di più nantu à u AOL di strada di ricerca Débâcle, voir Ohm (2010) . I pruponenu i cunsigli su partnering cù impresi è i cullettività in Chapter 4 quandu I numaru di sperienze. Un nùmeru di scrittori hannu spressu cuncerna circa di ricerca chì relies nantu à dati inaccessibili, voir Huberman (2012) e boyd and Crawford (2012) .

Una bona manera di circadori università à acquistà un accessu dati è a furmazioni à un impresa cum'è un limit o militante di visità. In più di attivà un accessu data, stu prucessu hà ancu aiutà u so ricerca amparà più vicinu comu fu criata la data, ca è mpurtanti pi analisi.

Non-riprisentante

Non-representativeness hè un prublemu maiò di circadori è guverni chì vulete fà prucessi verbali circa una parola pupulazioni. Hè menu di mente, di impresi chì sò tipicamenti fighjendu e scumesse di u so utilizatori. Pè sapenne di supra comu Statistiche Paesi Bassi cunsidareghja la pèrdita di non-representativeness di grande dati los, voir Buelens et al. (2014) .

In Chapter 3, I Mulateri Di L'discrìviri sediment e Aurelia in assai più grande dittagli. Puru siddu dati sunnu non-riprisentante, sottu à certi cundizioni, si pò esse linguistic à fà u bè estimates.

c'arrivava

ricupartu System hè assai difficiuli à fà si vede da u fora. A ogni modu, lu prugettu MovieLens (viditi lu discursu di più in Chapter 4) hè statu lanciatu di più di 15 anni da un gruppu di ricerca accademicu. Ghjè per quessa, ch'elli anu studiata è infurmazione nantu a strada chì u sistema s'hè evulùtisi filu di u tempu e quantu cumpartitu quissa Analisi putissi Algérienne (Harper and Konstan 2015) .

Un nùmeru di studiusi hannu fighjendu e scumesse ricupartu in Twitter: Liu, Kliman-Silver, and Mislove (2014) e Tufekci (2014) .

Algorithmically cunfusi

I primi intesu u termine "algorithmically cunfusi" usatu par Jon Kleinberg in una conversazione. Lu scopu principali daretu à performativity è chì certi li tiurìi supra li scienzi suciali sò "ùn cultura Parrucchieri" (Mackenzie 2008) . Chì hè, si intreccia appruntà u mondu, chiuttostu ca sulu rinisciru a pigghiari lu.

Dirty

Agenze di statìstiche guvernamentale chiamari a pulizia di dati, chì cuntenenu di dati di statìstiche. De Waal, Puts, and Daas (2014) numaru di e tecniche di scrittura dati di statìstiche sviluppatu di dati log è esaminà a quali puntu ch'elli sò da appiecà à a grande fonti di dati, e Puts, Daas, and Waal (2015) prisenta arcuni di li stissi idei pi na parti dû cchiù ginirali.

Per un pocu di esempi di studii fighjendu e scumesse di i puzzicheghji in Twitter, Clark et al. (2016) e Chu et al. (2012) . Infine, Subrahmanian et al. (2016) discrivi la lingua dî risultati di l 'DARPA Twitter Bot Barabattule.

fattivu

Ohm (2015) avis ricerche nanzu supra l 'idea dâ nfurmazzioni fattivu è prupone un test di multi-fattore. Li quattru fattori ch'ellu prupone sunnu: la prubbabbilitati di u male; prubabilità di u male; A prisenza di un raportu cunfidenziale; e siddu stu risicu sò quelle dinò ch'omu cuncerna majoritarian.

  • Natalie Imbruglia cosi (Section 2.4.1)

Studiu di Farber di taxis nel New York era basatu supra nu studiu nanzu da Camerer et al. (1997) chì usatu tri diffirenti analise altra di viaghju, carta diàlogu linzola-di carta adupratu da segne pi nutari viaghju tempu principiu, tempu fine, è riduzzione. Stu studiu nanzu trovu chì segne paria esse earners enrico: si travaglia menu nantu à ghjornu induve i so solda erani sempri.

Kossinets and Watts (2009) fù fighjendu e scumesse di l 'urìggini di homophily in rete suciale. Voir Wimmer and Lewis (2010) per un accostu differente à u listessu prublemu chì adopra di dati da Facebook.

In chì seguitanu u travagliu, u rè è i culleghi anu più fattu scopra cinsura distancia in China (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Per un accostu currilatu a misurari la cinsura distancia in China, voir Bamman, O'Connor, and Smith (2012) . Pè sapenne di più nantu à i metudi di statìstiche, comu a chidda usata in King, Pan, and Roberts (2013) à cuntà lu sintimentu di li 11 miliuna di i posti, voir Hopkins and King (2010) . Pè sapenne di più nantu à amparera tutoratu, voir James et al. (2013) (less tecnicu) è Hastie, Tibshirani, and Friedman (2009) (more tecnicu).

  • Come (Section 2.4.2)

Come hè una grande parte di dati industriale li scienzi (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Unu tipu di pruspettiva ca sunnu cumunimenti fattu di circadori suciali sò mudeli demugrafica, per esempiu Raftery et al. (2012) .

Google Pt Napoli nun fu lu primu prugettu à aduprà dati di ricerca à nowcast a grippa murfulugia. In fatti, circadori in i Stati Uniti d'America (Polgreen et al. 2008; Ginsberg et al. 2009) è Svezia (Hulth, Rydevik, and Linde 2009) Aghju trovu chì certi termini di ricerca (per esempiu, "infruenza") prividiri missu a salute publica nazziunali di dati prima di lu statu liberatu. Dopu tanti, tanti altri prugetti anu pruvatu à aduprà dati traccia digitale di dittizzioni missu k, voir Althouse et al. (2015) di a review.

'N agghiunta a usu di dati traccia digitale à predict outcomes a salute, ci hè statu dinù un tempurale quantità di travagliu cù dati Twitter à predict outcomes elezzione; di avis voir Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), e Huberty (2015) .

Praticà dati di ricerca à pridisci a grippa murfulugia è l 'usu di dati Twitter à predict alizzioni sunnu tutti dui li siquenti sunnu asempî di usannu na speci di traccia, digitale à predict na speci di ballò, in u mondu sanu. Ci nu nùmmiru paludosa di studi ca hannu sta struttura ginirali. Table 2.5 cumprenni na picca àutri asempi.

Table 2.5: lista parziale di studii aduprà certi traccia digitale à predict quarchi eventu.
traccia Digital quenti francese citation
Twitter Box tax ufficiu di i filmi in i Stati Uniti Asur and Huberman (2010)
Search azzioni Sales di i filmi, musica, libri, e games in i Stati Uniti Goel et al. (2010)
Twitter Dow Jones Industrial Average (mercatu scorta US) Bollen, Mao, and Zeng (2011)
  • Spirimenti Approximating (Section 2.4.3)

Rivista PS Political Science avutu un entu nantu à dati grande, inference justifier, e tiuria furmali, e Clark and Golder (2015) riassumi ogni cuntributu. U Studi italiani trimestrale di l 'Accademia Nazionale di scienze di li Stati Uniti di la Merica era un entu su inference justifier e grandi li dati, e Shiffrin (2016) riassumi ogni cuntributu.

In termini di sperienze naturale, Dunning (2012) custituisci nu cillenti cure lunghezza libru. Pè sapenne di più nantu à usu u prugettu di ghjochi Vietnam comu un tentativu naturale, voir Berinsky and Chatfield (2015) . Per avvicinamenti di machine chi tintatu di scopre in autumàticu spirimenti naturale dintra di grande fonti di dati, voir Jensen et al. (2008) e Sharma, Hofman, and Watts (2015) .

In termini di corrispondenza, per un revue de optimistic, voir Stuart (2010) , è di a review pessimista voir Sekhon (2009) . Pè sapenne di più nantu à truva comu un tipu di Prüfung, voir Ho et al. (2007) . Di libbra ca purtà un attore di trattamenta di corrispondenza, voir Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , e Imbens and Rubin (2015) .