Viens no novērošanas veidiem, kas nav iekļauts šajā nodaļā, ir etnogrāfija. Plašāku informāciju par etnogrāfiju digitālajās telpās sk. Boellstorff et al. (2012) un vairāk par etnogrāfiju jauktajās digitālajās un fiziskajās telpās skat. Lane (2016) .
Nav vienotas vienprātības "lielo datu" definīcijas, bet daudzas definīcijas, šķiet, koncentrējas uz "3 Vs": apjomu, šķirni un ātrumu (piemēram, Japec et al. (2015) ). Skatīt De Mauro et al. (2015) definīciju pārskatīšanai.
Mana valdības administratīvo datu iekļaušana lielo datu kategorijā ir nedaudz neparasta, lai gan arī citi ir izdarījuši šo lietu, tostarp Legewie (2015) , Connelly et al. (2016) un Einav and Levin (2014) . Plašāku informāciju par valdības administratīvo datu vērtību pētniecībai sk. Card et al. (2010) , Adminstrative Data Taskforce (2012) un Grusky, Smeeding, and Snipp (2015) .
Valsts statistikas sistēmas iekšienē, jo īpaši ASV Census Bureau, ņemot vērā administratīvo pētījumu, skatīt Jarmin and O'Hara (2016) . Zviedrijas statistikas administratīvā ieraksta izpētes grāmatas garumā skatīt Wallgren and Wallgren (2007) .
Šajā nodaļā es īsumā salīdzināju tradicionālo aptauju, piemēram, vispārējo sociālās aptaujas (GSS) ar sociālo mediju datu avotu, piemēram, Twitter. Rūpīgu un rūpīgu salīdzinājumu starp tradicionālajiem apsekojumiem un datiem par sociālo mediju skat. Schober et al. (2016) .
Šie 10 lielo datu raksturlielumi ir dažādi aprakstīti dažādos autoros. Rakstīšana, kas ietekmēja manu domāšanu par šiem jautājumiem, ietver Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , Howison, Wiggins, and Crowston (2011) boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) un Goldstone and Lupyan (2016) .
Šajā nodaļā esmu izmantojis terminu " ciparu pēdas" , kas, manuprāt, ir relatīvi neitrāls. Vēl viens populārs termins digitālajām zīmēm ir digitālo pēdu nospiedumi (Golder and Macy 2014) , bet norāda, ka Hal Abelson, Ken Ledeen un Harijs Leviss (2008) norāda, ka piemērotāks termins, iespējams, ir digitālie pirkstu nospiedumi . Kad jūs izveidojat pēdas, jūs esat informēts par to, kas notiek, un jūsu pēdas parasti nevar izsekot jums personīgi. Tas pats neattiecas uz jūsu digitālajām pēdām. Patiesībā jūs atstājat pēdas visu laiku, par kuru jums ir ļoti maz zināšanu. Un, lai gan šīm zīmēm nav viņu vārda, tos bieži var piesaistīt pie jums. Citiem vārdiem sakot, tie ir vairāk kā pirkstu nospiedumi: neredzami un personīgi identificējoši.
Plašāku informāciju par to, kāpēc lielas datu kopas statistisko testēšanu rada problēmas, skatīt M. Lin, Lucas, and Shmueli (2013) un McFarland and McFarland (2015) . Šiem jautājumiem jākļūst par pētnieku uzmanību nevis statistiskai, bet gan praktiskai nozīmei.
Plašāku informāciju par to, kā Raj Chetty un kolēģi varēja piekļūt nodokļu ierakstiem, skatīt Mervis (2014) .
Lielas datu kopas var arī radīt skaitļošanas problēmas, kas parasti pārsniedz viena datora iespējas. Tāpēc pētnieki, kuri veic aprēķinus lielos datu kopumos, bieži vien izplatīja darbu daudzos datoros, dažkārt to sauc par paralēlu programmu . Ievads paralēlajā programmā, jo īpaši valoda Hadoop, sk. Vo and Silvia (2016) .
Apsverot pastāvīgus datus, ir svarīgi apsvērt, vai laika gaitā salīdzina tieši tos pašus cilvēkus vai salīdzina kādu mainīgu cilvēku grupu; skatīt, piemēram, Diaz et al. (2016) .
Klasiska grāmata par nereaģējošiem pasākumiem ir Webb et al. (1966) . Šajā grāmatā minētie piemēri ir pirms digitālā laikmeta, bet tie joprojām ir apgaismojoši. Par piemēriem cilvēkiem, kuri mainās savu uzvedību masu uzraudzības dēļ, skatiet Penney (2016) un Brayne (2014) .
Reaktivitāte ir cieši saistīta ar to, ko pētnieki sauc par pieprasījuma efektu (Orne 1962; Zizzo 2010) un Hawthorne efektu (Adair 1984; Levitt and List 2011) .
Lai uzzinātu vairāk par ierakstu saikni, skatiet Dunn (1946) un Fellegi and Sunter (1969) (vēsturiskie) un Larsen and Winkler (2014) (mūsdienu). Līdzīgas pieejas ir izstrādātas arī datorzinātnēs ar tādiem nosaukumiem kā datu deduplication, piemēru identifikācija, vārdu saskaņošana, atklāšanas dublēšana un dublikāta ierakstu noteikšana (Elmagarmid, Ipeirotis, and Verykios 2007) . Ir arī privātumu saglabājošas pieejas, lai ierakstītu saikni, kas neprasa personīgi identificējošas informācijas pārsūtīšanu (Schnell 2013) . Facebook arī ir izveidojis procesu, lai saistītu savus ierakstus ar balsošanas gaitu; tas tika darīts, lai novērtētu eksperimentu, ko es tev pastāstīšu 4. nodaļā (Bond et al. 2012; Jones et al. 2013) .
Plašāku informāciju par konstrukcijas derīgumu skatiet Shadish, Cook, and Campbell (2001) 3. nodaļā.
Lai uzzinātu vairāk par AOL meklēšanas žurnāla problēmu, skatiet Ohm (2010) . Es izsaku padomu par partnerattiecībām ar uzņēmumiem un valdībām 4. nodaļā, kad aprakstīju eksperimentus. Vairāki autori ir pauduši bažas par pētījumiem, kas balstās uz nepieejamiem datiem, skatīt Huberman (2012) un boyd and Crawford (2012) .
Viens labs veids, lai universitāšu pētnieki iegūt piekļuvi datiem ir strādāt uzņēmumā kā interns vai apmeklē pētnieks. Papildus iespējai piekļūt datiem, šis process arī palīdzēs pētnieks uzzināt vairāk par to, kā dati tika radīts, kas ir svarīgi, lai analīzei.
Runājot par piekļuvi valdības datiem, Mervis (2014) diskutē par to, kā Raj Chetty un viņa kolēģi ir ieguvuši piekļuvi nodokļu ierakstiem, kas izmantoti viņu pētījumā par sociālo mobilitāti.
Vairāk par "reprezentativitātes" vēsturi kā koncepciju skatiet Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) un Kruskal and Mosteller (1980) .
Mana kopsavilkumi par Sniega darbu un Doll un Hill darbu bija īss. Freedman (1991) par Snoana darbu ar holēru skatiet Freedman (1991) . Plašāku informāciju par britu ārstu pētījumu skatiet Doll et al. (2004) un Keating (2014) .
Daudzi pētnieki būs pārsteigti, uzzinot, ka, lai gan Doll and Hill bija savākuši datus no sievietes ārstiem un no ārstiem, kuri jaunāki par 35 gadiem, viņi šo informāciju apzināti neizmantoja savā pirmajā analīzē. Kā viņi apgalvoja: "Tā kā plaušu vēzis salīdzinoši reti sastopams sievietēm un vīriešiem līdz 35 gadu vecumam, dažos gados šajās grupās visticamāk netiks iegūti noderīgi dati. Tādēļ šajā provizoriskajā ziņojumā mēs pievērsām uzmanību vīriešiem vecumā no 35 gadiem. " Rothman, Gallacher, and Hatch (2013) , kam ir provokatīvs nosaukums" Kāpēc jāizvairās no reprezentativitātes ", sniedz vispārīgāku argumentu par apzināti radot nereprezentatīvus datus.
Neprepresentativitāte ir liela problēma pētniekiem un valdībām, kas vēlas izteikties par visu iedzīvotāju. Tas mazāk attiecas uz uzņēmumiem, kuri parasti ir vērsti uz saviem lietotājiem. Lai uzzinātu vairāk par to, kā Statistikas pārvalde uzskata lielo datu nereprezentācijas jautājumu, skat. Buelens et al. (2014) .
Par pētnieku piemēriem, kuri pauž bažas par lielu datu avotu nereprezentatīvo raksturu, skatīt boyd and Crawford (2012) , K. Lewis (2015b) un Hargittai (2015) .
Sīkāku sociālo apsekojumu mērķu un epidemioloģisko pētījumu salīdzināšanu skatiet Keiding and Louis (2016) .
Jungherr (2013) par mēģinājumiem izmantot čivināt, lai veiktu izlases vispārinājumus par vēlētājiem, it īpaši no 2009. gada Vācijas vēlēšanām, skatīt Jungherr (2013) un Jungherr (2015) . Pēc Tumasjan et al. (2010) pētnieki visā pasaulē ir izmantojuši mīļāko metodi, piemēram, izmantojot noskaņojuma analīzi, lai nošķirtu pozitīvo un negatīvo pušu pieminēšanu, lai uzlabotu čivināt datu spēju paredzēt dažādus vēlēšanu veidus (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Lūk, kā Huberty (2015) apkopoja rezultātus no šiem mēģinājumiem paredzēt vēlēšanas:
"Visas zināmās prognozēšanas metodes, kuru pamatā ir sociālie mediji, nav izdevušās, ja tiek pakļautas patiešām tālredzīgām vēlēšanu prognozēm. Šķiet, ka šīs nepilnības ir saistītas ar sociālo mediju fundamentālajām īpašībām, nevis ar metodoloģiskām vai algoritmiskām grūtībām. Īsāk sakot, sociālais medijs nepiedāvā un, iespējams, nekad nepiedāvās stabilu, objektīvu un reprezentatīvu priekšstatu par vēlētājiem; un sociālajiem plašsaziņas līdzekļiem ir pieejami pietiekami dati, lai šos post hoc problēmas novērstu. "
3. nodaļā es daudz detalizētāk aprakstīšu paraugu ņemšanu un novērtēšanu. Pat ja dati nav reprezentatīvi, noteiktos apstākļos tos var svērt, lai iegūtu labu aplēsi.
Sistēmas drift ir ļoti grūti redzēt no ārpuses. Tomēr MovieLens projekts (par ko vairāk aprakstīts 4. nodaļā) vairāk nekā 15 gadus ir veikusi akadēmiskā pētījumu grupa. Tādējādi viņi varēja dokumentēt un dalīties informācijā par to, kā sistēma laika gaitā ir attīstījusies, un kā tas varētu ietekmēt analīzi (Harper and Konstan 2015) .
Vairāki zinātnieki ir koncentrējušies uz dreifu čivināt: Liu, Kliman-Silver, and Mislove (2014) un Tufekci (2014) .
Viena pieeja iedzīvotāju novirzīšanai ir izveidot lietotāju grupu, kas ļauj pētniekiem laiku pa laikam studēt vienus un tos pašus cilvēkus, skat. Diaz et al. (2016) .
Es pirmo reizi dzirdēju terminu "algoritmiski sajaukti", ko Jon Kleinbergs izmantoja sarunā, bet diemžēl es neatceros, kad un kur tika runāts. Pirmo reizi, kad es redzēju terminu drukātā bija Anderson et al. (2015) , kas ir interesanta diskusija par to, kā algoritmi, kurus izmanto iepazīšanās portāli, var sarežģīt pētnieku spēju izmantot datus no šīm tīmekļa vietnēm, lai pētītu sociālās preferences. Šo problēmu izvirzīja K. Lewis (2015a) , atbildot uz Anderson et al. (2014) .
Papildus Facebook, Twitter arī iesaka lietotājiem sekot, balstoties uz trīsdimensiju slēgšanas ideju; skatīt Su, Sharma, and Goel (2016) . Tātad trīsdimensiju slēgšanas līmenis čivitalā apvieno kādu cilvēku tendenci pret triādes slēgšanu un dažu algoritmisko tendenci veicināt trīsdimensiju slēgšanu.
Vairāk par performantivitāti - it īpaši ideja, ka dažas sociālās zinātnes teorijas ir "dzinēji, nevis kameras" (ti, tās veido pasauli, nevis to apraksta) - skatīt Mackenzie (2008) .
Valsts statistikas aģentūras izsauc datu tīrīšanas statistisko datu rediģēšanu . De Waal, Puts, and Daas (2014) apraksta statistikas datu rediģēšanas paņēmienus, kas izstrādāti apsekojuma datiem, un pārbauda, cik lielā mērā tie ir piemērojami lieliem datu avotiem, un Puts, Daas, and Waal (2015) sniedz dažas no tām pašām idejām vispārīgāka auditorija.
Pārskatu par sociālajiem robotprogrammiem sk. Ferrara et al. (2016) . Dažiem pētījumu piemēriem, kas vērsti uz surogātpasta meklēšanu čivināt, sk. Clark et al. (2016) un Chu et al. (2012) . Visbeidzot, Subrahmanian et al. (2016) apraksta DARPA Twitter bot izaicinājuma rezultātus, kas ir masveida sadarbība, kuras mērķis ir salīdzināt pieejas robotu noteikšanai čivināt.
Ohm (2015) pārskata agrāk veikto pētījumu par ideju par konfidenciālu informāciju un piedāvā daudzfaktoru testu. Četri faktori, kurus viņš ierosina, ir kaitējuma apmērs, kaitējuma varbūtība, konfidenciālas attiecības un vai risks atspoguļo lielākās problēmas.
Farbera pētījums par taksometru Ņujorkā tika balstīts uz Camerer et al. (1997) Iepriekš Camerer et al. (1997) pētījumu Camerer et al. (1997) kas izmantoja trīs dažādus papīra loksnes ērtības paraugus. Šis iepriekšējais pētījums atklāja, ka vadītāji šķita mērķtiecīgi pelnījuši: viņi strādāja mazāk dienā, kad viņu algas bija lielākas.
Turpmākajā darbā Kings un kolēģi turpināja izpētīt tiešsaistes cenzūru Ķīnā (King, Pan, and Roberts 2014, [@king_how_2016] ) . Attiecībā uz saistītu pieeju, lai novērtētu tiešsaistes cenzūru Ķīnā, skatīt Bamman, O'Connor, and Smith (2012) . Plašāku informāciju par statistikas metodēm, piemēram, to, ko izmanto King, Pan, and Roberts (2013) lai novērtētu 11 miljonu amatu noskaņojumu, skatīt Hopkins and King (2010) . Lai uzzinātu vairāk par uzraudzītu mācīšanos, skatiet James et al. (2013) (mazāk tehniski) un Hastie, Tibshirani, and Friedman (2009) (tehniski).
Prognozēšana ir liela daļa rūpniecisko datu zinātņu (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Viens no prognozēšanas veidiem, ko parasti veic sociālie pētnieki, ir demogrāfiskā prognoze; skatīt, piemēram, Raftery et al. (2012) .
Google Flu Trends nebija pirmais projekts, kas izmantoja meklēšanas datus, lai gripas izplatība tagadnē būtu aktuāla. Patiesībā pētnieki ASV (Polgreen et al. 2008; Ginsberg et al. 2009) un Zviedrija (Hulth, Rydevik, and Linde 2009) ir atklājuši, ka noteiktos meklēšanas terminus (piemēram, "gripa") paredzēja valsts sabiedrības veselības uzraudzība dati pirms tā izlaišanas. Pēc tam daudzos daudzos citos projektos ir mēģināts izmantot ciparu trajektorijas datus slimību uzraudzības veikšanai; skatīt Althouse et al. (2015) pārskatīšanai.
Papildus digitālo izsekošanas datu izmantošanai, lai prognozētu veselības rezultātus, ir arī bijis milzīgs darbs, izmantojot čivināt datus, lai prognozētu vēlēšanu rezultātus; par atsauksmēm skatiet Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (7. nodaļa) un Huberty (2015) . Ekonomisko rādītāju, piemēram, iekšzemes kopprodukta (IKP), Bańbura et al. (2013) ir izplatīta arī centrālajās bankās, skatīt Bańbura et al. (2013) . 2.8. tabulā ir iekļauti daži pētījumu piemēri, kuros tiek izmantota kāda veida ciparu zīme, lai noteiktu kāda veida notikumu pasaulē.
Digitālā zīme | Rezultāts | Citāts |
---|---|---|
Čivināt | Biļešu ieņēmumi no filmas ASV | Asur and Huberman (2010) |
Meklēt žurnālus | Filmu, mūzikas, grāmatu un video spēļu pārdošana ASV | Goel et al. (2010) |
Čivināt | Dow Jones Industrial Average (ASV akciju tirgus) | Bollen, Mao, and Zeng (2011) |
Sociālie mediji un meklēšanas žurnāli | Investoru noskaņojuma un akciju tirgu apskats Amerikas Savienotajās Valstīs, Apvienotajā Karalistē, Kanādā un Ķīnā | Mao et al. (2015) |
Meklēt žurnālus | Drudža drudža izplatība Singapūrā un Bangkokā | Althouse, Ng, and Cummings (2011) |
Visbeidzot, Jon Kleinbergs un viņa kolēģi (2015) ir norādījuši, ka prognozēšanas problēmas ietilpst divās, ļoti atšķirīgās kategorijās un ka sociālie zinātnieki ir koncentrējušies uz vienu un ignorē otru. Iedomājieties vienu politikas veidotāju, es saucu viņai Annu, kas saskaras ar sausumu, un jāizlemj, vai pieņemt darbā šamanu, lai darītu lietus deju, lai palielinātu lietus iespēju. Vēl viens politikas veidotājs, es zvanu viņai Betty, ir jāizlemj, vai ņemt jumta darbu, lai izvairītos no slapja uz mājām. Gan Anna, gan Betty var pieņemt labāku lēmumu, ja viņi saprot laika apstākļus, bet viņiem ir jāzina dažādas lietas. Anna ir jāsaprot, vai lietus deja izraisa lietus. Bet, no otras puses, nav nepieciešams kaut ko saprast par cēloņsakarību; viņai vienkārši vajag precīzu prognozi. Sociālie pētnieki bieži koncentrējas uz tādām problēmām kā Anna, ar kuru saskaras Anna, un ko Kleinbergs un viņa kolēģi sauc par "lietus deju līdzīgu" politikas problēmām, jo tie ietver cēloņsakarības jautājumus. Jautājumi, piemēram, tie, ar kuriem saskaras Betty, ko Kleinbergs un viņa kolēģi sauc par "jumta formas" politikas problēmām, var būt arī ļoti nozīmīgi, taču sociālo pētnieku uzmanība tiek pievērsta daudz mazāk.
Žurnāls PS Politoloģija bija simpozijs par lieliem datiem, cēloņu secinājumu un formālo teoriju, un Clark and Golder (2015) apkopo katru ieguldījumu. Amerikas Savienoto Valstu Nacionālās Zinātņu akadēmijas žurnālā " Proceedings of the National Academy of Sciences" bija simpozijs par cēloņsakarību un lieliem datiem, un Shiffrin (2016) apkopo katru ieguldījumu. Attiecībā uz mašīnapmācības metodēm, kas mēģina automātiski atklāt dabas eksperimentus lielu datu avotu iekšienē, sk. Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , un Sharma, Hofman, and Watts (2016) .
Runājot par dabas eksperimentiem, Dunning (2012) piedāvā ievada, grāmatas garuma ārstēšanu ar daudziem piemēriem. Skeptiski Rosenzweig and Wolpin (2000) dabas eksperimentus, skat. Rosenzweig and Wolpin (2000) (ekonomika) vai Sekhon and Titiunik (2012) (politikas zinātne). Deaton (2010) un Heckman and Urzúa (2010) apgalvo, ka koncentrēšanās uz dabiskiem eksperimentiem var novest pie pētnieku koncentrēšanās uz nenozīmīgu cēloņsakarību novērtēšanu; Imbens (2010) šos argumentus vērtē ar optimistiskāku priekšstatu par dabisko eksperimentu vērtību.
Aprakstot, kā pētnieks varētu pāriet no projektēšanas efekta novērtēšanas uz apkalpošanas efektu, es raksturoju metodi, ko sauc par instrumentālajiem mainīgajiem . Imbens and Rubin (2015) 23. un 24. nodaļā ir ieviesti un piemēru izmantot loterijas projektu. Militārā dienesta ietekmi uz komplikatoriem dažkārt sauc par vidējo cēloņsakarības efektu (CAcE) un reizēm vietējo vidējo ārstēšanas efektu (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) un Bollen (2012) piedāvā pārskati par instrumentālo mainīgo lielumu izmantošanu politiskajā zinātnē, ekonomikā un socioloģijā, un Sovey and Green (2011) sniedz "lasītāju kontrolsarakstu" pētījumu novērtēšana, izmantojot instrumentālos mainīgos lielumus.
Izrādās, ka 1970. gada loterijas projekts faktiski netika pareizi izvēlēts; bija nelielas novirzes no tīras nejaušības (Fienberg 1971) . Berinsky and Chatfield (2015) apgalvo, ka šī nelielā novirze nav būtiski svarīga un apspriež, cik svarīgi ir pareizi veikt randomizāciju.
Attiecībā uz atbilstību skatīt Stuart (2010) par optimistisku pārskatu un Sekhon (2009) par pesimistisko pārskatu. Lai uzzinātu vairāk par saskaņošanu kā atzarošanas veidu, skatiet Ho et al. (2007) . Viena ideāla atbilstība katram cilvēkam bieži vien ir grūta, un tas rada vairākas sarežģītības. Pirmkārt, ja precīzas atbilstības nav pieejamas, pētniekiem ir jāizlemj, kā izmērīt attālumu starp divām vienībām un, ja noteiktais attālums ir pietiekami tuvu. Otra sarežģītība rodas, ja pētnieki vēlas izmantot vairākas atbilstības katram gadījumam ārstniecības grupā, jo tas var novest pie precīzākiem aprēķiniem. Abus šos jautājumus, kā arī citus, sīki aprakstīts Imbens and Rubin (2015) 18. nodaļā. Skat. Arī ( ??? ) II daļu.
Dehejia and Wahba (1999) piemērus, kad saskaņošanas metodes spēja radīt aprēķinus, kas ir līdzīgi tiem, kas iegūti no nejaušinātā kontrolēta eksperimenta. Bet, skat. Arceneaux, Gerber, and Green (2006) un Arceneaux, Gerber, and Green (2010) , piemēri, kad atbilstības metode neizdevās reproducēt eksperimentālu etalonu.
Rosenbaum (2015) un Hernán and Robins (2016) piedāvā citus padomus, lai atklātu noderīgus salīdzinājumus lielos datu avotos.