Šī sadaļa ir paredzēts izmantot kā atsauci, nevis jālasa kā stāstījumu.
Viena veida atgādinādama, ka nav iekļauta šajā nodaļā ir etnogrāfija. Lai uzzinātu vairāk par etnogrāfiju digitālajām telpās redzēt Boellstorff et al. (2012) , un vairāk par etnogrāfiju jauktās digitālo un fizisko telpu redzēt Lane (2016) .
Kad esat repurposing datiem, ir divi garīgās viltības, kas var palīdzēt jums saprast iespējamās problēmas, kuras var rasties. Pirmkārt, jūs varat mēģināt iedomāties ideālu datu kopu, lai jūsu problēmu, un salīdzināt, ka ar datu kopā, ka jūs izmantojat. Kā viņi līdzīgi un kā tie atšķiras? Ja Jums nav savākt savus datus sevi, ir iespējams, ir atšķirība starp to, ko jūs vēlaties un kas jums ir. Bet, jums ir izlemt, vai šīs atšķirības ir nelielas vai lielas.
Otrkārt, jāatceras, ka kāds izveidots un vāc savus datus, lai kāda iemesla dēļ. Jums vajadzētu mēģināt saprast to pamatojumu. Šis reversās inženierijas veida var palīdzēt jums noteikt iespējamās problēmas un aizspriedumus savās repurposed datiem.
Nav viena vienprātības definīcijas "lielo datiem", bet daudzi definīcijas šķiet, lai koncentrētos uz 3 Vs: (piemēram, apjoms, daudzveidība, un ātrums Japec et al. (2015) ). Nevis koncentrēties uz raksturlielumu datiem, mana definīcija ir vērsta vairāk par to, kāpēc tika izveidota dati.
Mana iekļaušana valsts administratīvo datu iekšpusē kategoriju lielo datu ir mazliet neparasti. Citi, kas ir veikuši šo lietu, ietver Legewie (2015) , Connelly et al. (2016) , un Einav and Levin (2014) . Lai uzzinātu vairāk par vērtību valdības administratīvajiem datu pētniecības, skatiet Card et al. (2010) , Taskforce (2012) , un Grusky, Smeeding, and Snipp (2015) .
Par skatu administratīvā pētījumiem no iekšpuses valsts statistikas sistēmā, jo īpaši ar ASV Census Bureau, skatiet Jarmin and O'Hara (2016) . Par grāmatu garuma ārstēšanai administratīvo ierakstu pētījuma statistiku Zviedrijā, skatiet Wallgren and Wallgren (2007) .
Nodaļā, es īsumā salīdzinot tradicionālo aptauju piemēram, vispārējo sociālo apsekojuma (GSS) uz sociālo mediju datu avotu, piemēram, Twitter. Par pamatīgu un rūpīgu salīdzinājumu starp tradicionālajām apsekojumi un sociālo mediju datiem, sk Schober et al. (2016) .
Šie 10 raksturojums lielie dati ir aprakstīti dažādos veidos dažādas autoru. Writing kas ietekmēja manu domāšanu par šiem jautājumiem ir: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , un Goldstone and Lupyan (2016) .
Visā šajā nodaļā, es esmu, ko izmanto terminu digitālo pēdas, kas, manuprāt, ir samērā neitrāla. Vēl viens populārs termins digitālo pēdas ir ciparu pēdas (Golder and Macy 2014) , bet kā Hal Abelson, Ken Ledeen, un Harry Lewis (2008) norāda, piemērotāks termins, iespējams, digitālo pirkstu nospiedumi. Kad jūs izveidojat pēdas, jums ir zināms par to, kas notiek, un jūsu pēdas parasti nevar izsekot Jums personīgi. Tas pats nav taisnība, lai jūsu digitālās pēdas. Patiesībā, jūs atstājat pēdas visu laiku par to, kas jums ir ļoti maz zināšanu. Un, lai gan šie pēdas nav savu vārdu par viņiem, viņi bieži vien var būt saistīts atpakaļ uz jums. Citiem vārdiem sakot, tie ir vairāk kā pirkstu: neredzams un personiski identificētu.
liels
Lai uzzinātu vairāk par to, kāpēc lielām datu kopām, padarīt statistiskos testus problemātiska, sk Lin, Lucas, and Shmueli (2013) un McFarland and McFarland (2015) . Šie jautājumi būtu jānoved pētniekus pievērsties praktiska nozīme, nevis statistisko nozīmīgumu.
Vienmēr
Apsverot vienmēr-on datiem, ir svarīgi apsvērt, vai jums ir salīdzinot precīzu paši cilvēki laika gaitā, vai jūs salīdzināt kādu mainās cilvēku grupai; skatīt, piemēram, Diaz et al. (2016) .
Nereaģējošs
Classic grāmata nav reaktīvo pasākumu Webb et al. (1966) . Šie piemēri grāmatu iepriekšēju datumu digitālajā laikmetā, taču tie joprojām apgaismo. Piemērus cilvēku maina savu uzvedību, jo klātbūtni masveida uzraudzību, skat Penney (2016) un Brayne (2014) .
nepilnīgs
Lai uzzinātu vairāk par ierakstu saikni, skatiet Dunn (1946) un Fellegi and Sunter (1969) (vēsturisko) un Larsen and Winkler (2014) (mūsdienu). Līdzīgi tuvojās ir izstrādāti arī datorzinātnēs ar nosaukumu, piemēram, datu deduplication, piemēram identifikāciju, nosaukumu saskaņošanu, dublēt atklāšanu, un dublēt ierakstu atklāšanu (Elmagarmid, Ipeirotis, and Verykios 2007) . Ir arī privātuma saglabāšanas pieejas, lai ierakstītu saikni, kas neprasa pārraidi personu identificējošu informāciju (Schnell 2013) . Facebook arī ir izstrādājusi turpināt saistīt savus ierakstus balsošanas uzvedību; Tas tika darīts, lai novērtētu eksperimentu, ka es jums pastāstīt par 4. nodaļā (Bond et al. 2012; Jones et al. 2013) .
Lai uzzinātu vairāk par būvēt derīguma skat Shadish, Cook, and Campbell (2001) , 3. nodaļu.
nepieejams
Lai uzzinātu vairāk par AOL meklēšanas log sagrāves, sk Ohm (2010) . Es piedāvāt padomu par sadarbība ar uzņēmumiem un valdībām 4.nodaļā kad es aprakstīt eksperimentus. Vairāki autori ir pauduši bažas par pētījumu, kas balstās uz nepieejami dati, sk Huberman (2012) un boyd and Crawford (2012) .
Viens labs veids, lai universitāšu pētnieki iegūt piekļuvi datiem ir strādāt uzņēmumā kā interns vai apmeklē pētnieks. Papildus iespējai piekļūt datiem, šis process arī palīdzēs pētnieks uzzināt vairāk par to, kā dati tika radīts, kas ir svarīgi, lai analīzei.
Non-pārstāvi
Non-pārstāvība ir liela problēma pētniekiem un valdībām, kas vēlas izteikties par visu populāciju. Tas ir mazāk bažas par uzņēmumiem, kas parasti ir vērsta uz to lietotājiem. Lai uzzinātu vairāk par to, kā statistika Nīderlande uzskata, ka jautājums par ne-reprezentativitātes uzņēmējdarbības lielo datu, skat Buelens et al. (2014) .
3. nodaļā, es ņemšu aprakstīt paraugu ņemšanas un aprēķinu daudz sīkāk. Pat tad, ja dati ir nav reprezentatīvi, zināmos apstākļos, tie var svērt uzrādīt labus novērtējumus.
Drifting
Sistēma drift ir ļoti grūti redzēt no ārpuses. Tomēr MovieLens projekts (apspriesti vairāk 4. nodaļā) ir darbināts vairāk nekā 15 gadus ar akadēmiskās pētniecības grupas. Tāpēc tās ir dokumentētas un dalīta informācija par to, kā, ka sistēma ir attīstījusies laika gaitā un kā tas var ietekmēt analīzes (Harper and Konstan 2015) .
Vairāki zinātnieki ir vērsta uz novirzēm čivināt: Liu, Kliman-Silver, and Mislove (2014) un Tufekci (2014) .
algoritmiski sagrāvusi
Es pirmo reizi dzirdēju terminu "algoritmiski sagrāvusi" ar Jon Kleinberg izmanto runāt. Galvenā ideja performativity ir tāda, ka dažas sociālās zinātnes teorijas ir "dzinēji nav kameras" (Mackenzie 2008) . Tas ir, viņi tiešām veidot pasauli, nevis vienkārši iekarot to.
netīrs
Valdības statistikas aģentūras zvanu datu tīrīšana, statistisko datu rediģēšanu. De Waal, Puts, and Daas (2014) apraksta statistikas dati rediģēšanas metodes, kas izstrādātas, lai apsekojumu datus un pārbaudīt, cik lielā mērā tie ir piemērojami lieliem datu avotiem, un Puts, Daas, and Waal (2015) prezentē dažas no tās pašas idejas vispārīgāku auditoriju.
Dažiem piemērus pētījumu koncentrējas uz surogātpastu Twitter, Clark et al. (2016) un Chu et al. (2012) . Visbeidzot, Subrahmanian et al. (2016) apraksta par DARPA Twitter Bot Challenge rezultāti.
jūtīgs
Ohm (2015) izskata agrāk pētījumus par ideju sensitīvas informācijas un piedāvā vairāku faktoru testu. Četri faktori viņa piedāvātie ir: varbūtība kaitējuma; varbūtība kaitējuma; klātbūtne konfidenciāli attiecības; un vai risks atspoguļo mažoritāro bažas.
Farbers studiju taksometru Ņujorkā balstījās uz agrāku pētījumu Camerer et al. (1997) , ko izmanto trīs dažādus ērtības paraugus papīra ceļojums loksnes, papīra veidlapas, ko autovadītāji izmanto, lai ierakstītu ceļojuma sākuma laiku, beigu laiku, un cenas. Šajā agrāk veiktajā pētījumā konstatēts, ka vadītāji, šķiet, ir mērķa pelnītājiem: viņi strādāja mazāk dienās, kur viņu algas bija lielākas.
Kossinets and Watts (2009) bija vērsta uz izcelsmi homophily sociālajos tīklos. Skatīt Wimmer and Lewis (2010) par atšķirīgu pieeju to pašu problēmu, kas izmanto datus no Facebook.
Turpmākajā darbā, King un kolēģi ir sīkāk jāizpēta online cenzūru Ķīnā (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Par saistītu pieeju mērīšanas tiešsaistes cenzūru Ķīnā, skatiet Bamman, O'Connor, and Smith (2012) . Lai uzzinātu vairāk par statistikas metodēm, piemēram, viens izmanto King, Pan, and Roberts (2013) , lai novērtētu noskaņojumu par 11 miljoniem amatiem, skatiet Hopkins and King (2010) . Lai uzzinātu vairāk par uzraudzītā mācīšanos, skatiet James et al. (2013) (mazāk tehniskā) un Hastie, Tibshirani, and Friedman (2009) (vairāk tehniska).
Prognozēšana ir liela daļa no rūpniecības dati zinātnes (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Viens no prognozēšanas veids, kas parasti tiek darīts, sociālie pētnieki ir demogrāfiskās prognozes, piemēram, Raftery et al. (2012) .
Google gripas tendences nebija pirmais projekts izmantot meklēšanas datus nowcast gripas izplatību. Faktiski, pētnieki ASV (Polgreen et al. 2008; Ginsberg et al. 2009) un Zviedrijā (Hulth, Rydevik, and Linde 2009) ir konstatēts, ka daži meklēšanas nosacījumus (piemēram, "gripa") prognozēja, valsts sabiedrības veselības uzraudzību datus, pirms tas tika izlaists. Vēlāk daudzi, daudzi citi projekti ir mēģinājuši lietot digitālo izsekot datus slimību uzraudzības atklāšanai, skatiet Althouse et al. (2015) pārskatīšanu.
Papildus izmantojot digitālo izsekot datiem prognozēt veselības rezultātus, tur ir arī milzīgs darba apjoms, izmantojot Twitter datus prognozēt vēlēšanu rezultātus; pārskatus redzēt Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7) un Huberty (2015) .
Izmantojot meklēšanas datus prognozētu gripas izplatību un izmantojot Twitter datus, lai prognozētu vēlēšanas ir gan piemēri, izmantojot sava veida digitālo izsekot prognozēt kādu notikumu pasaulē. Ir milzīgs skaits pētījumu, kas ir šo vispārējo struktūru. 2.5 tabula ietver dažus citus piemērus.
Digital izsekot | iznākums | citēšana |
---|---|---|
Tviteris | Kasē ieņēmumi filmas ASV | Asur and Huberman (2010) |
Meklēt žurnāli | Pārdošanas filmas, mūziku, grāmatas un video spēles ASV | Goel et al. (2010) |
Tviteris | Dow Jones Industrial Average (ASV akciju tirgus) | Bollen, Mao, and Zeng (2011) |
Journal PS Politikas zinātne bija simpoziju par lielo datu cēlonisku secinājumu, un oficiālu teoriju, un Clark and Golder (2015) apkopoti katru ieguldījumu. Žurnālā Proceedings of Nacionālās Zinātņu akadēmijas no Amerikas Savienotajām Valstīm bija simpoziju par cēlonisko secinājumu un lielo datu, un Shiffrin (2016) apkopoti katru ieguldījumu.
Runājot par dabas eksperimentiem, Dunning (2012) ir lieliska grāmata garuma ārstēšanu. Lai uzzinātu vairāk par izmantojot Vjetnama loterijā projektu kā dabas eksperiments, skatiet Berinsky and Chatfield (2015) . Par mašīna mācīšanās pieejas, kas mēģina automātiski atklāt dabas eksperimentus iekšā lielo datu avotiem, sk Jensen et al. (2008) un Sharma, Hofman, and Watts (2015) .
Runājot par atbilstību, par optimistisku pārskatu sk Stuart (2010) , un par pesimistisku pārskatīšanu redzēt Sekhon (2009) . Lai uzzinātu vairāk par atbilstīgiem kā sava veida atzarošanas skatīt Ho et al. (2007) . Grāmatām, kas nodrošina lielisku ārstēšana saskaņošana, skat Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , un Imbens and Rubin (2015) .