Eräs sellainen havainto, joka ei sisälly tähän lukuun, on etnografia. Lisätietoja etnografiasta digitaalisissa tiloissa, katso Boellstorff et al. (2012) ja etnografiasta digitaalisissa ja fyysisissä tiloissa, ks. Lane (2016) .
Ei ole olemassa yhtä yksimielistä määritelmää "suurista tiedoista", mutta monet määritelmät näyttävät keskittyvän "3 V: een": tilavuuteen, lajikkeeseen ja nopeuteen (esim. Japec et al. (2015) ). Katso De Mauro et al. (2015) määritelmien tarkistamiseksi.
Hallinnollisten tietojen sisällyttäminen suurten tietojen luokkaan on hieman epätavallista, vaikka muutkin ovat tehneet tämän asian, kuten Legewie (2015) , Connelly et al. (2016) ja Einav and Levin (2014) . Lisätietoja hallinnon hallinnollisten tietojen arvosta tutkimuksessa on Card et al. (2010) , hallinnollinen Adminstrative Data Taskforce (2012) ja Grusky, Smeeding, and Snipp (2015) .
Jarmin and O'Hara (2016) erityisesti Yhdysvaltojen väestötietojärjestelmän sisäisestä hallinnollisesta tutkimuksesta. Tilastokeskuksen hallinnollisen tietojenkäsittelyn kirjanpidollinen käsittely, ks. Wallgren and Wallgren (2007) .
Luvussa vertaillen lyhyesti perinteistä kyselyä (General Social Survey, GSS) sosiaalisen median tietolähteen, kuten Twitterin. Perinteisten tutkimusten ja sosiaalisen median tietojen perusteellista ja varovaista vertaamista varten ks. Schober et al. (2016) .
Useiden erilaisten tekijöiden on kuvattu useilla eri tavoilla suurien tietojen 10 ominaisuutta. Kirjoittaminen, joka vaikutti mielestäni näihin asioihin, on Lazer et al. (2009) boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) ja Goldstone and Lupyan (2016) .
Tässä luvussa olen käyttänyt termiä digitaaliset jäljet , joiden mielestäni on suhteellisen neutraali. Toinen suosittu termi digitaalisille jäljille on digitaalinen jalanjälki (Golder and Macy 2014) , mutta kuten Hal Abelson, Ken Ledeen ja Harry Lewis (2008) huomauttavat, sopivampi termi on todennäköisesti digitaalinen sormenjälki . Kun luot jalanjäljet, tiedät mitä tapahtuu ja jalanjälkiäsi ei yleensä voida jäljittää sinulle henkilökohtaisesti. Sama pätee myös digitaalisiin jälkiisi. Itse asiassa jätät jälkiä kaiken aikaa, josta sinulla on hyvin vähän tietoa. Ja vaikka näillä jäljillä ei ole nimeäsi, niitä voidaan usein yhdistää sinuun. Toisin sanoen ne ovat enemmän kuin sormenjälkiä: näkymättömiä ja henkilökohtaisesti tunnistettavissa.
Lisätietoja siitä, miksi suuret tietokokoelmat tekevät tilastollisista testeistä ongelmallisia, katso M. Lin, Lucas, and Shmueli (2013) sekä McFarland and McFarland (2015) . Näiden asioiden pitäisi johtaa tutkijoita keskittymään käytännön merkitykseen eikä tilastolliseen merkitykseen.
Lisätietoja siitä, miten Raj Chetty ja kollegat saivat pääsyn verotustietoihin, katso Mervis (2014) .
Suuri tietokanta voi myös luoda laskennallisia ongelmia, jotka ovat yleensä yhden tietokoneen ominaisuuksien ulkopuolella. Sen vuoksi tutkijat, jotka tekevät suurten tietojoukkojen laskutoimituksia, levittävät usein työtä monille tietokoneille, mikä kutsutaan joskus rinnakkaiseksi ohjelmaksi . Johdattavaksi rinnakkaiseen ohjelmointiin, erityisesti Hadoop-kieleen, katso Vo and Silvia (2016) .
Kun tarkastellaan jatkuvasti tietoja, on tärkeää harkita, verrataanko samat ihmiset samanaikaisesti tai vertailette jotain muuttuvaa ihmisryhmää. katso esimerkiksi Diaz et al. (2016) .
Klassinen kirja ei-toivotuista toimenpiteistä on Webb et al. (1966) . Tässä kirjassa olevat esimerkit ennustavat digitaalisen aikakauden, mutta ne ovat yhä valaisevia. Esimerkkejä ihmisistä, jotka muuttavat käyttäytymistään massavalvonnan vuoksi, katso Penney (2016) ja Brayne (2014) .
Reaktiivisuus liittyy läheisesti siihen, mitä tutkijat kutsuvat kysynnän vaikutuksiksi (Orne 1962; Zizzo 2010) ja Hawthorne-tehosteeksi (Adair 1984; Levitt and List 2011) .
Lisätietoja levy- Fellegi and Sunter (1969) Dunn (1946) ja Fellegi and Sunter (1969) (historiallinen) sekä Larsen and Winkler (2014) (moderni). Samankaltaisia lähestymistapoja on kehitetty myös tietojenkäsittelytieteissä nimien, kuten datan deduplikaation, esiintymän tunnistamisen, nimien sovittamisen, kaksoiskappaleiden havaitsemisen ja kaksoiskappaleiden havaitsemisen (Elmagarmid, Ipeirotis, and Verykios 2007) . Myös tietosuojaa ylläpitäviä lähestymistapoja, jotka edellyttävät henkilökohtaisten tunnistetietojen välittämistä (Schnell 2013) . Facebook on myös kehittänyt prosessin yhdistää tietonsa äänestyksiin; tämä tehtiin arvioimaan kokeilua, jonka kerron luvusta 4 (Bond et al. 2012; Jones et al. 2013) .
Lisätietoja rakentamisen pätevyydestä on luvussa 3 Shadish, Cook, and Campbell (2001) .
Lisätietoja AOL-hakulausekkeesta, katso Ohm (2010) . Tarjoan neuvoja yhteistyöstä yritysten ja hallitusten kanssa luvussa 4, kun kuvaan kokeita. Useat kirjoittajat ovat ilmaisseet huolta tutkimuksesta, joka perustuu käytettävissä oleviin tietoihin, katso Huberman (2012) ja boyd and Crawford (2012) .
Yksi hyvä tapa yliopistojen tutkijat hankkimaan tietoa yhteys on työskennellä yrityksessä harjoittelijana tai vierailevana tutkijana. Lisäksi mahdollistaa tietojen käytön, tämä prosessi auttaa myös tutkijan lisätietoja siitä, miten tiedot on luotu, joka on tärkeä analyysi.
Mitä tulee julkisiin tietoihin, Mervis (2014) käsittelee, miten Raj Chetty ja kollegat saivat pääsyn verotukseen, jota käytettiin sosiaaliseen liikkuvuuteen liittyvään tutkimukseen.
Käsitteen käsitettä Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) sekä Kruskal and Mosteller (1980) esittävät lisää tietoa "edustavuuden" historiasta.
Tiivistelmä Snowin töistä ja Dollin ja Hillin töistä olivat lyhyet. Lisätietoja Snowin koleran töistä on Freedman (1991) . Lisätietoja Britannian lääkäreiden tutkimuksesta ks. Doll et al. (2004) ja Keating (2014) .
Monet tutkijat ovat yllättyneitä siitä, että vaikka Doll ja Hill olivat keränneet tietoja naispuolisista lääkäreistä ja alle 35-vuotiaista lääkäreistä, he eivät tahallaan käyttäneet näitä tietoja ensimmäisessä analyysissään. He väittivät: "Koska keuhkosyöpä on suhteellisen harvinainen alle 35-vuotiailla naisilla ja miehillä, on todennäköistä, että hyödyllisiä lukuja ei tule näissä ryhmissä jo muutaman vuoden ajan. Tässä alustavassa mietinnössä olemme siis keskittyneet vain 35-vuotiaisiin miehiin. " Rothman, Gallacher, and Hatch (2013) , jolla on provosoiva otsikko" Miksi edustusta olisi vältettävä ", yleisempi väite tarkoituksellisesti luoda ei-edustavia tietoja.
Epäedustavuus on suuri ongelma tutkijoille ja hallituksille, jotka haluavat esittää lausuntoja koko väestöstä. Tämä ei ole ongelma yrityksille, jotka keskittyvät tyypillisesti käyttäjiinsä. Lisätietoja siitä, miten Alankomaiden tilastokeskus käsittelee yritystoimintaan liittyvien tietojen suurta Buelens et al. (2014) , ks. Buelens et al. (2014) .
Esimerkkejä tutkijoista, jotka ovat huolissaan suurien tietolähteiden edustajista, katso boyd and Crawford (2012) , K. Lewis (2015b) ja Hargittai (2015) .
Sosiaalisten tutkimusten ja epidemiologisen tutkimuksen tavoitteiden yksityiskohtaisempaa vertailua varten, katso Keiding and Louis (2016) .
Jungherr (2013) äänestäjistä, erityisesti vuoden 2009 saksalaisista vaaleista, katso Jungherr (2013) ja Jungherr (2015) . Tumasjan et al. (2010) tutkijat ympäri maailmaa ovat käyttäneet miellyttävämpiä menetelmiä - esimerkiksi käyttämällä sentimentaalisia analyysejä erottaakseen osapuolten positiiviset ja negatiiviset maininnat - voidakseen parantaa Twitter-tietojen kykyä ennustaa erilaisia eri vaaleja (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Näin Huberty (2015) esitti yhteenvedon näiden vaalien ennustamisyritysten tuloksista:
"Kaikki tunnetut ennaltaehkäisevät menetelmät, jotka perustuvat sosiaaliseen mediaan, ovat epäonnistuneet, kun ne altistuvat tosi ennakoivien vaalien ennusteiden vaatimuksille. Nämä epäonnistumiset näyttävät johtuvan sosiaalisen median perusominaisuuksista eikä metodologisista tai algoritmisista vaikeuksista. Lyhyesti sanottuna sosiaalinen media ei, eikä luultavasti koskaan, tarjoa vakaa, puolueeton, edustava kuva äänestäjistä; ja sosiaalisen median hyödyllisyysnäytteillä ei ole riittävästi tietoa näiden ongelmien korjaamiseksi jälkikäteen. "
Luvussa 3 kuvataan näytteenotto ja arvio paljon yksityiskohtaisemmin. Vaikka tiedot eivät olisikaan edustavia, tietyissä olosuhteissa niitä voidaan painottaa tuottamaan hyviä arvioita.
Järjestelmän ajelehtia on vaikea nähdä ulkopuolelta. Kuitenkin akateemisella tutkimusryhmällä on ollut jo yli 15 vuotta MovieLens-projekti (käsitellään tarkemmin luvussa 4). Näin he ovat kyenneet dokumentoimaan ja jakamaan tietoa siitä, miten järjestelmä on kehittynyt ajan myötä ja miten tämä voisi vaikuttaa analyysiin (Harper and Konstan 2015) .
Useat tutkijat ovat keskittyneet ajautumiseen Twitterissä: Liu, Kliman-Silver, and Mislove (2014) ja Tufekci (2014) .
Yksi lähestymistapa väestön kulkeutumisen käsittelemiseen on luoda käyttäjäpaneeli, jonka avulla tutkijat voivat opiskella samoja ihmisiä ajan mittaan, katso Diaz et al. (2016) .
Olen ensin kuullut Jon Kleinbergin käyttämää puhetapaa "algoritmisesti hämmentyneenä", mutta en valitettavasti muista, milloin tai missä puhetta on annettu. Ensimmäinen kerta, kun näin kirjoitetun sanan oli Anderson et al. (2015) , mikä on mielenkiintoinen keskustelu siitä, miten dating sites käyttävät algoritmit saattavat vaikeuttaa tutkijoiden kykyä käyttää näitä sivustoja koskevia tietoja sosiaalisten mieltymystensä tutkimiseen. Tämä huolenaihe esitti K. Lewis (2015a) vastauksena Anderson et al. (2014) .
Facebookin lisäksi Twitter suosittelee myös ihmisille, että käyttäjät voivat seurata triadisen sulkemisen periaatetta; katso Su, Sharma, and Goel (2016) . Joten kolmiulotteisen sulkemisen taso Twitterissä on yhdistelmä ihmisen taipumusta kohti triadisen sulkemista ja jonkin verran algoritmista taipumusta edistää kolmiulotteista sulkemista.
Lisää performatiivisuudesta - erityisesti ajatuksesta, että jotkut yhteiskuntatieteellisistä teorioista ovat "moottoreita, jotka eivät ole kameroita" (eli ne muokkaavat maailmaa sen sijaan, että vain kuvaisivat sitä) - katso Mackenzie (2008) .
Valtion tilastovirastot kutsuvat tietojen puhdistamista tilastotietojen muokkaamiseen . De Waal, Puts, and Daas (2014) kuvaavat tilastotietojen muokkaustekniikoita, jotka on kehitetty tutkimustietoihin ja tutkivat, missä määrin niitä voidaan soveltaa suuriin tietolähteisiin. Puts, Daas, and Waal (2015) esittävät joitakin samoja ideoita yleisempi yleisö.
Yleiskatsaus sosiaalisiin robotteihin, katso Ferrara et al. (2016) . Joitakin esimerkkejä tutkimuksista, jotka keskittyivät roskapostin löytämiseen Twitterissä, katso Clark et al. (2016) ja Chu et al. (2012) . Lopuksi Subrahmanian et al. (2016) kuvaavat DARPA Twitter Bot Challengen tuloksia, massayhteistyötä, joka on suunniteltu vertaamaan visioita Twitterissä.
Ohm (2015) tarkastelee aikaisempaa tutkimusta arkaluonteisten tietojen ideasta ja tarjoaa monikertekokeen. Hänen ehdottamansa neljä tekijää ovat haittojen suuruus, vahinkojen todennäköisyys, luottamuksellisen suhteen olemassaolo ja riski, joka heijastaa monikulttuurisia huolenaiheita.
Farberin tutkimus taksilla New Yorkissa perustui aiempaan Camerer et al. (1997) joka käytti kolmea erilaista paperinvalmistusarkkia. Tässä aiemmassa tutkimuksessa todettiin, että kuljettajat näyttivät olevan kohdennetut työntekijät: he työskentelivät vähemmän päivinä, jolloin heidän palkkansa olivat korkeammat.
Seuraavassa työssä kuningas ja työtoverit ovat tutkineet verkko-sensuuria Kiinassa (King, Pan, and Roberts 2014, [@king_how_2016] ) . Kiinassa tapahtuvan online-sensuurin mittaamiseen liittyvä lähestymistapa on Bamman, O'Connor, and Smith (2012) . Saat lisätietoja tilastollisista menetelmistä, kuten King, Pan, and Roberts (2013) arvioitaessa 11 miljoonan virkaa, katso Hopkins and King (2010) . Lisätietoja valvotusta oppimisesta on James et al. (2013) (vähemmän teknisiä) ja Hastie, Tibshirani, and Friedman (2009) (enemmän teknisiä).
Ennuste on suuri osa teollista tietotietoa (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Yksi yhteiskuntatieteilijöiden yhteisesti tekemä ennuste on demografinen ennuste; katso esim. Raftery et al. (2012) .
Google-influenssatrendit eivät olleet ensimmäinen projekti, joka käytti hakutietoja nykyiseen influenssan esiintyvyyteen. Itse asiassa Yhdysvalloissa toimivat tutkijat (Polgreen et al. 2008; Ginsberg et al. 2009) ja Ruotsi (Hulth, Rydevik, and Linde 2009) ovat todenneet, että tietyt hakutermit (esim. "Flunssa") ennustivat kansanterveystarkkailua ennen kuin se julkaistiin. Tämän jälkeen monet monet muut projektit ovat yrittäneet käyttää digitaalisia jäljitystietoja taudinvalvontatunnistukseen; katso Althouse et al. (2015) tarkistettavaksi.
Digitaalisten jäljitetystietojen lisäksi terveyden tulosten ennustamiseen on myös käytetty valtavaa työtä Twitter-tietojen avulla vaalien tulosten ennustamiseksi; katsoa Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (luku 7) ja Huberty (2015) . Myös talousindikaattoreiden (kuten bruttokansantuotteen), kuten bruttokansantuotteen (castellano deutsch english français), esittäminen on yleistä keskuspankkeissa, ks. Bańbura et al. (2013) . Taulukko 2.8 sisältää muutamia esimerkkejä tutkimuksista, joissa käytetään jonkinlaista digitaalista jälkeä jonkinlaisen tapahtuman ennustamiseksi maailmassa.
Digitaalinen jälki | Tulokset | lainaus |
---|---|---|
Viserrys | USA: ssa elokuvamyymälöiden liikevaihto | Asur and Huberman (2010) |
Haku lokit | Elokuvien, musiikin, kirjojen ja videopelien myynti Yhdysvalloissa | Goel et al. (2010) |
Viserrys | Dow Jones Industrial Average (Yhdysvaltain osakemarkkinat) | Bollen, Mao, and Zeng (2011) |
Sosiaalinen media ja hakulokit | Sijoittajien mielipiteet ja osakemarkkinat Yhdysvalloissa, Iso-Britanniassa, Kanadassa ja Kiinassa | Mao et al. (2015) |
Haku lokit | Dengue-kuumuuden esiintyvyys Singaporessa ja Bangkokissa | Althouse, Ng, and Cummings (2011) |
Lopuksi Jon Kleinberg ja kollegat (2015) ovat huomauttaneet, että ennustamisongelmat kuuluvat kahteen, subtly eri luokkiin ja että yhteiskuntatieteilijät ovat keskittyneet keskittymään yhteen ja jättäneet huomiotta toisen. Kuvittele yksi politiikan tekijä, minä kutsun häntä Anna, joka joutuu kuivuuden ja on päättänyt vuokrata shamaania tekemään sadetta tanssin lisäämään sadetta. Toinen politiikan tekijä, minä soitan hänelle Betty, täytyy päättää, ottaako hän sateenvarjon työtä, jotta vältyttäisiin kastelematta kotiin. Sekä Anna että Betty voivat tehdä paremman päätöksen, jos he ymmärtävät säätä, mutta heidän on tunnettava erilaisia asioita. Anna tarvitsee ymmärtää, sattuvatko sateet. Betty ei sitä vastoin tarvitse ymmärtää kausaalisuutta; hän tarvitsee vain tarkan ennusteen. Sosiaaliset tutkijat keskittyvät usein sellaisiin ongelmiin kuin Anna, jonka Kleinberg ja kollegat kutsuvat "sateen tanssin kaltaisiksi" poliittisiksi ongelmiksi - koska niihin liittyy syy-yhteyttä koskevia kysymyksiä. Kysymykset, kuten Betty, jota Kleinberg ja kollegat kutsuvat "sateenvarjojen kaltaisiksi" poliittisiksi ongelmiksi, voivat olla varsin tärkeitä, mutta sosiaaliset tutkijat ovat saaneet paljon vähemmän huomiota.
PS Political Science -lehdessä oli symposiumi suurista tiedoista, syy-seurauksista ja muodollisesta teoriasta, ja Clark and Golder (2015) yhteenvedon jokaisesta panoksesta. Amerikan yhdysvaltojen kansallisen tiedeakatemian lehdessä on ollut symposium syy-seurauksista ja suurista tiedoista, ja Shiffrin (2016) esittää yhteenvedon jokaisesta panoksesta. Koneen oppimisen lähestymistapoja, jotka yrittävät automaattisesti löytää suuria tietolähteitä sisältäviä luonnollisia kokeita, katso Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) sekä Sharma, Hofman, and Watts (2016) .
Luonnollisten kokeiden osalta Dunning (2012) tarjoaa käyttöönoton, kirjapituisen hoidon, jossa on monia esimerkkejä. Luonnollisten kokeiden epäilemättä tarkastelemme Rosenzweig and Wolpin (2000) (taloustiede) tai Sekhon and Titiunik (2012) (poliittinen tiede). Deaton (2010) ja Heckman and Urzúa (2010) väittävät, että luonnollisten kokeiden kohdentaminen voi johtaa tutkijoiden keskittymään arvioimatta merkityksettömiä kausaalisia vaikutuksia; Imbens (2010) laskee nämä argumentit optimaalisempiin näkemyksiin luonnon kokeiden arvosta.
Kuvailtaessa menetelmää, jota kutsutaan instrumentaalimuuttujiksi, kuvataan, miten tutkija voisi mennä arvioimaan vaikutusta, joka on laadittu palvelemaan vaikutusta. Imbens and Rubin (2015) esittävät niiden lukujen 23 ja 24 esittelyn ja käyttävät esimerkiksi arpajaislukuja esimerkkinä. Sotilaspalvelun vaikutusta vaatimuksiin kutsutaan toisinaan kääntäjänä keskimääräiseksi kausaaliseksi vaikutukseksi (CAcE) ja joskus paikalliselle keskimääräiselle hoidon vaikutukselle (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) ja Bollen (2012) tarjoavat arvioita instrumentaalisten muuttujien käytöstä poliittisessa tiedossa, taloustieteessä ja sosiologiassa ja Sovey and Green (2011) tarjoavat "lukijan tarkistuslistan" arvioitaessa instrumentaalisten muuttujien tutkimuksia.
Näyttää siltä, että 1970-arpajaisluonnos ei ole oikeastaan satunnaistettu; pienet poikkeamat puhtaasta satunnaisuudesta (Fienberg 1971) . Berinsky and Chatfield (2015) väittävät, että tämä pieni poikkeama ei ole olennaisen tärkeä ja että keskustellaan asianmukaisesti suoritetun satunnaistamisen tärkeydestä.
Vastaavasti katso Stuart (2010) optimistiseen tarkasteluun ja Sekhon (2009) pessimistiseen katsaukseen. Lisätietoja sovituksesta eräänlaisena karsimisena on Ho et al. (2007) . Yksittäisen täydellisen ottelun löytäminen jokaiselle henkilölle on usein vaikeaa, ja tämä tuo mukanaan monia monimutkaisuuksia. Ensinnäkin, kun tarkkoja otteluita ei ole saatavilla, tutkijoiden on päätettävä, miten kahden yksikön välinen etäisyys voidaan mitata ja jos tietty etäisyys on riittävän lähellä. Toinen monimutkaisuus syntyy, jos tutkijat haluavat käyttää useampia otteluita jokaisessa hoitoryhmässä, koska tämä voi johtaa tarkempiin arvioihin. Molemmat näistä asioista, kuten muutkin, kuvataan yksityiskohtaisesti Imbens and Rubin (2015) luvussa 18. Katso myös osa II ( ??? ) .
Katso Dehejia and Wahba (1999) esimerkistä, jossa sovitusmenetelmät pystyivät tuottamaan samanlaisia arvioita kuin satunnaistetussa kontrolloidussa kokeessa. Katso kuitenkin Arceneaux, Gerber, and Green (2006) ja Arceneaux, Gerber, and Green (2010) esimerkkejä, joissa vastaavia menetelmiä ei pystytty jäljentämään kokeelliseen vertailuarvoon.
Rosenbaum (2015) ja Hernán and Robins (2016) tarjoavat muita neuvoja hyödyllisten vertailujen löytämiseksi suurista tietolähteistä.