Tämä osio on suunniteltu käytettäväksi referenssinä, pikemmin kuin luettavaksi kerronnan.
Yhdenlaista tarkkaileva joka ei sisälly tämän luvun on etnografia. Lisää tietoja kansatieteen digitaaliseen tiloissa katso Boellstorff et al. (2012) , ja enemmän kansatieteen seka digitaalisen ja fyysisten tilojen katso Lane (2016) .
Kun olet repurposing tiedot, on kaksi henkistä temppuja, jotka voivat auttaa ymmärtämään mahdolliset ongelmat, joita saattaa esiintyä. Ensinnäkin, voit yrittää kuvitella ihanteellisen aineisto ongelmaasi ja verrata sitä aineisto että käytät. Miten ne samanlaisia ja miten ne ovat erilaisia? Jos et kerätä tietoja itse, on todennäköisesti eroa mitä haluat ja mitä olet. Mutta, sinun on päätettävä, jos nämä erot ovat pieniä tai suuria.
Toiseksi, muista, että joku on luotu ja kerätään tietoja jostain syystä. Sinun pitäisi yrittää ymmärtää niiden perustelut. Tällainen aukikoodauksen voi auttaa tunnistamaan mahdolliset ongelmat ja harhat oman repurposed tiedot.
Ei ole olemassa yhtä konsensus määritelmää "big data", mutta monet määritelmät näyttävät keskittyä 3 Vs: tilavuus, lajike, ja nopeus (esim Japec et al. (2015) ). Sen sijaan keskitytään ominaisuuksista datan, minun määritelmä keskittyy enemmän, miksi tiedot on luotu.
Minun sisällyttämisestä valtion hallinnollisia tietoja sisälle luokkaan iso data on vähän epätavallisen. Muut, jotka ovat tehneet tässä tapauksessa kuuluvat Legewie (2015) , Connelly et al. (2016) , ja Einav and Levin (2014) . Saat lisätietoja arvosta hallituksen hallinnollisia tietoja tutkimuksen, katso Card et al. (2010) , Taskforce (2012) , ja Grusky, Smeeding, and Snipp (2015) .
Jotta näkymä hallinnollisen tutkimuksen sisältä hallituksen tilastojärjestelmän, erityisesti US Census Bureau, katso Jarmin and O'Hara (2016) . Jotta kirja pituuden käsittely hallinnollisten aineistojen tutkimusta Statistics Sweden, katso Wallgren and Wallgren (2007) .
Luvussa, olen lyhyesti verrattuna perinteiseen kyselyn kuten General Social Survey (GSS) ja sosiaalisen median tietolähteen kuten Twitter. Perusteellista ja huolellista vertailu perinteisten tutkimusten ja sosiaalisen median tietoja, katso Schober et al. (2016) .
Nämä 10 ominaisuudet iso tietoja on kuvattu useita eri tavoin useita eri tekijöitä. Kirjoittaminen, joka vaikutti minun ajattelu näistä asioista ovat: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ja Goldstone and Lupyan (2016) .
Koko tässä luvussa, olen käyttänyt termiä digitaalisia jälkiä, mikä on mielestäni melko neutraali. Toinen suosittu termi digitaalinen jälkiä on digitaalinen jalanjälkiä (Golder and Macy 2014) , mutta kuten Hal Abelson, Ken Ledeen, ja Harry Lewis (2008) huomauttavat, sopivampi termi lienee digitaaliset sormenjäljet. Kun luot jalanjäljet, olet tietoinen siitä, mitä tapahtuu, ja footprintejä ei yleisesti voida jäljittää sinulle henkilökohtaisesti. Sama ei päde digitaalisia jälkiä. Itse jätät jälkiä koko ajan siitä, mikä sinulla on hyvin vähän tietoa. Ja vaikka nämä määrät eivät nimesi, ne voidaan usein liittyy takaisin sinulle. Toisin sanoen, ne ovat enemmän kuin sormenjälkiä: näkymätön ja yksilöiviä.
Iso
Lisätietoja siitä, miksi suuri aineistoja, tekevät tilastolliset testit ongelmallista, katso Lin, Lucas, and Shmueli (2013) ja McFarland and McFarland (2015) . Näitä kysymyksiä olisi johtaa tutkijoita keskittymään käytännön merkitystä pikemminkin kuin tilastollista merkittävyyttä.
Aina päällä
Kun otetaan huomioon aina-tietoihin, on tärkeää pohtia olet vertaamalla täsmälleen samat ihmiset ajan vai olet vertaamalla joitakin muuttuvat ryhmä ihmisiä; katso esimerkiksi Diaz et al. (2016) .
Ei reagoiva
Klassinen kirja ei-reaktiivinen toimenpiteiden Webb et al. (1966) . Esimerkit kirjassa ennalta päivämäärä digitaaliaikaan, mutta ne ovat edelleen valaisevat. Esimerkkejä ihmiset muuttavat käyttäytymistä, koska läsnäolo joukkoseurantaan, katso Penney (2016) ja Brayne (2014) .
Keskeneräinen
Lisää tietoja tiedostojen yhdistämistä, katso Dunn (1946) ja Fellegi and Sunter (1969) (historiallinen) ja Larsen and Winkler (2014) (moderni). Samanlaisia lähestyi on kehitetty myös tietotekniikassa nimillä kuten tietojen deduplication, esimerkiksi tunnistetiedot, nimi matching, monistaa havaitseminen, ja kahtena kirjaa tunnistus (Elmagarmid, Ipeirotis, and Verykios 2007) . Myös yksityisyyden säilyttäminen lähestymistapoja tiedostojen yhdistämistä, jotka eivät vaadi välittämiseen yksilöiviä tietoja (Schnell 2013) . Facebook on myös kehittänyt edetä linkittämään kirjaa äänestyskäyttäytymisestään; tämä tehtiin arvioimaan kokeilun että kerron teille 4 luvussa (Bond et al. 2012; Jones et al. 2013) .
Lisää tietoja konstruktio pätevyyttä, katso Shadish, Cook, and Campbell (2001) , luku 3.
luoksepääsemätön
Lisätietoja AOL hakulokin romahdus, katso Ohm (2010) . Olen antaa neuvoja kumppaneina yritysten ja hallitusten luvussa 4, kun kuvaavat kokeita. Useat kirjoittajat ovat ilmaisseet huolensa tutkimusta, joka perustuu saavuttamattomissa tiedot, katso Huberman (2012) ja boyd and Crawford (2012) .
Yksi hyvä tapa yliopistojen tutkijat hankkimaan tietoa yhteys on työskennellä yrityksessä harjoittelijana tai vierailevana tutkijana. Lisäksi mahdollistaa tietojen käytön, tämä prosessi auttaa myös tutkijan lisätietoja siitä, miten tiedot on luotu, joka on tärkeä analyysi.
Non-edustaja
Non-edustavuus on suuri ongelma tutkijoille ja hallitukset, jotka haluavat tehdä lausuntoja koko väestöstä. Tämä on vähemmän huolta yrityksiä, jotka tyypillisesti keskityttiin niiden käyttäjille. Lisätietoja siitä, miten tilastot Alankomaat pitävät kysymystä ei-edustavuus liiketoiminnan iso tulokset, katso Buelens et al. (2014) .
Luvussa 3, minä kuvata näytteenotto ja arviointi huomattavasti yksityiskohtaisemmin. Vaikka tiedot eivät ole edustavia, tietyin edellytyksin, ne voidaan painottaa tuottaa hyviä arvioita.
Drifting
Järjestelmän drift on hyvin vaikea nähdä ulkopuolelta. Kuitenkin movielens hanke (käsitellään tarkemmin luvussa 4) on suoritettu yli 15 vuotta akateemisen tutkimusryhmä. Näin ollen ne ovat dokumentoida ja jakaa tietoa siten, että järjestelmä on kehittynyt ajan myötä ja miten tämä voisi vaikuttaa analyysin (Harper and Konstan 2015) .
Useat tutkijat ovat keskittyneet drift Twitterissä: Liu, Kliman-Silver, and Mislove (2014) ja Tufekci (2014) .
algoritmien sekoitti
Kuulin ensimmäisen termin "algoritmisesti sekoitti" käyttämä Jon Kleinberg puheessa. Perusajatuksena performatiivisuuden on, että jotkut yhteiskuntatieteissä teorioita "moottoreita ei kamerat" (Mackenzie 2008) . Eli, ne itse asiassa muokkaavat maailman eikä vain tallentaa sen.
Likainen
Valtiolliset tilastollinen toimistoissa tietojen puhdistus, tilastotietojen muokkausta. De Waal, Puts, and Daas (2014) kuvaavat tilastotiedot editointi varten kehitetyn kyselyn tiedot ja tarkastella sitä, miten ne ovat sovellettavissa suuria tietolähteitä, ja Puts, Daas, and Waal (2015) esittelee joitakin samoja ideoita hieman yleisempi yleisölle.
Joillekin esimerkkejä tutkimuksista keskittyi roskapostin viserrys, Clark et al. (2016) ja Chu et al. (2012) . Lopuksi, Subrahmanian et al. (2016) kuvaa tuloksia DARPA Twitter Bot Challenge.
herkkä
Ohm (2015) arviot aikaisempiin tutkimuksiin ajatukseen arkaluonteisia tietoja ja tarjoaa monen tekijän testi. Neljä tekijää hän ehdottaa ovat: todennäköisyys haittaa; todennäköisyys haittaa; läsnäolo luottamuksellinen suhde; ja onko riski heijastavat majoritarian huolenaiheita.
Farber tutkimus taksit New Yorkissa perustui aiempaan tutkimukseen Camerer et al. (1997) , joka käytettiin kolmea erilaista mukavuutta paperin näytteellä matkan arkkia-paperia lomakkeet kuljettajien tallentaa matkan alkamisaika, päättymisaika, ja hinta. Tämä aikaisemmin tutkimuksessa todettiin, että kuljettajat näyttivät olevan kohde palkansaajien: he työskentelivät vähemmän päivää, jos niiden palkat olivat korkeammat.
Kossinets and Watts (2009) keskittyi alkuperästä homophily sosiaalisissa verkoissa. Katso Wimmer and Lewis (2010) erilaista lähestymistapaa samaan ongelmaan, joka käyttää tietoja Facebook.
Seuraavina työssä, kuningas ja kollegat ovat vielä tarkastella verkossa sensuuri Kiinassa (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Jotta liittyvä lähestymistapa, jolla mitataan online-sensuuri Kiinassa, katso Bamman, O'Connor, and Smith (2012) . Saat tilastollisia menetelmiä, kuten se, jota käytettiin King, Pan, and Roberts (2013) arvioimiseksi tunteisiin 11 miljoonaa viestiä, katso Hopkins and King (2010) . Lisää tietoja ohjattu oppiminen, katso James et al. (2013) (vähemmän tekninen) ja Hastie, Tibshirani, and Friedman (2009) (enemmän tekninen).
Ennustaminen on iso osa teollisuuden data science (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Yksi tyyppi ennustamisen, joita yleensä tehdään sosiaalisen tutkijat ovat demografinen ennustaminen, esimerkiksi Raftery et al. (2012) .
Google Flu Trends ei ollut ensimmäinen hanke käyttää hakutietojen nowcast influenssan esiintyvyys. Itse tutkijat Yhdysvalloissa (Polgreen et al. 2008; Ginsberg et al. 2009) ja Ruotsissa (Hulth, Rydevik, and Linde 2009) ovat havainneet, että tietyt hakusanat (esimerkiksi "flunssa") ennakoidun kansanterveyden seurannan ennen kuin se julkaistiin. Myöhemmin monet, monet muut hankkeet ovat yrittäneet käyttää digitaalista jäljittää tietoja tautien seurantaa havaitsemiseen, katso Althouse et al. (2015) tarkistamista.
Sen lisäksi, että käyttämällä digitaalista jäljittää datan ennustaa terveystilannetta, on myös ollut valtava määrä työtä käyttää kimittää tiedot ennustaa vaalien tuloksia; for tarkastele Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), ja Huberty (2015) .
Käyttämällä hakutietojen ennustamiseksi influenssan esiintyvyys ja käyttää kimittää tietojen ennustaa vaalit ovat molemmat esimerkkejä jonkinlaista digitaalisen jäljittää ennakoida jonkinlainen tapahtuma maailmassa. On valtava määrä tutkimuksia, joissa on tämä yleinen rakenne. Taulukko 2.5 sisältää muutamia muita esimerkkejä.
Digitaalinen jälki | Tulokset | lainaus |
---|---|---|
Viserrys | Lipputulot tulot elokuvia Yhdysvalloissa | Asur and Huberman (2010) |
hakulokeja | Myynti elokuvia, musiikkia, kirjoja ja videopelit Yhdysvalloissa | Goel et al. (2010) |
Viserrys | Dow Jones Industrial Average (Yhdysvaltain osakemarkkinat) | Bollen, Mao, and Zeng (2011) |
Lehti PS opin laitos oli symposiumin iso tietojen syy päättelyyn, ja muodollinen teoria, ja Clark and Golder (2015) tiivistää jokaisen panos. Lehti Proceedings of the National Academy of Sciences Yhdysvallat oli symposiumin syy päättelyyn ja iso tietoja, ja Shiffrin (2016) tiivistää jokaisen panos.
Luonnollisin kokeita, Dunning (2012) tarjoaa erinomaisen kirjan pituus hoitoa. Lisää tietoja käyttäen Vietnam luonnosta arpajaiset luonnollisena kokeilu, katso Berinsky and Chatfield (2015) . Sillä koneoppimisen lähestymistapoja yrittää automaattisesti löytää luonnon kokeita sisällä iso tietolähteiden, katso Jensen et al. (2008) ja Sharma, Hofman, and Watts (2015) .
Mitä vastaavia, sillä optimistinen arvio, katso Stuart (2010) , ja pessimistinen arvio katso Sekhon (2009) . Lisää tietoja vastaavia eräänlaisena karsintaa, katso Ho et al. (2007) . Kirjoista, jotka tarjoavat erinomaisen hoitoja matching, katso Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ja Imbens and Rubin (2015) .