Daugiau komentarų

Šiame skyriuje yra skirtas būti naudojamas kaip nuoroda, o ne būti suprantama kaip aprašomoji.

  • Įvadas (2.1 skirsnis)

Vienos rūšies stebėjimų, kuri nėra įtraukta į šio skyriaus nuostatas etnografija. Daugiau apie etnografijos skaitmeninių erdvėse pamatyti Boellstorff et al. (2012) , o daugiau etnografijos mišriuose skaitmeninių ir fizinių erdvių pamatyti Lane (2016) .

  • Didelės duomenys (2.2 skirsnis)

Kai jūs repurposing duomenis, yra du psichikos gudrybės, kurios gali padėti jums suprasti galimas problemas, kad jums gali tekti susidurti. Pirma, jūs galite pabandyti įsivaizduoti idealią rinkinį jūsų problemą ir palyginimo kad į rinkinį, kad jūs naudojate. Kaip jie panašūs ir kaip jie skiriasi? Jei nebuvo surinkti savo duomenis save, yra tikėtina, kad bus skirtumas tarp to, ką norite, ir tai, ką turite. Tačiau, jūs turite nuspręsti, ar šie skirtumai yra nedideli arba pagrindinis.

Antra, prisiminkite, kad kažkas sukūrė ir surinkti duomenis dėl kokios nors priežasties. Jūs turėtumėte pabandyti suprasti jų motyvus. Tai atvirkštinės inžinerija natūra gali padėti jums nustatyti galimas problemas ir nukrypimus į jūsų repurposed duomenis.

Nėra vieno bendro sutarimo apibrėžimas "didžiojo duomenys", bet daug apibrėžimų, atrodo, sutelkti dėmesį į 3 Vs: (pvz, apimtis, veislės, ir greitis Japec et al. (2015) ). Užuot sutelkiant dėmesį į duomenų charakteristikas, mano apibrėžimas daugiau dėmesio, kodėl buvo sukurta duomenų.

Mano įtraukimas vyriausybės administracinių duomenų viduje didelis duomenų kategorijos yra šiek tiek neįprastai. Kiti, kurie padarė šiuo atveju apima Legewie (2015) , Connelly et al. (2016) , ir Einav and Levin (2014) . Daugiau apie vyriausybės administracinių duomenų vertės mokslinių tyrimų, matyti Card et al. (2010) , Taskforce (2012) , ir Grusky, Smeeding, and Snipp (2015) .

Dėl administracinio tyrimų vaizdas iš vidaus vyriausybės statistikos sistemą, visų pirma JAV Gyventojų surašymo biuro žr Jarmin and O'Hara (2016) . Dėl knyga ilgio gydymo administracinių įrašų tyrimų metu Švedijos statistikos žr Wallgren and Wallgren (2007) .

Skyriuje, aš trumpai palyginti tradicinį tyrimą, pavyzdžiui, Generalinės socialinio tyrimo (GSS) į socialinės žiniasklaidos duomenų šaltinio, pavyzdžiui, "Twitter". Nuodugniai ir atidžiai palyginti tradicinius tyrimus ir socialinės žiniasklaidos duomenimis, matyti Schober et al. (2016) .

  • Bendros charakteristikos didelių duomenų (2.3 skyrius)

Šie 10 charakteristikos didelių duomenų buvo aprašyta įvairiais būdais pagal įvairių autorių įvairovė. Rašymas kad įtakos mano mąstymą šiais klausimais yra: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ir Goldstone and Lupyan (2016) .

Per šį skyrių, aš vartojama sąvoka skaitmeninius pėdsakus, kurie mano manymu, yra gana neutralus. Kitas populiarus terminas skaitmeninių pėdsakų yra skaitmeniniai pėdsakai (Golder and Macy 2014) , bet kaip Hal Abelson, Ken Ledeen ir Harry Lewis (2008) nurodo,, labiau tinkamas terminas yra turbūt skaitmeniniai pirštų atspaudai. Kai kuriate pėdsaką, žinote, kas vyksta ir jūsų pėdsakai, paprastai negali būti siejamas su jumis asmeniškai. Tas pats pasakytina ne apie jūsų skaitmeninių pėdsakų. Iš tiesų, jūs paliekate pėdsakų visą laiką, apie kurį jūs turite labai mažai žinių. Ir nors šie pėdsakai neturi savo vardą, jie dažnai gali būti susijęs su Jumis. Kitaip tariant, jie yra daugiau kaip pirštų atspaudai: nematomas ir asmeniškai identifikuoti.

didelis

Daugiau apie tai, kodėl didelės apimties duomenų bazėms, padaryti statistinius tyrimus problemiškas žr Lin, Lucas, and Shmueli (2013) ir McFarland and McFarland (2015) . Šie klausimai turėtų būti mokslininkus atkreipti dėmesį į praktinę reikšmę, o ne statistinio reikšmingumo.

Visada

Svarstant visada duomenimis, svarbu apsvarstyti, ar esate lyginant tas pačias žmones laikui bėgant ar esate lyginant kai keičiasi žmonių grupę; žr pavyzdžiui, Diaz et al. (2016) .

Nereaguoti

Klasikinis knyga apie ne atsakomąsias priemones yra Webb et al. (1966) . Į knygos išankstinio datos pavyzdžiai Skaitmeninis amžius, bet jie vis dar apšviesti. Pavyzdžių žmonių elgsenai keisti dėl masinio sekimo akivaizdoje žr Penney (2016) ir Brayne (2014) .

Nebaigtas

Daugiau apie rekordiškai ryšį žr Dunn (1946) ir Fellegi and Sunter (1969) (historical) ir Larsen and Winkler (2014) (modernus). Panašus kreipėsi taip pat buvo sukurta kompiuterių mokslo pagal pavadinimus, kaip antai duomenų Deduplication, pavyzdžiui, identifikavimo, vardas atitikimo, dubliuoti aptikimo ir dubliuoti rekordinį aptikimo (Elmagarmid, Ipeirotis, and Verykios 2007) . Taip pat yra privatumas išsaugoti požiūrius įrašyti sąsajas, kurios nereikalauja, kad asmenį identifikuojančios informacijos perdavimas (Schnell 2013) . "Facebook" taip pat sukūrė tęsti susieti savo įrašus balsavimo elgesiu; Tai buvo padaryta siekiant įvertinti eksperimentą, kad aš jums papasakoti apie 4 skyriuje (Bond et al. 2012; Jones et al. 2013) .

Daugiau apie konstrukto galiojimo žr Shadish, Cook, and Campbell (2001) , 3 skyriuje.

neprieinamas

Daugiau apie AOL paieška žurnalo ledonešis žr Ohm (2010) . Aš patarti apie Bendradarbiaudami su bendrovių ir vyriausybių 4 skyriuje, kai aš apibūdinti eksperimentus. Daugelis autorių išreiškė susirūpinimą tyrimus, kurie remiasi nepasiekiamų duomenimis, matyti Huberman (2012) ir boyd and Crawford (2012) .

Vienas geras būdas universiteto mokslininkai įsigyti prieigą prie duomenų yra dirbti įmonėje kaip stažuotojas ar Lankymūsi mokslininkas. Be to, leidžianti prieigą prie duomenų, šis procesas taip pat padės mokslo mokytis daugiau apie tai, kaip duomenys buvo sukurtas, kuri yra svarbi analizės.

Ne atstovas

Ne reprezentatyvumas yra didelė problema mokslininkams ir vyriausybių, kurie nori daryti pareiškimus apie visų gyventojų. Tai yra mažiau susirūpinimą įmonėms, kurios paprastai yra orientuota į savo vartotojams. Daugiau apie tai, kaip Statistika Nyderlandai mano, kad ne reprezentatyvumo verslo didelių duomenų problemą, pamatyti Buelens et al. (2014) .

3 skyriuje, aš aprašyti mėginių ėmimo ir įvertinti daug išsamiau. Net jei duomenys yra ne atstovas, esant tam tikroms sąlygoms, jie gali būti įvertintas gaminti gerus įvertinimus.

Driftingo

Sistemos dreifas yra labai sunku pamatyti iš išorės. Tačiau MovieLens projektas (aptartas 4 skyriuje) buvo paleista daugiau nei 15 metus akademinės mokslinių tyrimų grupės. Todėl jie užfiksavo ir pasidalino informacija apie tai, kaip, kad sistema vystėsi laikui bėgant, ir kaip tai gali įtakoti analizė (Harper and Konstan 2015) .

Daugelis mokslininkų yra sutelktas į dreifo Twitter: Liu, Kliman-Silver, and Mislove (2014) ir Tufekci (2014) .

algorithmically glumina

Aš pirmą kartą išgirdau terminą "algoritmą glumina" naudojamas Jon Kleinberg į aptarimas. Pagrindinė idėja performatyvumo yra tai, kad kai kurie socialinių mokslų teorijos yra "varikliai ne kameros" (Mackenzie 2008) . Tai reiškia, kad jie iš tikrųjų formuoti pasaulį, o ne tik nufotografuoti.

purvinas

Vyriausybės statistikos agentūros skambinti duomenų valymas, statistinių duomenų redagavimą. De Waal, Puts, and Daas (2014) apibūdina statistinių duomenų redagavimo sukurtus metodus tyrimo duomenims ir išnagrinėti, kokiu mastu jos taikomos didelių duomenų šaltinių, ir Puts, Daas, and Waal (2015) pristato kai tų pačių idėjų bendresnio auditorijai.

Kai kurių tyrimų orientuota į šlamštas Twitter pavyzdžiai Clark et al. (2016) ir Chu et al. (2012) . Pagaliau, Subrahmanian et al. (2016) apibūdina DARPA Twitter Bot Challenge rezultatus.

jautrus

Ohm (2015) Atsiliepimai anksčiau tyrimus apie slaptos informacijos idėja ir siūlo įvairių faktorių tyrimas. Keturi faktoriai jis siūlo yra: žalos tikimybė; tikimybė žalos; buvimas yra konfidenciali santykius; ir ar rizikos atspindi Nemažoritarinės problemas.

  • Skaičiavimas dalykus (2.4.1 skirsnis)

Färber studijų taksi Niujorke buvo grindžiamas ankstesniu tyrimu Camerer et al. (1997) , kad naudojami trys skirtingi patogumo popieriaus pavyzdžius kelionės lapų popieriaus formų vairuotojų naudojamų įrašyti kelionės pradžios laiką, pabaigos laiką, ir kainos. Šis anksčiau atliktas tyrimas nustatė, kad vairuotojai atrodė tikslinės uždirbantiems: jie dirbo mažiau dienų, kai jų darbo užmokestis buvo didesnis.

Kossinets and Watts (2009) buvo sutelktas į homophily kilmės socialiniuose tinkluose. Žiūrėti Wimmer and Lewis (2010) dėl kitokio požiūrio į tą pačią problemą, kuri naudoja duomenis iš "Facebook".

Be tolesniame darbe, Karalius ir kolegos toliau nagrinėti internetu cenzūrą Kinijoje (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Dėl susijusio požiūrio į matavimo internetu cenzūrą Kinijoje žr Bamman, O'Connor, and Smith (2012) . Daugiau apie statistinių metodų, pavyzdžiui, tos, kurios naudojamos King, Pan, and Roberts (2013) galima įvertinti 11 mln žinučių nuotaikas, pamatyti Hopkins and King (2010) . Daugiau apie prižiūrimos mokymosi žr James et al. (2013) (mažiau techninių) ir Hastie, Tibshirani, and Friedman (2009) (daugiau techninė).

  • Prognozavimas (2.4.2 skirsnis)

Prognozavimas yra didelė dalis pramonės duomenys mokslo (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Vienas iš prognozavimo tipas, kuris paprastai atliekamas socialinių mokslininkų, yra demografinė prognozavimas, pavyzdžiui Raftery et al. (2012) .

"Google" gripo tendencijose buvo ne pirmas projektas naudoti paieškos duomenis nowcast gripo paplitimą. Tiesą sakant, mokslininkai Jungtinėse Amerikos Valstijose (Polgreen et al. 2008; Ginsberg et al. 2009) ir Švedijoje (Hulth, Rydevik, and Linde 2009) nustatė, kad tam tikri paieškos terminai (pvz, "gripas") prognozuojama nacionalinės visuomenės sveikatos priežiūros duomenis prieš juos buvo paleistas. Vėliau daug, daug kitų projektų bandėme naudoti skaitmeninius pėdsakus duomenis ligų priežiūros aptikimo žr Althouse et al. (2015) atlikti peržiūrą.

Be to, naudojant skaitmeninius pėdsakus duomenis prognozuoti sveikatos rezultatus, taip pat buvo didžiulis darbas, naudojant "Twitter" duomenis prognozuoti rinkimų rezultatus; už nuomones pamatyti Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (sk. 7) ir Huberty (2015) .

Naudojant paieškos duomenis prognozuoti gripo paplitimą ir naudojant Twitter duomenis prognozuoti rinkimai yra tiek naudojant tam tikrą skaitmeninę pėdsakų natūra prognozuoti tam tikrą pasaulio įvykio rūšies pavyzdžių. Yra didžiulis skaičius tyrimų, kurie turi šią bendrą struktūrą. 2,5 lentelė apima keletą kitų pavyzdžių.

2.5 lentelėje: Dalinė sąrašas studijų naudoti kai kurių skaitmeninių pėdsakų prognozuoti tam tikrą įvykį.
Skaitmeniniai pėdsakų rezultatas citata
"Twitter" Box Office pajamos filmus JAV Asur and Huberman (2010)
Ieškoti rąstų Pardavimų filmų, muzikos, knygų ir vaizdo žaidimų, JAV Goel et al. (2010)
"Twitter" "Dow Jones Industrial Average" (JAV akcijų rinka) Bollen, Mao, and Zeng (2011)
  • Suderinti eksperimentai (2.4.3 skirsnis)

Žurnalas PS Politologija turėjo simpoziumą didelis duomenų, priežastinio išvadą bei formalaus teorijos ir Clark and Golder (2015) apibendrina kiekvieno indėlį. Žurnale Proceedings of National Academy of Sciences Jungtinių Amerikos Valstijų turėjo simpoziumą priežastinio išvadą ir didelių duomenų ir Shiffrin (2016) apibendrina kiekvieno indėlį.

Kalbant apie gamtos eksperimentų Dunning (2012) suteikia puikią knyga ilgis gydymą. Daugiau informacijos apie naudojant Vietnamas loterijoje projektą kaip natūralus eksperimentas žr Berinsky and Chatfield (2015) . Dėl mašina mokymosi metodai, kurie bando automatiškai rasti natūralius eksperimentus viduje didelių duomenų šaltinių, žr Jensen et al. (2008) ir Sharma, Hofman, and Watts (2015) .

Kalbant apie atitikimą, už optimistiškai peržiūros žr Stuart (2010) , ir pesimistinį Apžvalgoje Sekhon (2009) . Daugiau atitikimo kaip genėjimo pobūdžio žr Ho et al. (2007) . Knygų, kurios teikia puikių gydymo atitikimo žr Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ir Imbens and Rubin (2015) .