Visada ant didelių duomenų leidžia netikėtų įvykių ir realaus laiko matavimo tyrimą.
Daugelis didelių duomenų sistemos yra visada ant; jie nuolat rinkti duomenis. Tai visada ant savybė suteikia tyrėjams išilginio pjūvio duomenų (ty duomenų laike). Būdamas visada ant yra du svarbių pasekmių tyrimus.
Pirma, nuolatinis duomenų rinkimas leidžia mokslininkams studijuoti netikėtus įvykius tokiais būdais, kurie kitaip nebūtų įmanomi. Pavyzdžiui, tyrėjai, suinteresuoti tyrinėti "Occession Gezi" protestus Turkijoje 2013 m. Vasarą, paprastai sutelkti dėmesį į protestuotojų elgesį renginio metu. Ceren Budak ir Duncan Watts (2015) Galėjo padaryti dar daugiau naudodami "Twitter" visada naudojamą prigimtį, kad galėtų ištirti protestuotojus, kurie naudojo "Twitter" prieš įvykį, jo metu ir po jo. Be to, jie galėjo sukurti lyginamąją ne dalyvių grupę prieš įvykį, jo metu ir po jo (2.2 pav.). Iš viso jų ex-post skydelyje buvo daugiau kaip 30 metų tweets per dvejus metus. Didindami bendrai naudojamus protestų duomenis naudodami šią kitą informaciją, Budakas ir Vatas galėjo išmokti daug daugiau: jie galėjo įvertinti, kokie žmonės labiau tikėtina dalyvauti "Gezi" protestuose, ir įvertinti pokalbių pasikeitimus dalyviai ir ne dalyviai, tiek trumpuoju laikotarpiu (prieš Gezi lyginant su "Gezi" metu), tiek ilguoju laikotarpiu (palyginus pre-Gezi su post-Gezi).
Skeptikas gali atkreipti dėmesį į tai, kad kai kurie iš šių skaičiavimų galėjo būti atlikti be nuolatinių duomenų rinkimo šaltinių (pvz., Ilgalaikių požiūrių pokyčių įvertinimų), ir tai yra teisinga, nors toks duomenų rinkimas 30 000 žmonių būtų pakankamai brangus. Tačiau net neribotam biudžetui negaliu pamiršti jokio kito metodo, kuris iš esmės leidžia mokslininkams anksčiau keliauti laiku ir tiesiogiai stebėti dalyvių elgesį praeityje. Artimiausia alternatyva būtų surinkti retrospektyvius elgesio ataskaitas, tačiau šios ataskaitos būtų menkos ir abejotinos tikslumo. Lentelėje 2.1 pateikti kiti tyrimų pavyzdžiai, kurie naudoja nuolatinį duomenų šaltinį, norint ištirti netikėtą įvykį.
Netikėtas įvykis | Visada į duomenų šaltinį | Citavimas |
---|---|---|
Užimkite Gezi judėjimą Turkijoje | Budak and Watts (2015) | |
Umbrella protestai Honkonge | Zhang (2016) | |
Policijos šaudymas Niujorke | Ataskaitos apie sustabdymą ir paleidimą | Legewie (2016) |
Asmuo, prisijungęs prie ISIS | Magdy, Darwish, and Weber (2016) | |
2001 m. Rugsėjo 11 ataka | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
2001 m. Rugsėjo 11 ataka | gerbėjų pranešimai | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Be to, kad tyrinėja netikėtus įvykius, visada didelės duomenų sistemos taip pat leidžia mokslininkams rengti realaus laiko įvertinimus, kurie gali būti svarbūs nustatymuose, kur politikos formuotojai - vyriausybėje ar pramonėje - nori atsakyti pagal situaciją. Pavyzdžiui, socialinės žiniasklaidos duomenys gali būti naudojami siekiant reaguoti į stichines nelaimes (Castillo 2016) o įvairūs dideli duomenų šaltiniai gali būti naudojami realiuoju laiku įvertinti ekonominę veiklą (Choi and Varian 2012) .
Apibendrinant galima teigti, kad visada naudojamos duomenų sistemos leidžia mokslininkams studijuoti netikėtus įvykius ir teikti informaciją realiuoju laiku politikos kūrėjams. Tačiau manau, kad visada naudojamos duomenų sistemos puikiai tinka pokyčiams stebėti per labai ilgą laiką. Taip yra todėl, kad daugelis didelių duomenų sistemų nuolat keičiasi - tai procesas, kurį aš vadinu dreifu vėliau skyriuje (2.3.7 skyrius).