Always-on big data ay nagbibigay-daan sa pag-aaral ng mga hindi inaasahang mga kaganapan at real-time na pagsukat.
Maraming mga malaking mga sistema ng data ay palaging-on; sila ay patuloy na pagkolekta ng data. Ito laging-on katangian nagbibigay ng mga mananaliksik na may pahabang datos (ie, data sa paglipas ng panahon). Ang pagiging laging-on ay may dalawang mahalagang implikasyon para sa pananaliksik.
Una, laging-on data collection ay nagbibigay-daan sa mga mananaliksik upang pag-aralan hindi inaasahang mga kaganapan sa mga paraan na ay hindi posible dati. Halimbawa, ang mga mananaliksik na interesado sa pag-aaral ng Occupy Gezi protesta sa Turkey sa tag-init ng 2013 ay karaniwang tumuon sa mga pag-uugali ng protesters sa panahon ng kaganapan. Ceren Budak at Duncan Watts (2015) ay able sa gawin ang higit pa sa pamamagitan ng paggamit ng laging-on na katangian ng Twitter upang mag-aral Twitter-gamit protesters bago, habang, at pagkatapos ng kaganapan. At, sila ay able sa lumikha ng isang paghahambing na grupo ng mga non-kalahok (o mga kalahok na hindi nag-tweet tungkol sa mga protesta) bago, habang, at pagkatapos ng kaganapan (Figure 2.1). Sa kabuuan ng kanilang ex-post panel kasama ang mga tweet ng 30,000 mga tao sa paglipas ng dalawang taon. Sa pamamagitan ng augmenting ang karaniwang ginagamit ng data mula sa mga protesta sa mga ito iba pang impormasyon, Budak at Watts nagawang malaman ang higit pa: sila ay magagawang upang matantya kung anong mga uri ng mga tao ay mas malamang na sumali sa mga Gezi protesta at upang matantya ang mga pagbabago sa saloobin ng mga kalahok at mga di-kalahok, parehong sa short-term (paghahambing ng pre-Gezi sa panahon Gezi) at sa pang-matagalang (paghahambing ng pre-Gezi sa post-Gezi).
Ito ay totoo na ang ilan sa mga estima ay maaaring ay ginawa nang walang laging-on pinagkukunan ng data collection (eg, pang-matagalang mga pagtatantya ng attitude baguhin), bagaman tulad ng pagkolekta ng data para sa 30,000 mga tao ay ay lubos na mahal. At, kahit na ibinigay ng isang walang limitasyong badyet, hindi ko tingin ng anumang iba pang paraan na mahalagang ay nagbibigay-daan sa mga mananaliksik upang maglakbay pabalik sa panahon at direkta obserbahan kalahok na pag-uugali sa nakalipas. Ang pinakamalapit na alternatibo ay upang mangolekta ng paggunita ng mga ulat ng pag-uugali, ngunit ang mga ulat ay magiging ng limitadong granularity at kaduda-dudang katumpakan. Table 2.1 nagbibigay ng iba pang mga halimbawa ng mga pag-aaral na gumagamit ng isang laging-on data source sa pag-aaral ng isang hindi inaasahang kaganapan.
Hindi inaasahang kaganapan | Always-on data source | banggit |
---|---|---|
Occupy Gezi kilusan sa Turkey | kaba | Budak and Watts (2015) |
Umbrella protesta sa Hong Kong | Zhang (2016) | |
Shootings ng pulis sa New York City | Stop-and-sumayaw-sayaw ulat | Legewie (2016) |
Taong pagsali ISIS | kaba | Magdy, Darwish, and Weber (2016) |
Septiyembre 11, 2001 pag-atake | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
Septiyembre 11, 2001 pag-atake | pager mensahe | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Pangalawa, laging-on data collection ay nagbibigay-daan sa mga mananaliksik upang makabuo ng real-time measurements, na maaaring maging mahalaga sa mga setting na kung saan ang patakaran makers nais na hindi lamang malaman mula sa mga umiiral na pag-uugali ngunit din tumugon dito. Halimbawa, social media data ay maaaring gamitin upang gabayan mga tugon sa mga natural na kalamidad (Castillo 2016) .
Sa wakas, laging-on data systems paganahin ang mga mananaliksik sa pag-aaral hindi inaasahang mga kaganapan at magbigay ng real-time na impormasyon sa mga gumagawa ng patakaran. Hindi ko, gayunpaman, imungkahi na na laging-on data systems paganahin mananaliksik upang subaybayan ang mga pagbabago sa paglipas ng mahabang panahon ng oras. Iyon ay dahil sa maraming mga malaki mga sistema ng data ay patuloy na nagbabago-isang proseso na tinatawag drift (Seksyon 2.3.2.4).