2.3.1.2 Always-on

Zawsze na dużych danych umożliwia badanie nieoczekiwanych zdarzeń i pomiarów w czasie rzeczywistym.

Wiele dużych systemów danych są zawsze włączone; są one ciągle zbieranie danych. To zawsze na charakterystyczne dostarcza naukowcom danych podłużnych (czyli danych w czasie). Będąc na zawsze ma dwie ważne konsekwencje dla badań.

Po pierwsze, zawsze na zbieranie danych pozwala naukowcom badać nieoczekiwane wydarzenia w taki sposób, aby nie było możliwe wcześniej. Na przykład, naukowcy zainteresowani studiowaniem Occupy Gezi protesty w Turcji latem 2013 będzie zazwyczaj koncentrują się na zachowanie demonstrantów podczas imprezy. Ceren Budak i Duncan Watts (2015) były w stanie zrobić więcej za pomocą always-on charakter Twitterze przed badać za pomocą Twittera protestujących, w trakcie i po imprezie. I udało im się utworzyć grupę porównawczą nieuczestniczących (lub uczestników, którzy nie ćwierkanie o proteście) przed, w trakcie i po imprezie (rysunek 2.1). W sumie ich panel ex-post zawarte tweety 30.000 osób w ciągu dwóch lat. Przez zwiększanie powszechnie używane dane z protestów z tym innych informacji, Budak i Watts mogli nauczyć się więcej: oni byli w stanie oszacować, jakie ludzie byli bardziej skłonni do udziału w Gezi protesty oraz oszacowanie zmian w postawach uczestnicy i nie uczestniczą zarówno w krótkim terminie (w porównaniu do wstępnego Gezi podczas Gezi) oraz w dłuższej perspektywie (porównując pre-post-Gezi Gezi).

Rysunek 2.1: Projekt wykorzystywane przez Budak i Watts (2015) badanie Occupy Gezi protesty w Turcji latem 2013. Korzystając z always-on charakter Twitter, naukowcy stworzyli, co nazywa się panel ex post, które obejmowały około 30000 osób powyżej dwóch lat. W odróżnieniu od typowego badania, które koncentrowały się na uczestników podczas protestów, panel ex post dodaje 1) dane z uczestników przed i po zdarzeniu i 2) danych z nieuczestniczących przed, w trakcie i po imprezie. Ten wzbogacony struktura danych włączona Budak i Watts oszacować, jakiego rodzaju ludzie byli bardziej skłonni do udziału w Gezi protesty oraz oszacowanie zmian w postawach uczestników i nieuczestniczących, zarówno w perspektywie krótkoterminowej (porównując wstępne Gezi na czasie Gezi) oraz w dłuższej perspektywie (porównując wstępnie Gezi do post-Gezi).

Rysunek 2.1: Projekt wykorzystywane przez Budak and Watts (2015) do badania Occupy Gezi protesty w Turcji latem 2013. Korzystając z always-on charakter Twitter, naukowcy stworzyli, co nazywa się panel ex post, które obejmowały około 30000 osób powyżej dwóch lat. W odróżnieniu od typowego badania, które koncentrowały się na uczestników podczas protestów, panel ex post dodaje 1) dane z uczestników przed i po zdarzeniu i 2) danych z nieuczestniczących przed, w trakcie i po imprezie. Ten wzbogacony struktura danych włączona Budak i Watts oszacować, jakiego rodzaju ludzie byli bardziej skłonni do udziału w Gezi protesty oraz oszacowanie zmian w postawach uczestników i nieuczestniczących, zarówno w perspektywie krótkoterminowej (porównując wstępne Gezi na czasie Gezi) oraz w dłuższej perspektywie (porównując wstępnie Gezi do post-Gezi).

Prawdą jest, że niektóre z tych szacunków nie mogło być dokonane bez zawsze na źródłach gromadzenia danych (np długoterminowe szacunki zmiany postaw), chociaż takie gromadzenie danych dla 30.000 ludzi byłyby dość drogie. I, nawet biorąc pod uwagę nieograniczony budżet, nie mogę myśleć o jakiejkolwiek innej metody, która w głównej mierze pozwala naukowcom podróżować w czasie i bezpośrednio obserwować zachowanie uczestników w przeszłości. Najbliższy alternatywą byłoby zebrać retrospektywne raporty zachowanie, ale te doniesienia byłby ograniczony ziarnistości i wątpliwej dokładności. Tabela 2.1 zawiera inne przykłady badań, które używają zawsze na źródle danych studiować nieoczekiwane zdarzenie.

Tabela 2.1: Badania nieoczekiwanych zdarzeń z użyciem zawsze na dużych źródeł danych.
Nieoczekiwane zdarzenia Zawsze na danych źródłowych Cytat
Zajmij ruch Gezi w Turcji Świergot Budak and Watts (2015)
Parasol protesty w Hong Kongu Weibo Zhang (2016)
Strzelaniny policji w Nowym Jorku Stop-and-Frisk raportów Legewie (2016)
Osoba przystępująca ISIS Świergot Magdy, Darwish, and Weber (2016)
11 września 2001 atak livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 września 2001 atak komunikaty pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Po drugie, zawsze na zbieranie danych umożliwia naukowcom produkować pomiaru w czasie rzeczywistym, które mogą być istotne w warunkach, w których decydenci chcą nie tylko uczyć się od istniejącego zachowania, ale także odpowiedzieć na nią. Na przykład, dane social media mogą być wykorzystywane do prowadzenia reakcji na klęski żywiołowe (Castillo 2016) .

Podsumowując, zawsze na danych systemy umożliwiają naukowcom badanie nieoczekiwane zdarzenia i udzielić informacji w czasie rzeczywistym do decydentów. Ja jednak nie proponuje, że zawsze na danych systemy umożliwiają naukowcom śledzić zmiany w długich okresach czasu. To dlatego, że wiele dużych systemów danych stale się zmieniają-proces zwany dryf (rozdział 2.3.2.4).