Zawsze na dużych danych umożliwia badanie nieoczekiwanych zdarzeń i pomiarów w czasie rzeczywistym.
Wiele dużych systemów danych są zawsze włączone; są one ciągle zbieranie danych. To zawsze na charakterystyczne dostarcza naukowcom danych podłużnych (czyli danych w czasie). Będąc na zawsze ma dwie ważne konsekwencje dla badań.
Po pierwsze, ciągłe gromadzenie danych umożliwia badaczom zbadanie nieoczekiwanych zdarzeń w sposób, który w innym przypadku byłby niemożliwy. Na przykład badacze zainteresowani badaniem protestów Occupy Gezi w Turcji latem 2013 r. Zazwyczaj koncentrują się na zachowaniu protestujących podczas imprezy. Ceren Budak i Duncan Watts (2015) byli w stanie zrobić więcej, wykorzystując stale aktualną naturę Twittera do studiowania protestujących, którzy używali Twittera przed, w trakcie i po imprezie. I byli w stanie stworzyć grupę porównawczą osób niebędących uczestnikami przed, w trakcie i po wydarzeniu (rysunek 2.2). W sumie ich panel ex-post obejmował tweety z 30 000 osób w ciągu dwóch lat. Dzięki rozszerzeniu powszechnie używanych danych z protestów o te inne informacje, Budak i Watts byli w stanie nauczyć się znacznie więcej: byli w stanie oszacować, jaki rodzaj ludzi mieli większe szanse uczestniczyć w protestach Gezi i oszacować zmiany w postawach uczestnicy i osoby niebędące uczestnikami, zarówno w krótkim okresie (porównując pre-Gezi do Gezi), jak i na dłuższą metę (porównując pre-Gezi z post-Gezi).
Sceptyk może wskazać, że niektóre z tych szacunków mogły zostać dokonane bez zawsze dostępnych źródeł danych (np. Długoterminowe szacunki zmiany nastawienia), i to jest poprawne, chociaż takie gromadzenie danych dla 30 000 osób byłoby całkiem kosztowny. Nawet biorąc pod uwagę nieograniczony budżet, nie mogę wymyślić żadnej innej metody, która zasadniczo umożliwia naukowcom cofanie się w czasie i bezpośrednie obserwowanie zachowań uczestników w przeszłości. Najbliższą alternatywą byłoby zebranie retrospektywnych raportów zachowania, ale raporty te miałyby ograniczoną ziarnistość i wątpliwą dokładność. Tabela 2.1 przedstawia inne przykłady badań wykorzystujących stale dostępne źródło danych do badania nieoczekiwanego zdarzenia.
Niespodziewane wydarzenie | Zawsze włączone źródło danych | Cytat |
---|---|---|
Zajmij się ruchami Gezi w Turcji | Świergot | Budak and Watts (2015) |
Protesty parasolowe w Hong Kongu | Zhang (2016) | |
Strzelaniny policji w Nowym Jorku | Raporty o zatrzymaniu i przerzucaniu | Legewie (2016) |
Osoba dołączająca do ISIS | Świergot | Magdy, Darwish, and Weber (2016) |
Atak z 11 września 2001 roku | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
Atak z 11 września 2001 roku | wiadomości na pager | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Oprócz analizowania nieoczekiwanych zdarzeń, zawsze systemy dużych zbiorów danych umożliwiają także naukowcom opracowywanie szacunków w czasie rzeczywistym, co może być ważne w miejscach, w których decydenci - w rządzie lub przemyśle - chcą reagować w oparciu o świadomość sytuacyjną. Na przykład dane z mediów społecznościowych mogą być wykorzystywane do kierowania reakcji w sytuacjach awaryjnych na klęski żywiołowe (Castillo 2016) a wiele różnych dużych źródeł danych może być wykorzystywanych do sporządzania szacunków ekonomicznych w czasie rzeczywistym (Choi and Varian 2012) .
Podsumowując, zawsze dostępne systemy danych umożliwiają naukowcom badanie niespodziewanych zdarzeń i dostarczanie informacji w czasie rzeczywistym decydentom. Nie uważam jednak, że zawsze aktualne systemy danych dobrze nadają się do śledzenia zmian w bardzo długich okresach czasu. Dzieje się tak dlatego, że wiele dużych systemów danych ciągle się zmienia - proces ten nazywam dryfowaniem w dalszej części rozdziału (sekcja 2.3.7).