2.3.1.1 Big

Duże zbiory danych są środkiem do celu; nie są celem samym w sobie.

Pierwszy z trzech pozytywnych cech duże ilości danych są najbardziej omówiona są duże ilości danych. Te źródła danych może być duża na trzy różne sposoby: Wiele osób, wiele informacji od osoby, lub w wielu przypadkach obserwuje się w czasie. Posiadanie dużego zestawu danych umożliwia pewne specyficzne rodzaje badań pomiaru heterogeniczności, studiując rzadkich zdarzeń, wykrywanie małych różnic, a co przyczynowych szacunki na podstawie danych obserwacyjnych. Wydaje się również prowadzić do szczególnego rodzaju niechlujstwa.

Pierwszą rzeczą, dla których rozmiar jest szczególnie przydatna jest wyjście poza średnimi dokonania szacunków dla poszczególnych podgrup. Na przykład, Gary King, Jennifer Pan, i Molly Roberts (2013) mierzy prawdopodobieństwo, że posty social media w Chinach będą cenzurowane przez rząd. Sama ta średnia prawdopodobieństwo skreślenia nie jest bardzo pomocne dla zrozumienia, dlaczego rząd cenzuruje niektórych stanowisk, ale nie innych. Ale, ponieważ ich zbiór danych obejmuje 11 milionów posty, król i jego współpracownicy wyprodukował także szacunki prawdopodobieństwa cenzury dla stanowisk na 85 oddzielnych kategoriach (np, pornografia, Tybet, a ruch w Pekinie). Porównując prawdopodobieństwo cenzury na stanowiska w różnych kategoriach, byli w stanie lepiej zrozumieć, jak i dlaczego rząd cenzuruje niektóre rodzaje stanowisk. Z 11 tysięcy stanowisk (zamiast 11 milionów postów), nie byłby w stanie produkować te szacunki dla poszczególnych kategorii.

Po drugie, wielkość jest szczególnie przydatny do bada rzadkich zdarzeń. Na przykład, Goel i współpracownicy (2015) chciał studiować różne sposoby tweety można przejść wirusowe. Ponieważ duże kaskady re-tweety są niezwykle rzadkie, o jeden w 3000 musieli studiować ponad miliard tweets, aby wybrać wystarczająco duże kaskady do ich analizy.

Po trzecie, duże zbiory danych umożliwi naukowcom wykryć niewielkie różnice. W rzeczywistości, wiele z naciskiem na dużych danych w przemyśle jest o tych niewielkich różnic: niezawodnie wykrywa różnicę między 1% i 1,1% klikalności w reklamę może przełożyć się na miliony dolarów w dodatkowych dochodów. W niektórych ustawieniach naukowych, takie małe różnice nie mogą być szczególnie ważne (nawet jeśli są istotne statystycznie). Ale w niektórych ustawień zasad, takie małe różnice mogą stać się ważne, gdy patrzy się kruszywem. Na przykład, jeśli są dwa zabiegi zdrowia publicznego i jeden jest nieco bardziej skuteczny niż drugi, a następnie przejście do bardziej skutecznej interwencji może skończyć się oszczędność tysięcy dodatkowych życia.

Wreszcie, duże zbiory danych znacznie zwiększyć naszą zdolność do podejmowania przyczynowych szacunki na podstawie danych obserwacyjnych. Chociaż duże zbiory danych nie fundamentalnie zmienić problemy z nawiązywaniem przyczynowego wnioskowania na podstawie danych obserwacyjnych, dopasowanie i naturalne eksperymenty dwóch technik, które naukowcy opracowali zgłaszania roszczeń przyczynowych z danych obserwacyjnych, zarówno w dużym stopniu korzystają z dużych zbiorów danych. Wytłumaczę i zilustrować ten argument bardziej szczegółowo w dalszej części tego rozdziału, kiedy opisują strategie badawcze.

Choć grubość jest na ogół dobre właściwości, gdy są stosowane prawidłowo, zauważyłem, że grubość często prowadzi do koncepcyjnego błędu. Z jakiegoś powodu, grubość wydaje się prowadzić do ignorowania badaczy, jak ich dane zostały wygenerowane. Choć grubość nie zmniejsza potrzeby martwić się o błąd losowy, to faktycznie zwiększa potrzeby martwić się o systematycznych błędów, rodzaje błędów, które opiszę poniżej bardziej wynikają z uprzedzeń, w jaki sposób dane są tworzone i gromadzone. W małym zbiorze danych, zarówno błąd losowy i systematyczny błąd może być ważne, ale w dużej zestawu danych błędu losowego jest może być uśrednione się i dominuje błąd systematyczny. Naukowcy, którzy nie myślą o systematycznym błędem skończy się za pomocą swoich dużych zbiorów danych, aby uzyskać dokładne oszacowanie złej rzeczy; będą precyzyjnie niedokładne (McFarland and McFarland 2015) .