2.3.1.1 Big

Velké datové sady jsou prostředkem k dosažení cíle; nejsou samoúčelné.

První ze tří dobrých charakteristik zpracování velkých objemů dat je nejdiskutovanějším: jedná se o zpracování velkých objemů dat. Tyto zdroje dat může být velký třemi různými způsoby: Mnoho lidí, spousta informací na osobu, nebo mnoho pozorování v průběhu času. Mít velký soubor údajů umožňuje některé specifické typy heterogenity výzkumného měření, studovat vzácné události, odhalování malé rozdíly, a dělat kauzální odhady z pozorovacích dat. Zdá se také, že povede k specifického typu nedbalost.

První věc, pro kterou velikost je obzvláště užitečné se pohybuje nad průměrem, aby se odhady pro konkrétní podskupiny. Například, Gary Král, Jennifer Pan a Molly Roberts (2013) měří pravděpodobnost, že příspěvky na sociální média v Číně by byl cenzurován vládou. Sám o sobě tento průměr pravděpodobnost smazání není velmi užitečné pro pochopení toho, proč vláda cenzuruje některé příspěvky ale jiní ne. Ale proto, že jejich datová sada součástí 11 milionů pracovních míst, král a jeho kolegové také produkoval odhady pro pravděpodobnost cenzury za příspěvků na 85 samostatných kategorií (např pornografie, Tibet, a provoz v Pekingu). Porovnáním pravděpodobnost cenzury na místa v různých kategoriích, byli schopni pochopit více o tom, jak a proč se vláda cenzuruje některé druhy pracovních míst. S 11 tisíc míst (spíše než 11 milionů pracovních míst), které by nebyly schopny produkovat tyto odhady specifické pro určitou kategorii.

Za druhé, velikost je zvláště užitečné pro studuje vzácných událostí. Například Goel a jeho kolegové (2015) chtěl studovat různé způsoby, které tweety může jít virové. Protože velké kaskády re-tweety jsou extrémně vzácné, asi v 3000 oni potřebovali ke studiu více než miliardu tweety s cílem nalézt dost velké kaskády pro jejich analýzu.

Za třetí, s velkými objemy dat umožňují vědcům objevit malé rozdíly. Ve skutečnosti, hodně se zaměřením na zpracování velkých objemů dat v průmyslu je o těchto malých rozdílů: spolehlivě detekovat rozdíl mezi mírou prokliku 1% a 1,1% bez zahrnutí reklamy může přeložit do milionů dolarů dodatečných příjmů. V některých vědeckých nastavení, mohou být takové malé rozdíly neměly být zvláště důležité, (i v případě, že jsou statisticky významné). Ale v některých nastavení zásad, takové malé rozdíly mohou stát důležitým při pohledu na agregátu. Například, jsou-li dva zásahy do veřejného zdravotnictví a jeden je o něco účinnější než ostatní, a pak přechod k účinnějšímu zásahu může skončit úspory tisíce dalších životů.

A konečně, velké soubory dat výrazně zvýší naši schopnost provádět příčinné odhady z pozorovacích dat. I když s velkými objemy dat nejsou zásadně změní problémy s výrobou příčinnou závěr z pozorovacích dat, odpovídající a přírodní experimenty dva techniky, které Vědci vyvinuli pro výrobu příčinné pohledávky z pozorovacích dat, a to jak ve velkém těžit z rozsáhlých datových sad. Budu vysvětlit a ilustrovat toto tvrzení podrobněji později v této kapitole, když jsem popsal výzkumných strategií.

Ačkoli velkost je obecně dobrá vlastnost při správném používání jsem si všiml, že velkost často vede ke koncepční chyby. Z nějakého důvodu se zdá, že velkost vést výzkumníky, aby ignorovat, jak byla generována jejich data. Zatímco velkost nesnižuje potřebu se starat o náhodné chyby, ale ve skutečnosti zvyšuje potřeba se obávat systematických chyb, druhy chyb, které budu popisovat více níže, které vyplývají z zaujatostí v tom, jak jsou údaje vytvořeny a shromážděny. V malé datové sady, a to jak náhodná chyba a systematická chyba může být důležité, ale ve velké datové sady náhodné chyby je možno průměr pryč a systematická chyba dominuje. Výzkumníci, kteří nemyslí na systematické chyby skončí pomocí svých velkých souborů dat získat přesný odhad špatnou věc; budou přesně nepřesné (McFarland and McFarland 2015) .