2.3.1.1 Big

Veľké dátové sady sú prostriedkom na dosiahnutie cieľa; nie sú samoúčelné.

Prvý z troch dobrých charakteristík spracovanie veľkých objemov dát je najdiskutovanejším: jedná sa o spracovanie veľkých objemov dát. Tieto zdroje dát môže byť veľký tromi rôznymi spôsobmi: Veľa ľudí, veľa informácií na osobu, alebo veľa pozorovanie v priebehu času. Mať veľký súbor údajov umožňuje niektoré špecifické typy heterogenity výskumného meraní, študovať vzácne udalosti, odhaľovanie malé rozdiely, a robiť kauzálny odhady z pozorovacích dát. Zdá sa tiež, že povedie k špecifického typu nedbalosť.

Prvá vec, pre ktorú veľkosť je obzvlášť užitočné sa pohybuje nad priemerom, aby sa odhady pre konkrétny podskupiny. Napríklad, Gary Kráľ, Jennifer Pan a Molly Roberts (2013) meria pravdepodobnosť, že príspevky na sociálne médiá v Číne by bol cenzurovaný vládou. Sám o sebe tento priemer pravdepodobnosť zmazanie nie je veľmi užitočné pre pochopenie toho, prečo vláda cenzuruje niektoré príspevky ale iní nie. Ale preto, že ich dátová sada súčasťou 11 miliónov pracovných miest, kráľ a jeho kolegovia tiež produkoval odhady pre pravdepodobnosť cenzúry za príspevkov na 85 samostatných kategórií (napr pornografia, Tibet, a prevádzku v Pekingu). Porovnaním pravdepodobnosť cenzúry na miesta v rôznych kategóriách, boli schopní pochopiť viac o tom, ako a prečo sa vláda cenzuruje niektoré druhy pracovných miest. S 11 tisíc miest (skôr ako 11 miliónov pracovných miest), ktoré by neboli schopné produkovať tieto odhady špecifické pre určitú kategóriu.

Po druhé, veľkosť je obzvlášť užitočné pre študuje vzácnych udalostí. Napríklad Goel a jeho kolegovia (2015) chcel študovať rôzne spôsoby, ktoré tweety môže ísť vírusovej. Pretože veľké kaskády re-tweety sú extrémne zriedkavé, asi v 3000 oni potrebovali k štúdiu viac ako miliardu tweety s cieľom nájsť dosť veľké kaskády pre ich analýzu.

Po tretie, s veľkými objemami dát umožňujú vedcom objaviť malé rozdiely. V skutočnosti, veľa sa zameraním na spracovanie veľkých objemov dát v priemysle je o týchto malých rozdielov: spoľahlivo detekovať rozdiel medzi mierou prekliku 1% a 1,1% bez zahrnutia reklamy môže preložiť do miliónov dolárov dodatočných príjmov. V niektorých vedeckých nastavení, môžu byť také malé rozdiely nemali byť obzvlášť dôležité, (aj v prípade, že sú štatisticky významné). Ale v niektorých nastavenie politiky, také malé rozdiely môžu stať dôležitým pri pohľade na agregáte. Napríklad, ak sú dva zásahy do verejného zdravotníctva a jeden je o niečo účinnejšie ako ostatné, a potom prechod k účinnejšiemu zásahu môže skončiť úspory tisíce ďalších životov.

A konečne, veľké súbory dát výrazne zvýši našu schopnosť vykonávať príčinnej odhady z pozorovacích dát. Aj keď s veľkými objemami dát nie sú zásadne zmení problémy s výrobou príčinnú záver z pozorovacích dát, zodpovedajúce a prírodné experimenty dva techniky, ktoré Vedci vyvinuli pre výrobu príčinnej pohľadávky z pozorovacích dát, a to ako vo veľkom ťažiť z rozsiahlych dátových sad. Budem vysvetliť a ilustrovať toto tvrdenie podrobnejšie neskôr v tejto kapitole, keď som opísal výskumných stratégií.

Hoci velkost je všeobecne dobrá vlastnosť pri správnom používaní som si všimol, že velkost často vedie ku koncepčné chyby. Z nejakého dôvodu sa zdá, že velkost viesť výskumníkmi, aby ignorovať, ako bola generovaná ich dáta. Kým velkost neznižuje potrebu sa starať o náhodné chyby, ale v skutočnosti zvyšuje potreba sa obávať systematických chýb, druhy chýb, ktoré budem popisovať viac nižšie, ktoré vyplývajú z zaujatosťou v tom, ako sú údaje vytvorené a zhromaždené. V malej dátovej sady, a to ako náhodná chyba a systematická chyba môže byť dôležité, ale vo veľkej dátovej sady náhodné chyby je možné priemer preč a systematická chyba dominuje. Výskumníci, ktorí nemyslia na systematické chyby skončí pomocou svojich veľkých súborov dát získať presný odhad zlú vec; budú presne nepresné (McFarland and McFarland 2015) .