2.3.1.1 Big

Stórir eru leið til enda; þeir eru ekki markmið í sjálfu sér.

The fyrstur af þremur góðum eiginleikum stór gögn er mest rædd: þetta eru stór gögn. Þessi gögn heimildir geta verið stór í þrjá mismunandi vegu: Margir, fullt af upplýsingum á mann, eða margar athuganir yfir tíma. Having a stór dataset gerir nokkrar tilteknar tegundir rannsókna-mæla misleitni, læra sjaldgæfur atburði, uppgötvun lítill munur, og gera orsakatengsl mat frá observational gögn. Það virðist einnig að leiða til ákveðna tegund sloppiness.

The fyrstur hlutur sem stærð er sérstaklega gagnlegt er að flytja út meðaltöl til að gera áætlanir fyrir ákveðin undirhópa. Til dæmis, Gary King, Jennifer Pan, og Molly Roberts (2013) mæla líkurnar á því að félagsleg fjölmiðla innlegg í Kína myndi vera bönnuð af stjórnvöldum. Af sjálfu þetta meðaltal líkur á eyðingu er ekki mjög gagnlegt fyrir skilning hvers vegna ríkisstjórnin censors sumir innlegg en ekki aðra. En vegna gagnapakka þeirra með 11 milljón færslur, King og samstarfsmenn framleiddi einnig áætlanir um líkur á ritskoðun fyrir innlegg á 85 aðskildum flokkum (td klám, Tíbet, og Umferð í Peking). Með því að bera saman líkur á ritskoðun fyrir innlegg í mismunandi flokkum, þeir gátu til að skilja meira um hvernig og hvers vegna ríkisstjórnin censors ákveðnar tegundir af innleggjum. Með 11 þúsund færslur (frekar en 11 milljónir bréf), hefðu þeir ekki verið fær um að framleiða þessar flokk sérstakar áætlanir.

Í öðru lagi, stærð er sérstaklega gagnlegt fyrir er að læra af sjaldgæfum atburðum. Til dæmis, Goel og samstarfsmenn (2015) vildu kanna mismunandi leiðir sem kvak geta farið veiru. Vegna stór steypist af endurteknum tweets eru afar sjaldgæfir um einn í 3.000-þeir þurftu að læra meira en milljarð kvak í því skyni að finna nógu stór fossa fyrir greiningu þeirra.

Í þriðja lagi, stór gagnasett gera vísindamönnum til að greina lítill munur. Í raun, mikið af áherslu á stór gögn í greininni er um þessar lítill munur: áreiðanlegan skynja muninn á milli 1% og 1,1% smella með afslætti á auglýsingu getur þýtt milljónum dollara í auka tekjur. Í sumum vísindalegum stillingum, svo lítill munur gæti ekki verið sérstaklega mikilvægt (jafnvel þótt þeir séu tölfræðilega marktæk). En í sumum stillingum stefnu, svo lítill munur getur orðið mikilvæg þegar skoðað í heild. Til dæmis, ef það eru tveir lýðheilsu inngrip og einn er örlítið meiri árangri en aðrar, þá skipta yfir í skilvirkari íhlutun gæti endað sparnaður þúsundir fleiri mannslífa.

Að lokum, stór gagnasöfn stórlega auka getu okkar til að gera orsakatengsl mat frá observational gögn. Þótt stór gagnasett ekki í grundvallaratriðum breyta vandamál með að gera orsakasamhengi ályktanir frá observational gögn, passa og náttúruleg tilraunir og tvö tækni sem vísindamenn hafa þróað fyrir gerð orsakatengsl kröfur frá observational gögn, bæði mikið gagn af stórum gagnasafna. Ég skal útskýra og sýna þessa fullyrðingu nánar síðar í þessum kafla þegar ég lýsa rannsóknir aðferðir.

Þó bigness er yfirleitt góð eign þegar það er notað á réttan hátt, hef ég tekið eftir því að bigness almennt leiðir til hugmynda villa. Fyrir sumir ástæða, bigness virðist leiða vísindamenn að hunsa hvernig gögn þeirra var mynda. Þó bigness er að draga úr þörf á að hafa áhyggjur handahófi villa, eykur það í raun þörf að hafa áhyggjur kerfisbundnar skekkjur, hvers konar villur sem ég lýsa í meira hér að koma frá fordómum í hvernig gögn eru búnar og safnað. Í litlu gagnasafni, bæði slembiskekkja og kerfisbundin villa getur verið mikilvægt, en í stórum gagnapakkanum handahófi villa er hægt að meðaltali í burtu og kerfisbundin villa drottnar. Vísindamenn sem ekki hugsa um kerfisbundna villu lýkur upp með stór gagnasöfn þeirra til að fá nákvæma mat á röngum hlutur; þeir vilja vera nákvæmlega ónákvæm (McFarland and McFarland 2015) .