Seturi mari de date reprezintă un mijloc pentru atingerea unui scop; ele nu sunt un scop în sine.
Primul dintre cele trei caracteristici bune de date de mare este cel mai discutat: acestea sunt date mari. Aceste surse de date pot fi mari în trei moduri diferite: mulți oameni, o mulțime de informații pe persoană, sau mai multe observații în timp. Avand un set de date de mare permite unele tipuri specifice de măsurare a cercetării eterogenitate, studiind evenimente rare, detectarea diferențelor mici, precum și elaborarea unor estimări cauzale din datele de observatie. Se pare, de asemenea, să conducă la un anumit tip de superficialitate.
Primul lucru pe care, pentru care dimensiunea este deosebit de util se deplasează dincolo de medii pentru a face estimări pentru subgrupuri specifice. De exemplu, Gary King, Jennifer Pan, și Molly Roberts (2013) , măsurat probabilitatea ca posturile social media din China ar fi cenzurate de guvern. Prin ea însăși această probabilitate medie de ștergere nu este foarte util pentru a înțelege de ce guvernul cenzureaza unele posturi, dar nu și altele. Dar, pentru că lor 11 sunt date CCD de milioane de posturi, King si colegii sai au produs, de asemenea estimări pentru probabilitatea de cenzură pentru posturi pe 85 de categorii separate (de exemplu, pornografie, Tibet, și de trafic de la Beijing). Prin compararea probabilității de cenzură pentru posturi în diferite categorii, au putut să înțeleagă mai multe despre cum și de ce guvernul cenzureaza anumite tipuri de posturi. Cu 11 mii de posturi (în loc de 11 milioane de posturi), acestea nu ar fi fost în măsură să producă aceste estimări specifice categoriei.
În al doilea rând, dimensiunea este deosebit de util pentru studierea evenimentelor este rare. De exemplu, Goel și colegii (2015) a dorit să studieze diferitele moduri în care pot merge tweet - uri virale. Din cauza cascade mari de re-tweet-uri sunt extrem de rare, cam unul dintr-o 3000-au nevoie pentru a studia mai mult de un miliard de tweet-uri, în scopul de a găsi suficiente cascade mari pentru analiza lor.
În al treilea rând, seturi mari de date permite cercetatorilor sa detecteze mici diferente. De fapt, o mare parte din accentul pe date mari din industrie este despre aceste mici diferente: detectarea în mod fiabil diferența între 1% și 1,1% ratele de clic pe un anunț se poate traduce în milioane de dolari în venituri suplimentare. În unele setări științifice, astfel de diferențe mici nu ar putea fi deosebit de important (chiar dacă acestea sunt semnificative din punct de vedere statistic). Dar, în unele setări de politică, astfel de diferențe mici pot deveni importante atunci când sunt privite în total. De exemplu, în cazul în care există două intervenții de sănătate publică și una este puțin mai eficient decât celălalt, apoi trecerea la mai eficientă intervenție ar putea duce la salvarea a mii de vieți suplimentare.
În cele din urmă, seturi mari de date crește foarte mult capacitatea noastra de a face estimări cauzale din datele de observatie. Cu toate ca seturi mari de date nu se schimbă în mod fundamental problemele cu a face inferența cauzală din datele de observație, de potrivire și experimente-două naturale tehnici pe care cercetatorii au dezvoltat pentru a face reclamații cauzale din observațională de date, atât beneficia foarte mult de seturi mari de date. Voi explica și ilustra această afirmație mai în detaliu mai târziu în acest capitol, când am descrie strategiile de cercetare.
Cu toate că, în general, bigness este o proprietate bună atunci când sunt utilizate corect, am observat că bigness conduce în mod obișnuit la o eroare conceptuală. Din anumite motive, bigness pare să conducă pe cercetători să ignore modul în care a fost generat datele lor. In timp ce bigness nu reduce nevoia de a vă faceți griji cu privire la erori aleatorii, crește de fapt , necesitatea de a vă faceți griji cu privire la erorile sistematice, tipurile de erori pe care le vom descrie mai jos , care apar din deviațiilor în modul în care sunt create și colectate date. Într-un set de date mic, ambele erori aleatorii și eroarea sistematică poate fi importantă, dar într-o mare eroare aleatoare poate fi date este o medie departe și eroarea sistematică domină. Cercetătorii care nu cred despre eroare sistematică se va sfârși, folosind seturi de date lor mari pentru a obține o estimare exactă a lucrului greșit; acestea vor fi tocmai inexacte (McFarland and McFarland 2015) .