Seturi mari de date reprezintă un mijloc pentru atingerea unui scop; ele nu sunt un scop în sine.
Caracteristica cea mai discutată a marilor surse de date este că acestea sunt BIG. Multe lucrări, de exemplu, încep prin a discuta - și, uneori, se laudă - despre cât de multe date au analizat. De exemplu, o lucrare publicată în știință care studiază tendințele de utilizare a cuvintelor în corpul Google Cărți a inclus următoarele (Michel et al. 2011) :
"Corpul nostru conține peste 500 de miliarde de cuvinte, în limba engleză (361 miliarde), franceză (45 miliarde), spaniolă (45 miliarde), germană (37 miliarde), chineză (13 miliarde), rusă (35 miliarde) (2 miliarde). Cele mai vechi lucrări au fost publicate în anii 1500. Primele decenii sunt reprezentate de doar câteva cărți pe an, cuprinzând câteva sute de mii de cuvinte. Până în 1800, corpusul crește la 98 de milioane de cuvinte pe an; până în 1900, 1,8 miliarde; și până în 2000, 11 miliarde. Corpul nu poate fi citit de un om. Dacă ați încercat să citiți doar intrări în limba engleză din anul 2000, în ritm rezonabil de 200 de cuvinte / min, fără întreruperi pentru alimente sau somn, ar dura 80 de ani. Secvența de litere este de 1000 de ori mai lungă decât genomul uman: dacă l-ați scris în linie dreaptă, ar ajunge la Lună și s-ar întoarce de 10 ori.
Scara acestor date este, fără îndoială, impresionantă și suntem cu toții norocoși că echipa Google Cărți a publicat aceste date publicului (de fapt, unele dintre activitățile de la sfârșitul acestui capitol fac uz de aceste date). Dar, ori de câte ori vedeți ceva de genul asta, ar trebui să întrebați: este că toate aceste date fac cu adevărat ceva? Ar fi putut face aceeasi cercetare daca datele ar putea ajunge la Luna si inapoi doar o singura data? Dacă datele ar putea ajunge doar la vârful muntelui Everest sau în partea de sus a Turnului Eiffel?
În acest caz, cercetarea lor are, de fapt, unele constatări care necesită un corpus imens de cuvinte pe o perioadă lungă de timp. De exemplu, un lucru pe care îl explorează este evoluția gramaticii, în special schimbările în rata conjugării verbale neregulate. Deoarece unele verbe neregulate sunt destul de rare, este nevoie de o cantitate mare de date pentru a detecta modificările în timp. Prea des însă, cercetătorii par să trateze mărimea sursei mari de date ca fiind un "sfârșit uite cât de mult pot cronometra datele" - mai mult decât un mijloc pentru un obiectiv științific mai important.
Din experiența mea, studiul evenimentelor rare este unul din cele trei scopuri științifice specifice pe care testele de date mari le permit. Al doilea este studiul eterogenității, după cum poate fi ilustrat de un studiu realizat de Raj Chetty și colegii (2014) privind mobilitatea socială în Statele Unite. În trecut, mulți cercetători au studiat mobilitatea socială prin compararea rezultatelor vieții părinților și copiilor. O constatare consistentă din această literatură este că părinții avantajați tind să aibă copii avantajați, dar puterea acestei relații variază în timp și în țări (Hout and DiPrete 2006) . Mai recent, cu toate acestea, Chetty și colegii au reușit să folosească înregistrările fiscale de la 40 de milioane de persoane pentru a estima eterogenitatea mobilității intergeneraționale între regiunile din Statele Unite (figura 2.1). Ei au descoperit, de exemplu, că probabilitatea ca un copil să ajungă la chintila de sus a distribuției veniturilor naționale pornind de la o familie în chintila inferioară este de aproximativ 13% în San Jose, California, dar doar aproximativ 4% în Charlotte, Carolina de Nord. Dacă vă uitați la figura 2.1 pentru o clipă, ați putea începe să vă întrebați de ce mobilitatea intergenerațională este mai mare în unele locuri decât altele. Chetty și colegii au avut exact aceeași întrebare și au constatat că zonele cu mobilitate înaltă au o segregare rezidențială mai mică, inegalitatea veniturilor mai mică, școlile primare mai bune, un capital social mai mare și o stabilitate mai mare a familiei. Desigur, numai aceste corelații nu demonstrează că acești factori determină o mobilitate mai mare, dar sugerează mecanisme posibile care pot fi explorate în activitatea ulterioară, exact ceea ce au făcut Chetty și colegii în lucrările ulterioare. Observați modul în care dimensiunea datelor a fost cu adevărat importantă în acest proiect. Dacă Chetty și colegii ar fi folosit înregistrările fiscale de 40 de mii de oameni, nu 40 de milioane, nu ar fi putut estima eterogenitatea regională și niciodată nu ar fi fost capabili să facă cercetări ulterioare pentru a încerca să identifice mecanismele care creează această variație.
În cele din urmă, pe lângă studierea evenimentelor rare și studierea eterogenității, seturile de date mari permit cercetătorilor să detecteze diferențe mici. De fapt, o mare parte din accentul pus pe datele mari din industrie se referă la aceste mici diferențe: detectarea fiabilă a diferenței între ratele de clic între 1% și 1,1% pe un anunț poate fi tradusă în milioane de dolari în venituri suplimentare. În unele situații științifice, aceste diferențe mici ar putea să nu fie deosebit de importante, chiar dacă sunt semnificative din punct de vedere statistic (Prentice and Miller 1992) . Dar, în anumite setări de politici, ele pot deveni importante atunci când sunt văzute în totalitate. De exemplu, dacă există două intervenții în domeniul sănătății publice și una este puțin mai eficientă decât cealaltă, atunci alegerea unei intervenții mai eficiente ar putea duce la economisirea a mii de vieți suplimentare.
Deși bignessul este, în general, o proprietate bună atunci când este folosit corect, am observat că uneori poate duce la o eroare conceptuală. Din anumite motive, nivelul de strălucire pare să îi determine pe cercetători să ignore modul în care au fost generate datele acestora. În timp ce semnalul de dimensiuni reduse reduce nevoia de a vă face griji în privința erorii aleatorii, crește de fapt necesitatea de a vă îngrijora erorile sistematice, tipurile de erori pe care le voi descrie mai jos, care apar din prejudecăți în modul în care sunt create datele. De exemplu, într-un proiect pe care îl voi descrie mai târziu în acest capitol, cercetătorii au folosit mesaje generate de 11 septembrie 2001 pentru a produce o cronică emoțională de înaltă rezoluție a reacției la atacul terorist (Back, Küfner, and Egloff 2010) . Deoarece cercetătorii aveau un număr mare de mesaje, nu trebuiau să-și facă griji dacă modelele pe care le-au observat - mânie crescândă pe parcursul zilei - ar putea fi explicate prin variații aleatorii. Au existat atât de multe date și modelul a fost atât de clar încât toate testele statistice statistice au sugerat că acesta a fost un model real. Dar aceste teste statistice nu știau cum au fost create datele. De fapt, sa dovedit că multe dintre modele au fost atribuite unui singur bot care a generat mesaje mai mult și mai lipsite de sens pe parcursul zilei. Îndepărtarea acestui bot a distrus complet unele dintre principalele constatări din lucrare (Pury 2011; Back, Küfner, and Egloff 2011) . Destul de simplu, cercetătorii care nu se gândesc la erorile sistematice se confruntă cu riscul de a utiliza seturile mari de date pentru a obține o estimare precisă a unei cantități neimportante, cum ar fi conținutul emoțional al mesajelor fără sens produse de un bot automat.
În concluzie, seturile de date mari nu sunt un scop în sine, dar pot permite anumite tipuri de cercetări, inclusiv studiul evenimentelor rare, estimarea eterogenității și detectarea diferențelor mici. Datele mari de date, de asemenea, par a conduce unii cercetători să ignore modul în care datele lor au fost create, ceea ce le poate determina să obțină o estimare precisă a unei cantități neimportante.