Store datasæt er et middel til ophør; de er ikke et mål i sig selv.
Det mest diskuterede træk ved store datakilder er, at de er store. Mange papirer begynder for eksempel ved at diskutere - og nogle gange springer - om, hvor meget data de analyserede. For eksempel inkluderede et papir, der blev offentliggjort i videnskabsundersøgelser af brug af tekstbrugen i Google Books corpus følgende (Michel et al. 2011) :
"[Vores] corpus indeholder over 500 milliarder ord på engelsk (361 milliarder), fransk (45 milliarder), spansk (45 milliarder), tysk (37 milliarder), kinesisk (13 milliarder), russisk (35 milliarder) og hebraisk (2 mia.). De ældste værker blev udgivet i 1500'erne. De tidlige årtier er repræsenteret af kun et par bøger om året, der består af flere hundrede tusinde ord. Ved 1800 vokser corpus til 98 millioner ord om året; inden 1900, 1,8 mia. og i 2000, 11 mia. Korpus kan ikke læses af et menneske. Hvis du forsøgte at læse kun engelsksprogede indlæg fra år 2000 alene, ville det tage 80 år med et rimeligt tempo på 200 ord / min uden afbrydelser for mad eller søvn. Bogstavsekvensen er 1000 gange længere end det menneskelige genom: Hvis du skrev det i en ret linje, ville det nå til Månen og tilbage 10 gange. "
Omfanget af disse data er utvivlsomt imponerende, og vi er heldige, at Google Bøger-holdet har frigivet disse data til offentligheden (faktisk bruger nogle af aktiviteterne i slutningen af dette kapitel disse data). Men når du ser noget som dette, bør du spørge: er det alle de data, der virkelig gør noget? Kunne de have gjort den samme forskning, hvis dataene kun kunne nå til månen og tilbage kun én gang? Hvad hvis dataene kun kunne nå toppen af Mount Everest eller toppen af Eiffeltårnet?
I dette tilfælde har deres forskning faktisk nogle resultater, der kræver et stort korpus af ord over en længere periode. For eksempel er en ting, de udforsker, udviklingen af grammatik, især ændringer i graden af uregelmæssig verbkonjugering. Da nogle uregelmæssige verb er ret sjældne, er en stor mængde data nødt til at registrere ændringer med tiden. For ofte ser forskere ud til at behandle størrelsen af den store datakilde som en ende - "se hvor meget data jeg kan knase" -rather end et middel til noget vigtigere videnskabeligt mål.
Efter min erfaring er undersøgelsen af sjældne begivenheder en af de tre specifikke videnskabelige mål, som store datasæt har tendens til at gøre det muligt. Den anden er undersøgelsen af heterogenitet, som det kan illustreres af en undersøgelse af Raj Chetty og kolleger (2014) om social mobilitet i USA. Tidligere har mange forskere studeret social mobilitet ved at sammenligne livsresultater fra forældre og børn. Et konsistent fund fra denne litteratur er, at fordelagtige forældre har tendens til at have fordelagtige børn, men styrken af dette forhold varierer over tid og på tværs af lande (Hout and DiPrete 2006) . I nyere tid var Chetty og kolleger imidlertid i stand til at bruge skattejournalerne fra 40 millioner mennesker til at estimere heterogeniteten i intergenerational mobilitet på tværs af regioner i USA (figur 2.1). De fandt for eksempel, at sandsynligheden for, at et barn når topkvintilen af den nationale indkomstfordeling, der starter fra en familie i bundkvintilen, er omkring 13% i San Jose, Californien, men kun ca. 4% i Charlotte, North Carolina. Hvis du kigger på figur 2.1 for et øjeblik, kan du måske begynde at undre sig over, hvorfor mobiliteten mellem generationerne er højere på nogle steder end andre. Chetty og kolleger havde nøjagtigt det samme spørgsmål, og de fandt ud af, at områder med høj mobilitet har mindre boligsegregation, mindre indkomstforskelle, bedre grundskoler, større social kapital og større familie stabilitet. Selvfølgelig viser disse sammenhænge ikke alene, at disse faktorer giver større mobilitet, men de foreslår mulige mekanismer, der kan udforskes i yderligere arbejde, hvilket netop Chetty og kolleger har gjort i efterfølgende arbejde. Bemærk hvordan størrelsen af dataene var virkelig vigtig i dette projekt. Hvis Chetty og kolleger havde brugt skattejournalerne på 40.000 mennesker i stedet for 40 millioner, ville de ikke have kunnet estimere regional heterogenitet, og de ville aldrig have været i stand til at gøre efterfølgende forskning for at forsøge at identificere de mekanismer, der skaber denne variation.
Endelig gør det også muligt for forskere at opdage små forskelle udover at studere sjældne begivenheder og studere heterogenitet. Faktisk er meget af fokus på store data i branchen om disse små forskelle: pålideligt at opdage forskellen mellem 1% og 1,1% klikfrekvenser på en annonce kan oversættes til millioner af dollars i ekstra indtægter. I nogle videnskabelige rammer er sådanne små forskelle imidlertid ikke særlig vigtige, selvom de er statistisk signifikante (Prentice and Miller 1992) . Men i nogle politiske indstillinger kan de blive vigtige, når de ses samlet. For eksempel, hvis der er to folkesundhedsinterventioner, og den ene er lidt mere effektiv end den anden, så vælger det mere effektive indgreb ender med at spare tusinder af yderligere liv.
Selvom bigness generelt er en god ejendom, når den anvendes korrekt, har jeg bemærket, at det undertiden kan føre til en konceptuel fejl. Af en eller anden grund synes bigness at lede forskere til at ignorere, hvordan deres data blev genereret. Mens bigness reducerer behovet for at bekymre sig om tilfældig fejl, øger det faktisk behovet for at bekymre sig om systematiske fejl, hvilke typer af fejl, som jeg vil beskrive nedenfor, der opstår som følge af, hvordan data oprettes. Eksempelvis i et projekt, som jeg beskriver senere i dette kapitel, brugte forskere meddelelser, der blev genereret den 11. september 2001, til at producere en følelsesmæssig tidslinje med høj opløsning af reaktionen på terrorangrebene (Back, Küfner, and Egloff 2010) . Fordi forskerne havde et stort antal beskeder, behøvede de ikke rigtig at bekymre sig om, hvorvidt de mønstre, de observerede - øget vrede i løbet af dagen - kunne forklares ved tilfældig variation. Der var så mange data, og mønstret var så klart, at alle statistiske statistiske tests antydede, at dette var et ægte mønster. Men disse statistiske tests var uvidende om, hvordan dataene blev oprettet. Det viste sig faktisk, at mange af mønstrene skyldtes en enkelt bot, der genererede flere og flere meningsløse meddelelser hele dagen. Fjernelse af denne bot ødelagde helt nogle af de vigtigste fund i papiret (Pury 2011; Back, Küfner, and Egloff 2011) . Helt enkelt er forskere, der ikke tænker på systematisk fejl, udsat for risikoen for at bruge deres store datasæt for at få et præcist estimat af en ubetydelig mængde, såsom det følelsesmæssige indhold af meningsløse meddelelser produceret af en automatiseret bot.
Afslutningsvis er store datasæt ikke et mål i sig selv, men de kan muliggøre visse former for forskning, herunder undersøgelsen af sjældne begivenheder, estimeringen af heterogenitet og påvisning af små forskelle. Store datasæt synes også at føre nogle forskere til at ignorere, hvordan deres data blev oprettet, hvilket kan føre dem til at få et præcist estimat af en ubetydelig mængde.