Store datasett er et middel til en slutt; de er ikke et mål i seg selv.
Den mest diskuterte egenskapen til store datakilder er at de er store. Mange papirer, for eksempel, begynner med å diskutere - og noen ganger bragging - om hvor mye data de analyserte. For eksempel inkluderte et papir som ble publisert i Vitenskap å studere ordbrukstrendene i Google Books corpus følgende (Michel et al. 2011) :
«Vårt corpus inneholder over 500 milliarder ord, på engelsk (361 milliarder kroner), fransk (45 milliarder), spansk (45 milliarder), tysk (37 milliarder), kinesisk (13 milliarder), russisk (35 milliarder) og hebraisk (2 milliarder kroner). De eldste verkene ble publisert på 1500-tallet. De tidlige tiårene er representert av bare noen få bøker per år, bestående av flere hundre tusen ord. Ved 1800 vokser corpus til 98 millioner ord per år; innen 1900, 1,8 milliarder kroner; og i 2000, 11 milliarder kroner. Korpuset kan ikke leses av et menneske. Hvis du prøvde å lese kun engelsksprogede oppføringer fra år 2000 alene, ville det ta 80 år med et rimelig tempo på 200 ord / min uten avbrudd for mat eller søvn. Sekvensen av bokstaver er 1000 ganger lengre enn det menneskelige genomet: Hvis du skrev det ut i en rett linje, ville det nå til månen og tilbake 10 ganger over. "
Skalaen til disse dataene er utvilsomt imponerende, og vi er alle heldige at Google Bøker-teamet har gitt ut disse dataene til offentligheten (faktisk bruker noen av aktivitetene på slutten av dette kapittelet disse dataene). Men når du ser noe slikt her, bør du spørre: er det at alle dataene virkelig gjør noe? Kunne de ha gjort samme undersøkelse hvis dataene kunne nå til månen og tilbake bare en gang? Hva om dataene bare kunne nå toppen av Mount Everest eller toppen av Eiffeltårnet?
I dette tilfellet har deres forskning faktisk noen funn som krever et stort ord av ord over en lengre periode. For eksempel er en ting de undersøker utviklingen av grammatikk, spesielt endringer i frekvensen av uregelmessig verbkonjugering. Siden noen uregelmessige verb er ganske sjeldne, må en stor mengde data oppdage endringer over tid. Altfor ofte synes forskere å behandle størrelsen på den store datakilden som en slutt - "se hvor mye data jeg kan knase" -rather enn et middel til noe viktigere vitenskapelig mål.
Etter min erfaring er studiet av sjeldne hendelser en av de tre spesifikke vitenskapelige endene som store datasett pleier å aktivere. Den andre er studien av heterogenitet, som kan illustreres av en studie av Raj Chetty og kolleger (2014) om sosial mobilitet i USA. Tidligere har mange forskere studert sosial mobilitet ved å sammenligne livsresultater fra foreldre og barn. Et konsistent resultat fra denne litteraturen er at fordelte foreldre har en tendens til å ha fordelaktige barn, men styrken av dette forholdet varierer over tid og over land (Hout and DiPrete 2006) . Mer nylig var imidlertid Chetty og kolleger i stand til å bruke skatteoppgavene fra 40 millioner mennesker til å estimere heterogeniteten i intergenerasjonell mobilitet over regioner i USA (figur 2.1). De fant for eksempel at sannsynligheten for at et barn når toppkvoten av nasjonalinntektsfordelingen fra en familie i bunnkvintilen, er omtrent 13% i San Jose, California, men bare ca 4% i Charlotte, North Carolina. Hvis du ser på figur 2.1 for et øyeblikk, kan du begynne å lure på hvorfor intergenerasjonell mobilitet er høyere på noen steder enn andre. Chetty og kolleger hadde akkurat det samme spørsmålet, og de fant at de høye mobilitetsområdene har mindre boligregimetall, mindre ulik inntekt, bedre grunnskoler, større sosial kapital og større familiestabilitet. Selvfølgelig viser disse sammenhengene ikke alene at disse faktorene fører til høyere mobilitet, men de foreslår mulige mekanismer som kan utforskes i videre arbeid, noe som akkurat hva Chetty og kolleger har gjort i etterfølgende arbeid. Legg merke til hvordan størrelsen på dataene var veldig viktig i dette prosjektet. Hvis Chetty og kolleger hadde brukt skatteoppgavene på 40 000 mennesker i stedet for 40 millioner, ville de ikke ha kunnet estimere regional heterogenitet, og de ville aldri ha kunnet gjøre etterfølgende forskning for å prøve å identifisere mekanismer som skaper denne variasjonen.
Til slutt, i tillegg til å studere sjeldne hendelser og studere heterogenitet, gjør store datasett også forskere til å oppdage små forskjeller. Faktisk er mye av fokuset på store data i bransjen om disse små forskjellene: pålitelig oppdagelse av forskjellen mellom 1% og 1,1% klikkfrekvensen på en annonse kan oversette til millioner av dollar i ekstrainntekter. I enkelte vitenskapelige innstillinger er slike små forskjeller imidlertid ikke særlig viktige, selv om de er statistisk signifikante (Prentice and Miller 1992) . Men i noen policyinnstillinger kan de bli viktige når de ses samlet. For eksempel, hvis det er to offentlige helseintervensjoner, og en er litt mer effektiv enn den andre, kan plukke den mer effektive intervensjonen ende opp med å lagre tusenvis av ekstra liv.
Selv om bigness generelt er en god eiendom når den brukes riktig, har jeg lagt merke til at det noen ganger kan føre til en begrepsmessig feil. Av en eller annen grunn synes bigness å lede forskere å ignorere hvordan deres data ble generert. Mens bigness reduserer behovet for å bekymre seg for tilfeldig feil, øker det faktisk behovet for å bekymre seg om systematiske feil, hvilke feil som jeg vil beskrive nedenfor som oppstår av forstyrrelser i hvordan data opprettes. For eksempel, i et prosjekt som jeg skal beskrive senere i dette kapittelet, brukte forskere meldinger som ble generert 11. september 2001 for å produsere en høyoppløselig emosjonell tidslinje av reaksjonen på terrorangrepet (Back, Küfner, and Egloff 2010) . Fordi forskerne hadde et stort antall meldinger, behøvde de ikke å bekymre seg for om mønstrene de observerte - økende sinne i løpet av dagen - kan forklares ved tilfeldig variasjon. Det var så mye data og mønsteret var så klart at alle statistiske statistiske tester antydet at dette var et ekte mønster. Men disse statistiske tester var uvitende om hvordan dataene ble opprettet. Faktisk viste det seg at mange av mønstrene skyldtes en enkelt bot som genererte flere og flere meningsløse meldinger hele dagen. Fjerning av denne boten ødela helt noen av de viktigste funnene i papiret (Pury 2011; Back, Küfner, and Egloff 2011) . Enkelt sagt, forskere som ikke tenker på systematisk feil, står overfor risikoen for å bruke store datasett for å få et presist estimat av en ubetydelig mengde, for eksempel det følelsesmessige innholdet av meningsløse meldinger produsert av en automatisert bot.
Konklusjon er store datasett ikke en slutt i seg selv, men de kan muliggjøre visse typer forskning, inkludert studiet av sjeldne hendelser, estimeringen av heterogenitet og påvisning av små forskjeller. Store datasett synes også å lede noen forskere å ignorere hvordan dataene ble opprettet, noe som kan føre dem til å få et presist estimat av en ubetydelig mengde.