Grote datasets zijn een middel om een doel; ze zijn geen doel op zichzelf.
Het meest besproken kenmerk van big data-bronnen is dat ze GROOT zijn. Veel artikelen beginnen bijvoorbeeld met bespreken en soms opscheppen over de hoeveelheid gegevens die ze hebben geanalyseerd. Een artikel gepubliceerd in Science waarin trends in woordgebruik worden onderzocht in het corpus van Google Boeken bevatte bijvoorbeeld het volgende (Michel et al. 2011) :
"[Ons] corpus bevat meer dan 500 miljard woorden, in het Engels (361 miljard), Frans (45 miljard), Spaans (45 miljard), Duits (37 miljard), Chinees (13 miljard), Russisch (35 miljard) en Hebreeuws (2 miljard). De oudste werken werden gepubliceerd in de jaren 1500. De eerste decennia worden vertegenwoordigd door slechts een paar boeken per jaar, bestaande uit enkele honderdduizend woorden. Tegen 1800 groeit het corpus tot 98 miljoen woorden per jaar; tegen 1900, 1,8 miljard; en tegen 2000, 11 miljard. Het corpus kan niet door een mens worden gelezen. Als je alleen al in het jaar 2000 alleen Engelstalige inzendingen wilde lezen, in een redelijk tempo van 200 woorden / minuut, zonder onderbrekingen voor eten of slapen, zou dat 80 jaar duren. De reeks letters is 1000 keer langer dan het menselijk genoom: als je het in een rechte lijn schreef, zou het 10 keer naar de maan en terug reiken. "
De schaal van deze gegevens is ongetwijfeld indrukwekkend, en we hebben allemaal het geluk dat het team van Google Boeken deze gegevens openbaar heeft gemaakt (sommige activiteiten aan het einde van dit hoofdstuk maken zelfs gebruik van deze gegevens). Maar als je zoiets ziet, moet je je afvragen: is er echt iets met die gegevens aan het doen? Hadden ze hetzelfde onderzoek kunnen doen als de gegevens maar één keer naar de maan konden gaan en terug? Wat als de gegevens alleen de top van de Mount Everest of de top van de Eiffeltoren konden bereiken?
In dit geval heeft hun onderzoek inderdaad enkele bevindingen die een enorme hoeveelheid woorden over een lange tijdsperiode vereisen. Een ding dat ze bijvoorbeeld onderzoeken, is de evolutie van de grammatica, vooral veranderingen in de snelheid van onregelmatige werkwoordvervoeging. Omdat sommige onregelmatige werkwoorden vrij zeldzaam zijn, moet een grote hoeveelheid gegevens veranderingen in de tijd detecteren. Maar al te vaak schijnen onderzoekers de omvang van de big data-bron te beschouwen als een einde - "kijk hoeveel data ik kan crunchen" - in plaats van een middel tot een wat belangrijker wetenschappelijk doel.
In mijn ervaring is de studie van zeldzame gebeurtenissen een van de drie specifieke wetenschappelijke doelen die grote datasets mogelijk maken. De tweede is de studie van heterogeniteit, zoals kan worden geïllustreerd door een studie van Raj Chetty en collega's (2014) over sociale mobiliteit in de Verenigde Staten. In het verleden hebben veel onderzoekers sociale mobiliteit bestudeerd door de levensresultaten van ouders en kinderen te vergelijken. Een consistente bevinding uit deze literatuur is dat bevoordeelde ouders de neiging hebben om bevoordeelde kinderen te hebben, maar de kracht van deze relatie varieert in de tijd en in andere landen (Hout and DiPrete 2006) . Meer recentelijk echter, konden Chetty en zijn collega's de belastinggegevens van 40 miljoen mensen gebruiken om de heterogeniteit in mobiliteit tussen generaties in regio's in de Verenigde Staten te schatten (figuur 2.1). Ze vonden bijvoorbeeld dat de kans dat een kind het hoogste kwintiel van de nationale inkomensverdeling bereikt, uitgaande van een familie in het onderste kwintiel, ongeveer 13% is in San Jose, Californië, maar slechts ongeveer 4% in Charlotte, North Carolina. Als je even naar figuur 2.1 kijkt, begin je je misschien af te vragen waarom intergenerationele mobiliteit op sommige plaatsen hoger is dan andere. Chetty en collega's hadden precies dezelfde vraag en vonden dat in gebieden met een hoge mobiliteit minder segregatie van woningen, minder ongelijke inkomens, betere basisscholen, meer sociaal kapitaal en meer gezinsstabiliteit voorkomen. Natuurlijk laten deze correlaties alleen niet zien dat deze factoren een hogere mobiliteit veroorzaken, maar ze suggereren wel mogelijke mechanismen die kunnen worden verkend in verder werk, wat precies is wat Chetty en collega's hebben gedaan in hun latere werk. Merk op hoe de grootte van de gegevens echt belangrijk was in dit project. Als Chetty en collega's de belastingadministratie van 40 duizend mensen hadden gebruikt in plaats van 40 miljoen, zouden ze de heterogeniteit van de regio niet hebben kunnen inschatten en hadden ze nooit vervolgonderzoek kunnen doen om de mechanismen te vinden die deze variatie creëren.
Tenslotte, naast het bestuderen van zeldzame gebeurtenissen en het bestuderen van heterogeniteit, stellen grote datasets onderzoekers ook in staat om kleine verschillen te detecteren. Een groot deel van de focus op big data in de industrie gaat in feite over deze kleine verschillen: het betrouwbaar detecteren van het verschil tussen 1% en 1,1% klikfrequenties op een advertentie kan zich vertalen in miljoenen dollars aan extra inkomsten. In sommige wetenschappelijke omgevingen zijn dergelijke kleine verschillen misschien niet bijzonder belangrijk, zelfs als ze statistisch significant zijn (Prentice and Miller 1992) . Maar in sommige beleidsinstellingen kunnen ze belangrijk worden als ze in totaal worden bekeken. Als er bijvoorbeeld twee volksgezondheidsinterventies zijn en de ene is iets effectiever dan de andere, dan zou het kiezen van de effectievere interventie uiteindelijk duizenden extra levens kunnen besparen.
Hoewel grootheid over het algemeen een goede eigenschap is wanneer correct gebruikt, heb ik gemerkt dat dit soms kan leiden tot een conceptuele fout. Om een of andere reden lijkt het erop dat grootsheid ertoe leidt dat onderzoekers negeren hoe hun gegevens werden gegenereerd. Hoewel bigness de behoefte om zich zorgen te maken over willekeurige fouten vermindert, neemt de behoefte om zich zorgen te maken over systematische fouten toe, het soort fouten dat ik hieronder zal beschrijven, dat voortkomt uit vooroordelen in de manier waarop gegevens worden gemaakt. In een project dat ik later in dit hoofdstuk zal beschrijven, gebruikten de onderzoekers bijvoorbeeld berichten die op 11 september 2001 waren gegenereerd om een emotionele tijdlijn met een hoge resolutie te produceren van de reactie op de terroristische aanval (Back, Küfner, and Egloff 2010) . Omdat de onderzoekers een groot aantal berichten hadden, hoefden ze zich niet echt zorgen te maken over de vraag of de patronen die ze waarnamen - in de loop van de dag toenemende woede - konden worden verklaard door willekeurige variatie. Er waren zoveel gegevens en het patroon was zo duidelijk dat alle statistische statistische tests suggereerden dat dit een echt patroon was. Maar deze statistische tests waren onwetend van hoe de gegevens werden gemaakt. Sterker nog, het bleek dat veel van de patronen te wijten waren aan een enkele bot die gedurende de dag steeds meer zinloze berichten genereerde. Het verwijderen van deze ene bot vernietigde een aantal van de belangrijkste bevindingen in de paper (Pury 2011; Back, Küfner, and Egloff 2011) . Simpel gezegd, onderzoekers die niet denken aan systematische fouten lopen het risico hun grote datasets te gebruiken om een precieze schatting te krijgen van een onbelangrijke hoeveelheid, zoals de emotionele inhoud van zinloze berichten die door een geautomatiseerde bot worden geproduceerd.
Kortom, grote datasets zijn geen doel op zich, maar ze kunnen bepaalde soorten onderzoek mogelijk maken, waaronder de studie van zeldzame gebeurtenissen, de schatting van heterogeniteit en de detectie van kleine verschillen. Grote gegevensverzamelingen lijken er ook toe te leiden dat sommige onderzoekers negeren hoe hun gegevens zijn gemaakt, wat ertoe kan leiden dat ze een precieze schatting van een onbelangrijke hoeveelheid krijgen.