2.3.1.1 Big

Grote datasets zijn een middel om een doel; ze zijn geen doel op zichzelf.

De eerste van de drie goede eigenschappen van big data is de meest besproken: dit zijn big data. veel mensen, veel informatie per persoon, of een groot aantal waarnemingen in de tijd: deze databronnen kunnen groot in drie verschillende manieren. Het hebben van een grote dataset stelt een aantal specifieke soorten onderzoek meten heterogeniteit, het bestuderen van zeldzame gebeurtenissen, het opsporen van kleine verschillen, en het maken van causale schattingen uit observationele data. Het lijkt ook te leiden tot een specifiek type van slordigheid.

Het eerste ding voor welke maat is vooral handig is die verder gaat dan gemiddelden schattingen voor specifieke subgroepen te maken. Bijvoorbeeld, Gary King, Jennifer Pan, en Molly Roberts (2013) gemeten de kans dat social media berichten in China zou worden gecensureerd door de overheid. Op zichzelf dit gemiddelde kans van deletie is niet erg behulpzaam voor het begrijpen waarom de overheid censureert sommige posten, maar andere niet. Maar, omdat hun dataset opgenomen 11 miljoen berichten, Koning en collega's produceerde ook schattingen voor de waarschijnlijkheid van censuur naar berichten op 85 verschillende categorieën (bijvoorbeeld pornografie, Tibet en Verkeer in Peking). Door het vergelijken van de waarschijnlijkheid van censuur voor posten in verschillende categorieën, waren ze in staat om meer informatie over hoe en waarom de overheid censureert bepaalde typen berichten te begrijpen. Met 11.000 berichten (in plaats van 11 miljoen berichten), zouden zij niet in staat zijn geweest om deze categorie-specifieke schattingen.

Ten tweede, de grootte is vooral handig voor is het bestuderen van zeldzame gebeurtenissen. Bijvoorbeeld, Goel en collega's (2015) wilde de verschillende manieren waarop tweets virale kan gaan bestuderen. Omdat grote cascades van re-tweets uiterst zeldzaam-één op een 3000-moesten ze meer dan een miljard tweets om voldoende grote cascades voor de analyse te bestuderen.

Ten derde, grote datasets in staat stellen de onderzoekers naar kleine verschillen op te sporen. In feite is een groot deel van de focus op big data in de industrie is over deze kleine verschillen: betrouwbaar detecteren van het verschil tussen de 1% en 1,1% click-through rates op een advertentie kan vertalen in miljoenen dollars aan extra inkomsten. In sommige wetenschappelijke instellingen zouden dergelijke kleine verschillen niet bijzonder belangrijk (ook al zijn ze statistisch significant). Maar in sommige beleidsinstellingen dergelijke kleine verschillen kunnen belangrijk worden gezien in totaal. Bijvoorbeeld, als er twee volksgezondheidsmaatregelen en men iets effectiever dan de andere, te schakelen naar het meer effectief ingrijpen kan uiteindelijk bespaart duizenden extra levens.

Tot slot, grote datasets aanzienlijk vergroten ons vermogen om causale schattingen te maken van observationele data. Hoewel grote datasets de problemen niet fundamenteel te wijzigen met het maken van causale gevolgtrekking van observationele data, matching en natuurlijke experimenten-twee technieken die de onderzoekers hebben ontwikkeld voor het maken van causale claims van observationele data, zowel veel baat hebben bij grote datasets. Ik zal het uitleggen en deze bewering later nader toelichten in dit hoofdstuk, toen ik onderzoek strategieën te beschrijven.

Hoewel bigness is over het algemeen een goede eigenschap bij correct gebruik, heb ik gemerkt dat bigness leidt vaak tot een denkfout. Om een ​​of andere reden, bigness lijkt onderzoekers leiden tot negeren hoe hun gegevens werden gegenereerd. Terwijl bigness doet verminderen de zorgen te maken over stochastische fout, het eigenlijk verhoogt de zorgen te maken over systematische fouten, het soort fouten die ik beschrijf in meer onder die voortkomen uit vooroordelen in de manier waarop gegevens worden gemaakt en verzameld. In een kleine dataset, kan zowel toevallige fout en systematische fouten belangrijk zijn, maar in een grote dataset toevallige fout wordt weg kan worden gemiddeld en systematische fout domineert. Onderzoekers die niet nadenken over systematische fout zal uiteindelijk met behulp van hun grote datasets om een ​​nauwkeurige schatting van de verkeerde dingen te krijgen; zij zullen precies onnauwkeurig (McFarland and McFarland 2015) .