Groot datastelle is 'n middel tot 'n einde aan gemaak; hulle is nie 'n doel op sigself.
Die mees algemene aspekte van groot data bronne is dat hulle GROOT is. Baie vraestelle, byvoorbeeld, begin deur te bespreek en soms te spog oor hoeveel data hulle ontleed het. Byvoorbeeld, 'n referaat wat gepubliseer is in Wetenskapstudie -tendense in die Google Books-korpus, het die volgende (Michel et al. 2011) :
"[Ons] corpus bevat meer as 500 miljard woorde, in Engels (361 miljard), Frans (45 miljard), Spaans (45 miljard), Duits (37 miljard), Chinees (13 miljard), Russies (35 miljard) (2 miljard). Die oudste werke is in die 1500's gepubliseer. Die vroeë dekades word verteenwoordig deur slegs 'n paar boeke per jaar, wat uit verskeie honderdduisend woorde bestaan. Teen 1800 groei die korpus tot 98 miljoen woorde per jaar; teen 1900, 1,8 miljard; en teen 2000, 11 miljard. Die corpus kan nie deur 'n mens gelees word nie. As u slegs Engels-inskrywings van die jaar 2000 alleen probeer lees, teen 'n redelike tempo van 200 woorde / min, sonder onderbrekings vir kos of slaap, sal dit 80 jaar duur. Die volgorde van letters is 1000 keer langer as die menslike genoom: As jy dit reguit geskryf het, sal dit 10 keer oor die maan kom en terug. "
Die omvang van hierdie data is ongetwyfeld indrukwekkend, en ons is almal gelukkig dat die Google Books-span hierdie inligting aan die publiek bekend gemaak het. In werklikheid gebruik sommige van die aktiwiteite aan die einde van hierdie hoofstuk hierdie data.) Maar wanneer jy so iets sien, moet jy vra: is dit al daardie data regtig iets doen? Kon hulle dieselfde navorsing gedoen het as die data net een keer na die maan kon kom en terug? Wat as die data net na die top van Mount Everest of die top van die Eiffeltoring kon bereik?
In hierdie geval het hul navorsing wel 'n paar bevindings wat oor 'n lang tydperk 'n groot korpus van woorde vereis. Byvoorbeeld, een ding wat hulle verken, is die evolusie van grammatika, veral veranderinge in die tempo van onreëlmatige werkwoordvervoeging. Aangesien sommige onreëlmatige werkwoorde redelik skaars is, is 'n groot hoeveelheid data nodig om veranderinge mettertyd op te spoor. Te dikwels lyk dit egter of navorsers die grootte van die groot databron as 'n einde beskou - "kyk hoeveel data ek kan crunch" -rather as 'n middel vir 'n belangrike wetenskaplike doelwit.
In my ervaring is die studie van seldsame gebeure een van die drie spesifieke wetenskaplike doelwitte wat groot datastelle geneig is om in staat te stel. Die tweede is die studie van heterogeniteit, soos geïllustreer deur 'n studie deur Raj Chetty en kollegas (2014) oor sosiale mobiliteit in die Verenigde State. In die verlede het baie navorsers sosiale mobiliteit bestudeer deur die lewensuitkomste van ouers en kinders te vergelyk. 'N Konsekwente bevinding uit hierdie literatuur is dat bevoordeelde ouers geneig is om bevoordeelde kinders te hê, maar die sterkte van hierdie verhouding wissel oor tyd en oor lande (Hout and DiPrete 2006) . Meer onlangs kon Chetty en kollegas egter die belastingrekords van 40 miljoen mense gebruik om die heterogeniteit in intergenerasionele mobiliteit oor streke in die Verenigde State te skat (figuur 2.1). Hulle het byvoorbeeld bevind dat die waarskynlikheid dat 'n kind die hoogste kwintiel van die nasionale inkomsteverspreiding uit 'n familie in die onderste kwintiel bereik, sowat 13% in San Jose, Kalifornië is, maar slegs sowat 4% in Charlotte, Noord-Carolina. As jy 'n oomblik na figuur 2.1 kyk, kan jy dalk wonder waarom intergenerasionele mobiliteit op sommige plekke hoër is as ander. Chetty en kollegas het presies dieselfde vraag gehad, en hulle het bevind dat die hoë mobiliteitsareas minder residensiële segregasie, minder ongelykheid in inkomste, beter laerskole, groter sosiale kapitaal en groter familie stabiliteit het. Hierdie korrelasies alleen toon natuurlik nie dat hierdie faktore hoër mobiliteit veroorsaak nie, maar hulle stel moontlike meganismes voor wat in verdere werk ondersoek kan word. Dit is presies wat Chetty en kollegas in die daaropvolgende werk gedoen het. Let op hoe die grootte van die data regtig belangrik was in hierdie projek. As Chetty en kollegas die belastingrekords van 40 duisend mense eerder as 40 miljoen gebruik het, sou hulle nie die streeks heterogeniteit kon skat nie en sou hulle nooit die volgende navorsing kon doen om die meganismes wat hierdie variasie skep, te identifiseer nie.
Ten slotte, benewens die studie van seldsame gebeure en die studie van heterogeniteit, stel groot datastelle navorsers ook in staat om klein verskille op te spoor. Trouens, baie van die fokus op groot data in die industrie gaan oor hierdie klein verskille: betroubare opsporing van die verskil tussen 1% en 1,1% deurkliektempo's op 'n advertensie kan in miljoene dollars in ekstra inkomste vertaal. In sommige wetenskaplike instellings mag sulke klein verskille egter nie baie belangrik wees nie, al is hulle statisties betekenisvol (Prentice and Miller 1992) . Maar in sommige beleidsinstellings kan dit belangrik word as dit in totaal gesien word. Byvoorbeeld, as daar twee openbare gesondheidsintervensies is en een effens meer effektief is as die ander, kan die keuse van die meer effektiewe ingryping uiteindelik duisende bykomende lewens spaar.
Alhoewel bigness oor die algemeen 'n goeie eiendom is wanneer dit korrek gebruik word, het ek opgemerk dat dit soms kon lei tot 'n konseptuele fout. Om een of ander rede lyk bigness om navorsers te lei om te ignoreer hoe hul data gegenereer is. Terwyl bigness doen verminder die behoefte om te bekommer oor ewekansige fout, dit eintlik verhoog die behoefte om te bekommer oor sistematiese foute, die soorte foute wat ek sal beskryf hieronder wat ontstaan as gevolg van vooroordele in hoe data geskep word. Byvoorbeeld, in 'n projek wat ek later in hierdie hoofstuk beskryf, gebruik navorsers boodskappe wat op 11 September 2001 gegenereer is om 'n hoëresolusionêre emosionele tydlyn van die reaksie op die terreuraanval (Back, Küfner, and Egloff 2010) te produseer. Omdat die navorsers 'n groot aantal boodskappe gehad het, het hulle nie regtig nodig gehad om bekommerd te wees of die patrone wat hulle waargeneem het nie - toenemende woede oor die loop van die dag - deur ewekansige variasie verklaar kon word. Daar was soveel data en die patroon was so duidelik dat al die statistiese statistiese toetse voorgestel het dat dit 'n ware patroon was. Maar hierdie statistiese toetse was onbewus van hoe die data geskep is. Trouens, dit blyk dat baie van die patrone toegeskryf word aan 'n enkele bot wat meer en meer betekenislose boodskappe deur die dag gegenereer het. Deur hierdie een te verwyder, het sommige van die sleutelbevindings in die koerant (Pury 2011; Back, Küfner, and Egloff 2011) heeltemal vernietig. Navorsers wat nie oor sistematiese foute dink nie, het die risiko om hul groot datastelle te gebruik om 'n akkurate skatting van 'n onbelangrike hoeveelheid te kry, soos die emosionele inhoud van betekenislose boodskappe wat deur 'n outomatiese bot vervaardig word.
Ter afsluiting is groot datastelle nie 'n doel op sigself nie, maar hulle kan sekere soorte navorsing moontlik maak, insluitend die studie van skaars gebeure, die skatting van heterogeniteit en die opsporing van klein verskille. Groot datastelle lyk ook asof sommige navorsers lei om te ignoreer hoe hul data geskep is, wat hulle kan lei om 'n presiese skatting van 'n onbelangrike hoeveelheid te kry.