Grutte datasets binne in middel ta in ein; se binne net in ein yn harsels.
De meast oerienbere funksje fan grutte gegevensboarnen is dat se BIG binne. In protte papieren, bygelyks, begjinne troch te besprekken - en soms ite - oer hoefolle gegevens dy't se analysearre hawwe. Bygelyks in papier útjûn yn Science, dy't ûndersiikjende trend-trends yn 'e Google Books corpus opnommen hat de folgjende opnommen (Michel et al. 2011) :
"[Us] korpus befettet mear as 500 miljard wurden, yn it Ingelsk (361 miljard), Frânsk (45 miljard), Spaansk (45 miljard), Dútsk (37 miljard), Sineeske (13 miljard), Russysk (35 miljard) (2 miljard). De âldste wurken waarden yn 'e 1500ers publisearre. De earste desennia wurdt fertsjintwurdige troch mar in pear boeken yn 't jier, besteande út ferskate hûndert tûzen wurden. Fan 1800 ôf groeit de korpus nei 98 miljoen wurden yn 't jier; by 1900, 1,8 miljard; en nei 2000, 11 miljard. De korpus kin net lêzen wurde troch in minske. As jo besykje allinich Ingelske taalynfieringen allinich út it jier 2000 te lêzen, tegeare mei reden fan 200 wurden / min, sûnder ûnderbrekken foar iten of sliep, soe it 80 jier nimme. De folchoarder fan brieven is 1000 kear langer as it minske-genom: As jo it yn in rjochte line skreaun hawwe, dan soe it berikke nei de moanne en werom 10 kear oer. "
De skaal fan dizze gegevens is sûnder eindigens en wy binne alle gelegenheid dat it Google Books-team dizze gegevens nei it publyk frijlitten hat (feitlik, guon fan 'e aktiviteiten oan' e ein fan dit haadstik meitsje gebrûk fan dizze gegevens). Mar, as jo wat sjogge, moatte jo freegje: is dat alle daten wat alles dogge? Kinne se itselde ûndersyk dien hawwe as de gegevens koene kinne oan 'e moanne komme en ien kear wer werom? Wat kinne as de gegevens allinich berikke op 'e top fan' e berch Everest of de top fan 'e Eiffeltoer?
Yn dat gefal hawwe har ûndersiken feitlik in oantal befiningen dy't in geweldige korpus fan wurden hawwe oer in lange tiidperioade. Bygelyks, ien ding dat se ûntdekke is de evolúsje fan grammatika, fral feroarings yn 'e taryf fan ûnregelmjittige ferwurf konjugaasje. Om't guon unregelmjittige tiidwurden seldsum binne, is in grutte oantal gegevens nedich om feroaringen te fekken oer de tiid. Faak wurde lykwols ûndersikers faak behannele om de grutte fan grutte data boarne te behanneljen as in ein - "sjoch hoefolle gegevens I krijje kinne" - as in middel om wat wichtiger wittenskiplike doelstelling.
Yn myn ûnderfining is de stúdzje fan seldsum eveneminten ien fan 'e trije spesifike wittenskiplike ein, dy't grutte datasetten neigienje. De twadde is de stúdzje fan heterogeniteit, lykas troch in stúdzje fan Raj Chetty en kollega's (2014) oer sosjale mobiliteit yn 'e Feriene Steaten yllustrearre wurde. Yn it ferline hawwe in protte ûndersikers sosjale mobiliteit ûndersocht troch it fergelykjen fan 'e libbensútkomsten fan âlders en bern. In konsekwint fûn fan dizze literatuer is dat foardielen fan 'e âlden tendere bern hawwe, mar de krêft fan dizze relaasje feroaret oer tiid en oer lannen (Hout and DiPrete 2006) . Mear as koartlyn koenen Chetty en kollega's de steatreklisten fan 40 miljoen minsken brûke om de heterogeneiteit yn 'e yntergenerative mobiliteit te ferlienen oer de regio's yn' e Feriene Steaten (figuer 2.1). Se fûnen bygelyks dat de kâns dat in bern it top kwintiel fan 'e nasjonale ynkommensdieling begjint fanút in famylje yn' e ûnderkant fan 'e sântinte, sawat 13% yn San Jose, Kalifornje, mar mar sa'n 4% yn Charlotte, Noard-Karolina. As jo op in punt 2.1 foar in momint sjogge, kinne jo begjinne, te freegjen wêrom't de yngenieurlike mobiliteit hieltyd heger op oare plakken is as oaren. Chetty en kollega's hienen krekt dezelfde fraach en fûnen dat dy hege mobiliteit gebieten minder wenjen segregaasje hawwe, minder ynkomste ynkommens, better basisskoallen, grutter sosjale haadstêd en mear famylje stabiliteit. Fansels binne dizze korrelaasjes allinich net te lêzen dat dizze faktoaren hegere mobiliteit feroarsaakje, mar se suggestje mooglik meganismen dy't yn fierdere wurken ûndersocht wurde, wat krekt wat Chetty en kollega's yn it folgjende wurk dien hawwe. Notysje hoe't de grutte fan de gegevens echt belangryk is yn dit projekt. As Chetty en kollega 's de belestingtsjinsten fan 40 tûzen minsken brûke ynstee fan 40 miljoen, soenen se net de regio-heterogeniteit skatte en se koenen nea ûndersyk dwaan om te besykjen om de meganismen te identifisearjen dy't dizze fariant meitsje.
Uteinlik, neist it sjitten fan seldsume eveneminten en heterogeneity studearje, grutte datasetten kinne ek ûndersikers ynskeakelje om lytsere ferskillen te ûndersiikjen. In feit is in protte fan 'e fokus op grutte data yn' e yndustry oer dy lytsere ferskillen: te ferwachtsjen fan it ferskil tusken 1% en 1,1% klikke troch tariven op in advertinsje kin in miljoenen dollar ynset yn ekstra ynkomsten. Yn guon wittenskiplike ynstellingen lykwols kinne sokke lytse ferskillen net wichtich wêze, ek as sy statistysk signifikant binne (Prentice and Miller 1992) . Mar, yn guon beliedstellingen kinne se wichtich wurde as se yn aggregearre wurde. Bygelyks as der twa ynstânsjes fan 'e publike sûnens binne en ien is wat effektiver as de oare, dan is it opnimmen fan it effektiver yntervinsje te finen dat tûzenen ekstra wenningen besparje.
Hoewol bigness is algemien in goeie eigendom as se korrekt tapast, haw ik bepaald dat it somtiden liede kin ta in konseptuele flater. Foar guon reden is bigness liket ûndersikers te learen om te negearjen hoe't har gegevens generearre waarden. Hoewol bigness ferleget de needsaak om soargen oer willekeurige flater te ferheegjen , hat it eigentlik ferlet fan soargen oer systematyske fouten, de soarten fouten dy't ik hjirûnder beskriuwt dy't ûntstiet út 'e foardielen yn hoe't gegevens makke binne. Bygelyks, yn in projekt sil ik letter yn dit haadstik beskriuwe. De ûndersikers brûkten berjochten op 11 septimber 2001 om in hege resolúsje-emoasjele tiidrituaasje te meitsjen fan 'e reaksje op' e terroristyske oanfal (Back, Küfner, and Egloff 2010) . Om't de ûndersikers in grut oantal berjochten hienen, hawwe se net echt soargen oer hoe't de patroanen se observearje - hieltyd mear koartsjen oer de rin fan 'e dei - kinne ferklearre wurde troch willekeurige fariant. Der wie safolle gegevens en it patroan wie sa dúdlik dat alle statistyske statistyske toetsen útstelde dat dit in echte patroan wie. Mar, dizze statistyske toetsen wiene net wis fan hoe't de gegevens makke binne. Yn feite kaam it út dat in soad fan 'e patroanen oanwêzich wiene oan in single bot, dat de hiele dei hieltyd mear betsjuttingen makket. Dizze ienige bot ferwiderje hielendal ien fan 'e wichtichste befinings yn' e papier (Pury 2011; Back, Küfner, and Egloff 2011) . Krekt ienfâldich, ûndersikers dy't net tinke oer systematyske flater foar it risiko fan gebrûk fan har grutte datasetten om in krekte skatting fan in ûnbelangrike kwaliteit te krijen, lykas de emosjonele ynhâld fan betsjuttingen dy't troch in automatisearre bot makke wurde.
By einsluten binne grutte datasetten gjin ein op harsels, mar se kinne bepaalde soarten ûndersiken ynskeakelje, ynklusyf it ûndersyk fan seldsume eveneminten, de skatting fan heterogeneity, en de fekânsje fan lytse ferskillen. Grutte datasetten likegoed guon ûndersikers liede om te negearjen hoe't har gegevens kreëare waarden, wêrmei't se kinne liede ta in krekte skatting fan in ûnbelangrike kwaliteit.