Datasets të mëdha janë një mjet për të një fund; ata nuk janë një qëllim në vetvete.
Tipari më i diskutuar i burimeve të mëdha të të dhënave është se ata janë BIG. Shumë gazeta, për shembull, fillojnë duke diskutuar - dhe ndonjëherë duke u mburrur - rreth asaj se sa të dhëna kanë analizuar. Për shembull, një letër e botuar në Shkencën e Studimit të Trendeve të Përdorimit të Fjalës në Korpusin e Librit Google përfshinte si në vijim (Michel et al. 2011) :
"[Korpusi ynë] përmban mbi 500 miliardë fjalë, në anglisht (361 miliardë), frëngjisht (45 miliardë), spanjisht (45 miliardë), gjermanisht (37 miliardë), kineze (13 miliardë), rusisht (35 miliardë) (2 miliard). Veprat më të vjetra u botuan në vitet 1500. Dhjetëvjeçarët e parë përfaqësohen nga vetëm disa libra në vit, që përbëjnë disa qindra mijë fjalë. Deri në 1800, korpusi rritet në 98 milionë fjalë në vit; nga 1900, 1.8 miliardë; dhe nga 2000, 11 miliardë. Korpusi nuk mund të lexohet nga një njeri. Nëse u përpoqët të lexoni vetëm shënimet në gjuhën angleze nga viti 2000, në ritmin e arsyeshëm prej 200 fjalë / min, pa ndërprerje për ushqim apo gjumë, do të duhej 80 vjet. Sekuenca e shkronjave është 1000 herë më e gjatë se gjenomi njerëzor: Nëse e keni shkruar në një vijë të drejtë, do të arrijë deri në Hënë dhe do të kthehet mbrapsht 10 herë ".
Shkalla e këtyre të dhënave është padyshim mbresëlënëse, dhe të gjithë jemi me fat që ekipi i Google Librat i ka lëshuar këto të dhëna për publikun (në fakt, disa nga aktivitetet në fund të këtij kapitulli përdorin këto të dhëna). Por, sa herë që shihni diçka të tillë, duhet të pyesni: a është e vërtetë se të gjitha këto të dhëna me të vërtetë bëjnë diçka? A mund të kishin bërë të njëjtën hulumtim nëse të dhënat mund të arrijnë në Hënë dhe mbrapa vetëm një herë? Po në qoftë se të dhënat mund të arrijnë vetëm në majën e malit Everest ose në krye të Kullës Eiffel?
Në këtë rast, hulumtimi i tyre, në fakt, ka disa gjetje që kërkojnë një korpus të madh fjalësh gjatë një periudhe të gjatë kohore. Për shembull, një gjë që ata eksplorojnë është evolucioni i gramatikës, veçanërisht ndryshimet në shkallën e konjugimit të foljeve të parregullta. Meqenëse disa folje të parregullta janë mjaft të rralla, një sasi e madhe e të dhënave duhet të zbulojë ndryshimet me kalimin e kohës. Shumë shpesh, megjithatë, kërkuesit duket se trajtojnë madhësinë e burimit të madh të të dhënave si një fund - "shikoni sa të dhëna mund të bëj" - sesa një mjet për një objektiv shkencor më të rëndësishëm.
Në përvojën time, studimi i ngjarjeve të rralla është një nga tri përfundimet specifike shkencore që grupet e të dhënave të mëdha tentojnë të mundësojnë. E dyta është studimi i heterogjenitetit, siç mund të ilustrohet nga një studim i Raj Chetty dhe kolegët (2014) për mobilitetin social në Shtetet e Bashkuara. Në të kaluarën, shumë studiues kanë studiuar lëvizshmërinë sociale duke krahasuar rezultatet e jetës së prindërve dhe fëmijëve. Një gjetje e qëndrueshme nga kjo literaturë është se prindërit me përparësi kanë prirjen të kenë fëmijë me përparësi, por forca e kësaj lidhjeje ndryshon me kalimin e kohës dhe në vende të ndryshme (Hout and DiPrete 2006) . Kohët e fundit, megjithatë, Chetty dhe kolegët ishin në gjendje të përdorin të dhënat e taksave nga 40 milionë njerëz për të vlerësuar heterogjenitetin në lëvizjen ndërgjenerale nëpër rajonet në Shtetet e Bashkuara (figura 2.1). Ata gjetën, për shembull, se probabiliteti që një fëmijë të arrijë nivelin më të lartë të shpërndarjes së të ardhurave kombëtare, duke filluar nga një familje në kuintalin e fundit, është rreth 13% në San Jose të Kalifornisë, por vetëm rreth 4% në Charlotte të Karolinës së Veriut. Nëse shihni për një moment figurën 2.1, mund të filloni të pyesni se pse lëvizshmëria ndërgjenerale është më e lartë në disa vende se sa të tjerët. Chetty dhe kolegët kishin të njëjtën pyetje dhe gjetën se zonat me lëvizshmëri të lartë kanë më pak ndarje banimi, më pak pabarazi në të ardhura, shkolla më të mira fillore, kapital më të madh social dhe stabilitet më të madh familjar. Natyrisht, vetëm këto korelacione nuk tregojnë se këta faktorë shkaktojnë lëvizshmëri më të lartë, por sugjerojnë mekanizma të mundshëm që mund të hulumtohen në punën e mëtejshme, gjë që është pikërisht ajo që Chetty dhe kolegët kanë bërë në punën e mëvonshme. Vini re se si madhësia e të dhënave ishte me të vërtetë e rëndësishme në këtë projekt. Nëse Chetty dhe kolegët kishin përdorur shënimet tatimore prej 40 mijë njerëzish se 40 milionë, ata nuk do të kishin qenë në gjendje të vlerësonin heterogjenitetin rajonal dhe ata asnjëherë nuk do të kishin qenë në gjendje të bënin hulumtime të mëvonshme në përpjekje për të identifikuar mekanizmat që krijojnë këtë ndryshim.
Përfundimisht, përveç studimit të ngjarjeve të rralla dhe studimit të heterogjenitetit, grupet e të dhënave të mëdha gjithashtu u mundësojnë hulumtuesve të zbulojnë dallime të vogla. Në fakt, shumica e fokusimit në të dhënat e mëdha në industri janë këto dallime të vogla: gjetja e besueshme e ndryshimit midis 1% dhe 1.1% normat e klikimeve në një reklamë mund të përkthehet në miliona dollarë në të ardhura shtesë. Sidoqoftë, në disa mjedise shkencore, dallime të tilla të vogla mund të mos jenë të rëndësishme, edhe nëse ato janë statistikisht të rëndësishme (Prentice and Miller 1992) . Por, në disa mjedise të politikave, ato mund të bëhen të rëndësishme kur shihet në përmbledhje. Për shembull, nëse ka dy ndërhyrje të shëndetit publik dhe një është pak më efektiv se tjetri, atëherë marrja e ndërhyrjes më efektive mund të përfundojë duke shpëtuar mijëra jetë të tjera.
Megjithëse binjenda është në përgjithësi një pronë e mirë kur përdoret siç duhet, kam vërejtur se ndonjëherë kjo mund të çojë në një gabim konceptual. Për disa arsye, binjakët duket se i bëjnë kërkuesit të injorojnë se si gjenerohen të dhënat e tyre. Ndërsa binjakëzimi zvogëlon nevojën për t'u shqetësuar për gabimin e rastësishëm, ajo në të vërtetë rrit nevojën për t'u shqetësuar për gabimet sistematike, llojet e gabimeve që do të përshkruaj më poshtë që dalin nga paragjykimet në mënyrën se si krijohen të dhënat. Për shembull, në një projekt që do të përshkruaj më vonë në këtë kapitull, hulumtuesit përdorën mesazhe të krijuara më 11 shtator 2001 për të prodhuar një afat kohor emocional të rezolucionit të reagimit ndaj sulmit terrorist (Back, Küfner, and Egloff 2010) . Për shkak se hulumtuesit kishin një numër të madh të mesazheve, ata nuk kishin nevojë të shqetësoheshin nëse modelet që ata vëzhgonin - duke rritur zemërimin gjatë rrjedhës së ditës - mund të shpjegoheshin me variacion të rastit. Kishte kaq shumë të dhëna dhe modeli ishte aq i qartë saqë të gjitha testet statistikore statistikore sugjeronin se kjo ishte një model i vërtetë. Por, këto testime statistikore nuk dinin se si ishin krijuar të dhënat. Në fakt, doli se shumë nga modelet ishin të lidhura me një bot të vetëm që gjeneroi mesazhe gjithnjë e më pak të pakuptimtë gjatë gjithë ditës. Heqja e këtij botit shkatërroi plotësisht disa nga gjetjet kyçe në letër (Pury 2011; Back, Küfner, and Egloff 2011) . Thjesht, studiuesit që nuk mendojnë për gabimin sistematik përballen me rrezikun e përdorimit të grupeve të të dhënave të mëdha për të marrë një vlerësim të saktë të një sasie të parëndësishme, siç është përmbajtja emocionale e mesazheve të pakuptimta të prodhuara nga një bot i automatizuar.
Në përfundim, grupet e të dhënave të mëdha nuk janë një qëllim në vetvete, por mund të mundësojnë lloje të caktuara kërkimore përfshirë studimin e ngjarjeve të rralla, vlerësimin e heterogjenitetit dhe zbulimin e dallimeve të vogla. Dosjet e mëdha gjithashtu duket se i bëjnë disa studiues të injorojnë se si u krijuan të dhënat e tyre, gjë që mund t'i bëjë ata të marrin një vlerësim të saktë të një sasie të parëndësishme.