2.3.1.1 Big

Datasets të mëdha janë një mjet për të një fund; ata nuk janë një qëllim në vetvete.

I pari nga tre karakteristikat e mirë e të dhënave të mëdha është më e diskutuar: këto janë dhënat e mëdha. Këto burime të të dhënave mund të jetë i madh në tre mënyra të ndryshme: shumë njerëz, shumë e informacionit për person, ose shumë vërejtje me kalimin e kohës. Duke pasur një dataset të madhe mundëson disa lloje të veçanta të heterogjenitetit kërkimore-matjen, duke studiuar ngjarje të rralla, zbulimin dallime të vogla dhe duke bërë vlerësime shkakësore nga të dhënat vëzhgimor. Ajo gjithashtu duket të çojë në një lloj të veçantë të sloppiness.

Gjëja e parë për të cilën madhësia është veçanërisht e dobishme është duke lëvizur përtej mesatares për të bërë vlerësimet për nëngrupe të veçanta. Për shembull, Gary King, Jennifer Pan, dhe Molly Roberts (2013) të matur mundësinë që mesazhet e mediave sociale në Kinë do të jetë e censuruar nga qeveria. Nga vetë ky probabilitet mesatare e fshirje nuk është shumë e dobishme për të kuptuar se pse qeveria censuron disa postime, por jo të tjerët. Por, për shkak se dataset tyre përfshinte 11 milion mesazhet, Mbreti dhe kolegët prodhuar edhe vlerësimet për mundësinë e censurës për posteve në 85 kategori të veçanta (p.sh., pornografia, Tibet, dhe Trafikut në Pekin). Duke krahasuar probabilitetin e censurës për postet në kategori të ndryshme, ata ishin në gjendje për të kuptuar më shumë rreth asaj se si dhe pse qeveria e censuron lloje të caktuara të postimeve. Me 11 mijë mesazhe (më tepër se 11 milionë Mesazhe), ata nuk do të kishin qenë në gjendje për të prodhuar këto vlerësime kategori specifike.

Së dyti, madhësia është veçanërisht e dobishme për studion e ngjarjeve të rralla. Për shembull, Goel dhe kolegët (2015) të kërkuar për të studiuar mënyrat e ndryshme që tweets mund të shkojnë viral. Për shkak kaskadat mëdha të ri-tweets janë tepër të rralla, rreth një në një 3000-ata kishin nevojë për të studiuar më shumë se një miliard tweets në mënyrë që të gjeni kaskadat mjaft e madhe për analizën e tyre.

Së treti, datasets të mëdha të mundësuar kërkuesit për të zbuluar dallime të vogla. Në fakt, shumë e fokusuar në të dhëna të mëdha në industri është në lidhje me këto dallime të vogla: në mënyrë të besueshme zbulimin dallimin midis 1% dhe 1.1% klikoni-nëpërmjet normave në një reklamë mund të përkthehet në miliona dollarë në të ardhura shtesë. Në disa mjedise shkencore, këto diferenca të vogla nuk mund të jetë veçanërisht e rëndësishme (edhe nëse ata janë statistikisht të rëndësishme). Por, në disa mjedise të politikës, këto diferenca të vogla mund të bëhet i rëndësishëm kur shihet në total. Për shembull, në qoftë se ka dy ndërhyrje të shëndetit publik dhe një është pak më shumë efektive se sa të tjera, atëherë kalimi të ndërhyrjes më efektive mund të përfundojë kursyer mijëra jetë të tjera.

Së fundi, grupe të mëdha të të dhënave të rritur në masë të madhe aftësinë tonë për të bërë vlerësime shkakësore nga të dhënat vëzhgimor. Edhe pse grupe të të dhënave të mëdha nuk do të ndryshojë rrënjësisht problemet me marrjen konkluzion shkakësore nga të dhënat vëzhgimor, që përputhen dhe eksperimentet e dy natyrore teknikat që hulumtuesit kanë zhvilluar për të bërë pretendime shkakësore nga vëzhgimor dhënave të të dy të përfitojnë shumë nga datasets të mëdha. Unë do të shpjegojë dhe të ilustruar këtë pretendim në hollësi më vonë në këtë kapitull, kur unë përshkruajnë strategjitë kërkimore.

Edhe pse bigness në përgjithësi është një pronë e mirë kur përdoret siç duhet, unë kam vënë re se bigness zakonisht çon në një gabim konceptual. Për disa arsye, bigness duket të çojë studiues të injorojë se si është gjeneruar të dhënat e tyre. Ndërsa bigness bën të zvogëlojë nevojën për t'u shqetësuar në lidhje me gabim të rastit, ai në fakt rrit nevojën për t'u shqetësuar për gabimet sistematike, llojet e gabimeve që unë do të përshkruajnë në më poshtë që lindin nga biases në mënyrën se si janë krijuar dhe dhënat e mbledhura. Në ndonjë grup të dhënash të vogël, si gabim të rastit dhe gabimi sistematik mund të jetë i rëndësishëm, por në një humbje të madhe të dhënash të rastit është e mund të jetë mesatarisht larg dhe gabim sistematik dominon. Hulumtuesit të cilët nuk mendojnë për gabim sistematik do të përfundojë duke përdorur datasets e tyre të mëdha për të marrë një vlerësim të saktë të sendit të gabuar; ata do të jenë pikërisht të pasakta (McFarland and McFarland 2015) .