2.3.1.1 Big

Veliki skupovi podataka su sredstvo za postizanje cilja; oni nisu kraj u sebi.

Prvi od tri dobre osobine velikih podataka se najviše raspravljalo: to su velike količine podataka. Ovi izvori podataka mogu biti veliki na tri različita načina: mnogo ljudi, mnogo informacija po osobi, ili više zapažanja tokom vremena. Imati veliki skup omogućava neke specifične vrste istraživanja za mjerenje heterogenost, proučavajući rijetke događaje, otkrivanje male razlike, i čineći uzročna procjene iz posmatranja podataka. Također izgleda dovesti do određenu vrstu aljkavosti.

Prva stvar za što je posebno korisno veličina se kreće izvan prosjeke da procjene za pojedine podgrupe. Na primjer, Gary King, Jennifer Pan, i Molly Roberts (2013) izmjerena je vjerojatnost da društveni mediji postove u Kini će biti cenzurirana od strane vlade. Sama po sebi ova prosječna vjerojatnost brisanje nije od velike pomoći za razumijevanje zašto je vlada cenzuriše neke poruke, ali ne i drugi. Ali, jer je njihova skup uključeno 11 milijuna poruka, King i kolege i proizvodi procjene za vjerojatnost cenzure za poruke na 85 posebne kategorije (npr, pornografije, Tibet, a saobraćaj u Pekingu). Upoređujući vjerojatnost cenzure za poruke u različitim kategorijama, oni su bili u stanju da shvate više o tome kako i zašto je vlada cenzuriše određene vrste poruka. Sa 11 hiljada poruke (umjesto 11 miliona poruka), oni ne bi bili u stanju da proizvede ove procjene kategoriji specifične.

Drugo, veličina je posebno korisna za studira rijetkih događaja. Na primjer, Goel i kolege (2015) želio proučiti različite načine da tvitova može ići virusne. Zbog velike kaskade ponovnog tweetova su izuzetno rijetki-oko jedan u 3000-im je bilo potrebno da studira više od milijardu tweetova kako bi se pronašli dovoljno velike kaskade za njihovu analizu.

Treće, veliki skupovima podataka omogućiti istraživačima da otkriju male razlike. U stvari, mnogo je fokus na velikim podataka u industriji iznosi oko ove male razlike: pouzdano otkrivanje razlika između 1% i 1,1% stope klik-kroz jedan oglas može prevesti u milione dolara dodatnih prihoda. U nekim naučnim postavkama, tako male razlike možda neće biti posebno važno (čak i ako su statistički značajna). Ali, u nekim sredinama politici, tako male razlike mogu postati važno kada su u agregata. Na primjer, ako postoje dva javna zdravstvene intervencije i jedan je nešto efikasniji od drugih, onda prebacivanje na efikasnija intervencija mogla završiti štedi hiljade dodatnih života.

Konačno, velike skupove podataka uvelike povećati našu sposobnost da se kauzalne procjenama iz posmatranja podataka. Iako je veliki skupovi podataka ne iz temelja promijeniti problema sa pravljenjem uzročna zaključak iz posmatranja podataka, odgovara i prirodnih eksperimenata-dvije tehnike koje istraživači su razvili za izradu uzročna potraživanja iz opservacijskih podataka i veliku korist od velikih skupova podataka. Ja ću objasniti i ilustriraju ovu tvrdnju podrobnije kasnije u ovom poglavlju, kada sam opisati istraživačkih strategija.

Iako bigness je generalno dobar imovine kada se koristi ispravno, primetio sam da bigness obično dovodi do konceptualne pogreške. Iz nekog razloga, bigness izgleda dovesti istraživače ignorisati kako je svoje podatke generira. Dok bigness ne smanjuju potrebu brinuti o slučajna greška, to zapravo povećava potrebu da se brinu o sistematskih grešaka, vrste grešaka koje ću opisati u više ispod koje proizlaze iz predrasude o tome kako su podaci stvoreni i prikupljeni. U malom skup, i slučajne greške i sistematske greške mogu biti važan, ali u velikom skup slučajna greška se može biti u prosjeku daleko i sistematske greške dominira. Istraživači koji ne misle o sistematske greške će završiti koristeći svoje velike skupove podataka da se precizno procjena pogrešnu stvar; oni će biti precizno netačne (McFarland and McFarland 2015) .