Velikih skupova podataka su sredstvo za postizanje cilja; oni nisu kraj u sebi.
Najčešće opisana značajka velikih izvora podataka je da su oni veliki. Mnogi radovi, na primjer, počinju raspravljati - i ponekad hvalisanje - o tome koliko su podataka analizirali. Na primjer, rad objavljen u Znanosti o proučavanju trendova upotrebe riječi u korpusu Google knjige obuhvaća sljedeće (Michel et al. 2011) :
"Naš korpus sadrži više od 500 milijardi riječi, na engleskom (361 milijardi), francuskom (45 milijardi), španjolskom (45 milijardi), njemačkom (37 milijardu), kineski (13 milijardi), ruskom (35 milijardi) (2 milijarde). Najstariji radovi objavljeni su u 1500-ima. Prvih desetljeća zastupa samo nekoliko knjiga godišnje, a sastoji se od nekoliko stotina tisuća riječi. Do 1800. godine korpus raste na 98 milijuna riječi godišnje; do 1900, 1,8 milijardi; i do 2000, 11 milijardi eura. Čovjek ne može čitati korpus. Ako ste pokušali pročitati samo unose iz engleskog jezika iz 2000. godine, u razumnom ritmu od 200 riječi / min, bez prekida za hranu ili spavanje, trebalo bi 80 godina. Redoslijed slova je 1000 puta dulji od ljudskog genoma: ako ste ga napisali ravno, to bi dopiralo do Mjeseca i natrag 10 puta više. "
Ljestvica ovih podataka nedvojbeno je impresivna, a svi smo sretni što je tim za Google Knjige objavio te podatke javnosti (u stvari, neke od aktivnosti na kraju ovog poglavlja koriste ove podatke). Ali, kad god vidite nešto takvo, trebali biste pitati: jesu li svi podaci činili ništa? Jesu li mogli učiniti isto istraživanje ako bi podaci mogli doprijeti do Mjeseca i natrag samo jednom? Što ako podaci mogu doći do vrha Mount Everesta ili vrha Eiffelovog tornja?
U ovom slučaju, njihovo istraživanje zapravo ima neke nalaze koje zahtijevaju ogroman korpus riječi tijekom dugog vremenskog razdoblja. Na primjer, jedna stvar koju istražuju jest evolucija gramatike, osobito promjene u broju nepravilnih konjugacija glagola. Budući da su neki nepravilni glagoli prilično rijetki, velika količina podataka treba detektirati promjene tijekom vremena. Prečesto, međutim, čini se da istraživači smatraju veličinu velikog izvora podataka kao kraj - "pogledajte koliko podataka mogu posrnuti", nego sredstvo za neki važniji znanstveni cilj.
U mojem iskustvu, proučavanje rijetkih događaja jedan je od tri specifična znanstvena otkrića koje velike skupine podataka omogućuju. Druga je studija heterogenosti, što se može ilustrirati istraživanjem Raj Chetty i suradnika (2014) o društvenoj pokretljivosti u Sjedinjenim Državama. U prošlosti su mnogi istraživači proučavali društvenu mobilnost usporedbom životnih ishoda roditelja i djece. Dosadan nalaz ove literature je da roditelji s prednostima imaju tendenciju da imaju prednost djece, ali snaga ovog odnosa varira s vremenom i diljem zemalja (Hout and DiPrete 2006) . U novije vrijeme, međutim, Chetty i njegovi kolege uspjeli su iskoristiti porezne zapise od 40 milijuna ljudi kako bi procijenili heterogenost među generacijske mobilnosti u regijama u Sjedinjenim Američkim Državama (slika 2.1). Otkrili su, primjerice, da je vjerojatnost da dijete dosegne vrh kvintila nacionalne raspodjele dohotka počevši od obitelji u dnu kvintila oko 13% u San Joseu u Kaliforniji, ali samo oko 4% u Charlotteu u Sjevernoj Karolini. Ako na trenutak pogledate sliku 2.1, možete se zapitati zašto je međugeneracijska mobilnost veća u nekim mjestima od drugih. Chetty i njegovi kolege imali su upravo isto pitanje, i otkrili su da područja s visokom mobilnošću imaju manje stambene segregacije, manje dohodovne nejednakosti, bolje osnovne škole, veći društveni kapital i veću obiteljsku stabilnost. Naravno, samo ove korelacije ne pokazuju da ti čimbenici uzrokuju veću mobilnost, ali predlažu moguće mehanizme koji se mogu istražiti u daljnjem radu, što je točno ono što su Chetty i njegovi kolege učinili u kasnijem radu. Primjetite kako je veličina podataka bila stvarno važna u ovom projektu. Ako su Chetty i njegovi kolege koristili porezne zapise od 40 tisuća ljudi, a ne 40 milijuna, oni ne bi mogli procijeniti regionalnu heterogenost i nikada ne bi bili u mogućnosti učiniti naknadna istraživanja kako bi pokušali identificirati mehanizme koji stvaraju ovu varijaciju.
Konačno, osim proučavanja rijetkih događaja i proučavanja heterogenosti, velike skupove podataka također omogućuju istraživačima da otkriju male razlike. U stvari, veći dio fokusa na velikim podacima u industriji ovisi o tim malim razlikama: pouzdano otkrivanje razlike između 1% i 1,1% klikovnih stopa na oglas može se prevesti u milijune dolara u dodatni prihod. Međutim, u nekim znanstvenim postavkama takve male razlike možda nisu osobito važne, čak i ako su statistički značajne (Prentice and Miller 1992) . No, u nekim postavkama pravila, oni mogu postati važni kada se promatraju zajedno. Na primjer, ako postoje dvije javne zdravstvene intervencije, a jedna je nešto učinkovitija od druge, onda odabiranje učinkovitije intervencije moglo bi rezultirati uštedom tisuća dodatnih života.
Iako je glupost u pravilu dobra dobra, primijetila sam da ponekad može dovesti do pojmovne pogreške. Iz nekog razloga, čini se da čudovište dovodi znanstvenike da zanemaruju kako su generirani njihovi podaci. Dok bighness smanjuje potrebu brige o slučajnoj pogrešci, zapravo povećava potrebu brige o sustavnim pogreškama, vrste pogrešaka koje ću opisati u nastavku koji proizlaze iz pristranosti u načinu izrade podataka. Na primjer, u projektu koji ću kasnije opisati u ovom poglavlju, istraživači su koristili poruke generirane 11. rujna 2001. kako bi stvorile emocionalni vremenski okvir visoke rezolucije reakcije na teroristički napad (Back, Küfner, and Egloff 2010) . Budući da su istraživači imali velik broj poruka, nisu se trebali brinuti o tome jesu li uzorci koji su promatrali - povećavajući bijes tijekom dana - mogli biti objašnjeni nasumičnim varijacijama. Bilo je toliko podataka i obrazac je bio toliko jasan da su svi statistički statistički testovi ukazivali da je to pravi uzorak. No, ti statistički testovi nisu znali kako su stvoreni podaci. U stvari, pokazalo se da su mnogi od uzoraka bili pripisivi jednom botu koji je generirao sve više i više besmislenih poruka tijekom dana. Uklanjanje ovog bot-a potpuno uništio neke od ključnih nalaza u radu (Pury 2011; Back, Küfner, and Egloff 2011) . Vrlo jednostavno, istraživači koji ne razmišljaju o sustavnoj pogreškama suočavaju se s rizikom korištenja svojih velikih skupova podataka kako bi dobili preciznu procjenu nevažne količine, kao što je emocionalni sadržaj besmislenih poruka koje proizvodi automatizirani bot.
Zaključno, velike skupove podataka nisu sami po sebi, ali mogu omogućiti određene vrste istraživanja, uključujući istraživanje rijetkih događaja, procjenu heterogenosti i otkrivanje malih razlika. Velike skupove podataka također čini da vode izvjesne istraživače da zanemaruju kako su stvoreni njihovi podaci, što može dovesti do preciznog procjene nebitne količine.