Suuret aineistot ovat keino lopettamiseksi; ne eivät ole itsetarkoitus.
Suurten tietolähteiden laajimmin käsitelty ominaisuus on se, että ne ovat suuria. Monet julkaisut alkavat esimerkiksi keskustella - ja joskus ylpeydellä - kuinka paljon tietoja he analysoivat. Esimerkiksi Googlen kirjojen corpus -sanakäyttäytymistä tutkiva tieteellinen julkaisu sisälsi seuraavat (Michel et al. 2011) :
"[Meidän] corpus sisältää yli 500 miljardia sanaa englanniksi (361 miljardia), ranskaksi (45 miljardia), espanjaksi (45 miljardiksi), saksaksi (37 miljardiksi), kiinalaksi (13 miljardiksi), venäjäksi (35 miljardiksi) (2 miljardia). Vanhimmat teokset julkaistiin 1500-luvulla. Alkuvuosikymmentä edustaa vain muutamia kirjoja vuodessa, joka sisältää useita satoja tuhansia sanoja. Vuoteen 1800 mennessä korpus kasvaa 98 miljoonaan sanaan vuodessa; vuoteen 1900 mennessä 1,8 miljardia; ja vuoteen 2000 mennessä 11 miljardia euroa. Ihminen ei voi lukea korpusta. Jos yritit lukea vain englanninkielisiä merkintöjä pelkästään vuodesta 2000, kohtuullisella 200 s / min nopeudella ilman keskeytyksiä ruoasta tai unesta, se kesti 80 vuotta. Kirjainten sekvenssi on 1000 kertaa pitempi kuin ihmisen genomi: Jos kirjoitit sen suoraviivalla, se päätyisi Kuuhun ja takaisin 10 kertaa. "
Näiden tietojen laajuus on epäilemättä vaikuttava, ja olemme kaikki onnekkaita siitä, että Google-kirjat -tiimi on julkaissut nämä tiedot yleisölle (itse asiassa osa tämän luvun lopussa olevista toimista käyttää näitä tietoja). Mutta kun näet jotain tällaista, sinun pitäisi kysyä: onko kaikki nämä tiedot todella tekemättä mitään? Ovatko he voineet tehdä samaa tutkimusta, jos tiedot pääsisivät Kuuhun ja takaisin vain kerran? Entä jos tiedot voisivat vain nousta Mount Everestin yläosaan tai Eiffel-tornin yläosaan?
Tässä tapauksessa niiden tutkimuksella on itse asiassa joitain havaintoja, jotka edellyttävät valtavaa korpusia sanoista pitkään aikaan. Esimerkiksi yksi asia, jota he tutkivat, on kieliopin kehittyminen, erityisesti epäsäännöllisen verbin konjugoinnin nopeuden muutokset. Koska jotkut epäsäännölliset verbit ovat melko harvinaisia, tarvitaan suuria määriä tietoja ajan mittaan. Liian usein tutkijat näyttävät kuitenkin käsittelevän suuren tietolähteen kokoa - "katsokaa, kuinka paljon tietoa voin murtua" - kuin jotain tärkeämpää tieteellistä tavoitetta.
Kokemukseni mukaan harvinaisten tapahtumien tutkiminen on yksi niistä kolmesta erityisestä tieteellisestä päästä, jotka suuret tietosarjat yleensä mahdollistavat. Toinen on heterogeenisuuden tutkimus, kuten Raj Chettyn ja hänen kollegojensa (2014) tutkimus sosiaalisesta liikkuvuudesta Yhdysvalloissa. Aiemmin monet tutkijat ovat opiskelleet sosiaalista liikkuvuutta vertaamalla vanhempien ja lasten elämää. Tämän kirjallisuuden johdonmukainen havainto on, että etuoikeutetut vanhemmat ovat taipuvaisia lapsia (Hout and DiPrete 2006) , mutta tämän suhteen vahvuus vaihtelee ajan ja eri maiden välillä (Hout and DiPrete 2006) . Vielä äskettäin Chetty ja kollegat pystyivät käyttämään verotuloja 40 miljoonasta ihmisestä arvioimaan eri sukupolvien välisen liikkuvuuden heterogeenisyyttä eri alueilla Yhdysvalloissa (kuva 2.1). He havaitsivat esimerkiksi, että todennäköisyys, että lapsi saavuttaa kansallisen tulonjaon ylimmän viidenneksen alkuvuodesta perheestä alimmassa quintilessa, on noin 13 prosenttia San Joseissa Kaliforniassa, mutta vain noin 4 prosenttia Charlotte, North Carolina. Jos tarkastelet hetken kuvassa 2.1, saatat alkaa ihmetellä, miksi sukupolvien välinen liikkuvuus on jossain paikoissa korkeampi kuin muilla. Chetti ja työtovereilla oli täsmälleen sama kysymys, ja he havaitsivat, että korkean liikkuvuuden alueet ovat vähemmän asuinalueiden segregaatiota, vähemmän tuloeroja, parempia peruskouluja, suurempaa sosiaalista pääomaa ja suurempaa perheen vakautta. Tietenkin nämä korrelaatiot eivät yksinään osoita, että nämä tekijät aiheuttavat suurempaa liikkuvuutta, mutta ne viittaavat mahdollisiin mekanismeihin, joita voidaan tutkia jatkossa, mikä on juuri se, mitä Chetty ja kollegat ovat tehneet myöhemmässä työssä. Huomaa, kuinka paljon tiedot olivat todella tärkeitä tässä projektissa. Jos Chetty ja kollegat käyttäisivät 40 tuhannen henkilön verotuloja 40 miljoonan sijaan, he eivät olisi voineet arvioida alueellista heterogeenisyyttä eivätkä olisi koskaan voineet tehdä myöhempää tutkimusta yrittääkseen tunnistaa mekanismeja, jotka luovat tätä vaihtelua.
Lisäksi harvinaisten tapahtumien tutkimisen ja heterogeenisuuden tutkimisen lisäksi suuret tietokentät mahdollistavat myös tutkijoiden havaitsemisen pieninä erinä. Itse asiassa suuri osa teollisuuden suurista tiedoista keskittyy näihin pieniin eroihin: luotettavalla havaitsemisella mainoksen napsautussuhdetta koskevien prosenttiosuuksien välillä on 1,1-1,1%, mikä voi johtaa miljoonia dollareita ylimääräisiin tuloihin. Joissakin tieteellisissä olosuhteissa tällaiset pienet erot eivät ehkä ole erityisen tärkeitä, vaikka ne olisivat tilastollisesti merkittäviä (Prentice and Miller 1992) . Joissakin toiminta-alueissa ne voivat kuitenkin olla tärkeitä, kun niitä tarkastellaan kokonaisuutena. Esimerkiksi jos on olemassa kaksi kansanterveystoimenpidettä ja yksi on hieman tehokkaampi kuin toinen, niin tehokkaamman interventiotoiminnan valitseminen voisi tuhlata tuhansia lisäeläimiä.
Vaikka bigness on yleensä hyvä ominaisuus, kun sitä käytetään oikein, olen huomannut, että se voi joskus johtaa käsitteelliseen virheeseen. Jostain syystä, bigness näyttää johtavan tutkijoita jättämään huomiotta, miten heidän tietojaan syntyy. Vaikka bigness vähentää tarvetta huolehtia satunnaisesta virheestä, se itse asiassa lisää huolenaiheita järjestelmällisistä virheistä, minkälaisia virheitä, joita kuvaan alla, jotka johtuvat siitä, miten tietoja luodaan. Esimerkiksi projektissa, jonka kuvataan myöhemmin tässä luvussa, tutkijat käyttivät 11. syyskuuta 2001 syntyneitä viestejä (Back, Küfner, and Egloff 2010) hyökkäyksen reaktioon (Back, Küfner, and Egloff 2010) emotionaalisen aikajanan aikaansaamiseksi. Koska tutkijoilla oli suuri määrä viestejä, heidän ei todellakaan tarvitse huolehtia siitä, ovatko he havaitsemat mallit - lisäävät vihaa päivän aikana - selittyä satunnaisvaihteluilla. Oli niin paljon tietoa ja kuvio oli niin selkeä, että kaikki tilastolliset tilastolliset testit osoittivat, että tämä oli todellinen malli. Nämä tilastolliset testit eivät kuitenkaan tienneet, miten tiedot luotiin. Itse asiassa kävi ilmi, että monet kuvioista johtui yhdestä botista, joka loi yhä enemmän merkityksettömiä viestejä koko päivän ajan. Tämän yhden botin poistaminen kokonaan tuhosi joitain paperin keskeisiä havaintoja (Pury 2011; Back, Küfner, and Egloff 2011) . Yksinkertaisesti tutkijat, jotka eivät ajattele systemaattista virhettä, ovat vaarassa käyttää suuria tietomääriä saadakseen tarkan arvion merkityksettömälle määrälle, kuten automaattisen botin tuottamien merkityksettömien viestien tunnepitoisuudelle.
Yhteenvetona voidaan todeta, että suuret tietokannat eivät ole itsetarkoitus, mutta ne voivat mahdollistaa tietyntyyppisen tutkimuksen, mukaan lukien harvinaisten tapahtumien tutkimisen, heterogeenisuuden arvioinnin ja pienien erojen havaitsemisen. Suuret tietolomakkeet näyttävät myös johtavan joidenkin tutkijoiden jättämään huomiotta tiedon luovuttamisen, mikä voi johtaa siihen, että he saavat tarkan arvion merkityksettömästä määrästä.