2.3.1.1 Big

Suuret aineistot ovat keino lopettamiseksi; ne eivät ole itsetarkoitus.

Ensimmäinen kolmesta hyviä ominaisuuksia iso data eniten keskustelua: nämä ovat suuria data. Nämä tietolähteet voivat olla suuria kolmella eri tavalla: monet ihmiset, paljon tietoa per henkilö, tai useita havaintoja ajan. Ottaa iso aineisto mahdollistaa tiettyjä tyyppisten tutkimus--mittaus heterogeenisuus, tutkimalla harvinaisia, havaitsemaan pieniä eroja, ja mikä syy arvioita havaintoaineistosta. Se myös näyttää johtavan tietyntyyppistä epäjärjestys.

Ensimmäinen asia, joka koko on erityisen käyttökelpoinen on ylittämässä keskiarvoja tehdä arvioita erityisiä alaryhmiä. Esimerkiksi Gary kuningas, Jennifer Pan, ja Molly Roberts (2013) mittasi todennäköisyys, että sosiaalinen media virkaa Kiinan olisi sensuroida hallitus. Pelkästään tämä keskimääräinen todennäköisyys poisto ei ole kovin hyödyllistä ymmärtää, miksi hallitus sensuroi joitakin virkoja, mutta ei muiden. Mutta, koska niiden aineisto sisältyi 11 miljoonaa viestiä, kuningas ja työtovereiden myös tuottanut arviot todennäköisyyden sensuuri virkaa 85 eri ryhmään (esim pornografia, Tiibet, ja liikenne Pekingissä). Vertaamalla todennäköisyys sensuuri virkaa eri luokkiin, he pystyivät ymmärtämään paremmin, miten ja miksi hallitus sensuroi tietyntyyppisten virkaa. With 11000 viestiä (mieluummin kuin 11 miljoonaa viestiä), he eivät voineet tuottaa näitä luokkaan ennusteisiin.

Toiseksi koko on erityisen hyödyllinen tutkii harvinaisten tapahtumien. Esimerkiksi Goel ja työtovereiden (2015) halusi tutkia eri tapoja, joilla tweets voi mennä virus. Koska suuri kaskadeja uudelleen tweets ovat erittäin harvinaisia ​​noin yksi 3000-he tarvitaan tutkimusta yli miljardi tweets, jotta löytää tarpeeksi suuria laskeutuu niiden analysointia.

Kolmanneksi suuri aineistoja tutkijat voivat havaita pieniä eroja. Itse asiassa suuri osa keskittyy iso tietojen teollisuudessa on noin näitä pieniä eroja: luotettavasti havaitsemaan eroa 1% ja 1,1% click-through hinnat mainosta voi kääntää miljoonia dollareita lisätuloja. Joissakin tieteellinen asetuksia, kuten pienet erot eivät ehkä ole erityisen tärkeitä (vaikka ne ovat tilastollisesti merkitseviä). Mutta joillakin politiikan asetuksia, kuten pienet erot voivat tulla tärkeä katsottuna yhteenlaskettuna. Esimerkiksi, jos on kaksi kansanterveystoimista ja yksi on hieman tehokkaampi kuin muut, sitten siirrytään tehokkaampi interventio päätyä säästää tuhansia ylimääräisiä ihmishenkiä.

Lopuksi, suuria tietomääriä huomattavasti lisätä kykyä tehdä syy arvioiden tarkkailututkimuksista tiedot. Vaikka suuret aineistot eivät muuta pohjimmiltaan ongelmat tekemällä syy päätellen havaintotietoa matching ja luonnollinen kokeiluja-tekniikoista, että tutkijat ovat kehittäneet tehdä syy saatavat havaintoaineistosta-molemmat hyötyä suuresti suurten aineistoja. Selitän ja esittävät tämän väitteen yksityiskohtaisemmin myöhemmin tässä luvussa, kun kuvaan tutkimusstrategiat.

Vaikka bigness on yleensä hyvä ominaisuus, kun sitä käytetään oikein, olen huomannut, että bigness johtaa usein käsitteellinen virhe. Jostain syystä bigness näyttää johtavan tutkijat sivuuttaa miten tietonsa luotiin. Vaikka bigness tekee vähentävät tarvetta huolehtia satunnaisvirhe, se itse asiassa lisää tarvetta huolehtia systemaattisia virheitä, millaisia ​​virheitä, jotka minä kuvata enemmän alle johtuvat harhat miten tiedot luodaan ja kerätään. Pienessä aineisto, sekä satunnainen virhe ja systemaattinen virhe voi olla tärkeää, mutta suuri aineisto satunnainen virhe voidaan keskiarvoistaa pois ja systemaattinen virhe hallitsee. Tutkijat, jotka eivät ajattele systemaattinen virhe päätyy käyttävät suuria aineistoja saada tarkkaa arviota väärää; ne ovat tarkasti epätarkka (McFarland and McFarland 2015) .