2.3.2.3 Ei-edustaja

Kaksi lähteistä kuin edustavuus ovat eri populaatioissa ja eri käyttötavat.

Big data yleensä systemaattisesti puolueellinen pääasiassa kahdella tavalla. Tämä ei tarvitse aiheuttaa ongelmia kaikenlaisia ​​analyysin, mutta joidenkin analyysi voi olla kriittinen virhe.

Ensimmäinen lähde systemaattista harhaa on, että ihmiset jää tyypillisesti ole täydellinen maailmankaikkeuden kaikkien ihmisten tai satunnaisotos mitään erityistä väestöstä. Esimerkiksi amerikkalaiset Twitterissä eivät ole satunnainen otos amerikkalaiset (Hargittai 2015) . Toinen lähde systemaattista harhaa on, että monet suuret tietojärjestelmät kaapata toimia, ja jotkut ihmiset osaltaan paljon enemmän toimintoja kuin toiset. Esimerkiksi jotkut ihmiset Twitterissä osaltaan satoja kertoja enemmän tweets kuin toiset. Siksi tapahtumia tietyllä alustalla voi olla yhä voimakkaasti heijastava tiettyjen alaryhmien kuin alustan itse.

Tavallisesti tutkijat haluavat tietää paljon tietoja, joita he ovat. Mutta koska ei ole edustuksellista iso data, on hyödyllistä myös kääntää ajattelua. Tarvitset myös tietää paljon tietoja, joita et ole. Tämä pätee erityisesti silloin, kun tietoja, joita et ole ovat systemaattisesti poikkeavat tiedoista, joita et ole. Jos esimerkiksi olet puhelutietoihin matkapuhelimesta yritys on kehitysmaissa, sinun pitäisi ajatella ole kyse vain ihmisiä oman aineisto, vaan myös ihmisiä, jotka saattavat olla liian köyhä omistaa matkapuhelimen. Lisäksi luvussa 3, me oppia miten painoarvoa tutkijat voivat tehdä parempia arvioita kuin edustavia tietoja.