2.3.2.3 Ne-reprezentanto

Du fontoj de ne-representatividad estas malsamaj loĝantaroj kaj malsama uzado ŝablonoj.

Grandaj datumoj inklinas esti sisteme emata en du ĉefaj manieroj. Tio ne bezonas kaŭzi problemon por ĉiaj analizoj, sed por iu analizo povas esti kritika difekto.

Unua fonto de sistema antaŭjuĝo estas, ke la homoj kaptitaj tipe nek kompletan universon de ĉiuj personoj aŭ hazarda specimeno de ajna specifa loĝantaro. Ekzemple, usonanoj en Twitter ne hazarda specimeno de usonanoj (Hargittai 2015) . Dua fonto de sistema emo estas kiu multaj grandaj datumoj sistemoj kapti agoj, kaj kelkaj homoj kontribuu multaj pli agoj ol aliaj. Ekzemple, iuj homoj sur Pepi kontribui centfoje pli tuits ol aliaj. Sekve, la okazaĵoj sur specifa platformo povas esti ĉiam pli peze reflekta de certaj subgrupoj ol la platformo mem.

Kutime esploristoj volas scii multon pri la datumoj kiujn ili havas. Sed, donita la ne-reprezentan karakteron de granda datumo, ĝi estas utila al ankaŭ klaki vian pensadon. Vi ankaŭ devas scii multon pri la datumoj kiujn vi ne havas. Tio estas aparte vera kiam la datumoj kiujn vi ne estas sisteme malsama de la datumoj kiujn vi havas. Ekzemple, se vi havas la alvokon vidaĵoj el poŝtelefono kompanio en evolulandoj, vi devas pensi ne nur pri la homoj en via datumaro, sed ankaŭ pri la personoj kiuj povus esti tro malriĉa posedi moveblan telefonon. Plui, en ĉapitro 3, ni lernos pri kiel ponderación povas ebligi esploristoj fari bona taksoj de ne-reprezentanto datumoj.