2.3.2.3 Nie-verteenwoordiger

Twee bronne van nie-verteenwoordiging is verskillende bevolkings en ​​verskillende gebruikspatrone.

Big data is geneig om stelselmatig bevooroordeeld wees in twee hoof maniere. Dit hoef nie 'n probleem vir al die soort van analise nie veroorsaak nie, maar vir 'n paar ontleding kan 'n kritieke fout wees.

'N Eerste bron van sistematiese vooroordeel is dat die mense vasgevang is tipies nie 'n volledige heelal van alle mense of 'n ewekansige monster van 'n spesifieke bevolking. Byvoorbeeld, Amerikaners op Twitter is nie 'n ewekansige steekproef van Amerikaners (Hargittai 2015) . 'N Tweede bron van sistematiese vooroordeel is dat baie groot data stelsels te vang aksies, en 'n paar mense by te dra nog vele meer aksies as ander. Byvoorbeeld, sommige mense op Twitter bydra honderde kere meer tweets as ander. Daarom kan die gebeure op 'n spesifieke platform ooit swaarder reflektiewe van sekere subgroepe as die platform self.

Normaalweg navorsers wil 'n baie oor die data wat hulle ken. Maar, gegewe die nie-verteenwoordigende aard van groot data, is dit nuttig om ook jou denke te draai. Jy moet ook 'n baie oor die data wat jy nie ken nie. Dit is veral waar wanneer die data wat jy nie is stelselmatig verskil van die data wat jy het. Byvoorbeeld, as jy die oproep rekords van 'n selfoon maatskappy in 'n ontwikkelende lande, moet jy dink nie net oor die mense in jou datastel, maar ook oor die mense wat te arm is om self 'n selfoon kan wees. Verdere, in Hoofstuk 3, sal ons leer oor hoe gewig navorsers in staat kan stel om 'n beter skattings te maak van nie-verteenwoordigende data.