2.3.2.3 Non-kinatawan

Dalawang mga pinagmumulan ng non-representativeness ay iba't ibang mga populasyon at iba't ibang mga pattern ng paggamit.

Big data ay madalas na maging systematically kampi sa dalawang pangunahing paraan. Ito ay hindi kailangang maging sanhi ng isang problema para sa lahat ng uri ng pag-aaral, ngunit para sa ilang pag-aaral ay maaaring ito ay isang kritikal na kapintasan.

Ang unang pinagmulan ng sistematikong bias ay na ang mga tao nakuha ay karaniwang hindi isang kumpletong uniberso ng lahat ng mga tao o isang random sample mula sa anumang mga tiyak na populasyon. Halimbawa, ang mga Amerikano sa Twitter ay hindi isang random sample ng mga Amerikano (Hargittai 2015) . Isang pangalawang source ng sistematikong bias ay na maraming mga malaki mga sistema ng data makunan aksyon, at ang ilang mga tao mag-ambag ng maraming higit pang mga pagkilos kaysa sa iba. Halimbawa, ang ilang mga tao sa Twitter ambag daan-daang beses higit pang mga tweet kaysa sa iba. Samakatuwid, ang mga kaganapan sa isang tiyak na platform ay maaaring maging kailanman mas mabigat mapanimdim ng ilang subgroups kaysa sa platform mismo.

Karaniwan mananaliksik na nais na malaman ng maraming tungkol sa mga data na mayroon sila. Ngunit, na ibinigay ng non-kinatawan likas na katangian ng malaking data, ito ay helpful na rin i-flip ang iyong pag-iisip. Kailangan mo ring malaman ng maraming tungkol sa mga data na hindi mo na kailangang. Ito ay lalong totoo kapag ang data na hindi mo na kailangang ang mga systematically naiiba mula sa mga data na mo na kailangang. Halimbawa, kung ikaw ay may mga tala ng tawag mula sa isang mobile kumpanya ng telepono sa isang pagbuo ng bansa, dapat mong isipin ang hindi lamang tungkol sa mga tao sa iyong dataset, kundi pati na rin tungkol sa mga tao na maaaring maging masyadong mahirap sa sarili ng isang mobile phone. Dagdag dito, sa Kabanata 3, kami ay malaman ang tungkol sa kung paano weighting ay maaaring paganahin ang mga mananaliksik upang gumawa ng mas mahusay pagtatantya mula sa mga di-kinatawan data.