非代表性的兩個來源是不同的人群和不同的使用模式。
大數據往往會在兩個主要方面進行系統性偏差。此不必導致對所有類型的分析的問題,但對於某些分析它可以是一個致命的缺陷。
系統性偏差的第一個來源是抓住了人們通常既不所有人一個完整的宇宙或任何特定人群的隨機樣本。例如,在Twitter上美國人不是美國人隨機抽樣(Hargittai 2015)系統性偏差的第二個來源是,許多大數據系統捕獲的行動,有的人很多貢獻比其他人更多的行動。例如,有些人在Twitter上數以百計的貢獻比其他倍以上的鳴叫。因此,在特定平台上的事件可以是更加嚴重的反射某些亞組比平台本身。
通常研究人員想知道了很多關於他們擁有的數據。但是,由於大數據的非代表性,是有幫助的也翻轉你的思維。你還需要知道很多關於你沒有數據。當你沒有的數據是從您確實有數據系統不同,這一點尤其如此。例如,如果你從一個手機公司在發展中國家的通話記錄,你應該考慮不僅僅是在數據集中的人,但也對誰可能是太窮了,擁有手機的人們。此外,在第3章中,我們將了解如何權重可以使研究人員能夠從非代表性的數據做出更好的估計。