大數據源中的測量更不可能改變行為。
社會研究的一個挑戰是,當人們知道研究人員正在觀察他們時,他們可以改變他們的行為。社會科學家通常稱之為反應性 (Webb et al. 1966) 。例如,人們在實驗室研究中可能比實地研究更慷慨,因為在前者他們非常清楚他們正在被觀察(Levitt and List 2007a) 。許多研究人員發現有希望的大數據的一個方面是參與者通常不知道他們的數據被捕獲,或者他們已經習慣了這個數據集,它不再改變他們的行為。因為參與者是非反應性的 ,因此,許多大數據來源可用於研究以前無法進行精確測量的行為。例如, Stephens-Davidowitz (2014)使用搜索引擎查詢中種族主義術語的普遍性來衡量美國不同地區的種族仇恨。搜索數據的非反應性和大的(參見第2.3.1節)性質使得使用其他方法(例如調查)難以進行測量。
然而,非反應性並不能確保這些數據在某種程度上直接反映了人們的行為或態度。例如,正如基於訪談的研究中的一位受訪者所說:“我不是沒有問題,我只是不把它們放在Facebook上” (Newman et al. 2011) 。換句話說,儘管一些大數據源是非反應性的,但它們並不總是沒有社會期望偏見,人們傾向於以最佳方式展示自己。此外,正如我將在本章後面描述的那樣,大數據源中捕獲的行為有時會受到平台所有者目標的影響,這個問題我稱之為算法混淆 。最後,儘管非反應性對於研究是有利的,但在沒有他們同意和意識的情況下追踪人們的行為會引起道德問題,我將在第6章詳細描述。
我剛剛描述的三個屬性 - 大,永遠在線和非反應 - 通常,但並不總是有利於社會研究。接下來,我將轉向大數據源的七個屬性 - 不完整,不可訪問,非代表性,漂移,算法混淆,骯髒和敏感 - 這些通常但不總是會給研究帶來問題。