大數據系統中的行為並不自然;它受到系統工程目標的驅動。
儘管許多大數據源都是非反應性的,因為人們並不知道他們的數據被記錄(第2.3.3節),研究人員不應該認為這些在線系統中的行為是“自然發生的”。實際上,記錄行為的數字系統是經過精心設計以誘導特定行為,例如點擊廣告或發佈內容。系統設計人員的目標可以將模式引入數據的方式稱為算法混淆 。算法混淆對於社會科學家而言是相對未知的,但它是細心數據科學家的主要關注點。並且,與數字跟踪的其他一些問題不同,算法混淆在很大程度上是不可見的。
一個相對簡單的算法混淆的例子是,Facebook上有大約20個朋友的用戶數量異常,正如Johan Ugander及其同事(2011)所發現的那樣。科學家在不了解Facebook如何運作的情況下分析這些數據無疑會產生許多關於20是如何成為某種神奇社交數字的故事。幸運的是,Ugander和他的同事對生成數據的過程有了充分的了解,他們知道Facebook鼓勵Facebook上幾乎沒有聯繫的人在他們達到20個朋友之前結交更多朋友。雖然Ugander及其同事在他們的論文中沒有這樣說,但這個政策可能是由Facebook創建的,目的是鼓勵新用戶變得更加活躍。但是,如果不知道這項政策的存在,很容易從數據中得出錯誤的結論。換句話說,擁有大約20個朋友的人數驚人地高,告訴我們更多關於Facebook而不是人類行為。
在前面的例子中,算法混淆產生了一個奇怪的結果,仔細的研究人員可能會進一步檢測和調查。然而,當在線系統的設計者意識到社會理論然後將這些理論融入他們的系統的工作中時,會出現更複雜的算法混淆版本。社會科學家稱之為表演性 :當一種理論以一種使世界更符合理論的方式改變世界時。在表演性算法混淆的情況下,數據的混淆性很難被發現。
由表演性創建的模式的一個示例是在線社交網絡中的傳遞性。在20世紀70年代和80年代,研究人員反復發現,如果你是愛麗絲和鮑勃的朋友,那麼愛麗絲和鮑勃更有可能成為彼此的朋友,而不是他們是兩個隨機選擇的人。這種模式在Facebook上的社交圖中被發現(Ugander et al. 2011) 。因此,人們可以得出結論,Facebook上的友誼模式複制了離線友誼的模式,至少在傳遞性方面。然而,Facebook社交圖中的傳遞性的大小部分是由算法混淆驅動的。也就是說,Facebook的數據科學家知道關於傳遞性的經驗和理論研究,然後將其融入Facebook的工作方式。 Facebook有一個“你可能知道的人”功能,建議新朋友,而Facebook決定向誰推薦的一種方式是傳遞性。也就是說,Facebook更有可能建議您與朋友的朋友成為朋友。因此,該特徵具有增加Facebook社交圖中的傳遞性的效果;換句話說,及物性理論使世界與理論的預測一致(Zignani et al. 2014; Healy 2015) 。因此,當大數據源似乎重現社會理論的預測時,我們必須確保理論本身並沒有被納入系統的運作方式。
不是將大數據源視為在自然環境中觀察人,而是更恰當的比喻是觀察賭場中的人。賭場是高度工程化的環境,旨在誘導某些行為,研究人員絕不會期望賭場中的行為能夠為人類行為提供無拘無束的窗口。當然,您可以通過研究賭場中的人來了解人類行為,但如果您忽略了數據是在賭場中創建的事實,您可能會得出一些不好的結論。
遺憾的是,處理算法混淆特別困難,因為在線系統的許多功能都是專有的,記錄不完整且不斷變化。例如,正如我將在本章後面解釋的那樣,算法混淆是谷歌流感趨勢逐漸崩潰的一種可能解釋(見第2.4.2節),但這種說法很難評估,因為谷歌搜索算法的內部運作是所有權。算法混淆的動態特性是系統漂移的一種形式。算法混淆意味著我們應該謹慎對待來自單一數字系統的人類行為的任何主張,無論多大。