2.3.2.5算法上混淆

行為中找到的數據是不自然的,它是由系統的工程目標驅動。

雖然很多發現數據源無反應,因為人們不知道他們的數據被記錄(第2.3.1.3),研究者不應考慮這些在線系統的行為是“自然發生的”或“純”。在現實中,該記錄的行為是高度工程化的誘導特異性行為,如點擊廣告或發布內容的數字系統。該系統設計的目標可以引進模式劃分成數據的方式被稱為算法混雜 。算法混雜相對未知的社會科學家,但它是其中小心數據科學家的主要問題。而且,不像其他的一些問題,數字軌跡,算法混雜在很大程度上是不可見的。

算法混雜的一個比較簡單的例子是,在Facebook上有大約20位朋友一個異常高的用戶數量的事實(Ugander et al. 2011)科學家沒有Facebook的工作方式無疑會產生如何20是某種神奇的社會許多許多故事任何理解這個數據分析。然而,Ugander和他的同事們產生數據的過程相當了解,他們知道,Facebook的鼓勵與Facebook連接數人直到他們達到20位朋友結交更多的朋友。雖然Ugander和他的同事不說這個的文件,這個政策大概是被Facebook以鼓勵新用戶變得更加積極創建。如果不知道這個政策的存在,但是,它很容易得出從數據中得出錯誤的結論。換言之,大約20位朋友的高得驚人數量的人告訴我們比人類行為的更多關於Facebook。

不到哪裡算法混雜產生了離奇的結果進行仔細研究人員可能會進一步調查,有在線時系統的設計者都知道社會理論的出現算法混雜的一個更棘手的版本,然後烘烤這些理論進入工作這個前面的例子更有害他們的系統。社會學家稱這種表演性 :當理論在他們帶給世界更與理論線這樣的方式改變世界。在表演算法混雜的情況下,數據的該死性質可能是不可見的。

由表演性創建的圖案的一個例子是在在線社交網絡傳遞性。在20世紀70年代和80年代,研究人員多次發現,如果你是愛麗絲的朋友和你是朋友與Bob,那麼Alice和Bob更容易成為朋友與對方兩個以上隨機選擇的人。而且,這非常相同的方式在Facebook上的社交圖發現(Ugander et al. 2011)因此,人們可能會認為友誼在Facebook上的圖案複製友誼離線模式,至少在傳遞的條款。然而,傳遞在Facebook的社交圖的幅度部分是由算法混雜驅動。也就是說,Facebook的數據科學家知道傳遞的實證研究和理論研究,然後烤入的Facebook是如何工作的。 Facebook有一個“您可能認識”的功能,建議新的朋友,稱Facebook決定誰建議你的是傳遞一種方式。也就是說,Facebook是更可能建議你成為朋友的朋友啦。因此,此功能在Facebook的社交圖譜提高傳遞的效果;換句話說,傳遞的理論將世界與理論的預測線(Healy 2015)因此,當大數據源似乎重現社會理論的預言,我們必須肯定的是,理論本身沒有烤成系統是如何工作的。

而不是大數據來源思想為觀察人們在自然環境中,一個更恰當的比喻是觀察人們在賭場。賭場是高度工程化的目的在於促使某些行為的環境,並且研究人員也休想在賭場的行為將提供一個無拘無束的窗戶進入人類的行為。當然,我們可以學習一些關於人類行為學的人在賭場,其實賭場可能是一個理想的環境,為研究飲酒和風險之間的關係的喜好,但如果我們忽略了該數據是在一個賭場正在創建我們可能得出了一些不好的結論。

不幸的是,處理算法混雜是特別困難的,因為在線系統的很多功能都是專有的,記錄不完整,且不斷變化。例如,我將在本章後面解釋,算法混雜是谷歌流感趨勢(第2.4.2節)的逐步擊穿一個可能的解釋,但這種說法很難評估,因為谷歌的搜索的內部工作原理算法是專有的。算法混雜的動態特性是系統漂移的一種形式。算法混雜意味著我們應謹慎看待任何索賠人的行為來自一個單一的數字系統,無論多麼大。