由企業和政府舉行的數據是研究人員難以進入。
在2014年5月,美國國家安全議程開設了農村猶他州數據中心,有一個尷尬的名字,情報部門綜合國家網絡安全倡議的數據中心。不過,這個數據中心,這已經到了被稱為猶他州數據中心,據報導,有驚人的能力。一份報告稱,美國猶他州數據中心能夠存儲和處理各種形式的通信,包括“私人電子郵件的完整內容,手機通話,而谷歌的搜索,以及各種個人數據步道停車收據,旅遊行程的,書店採購,和其他數字'垃圾袋'“ (Bamford 2012)除了 有關的許多大數據捕獲的信息,這將更加下面描述的敏感性質的令人擔憂,猶他州數據中心是無法訪問學者了豐富的數據源的一個極端的例子。更一般地,大數據來源有很多研究人員的控制和政府(如稅務數據和教育數據)和公司的限制,這將是有用的(例如,查詢搜索引擎和電話的元數據)。因此,這些數據不會立即在大學提供給研究人員,大多數甚至不會提供給政府或公司的研究人員。
根據我的經驗,根據在大學許多研究人員誤解了這個交通不便的來源。這些數據是不是因為無法進入人的企業和政府是愚蠢,懶惰,或漠不關心。相反,存在著嚴重的法律,技術,業務,並防止數據訪問的倫理障礙。例如,條件方面的一些服務的網站的協議僅允許僱員使用的數據或以提高服務。因此,數據共享某些形式可能使公司從客戶的合法訴訟。也有巨大的商業風險,參與分享數據的公司。試著想像一下,如果個人搜索數據意外地從谷歌洩露出來作為大學研究項目的一部分市民的反應如何。這樣的數據洩露,如果極端情況下,甚至可能是公司的生存風險。因此谷歌和大多數大型企業,都非常厭惡風險約與研究人員共享數據。
事實上,數據知道阿卜杜勒·喬杜里的故事幾乎每個人誰是在一個位置,以提供訪問大量。 2006年,時任AOL研究的負責人,他有意釋放他認為從65萬AOL用戶研究團體進行匿名搜索查詢。據我所知,喬杜里和AOL的研究人員具有良好的意圖,他們認為他們已經匿名數據。但是,他們錯了。人們很快發現,數據並不像研究者認為是匿名的,記者從紐約時報能夠識別人數據集輕鬆(Barbaro and Zeller Jr 2006)一旦這些問題被發現後,喬杜里移除AOL網站上的數據,但為時已晚。該數據已被轉載到其他網站,這將很可能仍然可用,當你讀這本書。由於他嘗試共享與研究界的數據,喬杜里被解僱, 而AOL首席技術官辭職(Hafner 2006) 。如本例所示,對於特定的個人公司以促進數據的訪問的內部的益處是相當小,最壞的情況是可怕的。
研究可以,但是,獲取數據無法訪問給公眾。各國政府,研究人員可以按照申請准入程序,並作為例子本章後面演出,研究人員可以偶爾訪問企業數據。例如, Einav et al. (2015)與eBay的研究員,從網上拍賣研究數字痕跡合作。我會更多地談論了來自這一合作在後面的章節(第2.4.3.2)的研究,但我現在提到它,因為它有我在成功的夥伴關係看成分的所有四個:研究員的興趣,研究人員能力,公司利益和公司的能力。換句話說,Einav和他的同事有興趣,有能力學習網上拍賣。而且,易趣也。但是,我見過很多可能的合作失敗,因為無論是研究人員或公司缺少這些成分之一。
即使你能夠開發出合作與業務,但是,也有一些缺點你。首先,你可以問與有可能被限制了數據的問題;公司是不可能允許的研究,可以使他們看起來很糟糕。其次,你可能不能夠與其他研究人員,這意味著其他研究人員將無法驗證和擴展的結果共享數據。此外,這些合作夥伴可以創造至少所關注,人們可能會認為你的結果是通過你的夥伴關係影響的衝突的出現。所有這些缺點都可以解決,但很明顯的是與不是每個人都可以訪問數據的工作既有積極以及缺點是很重要的。
總之,很多大數據不可訪問研究員。有嚴重的法律,技術,業務,並防止數據訪問的道德障礙,這些障礙不會消失。各國政府普遍建立了使數據訪問過程,但這個過程可以更即席在國家和地方層面。此外,在一些情況下,研究人員可以與企業夥伴獲得數據訪問,但是這可以創建各種研究人員的問題。