研究人員很難獲得公司和政府持有的數據。
2014年5月,美國國家安全局在猶他州農村開設了一個數據中心,其名稱尷尬,即智能社區綜合國家網絡安全倡議數據中心。然而,據稱該數據中心已被稱為猶他州數據中心,據稱具有驚人的功能。一份報告稱,它能夠存儲和處理所有形式的通信,包括“私人電子郵件,手機通話和谷歌搜索的完整內容,以及各種個人數據路徑 - 停車收據,旅行路線,書店購買和其他數字'口袋垃圾'“ (Bamford 2012) 。除了引起對大數據中捕獲的大部分信息的敏感性的擔憂,這將在下面進一步描述,猶他州數據中心是研究人員無法訪問的豐富數據源的極端例子。更一般地,許多有用的大數據源由政府(例如,稅務數據和教育數據)或公司(例如,對搜索引擎的查詢和電話元數據)進行控制和限制。因此,即使存在這些數據源,它們對於社會研究的目的也是無用的,因為它們是不可訪問的。
根據我的經驗,許多大學的研究人員誤解了這種無法進入的來源。這些數據無法訪問,不是因為公司和政府的人都是愚蠢,懶惰或漠不關心。相反,存在嚴重的法律,商業和道德障礙,阻礙了數據訪問。例如,網站的某些服務條款協議僅允許員工使用數據或改進服務。因此,某些形式的數據共享可能會使公司面臨來自客戶的合法訴訟。參與共享數據的公司也存在重大業務風險。試著想像一下,如果個人搜索數據作為大學研究項目的一部分從Google中意外洩露出來,公眾會如何回應。這種數據洩露,如果極端,甚至可能是公司的存在風險。因此谷歌和大多數大公司都非常厭惡與研究人員共享數據。
事實上,幾乎每個能夠提供大量數據訪問權的人都知道Abdur Chowdhury的故事。 2006年,當他擔任AOL研究負責人時,他故意向研究界發布了他認為是65,000名AOL用戶的匿名搜索查詢。據我所知,Chowdhury和AOL的研究人員有良好的意圖,他們認為他們已經對數據進行了匿名化。但他們錯了。人們很快發現這些數據並不像研究人員所想的那樣匿名, 紐約時報的記者能夠輕鬆識別數據集中的某些人(Barbaro and Zeller 2006) 。一旦發現這些問題,Chowdhury從AOL的網站上刪除了數據,但為時已晚。這些數據已經轉發到其他網站上,當您閱讀本書時,它可能仍然可用。 Chowdhury被解僱,AOL的首席技術官辭職(Hafner 2006) 。正如這個例子所示,公司內部特定個人為數據訪問提供便利的好處非常小,最糟糕的情況很糟糕。
但是,研究人員有時可以訪問公眾無法訪問的數據。一些政府擁有研究人員可以遵循的程序來申請訪問,正如本章後面的示例所示,研究人員偶爾可以訪問公司數據。例如, Einav et al. (2015)與eBay的研究人員合作研究在線拍賣。我將在本章後面更多地討論這次合作所帶來的研究,但我現在提到它,因為它具有我在成功的合作夥伴關係中看到的所有四種成分:研究人員的興趣,研究人員的能力,公司的興趣和公司能力。 。我見過許多潛在的合作失敗,因為研究人員或合作夥伴 - 無論是公司還是政府 - 缺乏這些成分之一。
但是,即使您能夠與企業建立合作關係或獲取受限制的政府數據,也會有一些缺點。首先,您可能無法與其他研究人員共享您的數據,這意味著其他研究人員將無法驗證和擴展您的結果。其次,您可以提出的問題可能有限;公司不太可能允許研究使他們看起來很糟糕。最後,這些合作關係至少可以產生利益衝突,人們可能會認為您的結果會受到您的合作關係的影響。所有這些缺點都可以得到解決,但重要的是要明確處理每個人無法訪問的數據都有好處和缺點。
總之,研究人員無法訪問大量大數據。存在嚴重的法律,商業和道德障礙阻礙數據訪問,並且隨著技術的改進,這些障礙不會消失,因為它們不是技術障礙。一些國家政府已經建立了為某些數據集提供數據訪問的程序,但該流程在州和地方層面尤其是臨時性的。此外,在某些情況下,研究人員可以與公司合作獲取數據訪問權限,但這可能會給研究人員和公司帶來各種問題。