本章未包括的一種觀察是民族志。有關數字空間民族志的更多信息,請參閱Boellstorff et al. (2012) ,關於混合數字和物理空間中的民族志的更多信息,請參閱Lane (2016) 。
沒有單一的共識定義“大數據”,但許多定義似乎關注“3 V”:數量,種類和速度(例如, Japec et al. (2015) )。見De Mauro et al. (2015)審查定義。
我將政府行政數據納入大數據類別有點不尋常,儘管其他人也提到了這一案例,包括Legewie (2015) , Connelly et al. (2016) ,以及Einav and Levin (2014) 。有關政府行政數據研究價值的更多信息,請參閱Card et al. (2010) , Adminstrative Data Taskforce (2012) , Grusky, Smeeding, and Snipp (2015) 。
有關政府統計系統內部行政研究的觀點,尤其是美國人口普查局,請參閱Jarmin and O'Hara (2016) 。有關瑞典統計局行政記錄研究的書籍處理,請參閱Wallgren and Wallgren (2007) 。
在本章中,我簡要地將傳統調查(如一般社會調查(GSS))與社交媒體數據源(如Twitter)進行了比較。要對傳統調查和社交媒體數據進行徹底和仔細的比較,請參閱Schober et al. (2016) 。
大數據的這10個特徵已經由各種不同的作者以各種不同的方式描述。影響我對這些問題的思考的寫作包括Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , Goldstone and Lupyan (2016) 。
在本章中,我使用了數字跟踪一詞,我認為這是相對中立的。數字化痕蹟的另一個流行術語是數字足跡 (Golder and Macy 2014) ,但Hal Abelson,Ken Ledeen和Harry Lewis (2008)指出,一個更合適的術語可能是數字指紋 。當您創建足跡時,您會發現正在發生的事情,而且您的足跡通常無法追溯到您個人身上。您的數字軌跡也是如此。事實上,你一直在留下你幾乎沒有什麼知識的痕跡。而且,雖然這些痕跡上沒有您的名字,但它們通常可以鏈接回您。換句話說,它們更像是指紋:隱形和個人識別。
有關為什麼大數據集使統計測試有問題的更多信息,請參閱M. Lin, Lucas, and Shmueli (2013)以及McFarland and McFarland (2015) 。這些問題應該引導研究人員關注實際意義而不是統計意義。
有關Raj Chetty及其同事如何獲取稅務記錄的更多信息,請參閱Mervis (2014) 。
大型數據集還可能產生通常超出單個計算機功能的計算問題。因此,對大型數據集進行計算的研究人員經常將工作分散在許多計算機上,這個過程有時稱為並行編程 。有關並行編程的介紹,特別是一種名為Hadoop的語言,請參閱Vo and Silvia (2016) 。
在考慮永遠在線的數據時,重要的是要考慮您是否要比較完全相同的人,或者您是否正在比較一些不斷變化的人群;例如,參見Diaz et al. (2016) 。
關於非反應性措施的經典著作是Webb et al. (1966) 。該書中的例子早於數字時代,但它們仍然具有啟發性。例如,由於存在大規模監視,人們改變了他們的行為,見Penney (2016)和Brayne (2014) 。
反應性與研究人員稱需求效應(Orne 1962; Zizzo 2010)和Hawthorne效應(Adair 1984; Levitt and List 2011)密切相關。
有關記錄鏈接的更多信息,請參閱Dunn (1946)和Fellegi and Sunter (1969) (歷史)以及Larsen and Winkler (2014) (現代)。在計算機科學中也已經開發了類似的方法,例如重複數據刪除,實例識別,名稱匹配,重複檢測和重複記錄檢測(Elmagarmid, Ipeirotis, and Verykios 2007) 。還有保護隱私的方法來記錄鏈接,不需要傳輸個人識別信息(Schnell 2013) 。 Facebook還開發了一個將記錄與投票行為聯繫起來的流程;這是為了評估我將在第4章中告訴你的實驗(Bond et al. 2012; Jones et al. 2013) 。
有關構造效度的更多信息,請參閱Shadish, Cook, and Campbell (2001)第3章。
有關AOL搜索日誌崩潰的更多信息,請參閱Ohm (2010) 。當我描述實驗時,我在第4章提供有關與公司和政府合作的建議。許多作者對依賴無法獲取的數據的研究表示擔憂,參見Huberman (2012)和boyd and Crawford (2012) 。
對於大學的研究人員獲得數據訪問的一個好方法是在一家公司上班,作為一名實習生或客座研究員。除了啟用數據訪問,這個過程也將有助於研究人員進一步了解數據是如何被創造,這對於分析非常重要。
在獲取政府數據方面, Mervis (2014)討論了Raj Chetty及其同事如何獲得他們在社會流動研究中使用的稅務記錄。
有關“代表性”概念的更多信息,請參閱Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) ,以及Kruskal and Mosteller (1980) 。
我對Snow的工作以及Doll和Hill的工作的總結很簡短。有關斯諾的霍亂工作的更多信息,請參閱Freedman (1991) 。有關英國醫生研究的更多信息,請參閱Doll et al. (2004)和Keating (2014) 。
許多研究人員會驚訝地發現,雖然Doll和Hill收集了女醫生和35歲以下醫生的數據,但他們故意沒有在第一次分析中使用這些數據。正如他們所說的那樣:“由於肺癌在35歲以下的女性和男性中相對罕見,因此在未來幾年內不太可能在這些人群中獲得有用的數字。因此,在這份初步報告中,我們將注意力僅限於35歲及以上的男性。“ Rothman, Gallacher, and Hatch (2013)具有挑釁性的標題”為什麼應該避免代表性“,對於故意創建非代表性數據。
非代表性是希望對整個人口做出陳述的研究人員和政府的主要問題。對於通常關注用戶的公司來說,這不是一個問題。有關荷蘭統計局如何考慮商業大數據非代表性問題的更多信息,請參閱Buelens et al. (2014) 。
例如,研究人員對大數據源的非代表性表示擔憂,請參閱boyd and Crawford (2012) , K. Lewis (2015b)和Hargittai (2015) 。
有關社會調查和流行病學研究目標的更詳細比較,請參閱Keiding and Louis (2016) 。
有關嘗試使用Twitter對選民做出非抽樣概括的更多信息,尤其是2009年德國大選的情況,請參閱Jungherr (2013)和Jungherr (2015) 。 Tumasjan et al. (2010)的工作之後Tumasjan et al. (2010)世界各地的研究人員使用更好的方法 - 例如使用情緒分析來區分各方的正面和負面提及 - 以提高Twitter數據預測各種不同類型的選舉的能力(Gayo-Avello 2013; Jungherr 2015, chap. 7.) 。以下是Huberty (2015)總結這些預測選舉的嘗試的結果:
“所有已知的基於社交媒體的預測方法在受到真正具有前瞻性的選舉預測要求時都失敗了。這些失敗似乎是由於社交媒體的基本屬性,而不是方法論或算法難題。簡而言之,社交媒體不會,也可能永遠不會,為選民提供穩定,公正,有代表性的圖景;社交媒體的便利樣本缺乏足夠的數據來解決這些問題。“
在第3章中,我將更詳細地描述採樣和估計。即使數據不具有代表性,在某些條件下,也可對其進行加權以產生良好的估計。
從外面很難看出系統漂移。然而,MovieLens項目(在第4章中更多討論)已由一個學術研究小組運行超過15年。因此,他們能夠記錄和分享有關係統隨時間演變的方式以及這可能如何影響分析的信息(Harper and Konstan 2015) 。
許多學者關注Twitter的偏差: Liu, Kliman-Silver, and Mislove (2014)以及Tufekci (2014) 。
處理人口漂移的一種方法是建立一個用戶小組,讓研究人員隨著時間的推移研究同一個人,參見Diaz et al. (2016) 。
我第一次聽到Jon Kleinberg在談話中使用的術語“算法混淆”,但不幸的是我不記得講話的時間和地點。我第一次看到印刷術語是在Anderson et al. (2015) ,這是一個有趣的討論,約會網站使用的算法如何可能使研究人員使用這些網站的數據來研究社會偏好的能力複雜化。 K. Lewis (2015a)針對Anderson et al. (2014)提出了這一擔憂Anderson et al. (2014) 。
除了Facebook之外,Twitter還建議用戶根據三合一關閉的想法關注用戶;見Su, Sharma, and Goel (2016) 。因此,Twitter中的三元閉合水平是一些人類傾向於三元閉合和一些促進三元閉合的算法傾向的組合。
關於表演性的更多信息 - 特別是一些社會科學理論是“引擎而不是相機”(即,它們塑造世界而不是僅僅描述它)的想法 - 參見Mackenzie (2008) 。
政府統計機構稱數據清理統計數據編輯 。 De Waal, Puts, and Daas (2014)描述了為調查數據開發的統計數據編輯技術,並檢查了它們適用於大數據源的程度, Puts, Daas, and Waal (2015)提出了一些相同的想法。更普遍的觀眾。
有關社交機器人的概述,請參閱Ferrara et al. (2016) 。對於一些專注於在Twitter上發現垃圾郵件的研究示例,請參閱Clark et al. (2016)和Chu et al. (2012) 。最後, Subrahmanian et al. (2016)描述了DARPA Twitter Bot Challenge的結果,這是一項旨在比較在Twitter上檢測機器人的方法的大規模協作。
Ohm (2015)回顧了早期關於敏感信息概念的研究,並提供了一個多因素測試。他提出的四個因素是傷害的程度,傷害的可能性,保密關係的存在以及風險是否反映了多數主義的關注。
法伯對紐約出租車的研究是基於Camerer et al. (1997)的早期研究Camerer et al. (1997)使用了紙張旅行表的三種不同的便利樣本。這項早期的研究發現,司機似乎是目標收入者:他們在工資較高的日子里工作較少。
在隨後的工作中,金和同事們進一步探討了中國的在線審查(King, Pan, and Roberts 2014, [@king_how_2016] ) 。有關衡量中國在線審查的相關方法,請參閱Bamman, O'Connor, and Smith (2012) 。有關King, Pan, and Roberts (2013)使用的統計方法的更多信息來估計1100萬個帖子的情緒,請參閱Hopkins and King (2010) 。有關監督學習的更多信息,請參閱James et al. (2013) (較少技術)和Hastie, Tibshirani, and Friedman (2009) (更多技術)。
預測是工業數據科學的重要組成部分(Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) 。社會研究人員通常進行的一種預測是人口預測;例如,參見Raftery et al. (2012) 。
谷歌流感趨勢不是第一個使用搜索數據來預測流感流行的項目。事實上,美國的研究人員(Polgreen et al. 2008; Ginsberg et al. 2009)和瑞典(Hulth, Rydevik, and Linde 2009)已經發現某些搜索術語(例如“流感”)預測了國家公共衛生監督數據發布前的數據。隨後,許多其他項目試圖使用數字跟踪數據進行疾病監測檢測;見Althouse et al. (2015)進行審查。
除了使用數字跟踪數據預測健康結果外,還有大量工作使用Twitter數據來預測選舉結果;評論見Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (第7章)和Huberty (2015) 。國內生產總值(GDP)等經濟指標的臨近Bańbura et al. (2013)在中央銀行也很常見,見Bańbura et al. (2013) 。表2.8包括一些使用某種數字軌跡來預測世界某種事件的研究實例。
數字跟踪 | 結果 | 引文 |
---|---|---|
推特 | 美國電影的票房收入 | Asur and Huberman (2010) |
搜索日誌 | 在美國銷售電影,音樂,書籍和視頻遊戲 | Goel et al. (2010) |
推特 | 道瓊斯工業平均指數(美國股市) | Bollen, Mao, and Zeng (2011) |
社交媒體和搜索日誌 | 對美國,英國,加拿大和中國的投資者情緒和股票市場的調查 | Mao et al. (2015) |
搜索日誌 | 新加坡和曼谷的登革熱患病率 | Althouse, Ng, and Cummings (2011) |
最後,Jon Kleinberg及其同事(2015)指出,預測問題分為兩個,略有不同的類別,社會科學家傾向於關註一個而忽略另一個。想像一個政策制定者,我會稱她為安娜,她正面臨乾旱,必須決定是否聘請薩滿來做雨舞以增加下雨的機會。另一個政策制定者,我打電話給她貝蒂,必須決定是否帶傘去避免在回家的路上弄濕。如果他們了解天氣,安娜和貝蒂都可以做出更好的決定,但他們需要知道不同的事情。安娜需要了解雨舞是否會導致下雨。另一方面,貝蒂不需要了解因果關係;她只需要準確的預測。社會研究人員經常關注像安娜所面臨的問題 - 克萊因伯格及其同事稱之為“類似雨舞”的政策問題 - 因為它們涉及因果關係問題。貝蒂所面臨的問題 - 克萊因伯格及其同事稱之為“類似傘狀”的政策問題 - 也非常重要,但受到社會研究人員的關注較少。
PS政治科學雜誌舉辦了關於大數據,因果推理和形式理論的研討會, Clark and Golder (2015)總結了每一個貢獻。 “ 美利堅合眾國國家科學院院刊 ”發表了關於因果推斷和大數據的專題討論會, Shiffrin (2016)總結了每一項貢獻。對於試圖在大數據源內自動發現自然實驗的機器學習方法,請參閱Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , Sharma, Hofman, and Watts (2016) 。
在自然實驗方面, Dunning (2012)提供了一個介紹性的,書本長度的治療,有很多例子。對於對自然實驗持懷疑態度的觀點,參見Rosenzweig and Wolpin (2000) (經濟學)或Sekhon and Titiunik (2012) (政治學)。 Deaton (2010)和Heckman and Urzúa (2010)認為,關注自然實驗可以使研究人員專注於估計不重要的因果效應; Imbens (2010)以對自然實驗價值的更樂觀的觀點來反駁這些論點。
在描述研究人員如何從估計起草效果到服務效果時,我正在描述一種稱為工具變量的技術。 Imbens and Rubin (2015)在他們的第23章和第24章中提供了一個介紹,並以草案抽籤為例。兵役對編纂者的影響有時被稱為編制者平均因果效應(CAcE),有時也稱為局部平均治療效果(LATE)。 Sovey and Green (2011) , Angrist and Krueger (2001)以及Bollen (2012)提供了政治科學,經濟學和社會學中工具變量使用的評論, Sovey and Green (2011)提供了“讀者清單”。使用工具變量評估研究。
事實證明,1970年的選秀抽籤實際上並不是隨機的;純隨機性存在小的偏差(Fienberg 1971) 。 Berinsky and Chatfield (2015)認為,這種小偏差並不具有實質意義,並且討論了正確進行隨機化的重要性。
在匹配方面,請參閱Stuart (2010)的樂觀評論, Sekhon (2009)進行悲觀評論。有關匹配作為一種修剪的更多信息,請參閱Ho et al. (2007) 。為每個人找到一個完美的匹配通常很困難,這帶來了許多複雜性。首先,當沒有精確匹配時,研究人員需要決定如何測量兩個單位之間的距離以及給定距離是否足夠接近。如果研究人員希望對治療組中的每個病例使用多個匹配,則會出現第二個複雜性,因為這可以導致更精確的估計。這兩個問題以及其他問題在Imbens and Rubin (2015)第18章中有詳細描述。另見( ??? )第二部分。
參見Dehejia and Wahba (1999)的例子,其中匹配方法能夠產生類似於隨機對照實驗的估計。但是,參見Arceneaux, Gerber, and Green (2006)以及Arceneaux, Gerber, and Green (2010)的例子,其中匹配方法無法重現實驗基準。
Rosenbaum (2015)和Hernán and Robins (2016)提供了其他建議,用於發現大數據源中的有用比較。