這部分被設計為用作基準,而不是被理解為敘述。
一種觀察未包括本章是人種學。為了了解更多關於數字空間人種學看Boellstorff et al. (2012)以及更多的民族志混合數字和物理空間看到Lane (2016) 。
當你重複利用的數據,有兩個心理技巧,可以幫助您了解您可能遇到可能出現的問題。首先,你可以試著想像一下理想的數據集你的問題和比較,為您所使用的數據集。他們如何相似,他們如何不同?如果你沒有自己收集你的數據,也有可能是你想要什麼,你有什麼區別。但是,你必須決定是否這些差異是或大或小。
二,請記住,有人創建,收集你的數據由於某種原因。你應該試著去了解他們的推理。這種逆向工程可以幫助您確定您的數據改變用途可能出現的問題和偏見。
有“大數據”沒有單一的統一的定義,但許多定義,似乎集中在3比:(例如,數量,種類和速度Japec et al. (2015)而不是著眼於數據的特點,我的定義更側重於為什麼數據已創建。
我國政府行政數據包括大數據的類別裡面是有點不尋常。誰作出這種情況下其他人,包括Legewie (2015) , Connelly et al. (2016)和Einav and Levin (2014)欲了解更多有關政府行政數據進行研究的價值,看到Card et al. (2010) , Taskforce (2012) ,和Grusky, Smeeding, and Snipp (2015) 。
對於管理研究從政府統計體系,尤其是美國人口普查局內部的視圖,請參閱Jarmin and O'Hara (2016) 。在瑞典統計局書長度治療行政記錄的研究,請參見Wallgren and Wallgren (2007) 。
在這一章,我簡要地比較了傳統的調查,如綜合社會調查(GSS)與社交媒體數據源,如微博。對於傳統的調查和社交媒體數據之間的深入細緻的比較,請參見Schober et al. (2016) 。
大數據的這10個特徵已經通過各種不同的作者以各種不同的方式說明。寫作是影響在這些問題上我的思想包括: Lazer et al. (2009) Groves (2011) Howison, Wiggins, and Crowston (2011) boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015)和Goldstone and Lupyan (2016)
在本章中,我使用的術語數字軌跡 ,我認為這是相對中性。數字痕跡另一種流行的詞是數字腳印 (Golder and Macy 2014) ,但哈爾·阿伯爾森,肯·萊丁,哈利·劉易斯(2008)指出,一個更合適的術語可能是數字指紋 。當您創建的腳印,大家都知道發生了什麼,你的足跡一般不能親自追踪到你的。同樣是不為您的數字痕跡真。事實上,你是不留痕跡所有關於你很少有知識的時間。而且,雖然這些痕跡沒有對他們的姓名,他們往往可以鏈接回你。換句話說,他們更喜歡指紋:隱形和個人識別。
大
欲了解更多關於為什麼大型數據集,呈現的統計檢驗問題,看到Lin, Lucas, and Shmueli (2013)和McFarland and McFarland (2015) 。這些問題應該引起研究者關注的現實意義,而不是統計意義。
永遠在線
當考慮永遠在線的數據,要考慮你是否完全一樣的人比較多時間,還是你比較的一些人改變組是非常重要的;參見例如, Diaz et al. (2016) 。
沒反應
經典的一本書上的非反應性的措施是Webb et al. (1966)在書前的最新例子數字化時代,但他們仍然啟發。對於人改變,因為質量監控的存在他們的行為的例子,見Penney (2016)和Brayne (2014)
殘缺
欲了解更多有關記錄鏈接,請參閱Dunn (1946)和Fellegi and Sunter (1969)歷史)和Larsen and Winkler (2014) (現代)。類似接洽也已在計算機科學名下開發的,如重複數據刪除,實例標識,名稱匹配,重複檢測和重複記錄檢測(Elmagarmid, Ipeirotis, and Verykios 2007)也有隱私保護的方法來記錄聯動不需要的個人身份信息傳輸(Schnell 2013) 。 Facebook的還開發了繼續他們的記錄鏈接到投票行為;這樣做是為了評估一個實驗,我會告訴你在第4章(Bond et al. 2012; Jones et al. 2013)
欲了解更多關於建構效,見Shadish, Cook, and Campbell (2001) ,第3章。
不可訪問
欲了解更多關於AOL搜索日誌潰敗,看到Ohm (2010) 。我提供建議與有關公司和第4章政府合作時,我描述的實驗。許多作者都表達了對依賴於無法訪問數據研究的關注,看到Huberman (2012)和boyd and Crawford (2012)
對於大學的研究人員獲得數據訪問的一個好方法是在一家公司上班,作為一名實習生或客座研究員。除了啟用數據訪問,這個過程也將有助於研究人員進一步了解數據是如何被創造,這對於分析非常重要。
非代表
非代表性是誰希望做出一個完整的人口報表研究人員和政府的一大難題。這是較少關心的對於通常集中在他們的用戶的公司。欲了解更多關於荷蘭統計局如何考慮企業大數據的非代表性的問題,請參閱Buelens et al. (2014) 。
在第三章中,我將介紹更為詳細的採樣和估計。即使數據是不具有代表性,在一定條件下,它們可以被加權,以產生良好的估計。
漂流
系統漂移很難從外面看。然而,MovieLens項目(多在第4章)已經由學術研究小組運行超過15年。因此,他們記錄和分享有關系統已隨著時間而演變的方式和方式的信息,這可能影響分析(Harper and Konstan 2015) 。
許多學者已在微博專注於漂移: Liu, Kliman-Silver, and Mislove (2014)和Tufekci (2014)
從算法混淆
我第一次聽到的談話使用的喬恩·克萊因伯格術語“算法混淆”。背後操演的主要思想是,一些社會科學理論都是“引擎不要攝像機” (Mackenzie 2008) 。也就是說,他們實際上是塑造世界,而不是僅僅捕捉到它。
臟
政府統計機構稱數據清理,統計數據編輯, De Waal, Puts, and Daas (2014)描述了調查數據編制的統計數據編輯技術以及研究它們在多大程度上適用於大數據源和Puts, Daas, and Waal (2015)提出了一些相同的想法,更廣泛的受眾。
對於Twitter的,專注於研究垃圾郵件的一些例子Clark et al. (2016)和Chu et al. (2012)最後, Subrahmanian et al. (2016)描述了DARPA微博特挑戰的結果。
敏感
Ohm (2015)回顧了敏感信息的想法早期的研究,並提供一個多因素的考驗。他提出了四個因素是:傷害的可能性;傷害的概率;的保密關係的存在;以及是否反映了風險的擔憂多數。
出租車在紐約的法伯的研究是基於先前的研究Camerer et al. (1997)所使用的用於驅動記錄行程開始時間紙跳閘片紙的形式,結束時間,以及票價三個不同的便利的樣品。這早期的研究發現,司機似乎是目標仔:他們對天凡他們的工資較高的工作更少。
Kossinets and Watts (2009)的重點是同質性的社會網絡的起源。見Wimmer and Lewis (2010)對不同的方法來從Facebook的使用數據的相同問題。
在隨後的工作中,王和同事們進一步探討網絡審查在中國(King, Pan, and Roberts 2014; King, Pan, and Roberts 2016)對於相關的方法在測量中國網絡審查,看Bamman, O'Connor, and Smith (2012)欲了解更多關於統計方法像在使用King, Pan, and Roberts (2013)估計1100萬職位的情緒,看到Hopkins and King (2010)欲了解更多關於監督學習,看到James et al. (2013) (技術性較低)和Hastie, Tibshirani, and Friedman (2009) (更多的技術)。
預測是工業數據科學的一個重要組成部分(Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) 。預測的一種類型的,通常由社會研究者做是人口統計預測,例如Raftery et al. (2012)
谷歌流感趨勢是不使用搜索數據NOWCAST流感流行的第一個項目。事實上,研究人員在美國(Polgreen et al. 2008; Ginsberg et al. 2009)和瑞典(Hulth, Rydevik, and Linde 2009)已經發現,某些搜索字詞(如“流感”),預測國家公共衛生監測之前的數據被釋放。隨後其他許多項目都試圖用數字跟踪數據疾病監測檢測,看Althouse et al. (2015)進行審查。
除了使用數字跟踪數據來預測健康狀況,同時也出現了一個巨大的使用Twitter的數據來預測選舉結果的工作量;為評論見Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (第7章)和Huberty (2015) 。
利用搜索數據來預測流感流行和使用Twitter的數據來預測選舉是使用某種數字軌跡來預測一些在世界上同類事件的兩個例子。那裡有這種通用結構研究的巨大數字。表2.5包含一些其它實例。
數字跟踪 | 結果 | 引文 |
---|---|---|
推特 | 在美國電影票房收入 | Asur and Huberman (2010) |
搜索日誌 | 在美國的電影,音樂,書籍和視頻遊戲銷售 | Goel et al. (2010) |
推特 | 道瓊斯工業平均指數(美國股市) | Bollen, Mao, and Zeng (2011) |
該雜誌PS政治學對大數據,因果推論和形式理論專題討論會, Clark and Golder (2015)總結了每個貢獻。 的美利堅合眾國國家科學院的論文集雜誌對因果推斷和大數據的研討會,並Shiffrin (2016)總結了每個貢獻。
在自然實驗條件, Dunning (2012)提供了一個很好的書長度治療。欲了解更多關於使用越南選秀抽籤作為一個自然實驗,看Berinsky and Chatfield (2015) 。對於那些試圖自動發現自然實驗的內部大數據源的機器學習方法,請參見Jensen et al. (2008)和Sharma, Hofman, and Watts (2015) 。
在配套方面,一個樂觀的評論,看到Stuart (2010)和一個悲觀的綜述見Sekhon (2009) 。欲了解更多關於作為一種修剪匹配,見Ho et al. (2007)對於書籍提供匹配的優秀護理,見Rosenbaum (2002) Rosenbaum (2009) , Morgan and Winship (2014) ,以及Imbens and Rubin (2015) 。