本章中的許多主題也在美國公共輿論研究協會(AAPOR)最近的總統演講中得到了回應,例如Dillman (2002) , Newport (2011) , Santos (2014)和Link (2015) 。
有關調查研究和深度訪談之間差異的更多信息,請參閱Small (2009) 。與深度訪談相關的是一系列稱為民族志的方法。在人種學研究中,研究人員通常會在參與者的自然環境中花費更多的時間。有關人種學和深度訪談之間差異的更多信息,請參閱Jerolmack and Khan (2014) 。有關數字民族志的更多信息,請參閱Pink et al. (2015) 。
我對調查研究歷史的描述非常簡短,不包括許多令人興奮的發展。有關更多歷史背景,請參閱Smith (1976) , Converse (1987)和Igo (2008) 。有關三個時代調查研究的更多信息,請參閱Groves (2011)和Dillman, Smyth, and Christian (2008) (其中三個時代略有不同)。
Groves and Kahn (1979)通過在面對面和電話調查之間進行詳細的頭對頭比較,從調查研究的第一個時代到第二個時代的過渡。 ( ??? )回顧隨機數字撥號採樣方法的歷史發展。
有關調查研究過去如何應對社會變化的變化,請參閱Tourangeau (2004) , ( ??? )和Couper (2011) 。
詢問和觀察的優勢和劣勢進行了辯論心理學家(例如, Baumeister, Vohs, and Funder (2007)和社會學家(如Jerolmack and Khan (2014) Maynard (2014) ; Cerulo (2014) ; Vaisey (2014) ; Jerolmack and Khan (2014) ],詢問,並觀察之間的差異產生於經濟學,那裡的研究人員談論陳述和顯示性偏好。例如,研究人員可以詢問受訪者是否喜歡吃冰淇淋或去健身房。 (陳述偏好),或者可以觀察人們吃冰淇淋和去健身房的頻率(顯示偏好)。對於經濟學中某些類型的陳述偏好數據存在深刻的懷疑,如Hausman (2012) 。
這些辯論的主題是報告的行為並不總是準確的。但是,正如第2章所述,大數據源可能不准確,可能無法收集到感興趣的樣本,研究人員可能無法訪問它們。因此,我認為,在某些情況下,報告的行為可能很有用。此外,這些辯論的第二個主題是關於情緒,知識,期望和意見的報導並不總是準確的。但是,如果研究人員需要有關這些內部狀態的信息 - 要么幫助解釋某些行為,要么作為要解釋的事情 - 那麼詢問可能是恰當的。當然,通過提問來了解內部狀態可能會有問題,因為有時受訪者本身並不了解他們的內部狀態(Nisbett and Wilson 1977) 。
Groves (2004)第1章很好地協調了調查研究人員使用的偶爾不一致的術語來描述總調查錯誤框架。有關總調查錯誤框架的書籍處理,請參閱Groves et al. (2009) ,以及歷史概述,見Groves and Lyberg (2010) 。
將錯誤分解為偏差和方差的想法也出現在機器學習中;例如,參見Hastie, Tibshirani, and Friedman (2009)第7.3節。這通常會導致研究人員談論“偏差 - 方差”權衡。
在代表性方面,對無應答和無應答偏倚問題的一個很好的介紹是國家研究委員會的報告“社會科學調查中的無回應:研究議程” (2013) 。 Groves (2006)提供了另一個有用的概述。此外, “官方統計雜誌” ,“ 公眾輿論季刊 ”和“美國政治和社會科學學會年刊”的全部特刊已發表在不答复專題上。最後,實際上有許多不同的計算響應率的方法;在美國公共輿論研究者協會(AAPOR) ( ??? )的報告中詳細描述了這些方法。
有關1936年文學文摘民意調查的更多信息,請參閱Bryson (1976) , Squire (1988) , Cahalan (1989)和Lusinchi (2012) 。關於這次民意調查的另一個討論,作為對隨意數據收集的比喻警告,見Gayo-Avello (2011) 。 1936年,喬治蓋洛普使用了更複雜的抽樣方法,並且能夠以更小的樣本生成更準確的估計。蓋洛普在“ 文學摘要”上的成功是調查研究發展的里程碑,如@ converse_survey_1987第3章所述。 Ohmer (2006)第4章Ohmer (2006) ;和@igo_averaged_2008的第3章。
在測量方面,設計調查問卷的首要資源是Bradburn, Sudman, and Wansink (2004) 。對於更高級的治療方法,請參閱專門針對態度問題的Schuman and Presser (1996) ,以及更為一般的Saris and Gallhofer (2014) 。在心理測量學中採用略微不同的測量方法,如( ??? ) 。有關預測試的更多信息可參見Presser and Blair (1994) , Presser et al. (2004)和Groves et al. (2009)第8章Groves et al. (2009) 。有關調查實驗的更多信息,請參見Mutz (2011) 。
在成本方面, Groves (2004)對調查成本和調查錯誤之間的折衷進行了經典的書本處理。
標準概率抽樣和估計的兩種經典書籍長度處理是Lohr (2009) (更多入門)和Särndal, Swensson, and Wretman (2003) (更高級)。 Särndal and Lundström (2005)對後分層及相關方法進行了經典的書籍處理。在一些數字時代的環境中,研究人員對無回應者有很多了解,這在過去並不常見。如Kalton and Flores-Cervantes (2003)和Smith (2011)所述,當研究人員獲得有關無應答者的信息時,可能會有不同形式的無應答調整。
W. Wang et al. (2015)的Xbox研究W. Wang et al. (2015)使用一種稱為多級回歸和後分層(“P先生”)的技術,即使有許多組,研究人員也可以估計組均值。儘管對這種技術的估算質量存在爭議,但它似乎是一個值得探討的領域。該技術首先在Park, Gelman, and Bafumi (2004) ,並且隨後使用和辯論(Gelman 2007; Lax and Phillips 2009; Pacheco 2011; Buttice and Highton 2013; Toshkov 2015) 。有關個體重量和組重量之間關係的更多信息,請參閱Gelman (2007) 。
有關加權網絡調查的其他方法,請參閱Schonlau et al. (2009) , Bethlehem (2010) ,以及Valliant and Dever (2011) 。在線面板可以使用概率抽樣或非概率抽樣。有關在線面板的更多信息,請參閱Callegaro et al. (2014) 。
有時,研究人員發現概率樣本和非概率樣本產生相似質量的估計(Ansolabehere and Schaffner 2014) ,但其他比較發現非概率樣本的情況更糟(Malhotra and Krosnick 2007; Yeager et al. 2011) 。這些差異的一個可能原因是非概率樣本隨著時間的推移而得到改善。有關非概率抽樣方法的更悲觀觀點,請參閱AAPOR非概率抽樣特別工作組(Baker et al. 2013) ,我還建議閱讀摘要報告後面的評論。
Conrad and Schober (2008)是一本題為“展望未來調查訪談 ”的編輯卷,它提供了關於提問問題未來的各種觀點。 Couper (2011)提出了類似的主題, Schober et al. (2015)提供了一個很好的例子,說明為新設置量身定制的數據收集方法如何能夠產生更高質量的數據。 Schober and Conrad (2015)提出了一個更為普遍的論點,即繼續調整調查研究的過程以適應社會的變化。
Tourangeau and Yan (2007)回顧了敏感問題中社會期望偏差的問題, Lind et al. (2013)提供了人們可能在計算機管理的訪談中披露更多敏感信息的一些可能原因。有關人類訪調員在提高調查參與率方面的作用的更多信息,請參閱Maynard and Schaeffer (1997) , Maynard, Freese, and Schaeffer (2010) , Conrad et al. (2013)和Schaeffer et al. (2013) 。有關混合模式調查的更多信息,請參閱Dillman, Smyth, and Christian (2014) 。
Stone et al. (2007)提供了生態瞬時評估和相關方法的書籍處理。
有關為參與者提供有趣和寶貴經驗的更多建議,請參閱定制設計方法(Dillman, Smyth, and Christian 2014) 。有關使用Facebook應用程序進行社會科學調查的另一個有趣示例,請參閱Bail (2015) 。
Judson (2007)描述了將調查和行政數據結合起來作為“信息集成”的過程,並討論了這種方法的一些優點,並提供了一些例子。
關於豐富的詢問,以前有許多嘗試驗証投票。有關該文獻的概述,請參閱Belli et al. (1999) , Ansolabehere and Hersh (2012) , Hanmer, Banks, and White (2014) , Berent, Krosnick, and Lupia (2016) 。參見Berent, Krosnick, and Lupia (2016)對Ansolabehere and Hersh (2012)提出的結果持更加懷疑的看法。
值得注意的是,儘管Ansolabehere和Hersh受到了Catalist數據質量的鼓舞,但其他商業供應商的評估卻不那麼熱情。 Pasek et al. (2014)發現,調查數據與Marketing Systems Group的消費者文件(其本身合併來自三家提供商的數據:Acxiom,Experian和InfoUSA)的質量很差。也就是說,數據文件與研究人員預期的正確的調查回復不匹配,消費者文件缺少大量問題的數據,缺失的數據模式與報告的調查值相關(換句話說,缺失數據是系統的,而不是隨機的)。
有關調查和行政數據之間記錄聯繫的更多信息,請參閱Sakshaug and Kreuter (2012)和Schnell (2013) 。有關記錄鏈接的更多信息,請參閱Dunn (1946)和Fellegi and Sunter (1969) (歷史)以及Larsen and Winkler (2014) (現代)。在計算機科學中也已經開發了類似的方法,例如重複數據刪除,實例識別,名稱匹配,重複檢測和重複記錄檢測(Elmagarmid, Ipeirotis, and Verykios 2007) 。還有保護隱私的方法來記錄鏈接,不需要傳輸個人識別信息(Schnell 2013) 。 Facebook的研究人員開發了一種程序,用於概率地將他們的記錄與投票行為聯繫起來(Jones et al. 2013) ;這種聯繫是為了評估我將在第4章中告訴你的實驗(Bond et al. 2012) 。有關獲得記錄鏈接同意的更多信息,請參閱Sakshaug et al. (2012) 。
將大規模社會調查與政府行政記錄聯繫起來的另一個例子來自健康與退休調查和社會保障管理局。有關該研究的更多信息,包括有關同意程序的信息,請參閱Olson (1996, 1999) 。
將許多行政記錄來源合併到主數據文件中的過程 - 凱利板使用的過程 - 在一些國家政府的統計辦公室中很常見。來自瑞典統計局的兩位研究人員撰寫了一本關於這一主題的詳細書籍(Wallgren and Wallgren 2007) 。有關這種方法的一個例子,在美國的一個縣(明尼蘇達州奧姆斯特德縣;梅奧診所的所在地),請參閱Sauver et al. (2011) 。有關可出現在管理記錄中的錯誤的更多信息,請參閱Groen (2012) 。
研究人員在調查研究中使用大數據源的另一種方式是作為具有特定特徵的人的抽樣框架。不幸的是,這種方法可能引發與隱私相關的問題(Beskow, Sandler, and Weinberger 2006) 。
關於放大的問題,這種方法並不像我描述的那樣新。它與統計學中的三個大區域有著深刻的聯繫:基於模型的後分層(Little 1993) ,估算(Rubin 2004)和小面積估計(Rao and Molina 2015) 。它還與在醫學研究中使用替代變量有關(Pepe 1992) 。
Blumenstock, Cadamuro, and On (2015)的成本和時間估算更多地涉及可變成本 - 一次額外調查的成本 - 並且不包括固定成本,例如清潔和處理呼叫數據的成本。一般而言,放大詢問可能具有高固定成本和低可變成本,類似於數字實驗(見第4章)。有關發展中國家基於移動電話的調查的更多信息,請參閱Dabalen et al. (2016) 。
關於如何更好地擴大詢問的想法,我建議學習更多關於多重插補的知識(Rubin 2004) 。此外,如果研究人員進行擴大詢問總體計數而不是個體水平特徵,那麼King and Lu (2008)以及Hopkins and King (2010)可能是有用的。最後,有關Blumenstock, Cadamuro, and On (2015)機器學習方法的更多信息,請參閱James et al. (2013) (更多介紹)或Hastie, Tibshirani, and Friedman (2009) (更高級)。
關於擴大詢問的一個倫理問題是,它可以用於推斷人們可能不會選擇在Kosinski, Stillwell, and Graepel (2013)描述的調查中揭示的敏感特徵。