Bit By Bit - 觀察行為

這種翻譯是由一個計算機創建。 ×

活動

難度：容易，中等，很難，很難
需要數學（ $需要數學$ ）
需要編碼（）
數據採集（）
我最喜歡的（）

[ ，算法混淆是谷歌流感趨勢的一個問題。閱讀Lazer et al. (2014)的論文Lazer et al. (2014) ，並向Google工程師發送一封簡短明了的電子郵件，解釋問題並提供解決問題的方法。
[ ] Bollen, Mao, and Zeng (2011)聲稱來自Twitter的數據可用於預測股市。這一發現促成了對沖基金 - 德溫特資本市場 - 根據從Twitter收集的數據投資股票市場(Jordan 2010) 。在將資金投入該基金之前，您希望看到什麼證據？
[ 雖然一些公共衛生倡導者認為電子煙是戒菸的有效輔助手段，但其他人則警告潛在的風險，例如高水平的尼古丁。想像一下，研究人員決定通過收集與電子煙相關的Twitter帖子和進行情緒分析來研究公眾對電子煙的看法。
1. 您在本研究中最擔心的三種偏見是什麼？
2. Clark et al. (2016)只是進行了這樣的研究。首先，他們收集了從2012年1月到2014年12月使用電子煙相關關鍵字的850,000條推文。經過仔細檢查，他們意識到這些推文中的許多是自動化的（即，不是由人類製作的），而且這些推文中的許多都是基本的商業廣告。他們開發了一種人工檢測算法，將自動推文與有機推文分開。使用這種人工檢測算法，他們發現80％的推文都是自動化的。這一發現是否會改變您對（a）部分的回答？
3. 當他們比較有機和自動推文中的情緒時，他們發現自動推文比有機推文更積極（6.17對5.84）。這個發現是否會改變你對（b）的回答？
[ ] 2009年11月，Twitter在推文框中將問題從“你在做什麼？”改為“發生了什麼？”（https://blog.twitter.com/2009/whats-happening）。
1. 您認為提示的更改會如何影響推文和/或推文的內容？
2. 為一個研究項目命名，你更喜歡提示“你在做什麼？”解釋原因。
3. 為一個研究項目命名，你更喜歡提示“發生了什麼？”解釋原因。
[ ]“轉推”通常用於衡量影響力對Twitter的影響和傳播。最初，用戶必須複製並粘貼他們喜歡的推文，用他/她的句柄標記原始作者，並在推文前手動鍵入“RT”以表明它是轉發。然後，在2009年，Twitter添加了一個“轉推”按鈕。 2016年6月，Twitter使用戶可以轉發他們自己的推文（https://twitter.com/twitter/status/742749353689780224）。您是否認為這些變化會影響您在研究中使用“轉推”的方式？為什麼或者為什麼不？
[ ，，， ]在一篇廣泛討論的論文中，Michel及其同事(2011)分析了超過五百萬本數字化書籍的內容，試圖找出長期的文化趨勢。他們使用的數據現已作為Google NGrams數據集發布，因此我們可以使用這些數據來複製和擴展他們的一些工作。

在本文的眾多結果中，Michel及其同事認為我們忘記了越來越快。對於特定年份，比如“1883”，他們計算出1875年至1975年間每年發布的1克的比例為“1883”。他們推斷，這一比例是對當年發生的事件的興趣的衡量標準。在他們的圖3a中，他們繪製了三年的使用軌跡：1883年，1910年和1950年。這三年有一個共同的模式：在那一年之前很少使用，然後是尖峰，然後衰減。接下來，為了量化每年的腐爛率，Michel及其同事計算了1875年至1975年間所有年份的“半衰期”。在圖3a（插圖）中，他們顯示了每個年的半衰期。一年正在減少，他們認為這意味著我們越來越快地忘記過去。他們使用英語語料庫的第1版，但隨後谷歌發布了第二版語料庫。在開始編碼之前，請閱讀問題的所有部分。

此活動將幫助您練習編寫可重用代碼，解釋結果和數據爭用（例如處理笨拙的文件和處理丟失的數據）。此活動還將幫助您啟動並運行豐富且有趣的數據集。
1. 從Google Books NGram Viewer網站獲取原始數據。特別是，您應該使用2012年7月1日發布的英語語料庫的第2版。未壓縮，此文件為1.4GB。
2. 重新創建Michel et al. (2011)的圖3a的主要部分Michel et al. (2011) 。要重新創建此圖，您需要兩個文件：您在（a）部分下載的文件和“總計數”文件，您可以使用該文件將原始計數轉換為比例。請注意，總計數文件的結構可能會使其難以讀入.Niram數據的版本2是否產生與Michel et al. (2011)提供的結果類似的結果Michel et al. (2011) ，它基於版本1數據？
3. 現在，根據NGram Viewer創建的圖表檢查圖表。
4. 重新創建圖3a（主圖），但將 $y$ axis更改為原始提及計數（不是提及率）。
5. （b）和（d）之間的區別是否會導致您重新評估Michel等人的任何結果。（2011年）。為什麼或者為什麼不？
6. 現在，使用提及的比例，複製圖3a的插圖。也就是說，對於1875年到1975年之間的每一年，計算那一年的半衰期。半衰期定義為在提及的比例達到其峰值的一半之前經過的年數。請注意， Michel et al. (2011)做一些更複雜的事情來估計半衰期 - 見支持在線信息的第III.6節 - 但他們聲稱這兩種方法都產生了類似的結果。 NGram數據的第2版是否產生與Michel et al. (2011)提出的相似的結果Michel et al. (2011) ，它基於版本1數據？（提示：如果沒有，請不要感到驚訝。）
7. 是否有任何年份，例如多年被忽略的特別快或特別慢？簡要推測該模式的可能原因並解釋您如何識別異常值。
8. 現在將這個結果復製到NGrams數據的第2版中，包括中文，法文，德文，希伯來文，意大利文，俄文和西班牙文。
9. 比較所有語言，是否有任何年份都是異常值，例如特別快速或特別慢的遺忘的年份？簡要推測這種模式的可能原因。
[ ，，， Penney (2016)探討了2013年6月關於NSA / PRISM監視（即斯諾登揭露）的廣泛宣傳是否與維基百科有關引發隱私問題的文章的流量急劇下降有關。如果是這樣，這種行為改變將與大規模監視造成的寒蟬效應一致。 Penney (2016)方法有時被稱為中斷時間序列設計，它與2.4.3節中描述的方法有關。

為了選擇主題關鍵詞，Penney提到了美國國土安全部用於跟踪和監控社交媒體的列表。國土安全部列表將某些搜索術語分類為一系列問題，即“健康關注”，“基礎設施安全”和“恐怖主義”。對於研究組，彭尼使用了與“恐怖主義”相關的48個關鍵詞（見附錄表8））。然後，他在2012年1月初至2014年8月底的32個月內，每月匯總維基百科的文章觀點數量。相應的48篇維基百科文章。為了加強他的論點，他還通過跟踪創建了幾個比較組文章對其他主題的看法。

現在，您將復制並擴展Penney (2016) 。您可以從維基百科獲得此活動所需的所有原始數據。或者你可以從R-package wikipediatrend (Meissner and R Core Team 2016)獲得它。在您撰寫回复時，請注意您使用的數據源。（請注意，同樣的活動也出現在第6章中。）此活動將讓您練習數據爭論並思考大數據源中的自然實驗。它還可以幫助您啟動並運行可能有趣的未來項目數據源。
1. 閱讀Penney (2016)並複制他的圖2，其中顯示了在Snowden啟示之前和之後“恐怖主義”相關頁面的頁面瀏覽量。解釋調查結果。
2. 接下來，複製圖4A，其將研究組（“恐怖主義”相關文章）與比較組進行比較，使用來自DHS列表的“DHS和其他機構”下分類的關鍵詞（參見附錄表10和腳註139）。解釋調查結果。
3. 在（b）部分，您將研究組與一個對照組進行了比較。 Penney還與另外兩個比較組進行了比較：“基礎設施安全”相關文章（附錄表11）和流行的維基百科頁面（附錄表12）。提出另一個比較組，並測試（b）部分的結果是否對您選擇的比較組敏感。哪種選擇最有意義？為什麼？
4. Penney表示，與“恐怖主義”有關的關鍵詞被用來選擇維基百科文章，因為美國政府將恐怖主義列為其在線監控實踐的關鍵理由。作為這48個與“恐怖主義”相關的關鍵詞的檢查， Penney (2016)還對MTurk進行了一項調查，要求受訪者根據政府麻煩，隱私敏感和規避對每個關鍵詞進行評分（附錄表7和8））。在MTurk上複製調查並比較您的結果。
5. 根據（d）部分的結果和您對該文章的閱讀，您是否同意Penney在研究組中選擇的主題關鍵詞？為什麼或者為什麼不？如果沒有，你會建議什麼呢？
[ 據Efrati (2016)報導，根據機密信息，Facebook上的“全部共享”同比下降了約5.5％，而“原始廣播共享”同比下降了21％。對於30歲以下的Facebook用戶來說，這種下降尤為嚴重。報告將這種下降歸因於兩個因素。一個是人們在Facebook上擁有的“朋友”數量的增長。另一個是，一些共享活動已轉移到消息傳遞和Snapchat等競爭對手。該報告還揭示了Facebook曾試圖推動共享的幾種策略，包括使原始帖子更加突出的新聞Feed算法調整，以及定期提醒“On The Day”功能的原始帖子。這些研究結果對於想要使用Facebook作為數據源的研究人員有什麼影響？
[ ]社會學家和歷史學家之間有什麼區別？根據Goldthorpe (1991)說法，主要區別在於對數據收集的控制。歷史學家被迫使用遺物，而社會學家可以根據具體目的定制他們的數據收集。閱讀Goldthorpe (1991) 。社會學和歷史之間的差異與自定義和現成的想法有什麼關係？
[ ]這是建立在前一個問題的基礎上的。 Goldthorpe (1991)提出了許多批評性的回應，其中包括Nicky Hart (1994)一個回應，它挑戰了Goldthorpe對定制數據的投入。為了澄清定制數據的潛在局限性，哈特描述了富裕工人項目，這是一項大型調查，用於衡量Goldthorpe及其同事在20世紀60年代中期進行的社會階層與投票之間的關係。正如人們可能期望一位贊成設計數據優於已發現數據的學者，富裕工人項目收集的數據是為了解決最近提出的關於生活水平提高時代社會階層未來的理論。但是，Goldthorpe及其同事以某種方式“忘記”收集有關女性投票行為的信息。以下是Nicky Hart (1994)對整集的總結：

“......很難避免女性被忽略的結論，因為這個'量身定制的'數據集被一種排除女性經驗的範式邏輯所限制。在階級意識和行動作為男性關注的理論視野的推動下，Goldthorpe和他的同事們構建了一套經驗證據，這些證據充實並培養了他們自己的理論假設，而不是讓他們接受有效的充分性測試。“

哈特繼續說：

“富裕工人項目的實證研究結果告訴我們更多關於中世紀社會學的男性主義價值觀，而不是告訴他們分層，政治和物質生活的過程。”

您能想到定制數據收集內置數據收集器的偏差的其他示例嗎？這與算法混淆相比如何？當研究人員應該使用現成品以及何時應該使用自定義時，這會產生什麼影響呢？
[ ]在本章中，我將研究人員收集的數據與公司和政府創建的行政記錄進行對比。有些人將這些行政記錄稱為“發現數據”，與“設計數據”形成鮮明對比。管理人員確實發現行政記錄，但它們也是高度設計的。例如，現代科技公司非常努力地收集和管理他們的數據。因此，這些管理記錄都是發現和設計的，它只取決於你的觀點（圖2.12）。

圖2.12：圖片既是鴨子又是兔子;你所看到的取決於你的觀點。找到並設計了大數據源;再一次，你所看到的取決於你的觀點。例如，移動電話公司收集的呼叫數據記錄是從研究人員的角度找到的數據。但是，這些完全相同的記錄是從在電話公司的計費部門工作的人的角度設計的數據。資料來源：Popular Science Monthly（1899）/ Wikimedia Commons 。

提供一個數據源示例，在使用該數據源進行研究時，查找和設計的數據源都很有用。
[ 在一篇深思熟慮的文章中，Christian Sandvig和Eszter Hargittai (2015)將數字研究分為兩大類，取決於數字系統是“工具”還是“研究對象”。第一種類型的例子 - 系統在哪裡一項工具 - 是Bengtsson及其同事(2011)在2010年海地地震後使用移動電話數據跟踪移民的研究。第二種類型 - 系統是研究對象的一個例子 - 是Jensen的研究(2007)關於如何在整個印度喀拉拉邦引入移動電話影響了魚類市場的運作。我發現這種區別很有幫助，因為它澄清了使用數字數據源的研究即使使用相同類型的數據源也可能有完全不同的目標。為了進一步闡明這種區別，請描述您所見過的四項研究：兩項使用數字系統作為儀器，兩項使用數字系統作為研究對象。如果需要，您可以使用本章中的示例。