Bit By Bit - 觀察行為

這種翻譯是由一個計算機創建。 ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

活動

鍵：

難度：容易，中硬，很難
需要數學（ $需要數學$ ）
需要編碼（）
數據採集（）
我最喜歡的（）

[ ， ]算法混雜是與谷歌流感趨勢的一個問題。通過閱讀本文Lazer et al. (2014) ，並寫一個簡短，清晰的電子郵件，在谷歌解釋這個問題，並提供了如何解決問題的想法的工程師。
[ ] Bollen, Mao, and Zeng (2011)聲稱，從Twitter的數據可以用來預測股市。這一發現導致了創作的對沖基金-德溫特資本市場，在股市的基礎上從Twitter收集到的數據進行投資(Jordan 2010)你想什麼證據把你的錢在基金前看？
[ ]雖然一些公共健康倡導者冰雹電子香煙作為一種有效的輔助戒菸，別人警告潛在的風險，如尼古丁高的水平。試想一下，一個研究人員決定通過收集電子煙有關的Twitter消息和進行情感分析研究對電子香煙的輿論。
1. 什麼是你最擔心的是在這項研究的三種可能的偏見？
2. Clark et al. (2016)跑了這樣的研究。首先，他們收集了85萬微博，通過2014年12月使用從2012年1月電子煙相關的關鍵詞經仔細檢查，他們意識到，許多這些微博被自動的（即不是由人類生產）和許多自動鳴叫基本上商業廣告。他們開發了一個人體檢測算法自動鳴叫有機鳴叫分開。使用這種檢測人的算法，他們發現，鳴叫的80％實現了自動化。這是否發現你的答案更改為（a）部分？
3. 當他們比較了有機和自動鳴叫的情緒，他們發現，自動鳴叫比有機鳴叫（6.17與5.84）更加積極。這是否發現改變你的答案（二）？
[ 在2009年11月，微博改變了問題的鳴叫箱從“你在做什麼？”“什麼事？”（https://blog.twitter.com/2009/whats-happening）。
1. 您如何看待提示的變化將影響誰鳴叫和/或它們鳴叫什麼？
2. 命名一項研究計劃，而您寧願提示“你在做什麼？”解釋原因。
3. 命名一項研究計劃，而您希望提示“發生了什麼事？”解釋原因。
[ ] Kwak et al. (2010)分析了4170萬的用戶配置文件，1.47十億的社會關係，4262的熱門話題，而1.06億六月六日至六月31日期間鳴叫，2009年在此基礎上分析，他們得出結論，微博提供更多的信息共享不是一種新的媒介社交網絡。
1. 鑑於郭某等人的調查結果，你會與Twitter的數據做什麼樣的研究？你會不會用微博數據做什麼樣的研究？為什麼？
2. 2010年，微博加入了世衛組織按照服務讓量身定做的建議給用戶。三個建議是在主頁上顯示的時間。建議通常是由一個人的畫“的朋友 - 的 - 朋友”，和交往也顯示了建議。用戶可以刷新看到一組新的建議或訪問一個頁面，建議較長的列表。你覺得這個新功能將改變你的答案部分）？為什麼或者為什麼不？
3. Su, Sharma, and Goel (2016)評估了世衛組織按照服務的影響，並發現同時在普及頻譜用戶的建議中獲益，最流行的用戶獲利大大高於平均水平。這是否發現改變你的答案B部分）？為什麼或者為什麼不？
[ ]“轉推”常常被用來測量影響和擴散的Twitter上的影響力。最初，用戶必須複製和粘貼他們喜歡的鳴叫，標籤與他/她把手原作者，並手動鳴叫之前輸入“RT”，以表明它是一個轉推。然後，在2009年的Twitter增加了一個“轉推”按鈕。在2016年6月，微博使我們能夠為用戶轉推自己的推特（https://twitter.com/twitter/status/742749353689780224）。你認為這些變化應該影響你如何在您的研究用“銳推”？為什麼或者為什麼不？
[ ，， [ Michel et al. (2011)構建的語料庫從谷歌的努力，圖書數字化顯現。使用語料，這是2009年出版的，含有超過500萬冊數字化圖書的第一個版本中，作者分析了詞使用頻率的調查語言的變化和文化潮流。不久，谷歌圖書語料庫成為研究者流行的數據源，數據庫的第二個版本是在2012年發布。

然而， Pechenick, Danforth, and Dodds (2015)警告說，研究人員需要用它繪製寬泛的結論之前，充分體現語料庫的採樣過程。的主要問題是，胼是庫狀，含有每本書中的一個。這樣一來，一個人，多產的作家能夠顯著插入新的短語到谷歌圖書詞彙。此外，科學的文字構成主體的整個20世紀日益實質性的部分。此外，通過比較英語小說數據集，Pechenick等人的兩個版本。發現的證據表明，過濾不足是在生產的第一個版本使用。所有需要的活動數據，請訪問：http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. 在米歇爾等人最初的論文(2011) ，他們用英語數據集的版本1，繪製的歲月“1880”的使用頻率，“1912”和“1973年的”，並得出結論說：“我們是忘記我們過去的每一年更快“（圖3A，米歇爾等人）。複製，用1）的主體，英語數據集（同圖3A，Michel等人的第1版相同的情節）。
2. 現在，複製與第1版，英文小說集同積。
3. 現在，複製與語料庫，英語數據集的第二版相同的情節。
4. 最後，複製與第二版，英文小說集同積。
5. 描述這四個地塊之間的異同。你與米歇爾等人的原始的觀察到的趨勢演繹同意嗎？（提示：c）和d）應該是相同的，如圖16中Pechenick等人）中。
6. 既然你已經使用不同的谷歌圖書語料庫複製這一發現，選擇米歇爾等人的原始的論文介紹了另一個語言改變或文化現象。你跟他們解釋同意在Pechenick等人提出的限制光？為了讓你的論點更強，試圖複製使用不同版本的數據如上設置相同的圖形。
[ ，，， ] Penney (2016)探討了關於是否在2013年6月NSA / PRISM監視（即斯諾登啟示）的廣泛宣傳與交通維基百科的文章急劇和突然下降上增加隱私顧慮主題有關。如果是的話，這種行為變化將與群眾監督產生的寒蟬效應是一致的。的方法Penney (2016)有時被稱為中斷時間序列設計，並從有關觀測數據（第2.4.3節）逼近實驗相關辦法的節。

要選擇主題關鍵字，彭尼稱，用於跟踪和監視社交媒體用於國土安全的美國農業部名單。國土安全部列表歸類某些搜索字詞的一系列問題，即“健康關懷”，“基礎設施安全”和“恐怖主義”。對於研究組，彭尼用48關鍵字與“恐怖主義”（見表8附錄）。然後，他對聚集在一個32個月期對應48 Wikipedia文章按月維基百科的文章觀看次數，從2012年1月開始到2014年八月底要加強他的論點，他還創造了幾個比較通過在其他議題跟踪文章的觀點組。

現在，你要複製和擴展Penney (2016) 。所有這一切，你將需要為這項活動的原始數據可以從維基百科（https://dumps.wikimedia.org/other/pagecounts-raw/）。或者，你可以從R包wikipediatrend得到它(Meissner and Team 2016) 。當你寫你的回复，請注意，您使用的數據源。（注：此相同的活動也出現在第6章）
1. 讀Penney (2016)和複製圖2，顯示為“恐怖主義”有關的網頁之前和斯諾登啟示後，頁面瀏覽量。解釋的結果。
2. 接下來，複製圖4A，該研究組（“恐怖主義”有關的文章）用在“美國國土安全部和其他機構”，從國土安全部的列表進行分類的關鍵字比較組進行比較（見附錄表10）。解釋的結果。
3. B部分），您比較研究組，以一個比較組。彭尼也相比其他兩個比較團體：“基礎設施安全”相關的文章（見附表11）和維基百科的流行頁（附錄表12）。拿出一個替代比較組，測試，如果從B部分的調查結果）是你的選擇比較組的敏感。其中選擇比較小組的最有意義？為什麼？
4. 作者指出，與“恐怖主義”的關鍵字被用來選擇維基百科的文章，因為美國政府援引恐怖主義作為其在線監控的做法的一個關鍵理由。由於這些48“恐怖主義”相關的關鍵字檢查， Penney (2016)也進行了MTurk一個調查，詢問受訪者在政府的麻煩，隱私敏感，及避免各方面的關鍵字率（見附表7,8）。複製上MTurk調查，並比較結果。
5. 根據D部分的結果），你的文章的閱讀，你跟作者的研究組選擇的主題關鍵字同意嗎？為什麼或者為什麼不？如果沒有，你會建議呢？
[ ] Efrati (2016)報導，基於保密的信息，即“完全共享”在Facebook上通過了約5.5％，較去年同期下降，而“原創播共享”的下降了超過21年全年％。這種下降是30歲以下的Facebook用戶尤為嚴重。該報告歸因下降有兩個原因。一個是在“朋友”的人在Facebook數量的增長。另一種是，一些分享活動已經轉移到信息和競爭對手如SnapChat。該報告還揭示了一些戰術的Facebook曾試圖提振共享，包括新聞飼料的算法調整，使原來的職位後更加突出，以及原帖用戶“在這一天”幾年前的定期提醒。確實這些發現誰想要使用Facebook作為數據源的研究有什麼影響，如果有的話？
[ ] Tumasjan et al. (2010)報導鳴叫提一個政黨的這一比例相匹配，在德國議會選舉中獲得了2009年黨的票（圖2.9）的比例。換句話說，就出現了，你可以使用Twitter來預測選舉。在此研究結果發表的時候它被認為是非常令人興奮的，因為它似乎暗示大數據的常見來源的寶貴使用。

由於大數據的不良特徵，但是，你應該馬上懷疑這個結果。在2009年的Twitter德國人是相當不具有代表性組，一方的支持者可能會更經常地鳴叫政治。因此，似乎令人驚訝的是所有你能想像的可能出現的偏差會以某種方式抵消。事實上，結果在Tumasjan et al. (2010)原來是好得令人難以置信。在他們的論文， Tumasjan et al. (2010)認為六條政治黨派：基督教民主黨（CDU），基督教社會民主黨（CSU），社民黨，自由黨（FDP），左（左翼黨）和綠黨（Grüne）。然而，在Twitter上提及最多的德國政黨在當時的海盜黨（Piraten），即戰鬥政府互聯網監管的一方。當海盜黨被列入分析，微博中提到變成選舉結果（圖2.9）的一個可怕的預測(Jungherr, Jürgens, and Schoen 2012)

圖2.9：提到Twitter的出現，預測2009年德國大選的結果(Tumasjan et al. 2010) ，但這個結果原來依賴於某些武斷和不合理的選擇(Jungherr, Jürgens, and Schoen 2012)

接著，在世界各地的其他研究人員已經使用發燒友方法，如使用情緒分析正與負之間區分提到的方式，以提高Twitter數據來預測的各種不同類型的選舉的能力(Gayo-Avello 2013; Jungherr 2015, Ch. 7.) 。以下是如何Huberty (2015)總結這些嘗試來預測選舉結果：

“基於社交媒體的所有已知的預測方法在經受真正的前瞻性預測選舉的需求，都失敗了。這些失敗似乎是由於社會媒體的基本性質，而不是對方法或算法的困難。總之，社會化媒體不這樣做，可能永遠也不會，提供一個穩定，公正，代表選民的圖片;和社交媒體的便利樣本缺乏足夠的數據來解決這些問題事後“。

閱讀一些領導研究的Huberty (2015)這一結論，並寫一頁紙的備忘錄，描述是否以及如何Twitter的應該被用來預測選舉政治候選人。
[ ]是什麼社會學家和歷史學家之間的區別？據Goldthorpe (1991)社會學家和歷史學家之間的主要區別在於對數據採集控制 。歷史學家被迫使用文物而社會學家可以根據自己的數據收集於特定的目的。閱讀Goldthorpe (1991) 。社會學和歷史之間的差異是如何與Custommades和現成品的想法？
[ ]在前面的問題的基礎上， Goldthorpe (1991)吸引了一些關鍵的響應，其中包括一個來自尼基·哈特(1994)的質疑Goldthorpe的奉獻量身定制的數據。為了澄清量身定做數據的潛在限制，赫德描述的富裕工作者項目，一項大型調查，測量，是由Goldthorpe和他的同事在60年代中期進行的社會階層和投票之間的關係。正如人們可能會從誰的最惠國待遇，設計了找到的數據資料的學者預計，富裕階層工人收集項目被定制，以解決有關社會階層的未來最近提出的理論在生活水平日益提高的時代的數據。但是，Goldthorpe和他的同事莫名其妙地“忘記”收集關於婦女的投票行為的信息。這裡的尼基怎麼哈特(1994)總結了整個事件：

“。。。它[是]難以避免，婦女省略，因為這種“量身定制的”數據集是由女性排除經驗範式的邏輯局限的結論。由階級意識和行動男性成見的理論視野驅動。。。，Goldthorpe和他的同事們建造一組餵食和培養自己的理論假設，而不是將它們暴露於充足的有效測試的經驗證明的。“

哈特繼續說：

“富裕階層工人項目的實證研究結果告訴我們更多關於本世紀中期社會學的男權值比他們通知分層，政治和物質生活的過程。”

你能想到這裡量身定做的數據採集有內置的數據採集器的偏見其他的例子嗎？請問這個比較算法混淆？這樣做有什麼影響時，研究人員應該使用現成品，當他們應該使用Custommades？
[ 在本章中，我通過對比研究人員的研究人員與企業和政府創建行政記錄收集的數據。有些人把這些行政記錄“中的數據，”他們與對比“設計的數據。”該管理記錄是由研究人員發現，這是事實，但他們也精心設計的。例如，現代高科技公司花費大量的時間和資源來收集和策劃他們的數據。因此，這些行政記錄都是發現和設計的，它只是取決於你的觀點（圖2.10）。

圖2.10：圖片既是鴨，兔;你所看到的取決於你的觀點。政府和企業行政記錄都被發現和設計;你所看到的取決於你的觀點。例如，通過蜂窩電話公司收集到的呼叫數據記錄可從研究者的角度發現數據。但是，這些相同的記錄，旨在有人在電話公司的計費部門工作的數據透視圖。資料來源：維基共享資源

在那裡看到它既可作為發現和使用而設計的研究數據源時，是有幫助的提供數據源的一個例子。
[ 在一個有思想的文章，基督教桑維和Eszter Hargittai (2015)描述了兩種類型的數字的研究，其中數字系統是“儀器”或“研究對象”。第一類研究的一個例子是本特松和他的同事(2011)用手機的數據在2010年海地地震後的跟踪移民第二類的一個例子是詹森(2007)研究了如何在整個喀拉拉邦手機的推出，影響印度市場對魚的運作。我覺得這是有用的，因為它明確了使用數字化的數據源的研究可以有，即使他們使用的是同一種數據源有很大的不同目標。為了進一步澄清這個區別，描述了四項研究，你已經看到：兩台使用數字系統作為一種工具和兩個使用數字系統為研究對象。如果你願意，你可以使用示例本章。