鍵:
[ , ]算法混雜是與谷歌流感趨勢的一個問題。通過閱讀本文Lazer et al. (2014) ,並寫一個簡短,清晰的電子郵件,在谷歌解釋這個問題,並提供了如何解決問題的想法的工程師。
[ ] Bollen, Mao, and Zeng (2011)聲稱,從Twitter的數據可以用來預測股市。這一發現導致了創作的對沖基金-德溫特資本市場,在股市的基礎上從Twitter收集到的數據進行投資(Jordan 2010)你想什麼證據把你的錢在基金前看?
[ ]雖然一些公共健康倡導者冰雹電子香煙作為一種有效的輔助戒菸,別人警告潛在的風險,如尼古丁高的水平。試想一下,一個研究人員決定通過收集電子煙有關的Twitter消息和進行情感分析研究對電子香煙的輿論。
[ 在2009年11月,微博改變了問題的鳴叫箱從“你在做什麼?”“什麼事?”(https://blog.twitter.com/2009/whats-happening)。
[ ] Kwak et al. (2010)分析了4170萬的用戶配置文件,1.47十億的社會關係,4262的熱門話題,而1.06億六月六日至六月31日期間鳴叫,2009年在此基礎上分析,他們得出結論,微博提供更多的信息共享不是一種新的媒介社交網絡。
[ ]“轉推”常常被用來測量影響和擴散的Twitter上的影響力。最初,用戶必須複製和粘貼他們喜歡的鳴叫,標籤與他/她把手原作者,並手動鳴叫之前輸入“RT”,以表明它是一個轉推。然後,在2009年的Twitter增加了一個“轉推”按鈕。在2016年6月,微博使我們能夠為用戶轉推自己的推特(https://twitter.com/twitter/status/742749353689780224)。你認為這些變化應該影響你如何在您的研究用“銳推”?為什麼或者為什麼不?
[ , , [ Michel et al. (2011)構建的語料庫從谷歌的努力,圖書數字化顯現。使用語料,這是2009年出版的,含有超過500萬冊數字化圖書的第一個版本中,作者分析了詞使用頻率的調查語言的變化和文化潮流。不久,谷歌圖書語料庫成為研究者流行的數據源,數據庫的第二個版本是在2012年發布。
然而, Pechenick, Danforth, and Dodds (2015)警告說,研究人員需要用它繪製寬泛的結論之前,充分體現語料庫的採樣過程。的主要問題是,胼是庫狀,含有每本書中的一個。這樣一來,一個人,多產的作家能夠顯著插入新的短語到谷歌圖書詞彙。此外,科學的文字構成主體的整個20世紀日益實質性的部分。此外,通過比較英語小說數據集,Pechenick等人的兩個版本。發現的證據表明,過濾不足是在生產的第一個版本使用。所有需要的活動數據,請訪問:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016)探討了關於是否在2013年6月NSA / PRISM監視(即斯諾登啟示)的廣泛宣傳與交通維基百科的文章急劇和突然下降上增加隱私顧慮主題有關。如果是的話,這種行為變化將與群眾監督產生的寒蟬效應是一致的。的方法Penney (2016)有時被稱為中斷時間序列設計,並從有關觀測數據(第2.4.3節)逼近實驗相關辦法的節。
要選擇主題關鍵字,彭尼稱,用於跟踪和監視社交媒體用於國土安全的美國農業部名單。國土安全部列表歸類某些搜索字詞的一系列問題,即“健康關懷”,“基礎設施安全”和“恐怖主義”。對於研究組,彭尼用48關鍵字與“恐怖主義”(見表8附錄)。然後,他對聚集在一個32個月期對應48 Wikipedia文章按月維基百科的文章觀看次數,從2012年1月開始到2014年八月底要加強他的論點,他還創造了幾個比較通過在其他議題跟踪文章的觀點組。
現在,你要複製和擴展Penney (2016) 。所有這一切,你將需要為這項活動的原始數據可以從維基百科(https://dumps.wikimedia.org/other/pagecounts-raw/)。或者,你可以從R包wikipediatrend得到它(Meissner and Team 2016) 。當你寫你的回复,請注意,您使用的數據源。 (注:此相同的活動也出現在第6章)
[ ] Efrati (2016)報導,基於保密的信息,即“完全共享”在Facebook上通過了約5.5%,較去年同期下降,而“原創播共享”的下降了超過21年全年%。這種下降是30歲以下的Facebook用戶尤為嚴重。該報告歸因下降有兩個原因。一個是在“朋友”的人在Facebook數量的增長。另一種是,一些分享活動已經轉移到信息和競爭對手如SnapChat。該報告還揭示了一些戰術的Facebook曾試圖提振共享,包括新聞飼料的算法調整,使原來的職位後更加突出,以及原帖用戶“在這一天”幾年前的定期提醒。確實這些發現誰想要使用Facebook作為數據源的研究有什麼影響,如果有的話?
[ ] Tumasjan et al. (2010)報導鳴叫提一個政黨的這一比例相匹配,在德國議會選舉中獲得了2009年黨的票(圖2.9)的比例。換句話說,就出現了,你可以使用Twitter來預測選舉。在此研究結果發表的時候它被認為是非常令人興奮的,因為它似乎暗示大數據的常見來源的寶貴使用。
由於大數據的不良特徵,但是,你應該馬上懷疑這個結果。在2009年的Twitter德國人是相當不具有代表性組,一方的支持者可能會更經常地鳴叫政治。因此,似乎令人驚訝的是所有你能想像的可能出現的偏差會以某種方式抵消。事實上,結果在Tumasjan et al. (2010)原來是好得令人難以置信。在他們的論文, Tumasjan et al. (2010)認為六條政治黨派:基督教民主黨(CDU),基督教社會民主黨(CSU),社民黨,自由黨(FDP),左(左翼黨)和綠黨(Grüne)。然而,在Twitter上提及最多的德國政黨在當時的海盜黨(Piraten),即戰鬥政府互聯網監管的一方。當海盜黨被列入分析,微博中提到變成選舉結果(圖2.9)的一個可怕的預測(Jungherr, Jürgens, and Schoen 2012)
接著,在世界各地的其他研究人員已經使用發燒友方法,如使用情緒分析正與負之間區分提到的方式,以提高Twitter數據來預測的各種不同類型的選舉的能力(Gayo-Avello 2013; Jungherr 2015, Ch. 7.) 。以下是如何Huberty (2015)總結這些嘗試來預測選舉結果:
“基於社交媒體的所有已知的預測方法在經受真正的前瞻性預測選舉的需求,都失敗了。這些失敗似乎是由於社會媒體的基本性質,而不是對方法或算法的困難。總之,社會化媒體不這樣做,可能永遠也不會,提供一個穩定,公正,代表選民的圖片;和社交媒體的便利樣本缺乏足夠的數據來解決這些問題事後“。
閱讀一些領導研究的Huberty (2015)這一結論,並寫一頁紙的備忘錄,描述是否以及如何Twitter的應該被用來預測選舉政治候選人。
[ ]是什麼社會學家和歷史學家之間的區別?據Goldthorpe (1991)社會學家和歷史學家之間的主要區別在於對數據採集控制 。歷史學家被迫使用文物而社會學家可以根據自己的數據收集於特定的目的。閱讀Goldthorpe (1991) 。社會學和歷史之間的差異是如何與Custommades和現成品的想法?
[ ]在前面的問題的基礎上, Goldthorpe (1991)吸引了一些關鍵的響應,其中包括一個來自尼基·哈特(1994)的質疑Goldthorpe的奉獻量身定制的數據。為了澄清量身定做數據的潛在限制,赫德描述的富裕工作者項目,一項大型調查,測量,是由Goldthorpe和他的同事在60年代中期進行的社會階層和投票之間的關係。正如人們可能會從誰的最惠國待遇,設計了找到的數據資料的學者預計,富裕階層工人收集項目被定制,以解決有關社會階層的未來最近提出的理論在生活水平日益提高的時代的數據。但是,Goldthorpe和他的同事莫名其妙地“忘記”收集關於婦女的投票行為的信息。這裡的尼基怎麼哈特(1994)總結了整個事件:
“。 。 。它[是]難以避免,婦女省略,因為這種“量身定制的”數據集是由女性排除經驗範式的邏輯局限的結論。由階級意識和行動男性成見的理論視野驅動。 。 。 ,Goldthorpe和他的同事們建造一組餵食和培養自己的理論假設,而不是將它們暴露於充足的有效測試的經驗證明的。“
哈特繼續說:
“富裕階層工人項目的實證研究結果告訴我們更多關於本世紀中期社會學的男權值比他們通知分層,政治和物質生活的過程。”
你能想到這裡量身定做的數據採集有內置的數據採集器的偏見其他的例子嗎?請問這個比較算法混淆?這樣做有什麼影響時,研究人員應該使用現成品,當他們應該使用Custommades?
[ 在本章中,我通過對比研究人員的研究人員與企業和政府創建行政記錄收集的數據。有些人把這些行政記錄“中的數據,”他們與對比“設計的數據。”該管理記錄是由研究人員發現,這是事實,但他們也精心設計的。例如,現代高科技公司花費大量的時間和資源來收集和策劃他們的數據。因此,這些行政記錄都是發現和設計的,它只是取決於你的觀點(圖2.10)。
在那裡看到它既可作為發現和使用而設計的研究數據源時,是有幫助的提供數據源的一個例子。
[ 在一個有思想的文章,基督教桑維和Eszter Hargittai (2015)描述了兩種類型的數字的研究,其中數字系統是“儀器”或“研究對象”。第一類研究的一個例子是本特松和他的同事(2011)用手機的數據在2010年海地地震後的跟踪移民第二類的一個例子是詹森(2007)研究了如何在整個喀拉拉邦手機的推出,影響印度市場對魚的運作。我覺得這是有用的,因為它明確了使用數字化的數據源的研究可以有,即使他們使用的是同一種數據源有很大的不同目標。為了進一步澄清這個區別,描述了四項研究,你已經看到:兩台使用數字系統作為一種工具和兩個使用數字系統為研究對象。如果你願意,你可以使用示例本章。