Bit By Bit - 観察行動

この翻訳は、コンピュータによって作成されました。 ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

活動

キー：

難易度：簡単、ミディアム、ハード、非常に難しいです
（数学を必要とします $数学を必要とします$ ）
（コーディングが必要です）
データ収集（）
私のお気に入り（）

[ 、 ]アルゴリズム交絡は、Googleインフルトレンドと問題がありました。論文を読むLazer et al. (2014) 、およびGoogleのエンジニアの問題点を説明し、問題を解決する方法のアイデアを提供することに短く、明確なメールを書きます。
[ ] Bollen, Mao, and Zeng (2011) Twitterからのデータは、株式市場を予測することができると主張しています。この知見は、ツイッターから収集したデータに基づいて株式市場に投資する市場-ヘッジファンド-ダーウェント・キャピタルの創出につながっ(Jordan 2010)どのような証拠あなたはその資金にあなたのお金を入れる前に見たいでしょうか？
[ いくつかの公衆衛生の支持者は、他の人がそのようなニコチンの高レベルのような潜在的なリスク、警告し、禁煙のための効果的な援助として、電子タバコを雹ながら。研究者は、電子タバコ関連のTwitterの投稿を収集し、感情分析を行うことにより、電子タバコに向けて世論を調査することを決定したことを想像してみてください。
1. あなたはこの研究で最も心配している三つの可能なバイアスは何ですか？
2. Clark et al. (2016) 、まさにこのような研究を実行しました。まず、彼らは精密検査の際月2014を介して2012年1月から電子タバコ関連のキーワードを使用85万つぶやきを集め、彼らはこれらのつぶやきの多くが自動化されたことに気づいた（すなわち、ヒトによって生産されない）、これらの自動化されたつぶやきの多くは、本質的でしたコマーシャル。彼らは、有機ツイートから自動化されたツイートを分離するために、人間の検出アルゴリズムを開発しました。この人間を使用すると、彼らはつぶやきの80％が自動化されたことがわかったアルゴリズムを検出します。この知見は、一部の（a）〜あなたの答えを変更していますか？
3. 彼らは有機および自動つぶやき中で感情を比較すると、彼らは自動化されたツイートは、有機ツイート（5.84対6.17）よりも陽性であることがわかりました。この知見は、（b）はへのあなたの答えを変更していますか？
[ ] 2009年11月、Twitterはからつぶやきボックスに質問を変更し、「あなたは何をしているの？」に「何が起きているのでしょうか？」（https://blog.twitter.com/2009/whats-happening）。
1. どのようにして、プロンプトの変化は誰つぶやきおよび/または彼らがさえずるものに影響を与えるだろうと思いますか？
2. プロンプト希望するための一つの研究プロジェクト名「何をやっているの？」理由を説明。
3. プロンプト希望するための一つの研究プロジェクト名「何が起こっているの？」理由を説明。
[ ] Kwak et al. (2010) 、彼らがツイッターをより情報共有の新しいメディアとして多くを提供していますと結論この分析に基づいて4170万ユーザープロファイル、14.7億社会的関係、4262トレンドトピック、および6月6日と6月31日、2009年の間に106百万ツイートを分析しましたソーシャルネットワーク。
1. クァクらの知見を考慮すると、あなたは、Twitterのデータと研究の種類をしますか？あなたはTwitterのデータと研究のどのような種類はしないだろうか？どうして？
2. 2010年に、Twitterは誰がユーザーに合わせた提案を行うサービスに従うことを追加しました。三つの提言は、メインページに一度に表示されています。提言は、多くの場合、1の「の-友達の友達-、「相互の連絡先から引き出されているにもおすすめで表示されます。ユーザーは、勧告の新しいセットを参照するか、勧告の長いリストにページを訪問するリフレッシュすることができます。あなたは）この新しい機能は、a部へのあなたの答えを変更するだろうと思いますか？その理由は？
3. Su, Sharma, and Goel (2016)サービスに従うことは誰の影響を評価し、人気のスペクトルにわたってユーザーが勧告の恩恵を受けながら、最も人気のあるユーザーは、平均よりも実質的に利益を得たことがわかりました。この知見は）部bにあなたの答えを変更していますか？その理由は？
[ 「favを "は、多くの場合、Twitterの影響の影響の広がりを測定するために使用されます。最初は、ユーザーがコピー＆ペースト、彼らが言ってつぶやきを、彼/彼女のハンドルを使用して、元の作者にタグを付けて、手動でそれがリツイートだことを示すために、つぶやきの前に「RT」を入力しなければなりませんでした。その後、2009年にTwitterは「リツイート」ボタンを追加しました。 2016年6月で、Twitterはそれが可能なユーザーが（https://twitter.com/twitter/status/742749353689780224）自分のツイートをリツイートするために作られました。これらの変更は、あなたの研究に「リツイート」を使用する方法に影響すべきであると思いますか？その理由は？
[ 、、 ] Michel et al. (2011)本をデジタル化するGoogleの努力から新興コーパスを構築しました。 2009年に公開され、500万デジタル化された書籍の上に含まれていたコーパスの最初のバージョンを使用して、著者らは、言語学的変化と文化のトレンドを調査するために単語の使用頻度を分析しました。まもなくGoogleブックスコーパスは研究者のための一般的なデータソースとなり、データベースの第二版が2012年にリリースされました。

しかし、 Pechenick, Danforth, and Dodds (2015)研究者が十分に広い結論を導くためにそれを使用する前に、コーパスのサンプリング処理を特徴付けるために必要があると警告しました。主な問題は、各書籍の1つを含む、コーパスは、ライブラリーのようであるということです。その結果、個々の、多作の著者が顕著Googleブックス辞書に新しいフレーズを挿入することが可能です。また、科学的な文章は、1900年代を通じてコーパスのますます実質的な部分を構成しています。また、英語を学ぶフィクションデータセット、Pechenickらの2つのバージョンを比較します。不十分なフィルタリングは、最初のバージョンを製造する際に使用されることを見出した証拠。活性のために必要なデータのすべてがここにあります：http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. ミシェルらの原論文では(2011)それらは、英語のデータセットの第一バージョンを使用し、「1912」と「1973」、「1880」年の使用頻度をプロットし、私たちはある」と結論付けました年々速く私たちの過去を忘れる」（図3（a）、ミシェルら）。）コーパス、図3（a）、ミシェルらと同じ英語のデータセット（の第一版を1を使用して、同じプロットを複製します。）
2. 今第1版、英語フィクションデータセットと同じプロットを複製。
3. 今コーパス、英語のデータセットの第二版と同じプロットを複製。
4. 最後に、第二版、英語フィクションデータセットと同じプロットを複製。
5. これらの4のプロット間の相違点と類似点を説明してください。あなたが観察された傾向のミシェルらのオリジナルの解釈に同意しますか？（ヒント：c）およびd）はPechenickらに、図16と同じである必要があります）。
6. 今、あなたは別のGoogleブックスコーパスを使用して、この1発見をレプリケートしていること、ミシェルらの原論文に提示別の言語変化や文化現象を選択します。あなたはPechenickらに提示限界の光の中でその解釈に同意しますか。？あなたの引数を強くするために、上記のように設定されたデータの異なるバージョンを使用して同じグラフを複製してみてください。
[ 、、、 ] Penney (2016) 2013年6月におけるNSA / PRISMサーベイランス（すなわち、スノーデンの啓示）に関する広範囲の広報はプライバシーの問題を提起トピックに関するWikipediaの記事へのトラフィックの急激かつ突然の減少と関連しているかどうかを探ります。もしそうであれば、この動作の変更は監視社会から生じる萎縮効果と一致するであろう。アプローチPenney (2016) 、時々、中断時系列の設計と呼ばれ、観測データ（2.4.3）から実験を近似に関する章のアプローチに関連しています。

トピックキーワードを選択するには、ペニーは、ソーシャルメディアを追跡し、監視するために米国国土安全保障省が使用するリストと呼ばれます。 DHSリストは、問題の範囲内にある特定の検索語を分類、すなわち「健康上の懸念」、「インフラストラクチャセキュリティ」、および「テロリズム。（表8を参照してください「テロリズム」の研究グループでは、ペニーはに関連四〇から八キーワードを使用します」付録）。彼はその後、彼の議論を強化するために8月2014の終わりに2012年1月の最初から32個ヶ月の期間にわたって対応する四〇から八Wikipediaの記事のために毎月ウィキペディアの記事ビュー数を集計し、彼はまた、いくつかの比較を作成しました他のトピックに関する記事の景色を追跡することによってグループ。

さて、あなたは、複製および拡張しようとしているPenney (2016)あなたはこの活動のために必要とするすべての生データはウィキペディア（https://dumps.wikimedia.org/other/pagecounts-raw/）から入手可能です。それとも、Rパッケージwikipediatrendからそれを得ることができます(Meissner and Team 2016)あなたが書くアップすると、あなたの応答を、あなたが使用するデータソースに注意してください。（注：この同じ活性はまた、第6章に表示されます）
1. 読むPenney (2016)前に、「テロリズム」関連のページ用とスノーデンの啓示の後にページビューを示している。図2および複製します。結果を解釈します。
2. 次に、DHSのリストから「DHS＆他の機関」に分類キーワードを使用して、比較群と試験群（「テロリズム」関連の記事を）比較図4（a）を、複製（付表10を参照してください）。結果を解釈します。
3. ）b部では、1つのコンパレータグループに研究グループを比較しました。「インフラストラクチャセキュリティ」関連の記事（付表11）と人気のウィキペディアのページ（付表12）：ペニーは、他の2つのコンパレータ群と比較します。代替比較群を思い付く、とパートbからの調査結果は）比較群の選択に敏感であるかどうかをテスト。比較群のどの選択が最も理にかなって？どうして？
4. 著者は「テロ」に関連するキーワードは、米国政府は、オンライン監視の実践のための重要な正当化としてテロを引用したので、Wikipediaの記事を選択するために使用されたと述べました。これら48「テロリズム」関連のキーワードのチェックとして、 Penney (2016)また、政府のトラブル、プライバシーに敏感な、と回避の観点から、キーワードのそれぞれを評価する回答を求めMTurkに関する調査を行っ（付録表7および8）。 MTurkに関する調査を複製し、あなたの結果を比較します。
5. パートd）および記事のあなたの読書での結果に基づいて、研究グループ内のトピックキーワードの著者の選択に同意しますか？その理由は？ない場合は、代わりに何を示唆しているのでしょうか？
[ ] Efrati (2016) 、「元の放送の共有が「ダウン21％前年比であったFacebookの「全共有が「約5.5％の前年比減少しましたことを、機密情報に基づいて、報告します。この減少は、年齢の30歳未満のFacebookユーザーで特に深刻でした。レポートには、2つの要因の減少を挙げています。一つは、人々がFacebook上で持っている「友人」の数の増加です。他には、いくつかの共有活動は、メッセージング、およびそのようなSnapChatなどの競合他社に移行したことです。報告書はまた、Facebookが数年前にニュースフィードアルゴリズムのオリジナルポストはより顕著にする微調整だけでなく、「この日に「オリジナルポストユーザーの定期的な通知を含め、共有を後押ししようとしたいくつかの戦術を明らかにしました。これらの知見は、データソースとしてのFacebookを利用したい研究者のためにどのような影響を、もしあれば、ありますか？
[ ] Tumasjan et al. (2010)政党に言及つぶやきの割合は当事者が2009年にドイツの議会選挙で得票（図2.9）の割合と一致したと報告しました。言い換えれば、あなたが選挙を予測するためにTwitterを使用することができると思われました。ビッグデータの共通ソースのための貴重な使用を示唆したようだったので、この研究が公開された時点で、それは非常に刺激的な考えられていました。

ビッグデータの悪い特徴を考えると、しかし、あなたはすぐにこの結果の懐疑的であるべきです。 2009年にTwitterでドイツ人は非常に非代表的なグループだった、と1党の支持者はより頻繁に政治についてつぶやくかもしれません。したがって、あなたが想像できるすべての可能なバイアスが何とか相殺だろうことは驚くべきことと思われます。実際には、中に結果Tumasjan et al. (2010)本当であるには余りにも良いことが判明しました。彼らの論文では、 Tumasjan et al. (2010)キリスト教民主同盟（CDU）、キリスト教社会民主同盟（CSU）、SPD、自由党（FDP）、左（リンケダイ）、および緑の党（グルーネ）：6政党考え。しかし、その時点でのTwitter上で最も言及したドイツの政党は、海賊党（Piraten）、インターネットの政府の規制を戦う政党でした。海賊党が分析に含まれたとき、Twitterは選挙結果（図2.9）の恐ろしい予測因子となる言及(Jungherr, Jürgens, and Schoen 2012)

図2.9：Twitterは2009年ドイツの選挙の結果を予測するように見える言及(Tumasjan et al. 2010)が、この結果は、いくつかの任意と不当な選択肢に依存することが判明(Jungherr, Jürgens, and Schoen 2012)

その後、世界中の他の研究者が使用している愛好家の方法、そのような正と負の間で区別するために感情分析の使用などは、選挙の様々な異なるタイプの予測するためのTwitterのデータの能力向上させるためには、当事者-の言及(Gayo-Avello 2013; Jungherr 2015, Ch. 7.)ここでは方法ですHuberty (2015)選挙を予測するこれらの試みの結果をまとめました。

真の前向きな選挙予測の要求を受けたときに、「ソーシャルメディアに基づいて、すべての既知の予測方法が失敗しています。これらの障害は、ソーシャルメディアの基本的な性質にではなく、方法論やアルゴリズムの難しさに起因すると思われます。要するに、ソーシャルメディアはそうではない、おそらく、有権者の安定した、公平な、代表的な画像を提供しませんでし。ソーシャルメディアの利便性サンプルは、これらの問題事後を修正するための十分なデータが不足しています。」

つながる研究のいくつかの記事を読むHuberty (2015)その結論にして、Twitterのは選挙を予測するために使用されるべきか、どのように記述した政治家候補に1ページのメモを書きます。
[ ]社会学者と歴史家の違いは何ですか？ Goldthorpeによると(1991)社会学者や歴史家の間の主な違いは、 データ収集の制御です。歴史家は、社会学者は、特定の目的へのデータ収集を調整することができ、一方、遺物を使用することを余儀なくされています。読むGoldthorpe (1991) CustommadesとReadymadesのアイデアに関連する社会学と歴史の違いはどうですか？
[ ]前の質問を踏まえ、 Goldthorpe (1991)ニッキー・ハートから1を含む重要な応答の数、描きました(1994)行われたデータを調整するためにGoldthorpeの献身に挑戦しました。オーダーメイドのデータの潜在的な限界を明確にするために、ハートは豊かな労働者プロジェクト、1960年代半ばにGoldthorpeらによって行われた社会階級と投票の間の関係を測定するための大規模な調査を説明しました。 1が検出されたデータ上で設計されたデータを好む学者から予想されるように、豊かな労働者プロジェクトは生活水準を向上させる時代に社会階級の将来について、最近提案された理論に対処するように調整されたデータを収集しました。しかし、Goldthorpeらは、何らかの形で女性の投票行動に関する情報を収集するために、「忘れました」。ここでニッキーハート方法です(1994) 、全エピソードをサマリーを：

"。。。この「テーラーメイド」データセットは女性の経験を除外パラダイムロジックによって閉じ込められたため、女性が省略された結論を回避することは困難です[]。男性の関心事として、階級意識と行動の理論的なビジョンによって駆動されます。。。、Goldthorpeと彼の同僚は、供給され、妥当性の有効なテストにそれらをさらすのではなく、独自の理論的な仮定を育んで経験的な証拠のセットを構築しました。」

ハートは続けました：

「彼らは層化、政治や材料の寿命の過程を知らせるより豊かな労働者プロジェクトの実証結果は、ミッドセンチュリーの社会学の男性優位主義者の値についての詳細を教えて。」

あなたは、オーダーメイドのデータ収集は、それに組み込まれたデータコレクタのバイアスを持っている他の例を考えることができますか？これはどのようにアルゴリズムの交絡と比べてどうですか？これは、彼らがCustommadesを使用する必要があるとき研究者がReadymadesを使用し、必要があるときに何の意味があるかもしれませんか？
[ この章では、私は企業や政府機関が作成した行政記録を持つ研究者のための研究者によって収集されたデータを対比しました。一部の人々は、行政記録が研究者によって発見されていることは事実である」。設計データ」これらの管理レコードは、彼らはとのコントラスト」のデータを、見つかった "と呼んで、しかし、彼らはまた、高度に設計されています。例えば、現代のハイテク企業は、収集し、そのデータをキュレートするために膨大な時間の量とリソースを費やしています。したがって、これらの管理レコードが両方の発見と設計されている、それだけであなたの視点（図2.10）に依存します。

図2.10：画像はアヒルとウサギの両方です。何あなたが見ることはあなたの視点に依存します。政府と企業の管理レコードが両方の発見と設計されています。何あなたが見ることはあなたの視点に依存します。例えば、携帯電話会社によって収集された呼データレコードは、研究者の視点からデータを見られます。しかし、これらのまったく同じレコードは、電話会社の経理部で働いて誰かのデータパースペクティブを設計されています。出典：ウィキメディア・コモンズ

研究のためのデータソースを使用する場合に発見し、設計通りの両方にそれを見てすることは有用であるデータソースの例を提供します。
[ ]思慮深いエッセイでは、キリスト教のSandvig及びエスズターハーギッタイ(2015) 、デジタルシステムは「楽器」やデジタル研究、の2種類の記述」研究の対象を。」研究の第一種の例はどこベングソンや同僚です(2011)第二種の例は、2010年にハイチでの地震後の移行を追跡するために、携帯電話のデータを使用する場合にジェンセン(2007)ケララ州全体での携帯電話の導入は、インドは魚のための市場の機能に影響を与えた方法を研究。それはデジタルデータソースを用いた研究は、彼らがデータソースの同じ種類を使用している場合でも、全く異なる目標を持つことができることを明確ので、私は、これは参考します。楽器や研究の対象としてデジタルシステムを使用する2つのようなデジタルシステムを使用して2：さらに、この区別を明確にするために、あなたが見てきた4件の研究について説明します。あなたがしたい場合は、この章の例を使用することができます。