活動

  • 難易度:簡単簡単 、培地中 、ハードハード 、 とても厳しいとても厳しい
  • 数学を必要とする( 数学が必要です
  • コーディングが必要( コーディングが必要
  • データ収集 ( データ収集
  • 私のお気に入り ( お気に入り
  1. [ 中お気に入り ]アルゴリズム混乱はGoogle Flu Trendsの問題でした。 Lazer et al. (2014)の論文を読むLazer et al. (2014) 、Googleのエンジニアに問題を説明し、問題を解決する方法のアイデアを提供するための短い、明確な電子メールを書いてください。

  2. [ 中 ] Bollen, Mao, and Zeng (2011)は、Twitterのデータを使って株式市場を予測できると主張しています。この発見は、Twitter (Jordan 2010)から収集されたデータに基づいて株式市場に投資するためのヘッジファンドDerwent Capital Marketsの創設につながりました。その資金にあなたのお金を入れる前にどのような証拠を見たいでしょうか?

  3. [ 簡単 ]一部の公衆衛生擁護派は、電子タバコが禁煙の効果的な援助だと考えている一方で、他の人々は、高レベルのニコチンなどの潜在的なリスクについて警告している。電子タバコ関連のTwitter記事を収集し、感情分析を行うことによって、研究者が電子タバコに関する世論を研究することを決定したとします。

    1. この研究で最も心配している3つの可能性のある偏見は何ですか?
    2. Clark et al. (2016)はそのような研究をしました。まず、2012年1月から2014年12月までに電子タバコ関連のキーワードを使用したツイートが850,000件集まった。これらのツイートの多くは自動化されたものであり、コマーシャル彼らは人間の検出アルゴリズムを開発して自動ツイートとオーガニックツイートを分離しています。この人間検知アルゴリズムを使用して、ツイートの80%が自動化されていることがわかりました。この発見はパート(a)へのあなたの答えを変えますか?
    3. 有機的なつぶやきと自動化されたつぶやきの感情を比較したところ、彼らは自動つぶやきが有機的なつぶやき(6.17対5.84)よりも肯定的であることを発見した。この発見はあなたの答えを(b)に変えますか?
  4. [ 簡単 ] 2009年11月、Twitterはツイートボックスの質問を「何をしていますか?」から「何が起こっているのですか」(https://blog.twitter.com/2009/whats-happening)に変更しました。

    1. プロンプトの変更があなたのつぶやきやツイートの内容にどのように影響すると思いますか?
    2. 「あなたは何をしていますか?」というプロンプトを好む研究プロジェクトの名前を1つ挙げてください。理由を説明してください。
    3. プロンプトを希望する研究プロジェクトの名前を「What's happening?」とします。理由を説明してください。
  5. [ 簡単 ]「リツイート」は、Twitterへの影響力や影響の広がりを測定するためによく使用されます。最初は、ユーザーが好きなツイートをコピー&ペーストし、元の作者にハンドルを付けてタグ付けし、ツイートの前に「RT」と入力して、それがリツイートであることを示します。その後、2009年に、Twitterは「retweet」ボタンを追加しました。 2016年6月、Twitterはユーザーが自分のつぶやきを再練習することを可能にしました(https://twitter.com/twitter/status/742749353689780224)。あなたはこれらの変更があなたの研究で "retweets"をどのように使用するかに影響を与えるべきだと思いますか?なぜ、なぜそうではないのですか?

  6. [ とても厳しいデータ収集コーディングが必要お気に入り ]広く議論された論文では、Michelとその同僚(2011)は、長期的な文化の動向を特定するために、500万を超えるデジタル化された書籍の内容を分析しました。彼らが使用したデータは、現在、Google NGramsデータセットとして公開されています。そのため、データを使用して、作業の一部を複製し、拡張することができます。

    この論文の多くの結果の1つでは、ミシェルらは、我々がより迅速かつ迅速に忘れていると主張している。ある特定の年、例えば「1883」では、1875年から1975年にかけて発行された1グラムの割合を計算し、「1883」としました。彼らは、この割合は、その年に起こった出来事に対する関心の尺度であると推論した。図3aでは、彼らは3年間の使用軌跡をプロットしています:1883年、1910年、1950年。これらの3年間は共通のパターンを共有しています。次に、各年の崩壊率を定量化するために、ミシェルらは1875年から1975年までの各年の「半減期」を計算しました。図3a(インセット)では、それぞれの半減期年が減っている、と彼らはこれが我々が過去をより早く、より速く忘れていることを意味すると主張した。彼らは英語のコーパスのバージョン1を使用しましたが、その後Googleはコーパスの第2バージョンをリリースしました。コーディングを始める前に、問題のすべての部分をお読みください。

    このアクティビティでは、再利用可能なコードの作成、結果の解釈、データの暴動(厄介なファイルの操作や欠落したデータの処理など)を実践できます。このアクティビティは、豊富で興味深いデータセットを使用して立ち上げるのにも役立ちます。

    1. GoogleブックスNGramビューアのウェブサイトから生データを取得します。特に、2012年7月1日にリリースされたバージョン2の英語コーパスを使用する必要があります。非圧縮のこのファイルは1.4GBです。

    2. Michel et al. (2011)図3aの主要部分を再作成するMichel et al. (2011) 。この数字を再現するには、パート(a)でダウンロードしたファイルと未加工カウントを比率に変換するために使用できる「合計カウント」ファイルの2つのファイルが必要です。合計カウントファイルは、読みにくい構造になっていることに注意してください。バージョン2のNGramデータは、 Michel et al. (2011) 、バージョン1のデータに基づいていますか?

    3. NGramビューアで作成したグラフをグラフで確認してください。

    4. 図3a(元図)を再作成しますが、 \(y\)軸を生の言及数(言及の割合ではない)に変更します。

    5. (b)と(d)の違いは、Michel et alの結果のいずれかを再評価することにつながりますか? (2011年)。なぜ、なぜそうではないのですか?

    6. 今、言及の割合を使用して、図3aの挿入図を再現します。すなわち、1875年から1975年までの各年について、その年の半減期を計算する。半減期は、言及の割合がピーク値の半分に達するまでに経過した年数と定義されます。 Michel et al. (2011)は、半減期を見積もるためにもっと複雑なことを行います。オンライン情報の第III.6節を参照してください。しかし、彼らは両方のアプローチが同様の結果をもたらすと主張しています。 NGramデータのバージョン2は、 Michel et al. (2011) 、バージョン1のデータに基づいていますか? (ヒント:そうでない場合は驚かないでください)

    7. 特に忘れられた年のような外れ値だった年がありましたか?そのパターンの考えられる原因を簡単に推測し、異常値をどのように特定したかを説明してください。

    8. この結果を、中国語、フランス語、ドイツ語、ヘブライ語、イタリア語、ロシア語、スペイン語のバージョン2のNGramsデータに対して複製する。

    9. すべての言語を比較すると、特に迅速または特にゆっくりと忘れられた年のような、異常値であった年がありましたか?そのパターンの考えられる原因を簡単に推測する。

  7. [ とても厳しいデータ収集コーディングが必要お気に入り ] Penney (2016)は、2013年6月のNSA / PRISMサーベイランス(スノーデンの啓示)に関する広範な広報が、プライバシーに関する懸念を引き起こすトピックに関するWikipediaの記事へのトラフィックの急激な減少に関連しているかどうかを調査しました。そうであれば、この行動の変化は、大量のサーベイランスに起因する冷ややかな効果と一貫しています。 Penney (2016)のアプローチは時々 中断された時系列設計と呼ばれ、2.4.3節で説明したアプローチに関連しています。

    トピックキーワードを選択するために、Penneyは、ソーシャルメディアの追跡と監視のために米国国土安全省が使用するリストを参照しました。 DHSのリストは、特定の検索用語を「健康懸念」、「インフラストラクチャー・セキュリティ」、「テロリズム」などのカテゴリに分類しています。研究グループでは、「テロリズム」に関する48のキーワードを使用しました(付録表8 )。その後、2012年1月の初めから2014年8月末までの32ヶ月間のWikipedia記事48件について、Wikipediaの記事ビュー数を毎月集計しました。彼は議論を強化するために、他のトピックに関する記事ビュー。

    さて、あなたはPenney (2016)を複製して拡張しようとしています。このアクティビティに必要なすべての生データは、Wikipediaから入手できます。または、Rパッケージwikipediatrend (Meissner and R Core Team 2016)から入手できます。あなたの回答を書き留めたら、あなたが使ったデータソースを書き留めておいてください。 (この同じ活動は第6章にも現れています)。このアクティビティでは、大規模なデータソースでの自然な実験についてのデータ争いや考え方を実践できます。また、将来のプロジェクトに役立つ潜在的なデータソースを使用して稼動させることもできます。

    1. Penney (2016)を読んで、Snowdenの暴露前後の "テロリズム"関連ページのページビューを示す図2を複製してください。調査結果を解釈する。
    2. 次に、DHSリスト(付録表10および脚注139参照)の "DHS&Other Agencies"で分類されたキーワードを使用して、研究グループ(「テロリズム」関連記事)を比較者グループと比較する図4Aを複製する。調査結果を解釈する。
    3. パート(b)では、スタディグループを1つのコンパレータグループと比較しました。ペニーはまた、インフラセキュリティ関連の関連記事(付録表11)と一般的なWikipediaページ(付録表12)の2つのコンパレータグループと比較しています。代替のコンパレータグループを用意し、パート(b)の結果がコンパレータグループの選択に敏感であるかどうかをテストします。どの選択肢が最も理にかなっていますか?どうして?
    4. ペニーは、「テロリズム」に関連するキーワードは、ウィキペディアの記事を選択するために使用されたと述べた。なぜなら、米国政府は、テロリズムをそのオンラインサーベイランス慣行の主要な正当性として挙げているからである。 Penney (2016)は、これらの48の「テロリズム」関連のキーワードのチェックとして、MTurkに関する調査を実施し、回答者に対し、政府のトラブル、プライバシーに敏感な、回避の観点からのhtキーワードの評価を依頼しました)。 MTurkで調査を複製し、結果を比較してください。
    5. パート(d)の結果と記事の読者に基づいて、Penneyが研究グループのトピックキーワードを選択したことに同意しますか?なぜ、なぜそうではないのですか?そうでない場合は、代わりに何を提案しますか?
  8. [ 簡単 ] Efrati (2016)は機密情報に基づいて、Facebookの「総共有」が前年比で約5.5%減少したと報告し、「元の放送共有」は前年比で21%減少したと報告した。この減少は、30歳未満のFacebookユーザーにとって特に深刻でした。報告書によると、この減少は2つの要因に起因している。 1つは、Facebook上の「友人」の数の増加です。もう1つは、共有アクティビティがメッセージングとSnapchatなどの競合他社に移行したことです。このレポートには、オリジナルの投稿をより目立たせるニュースフィードアルゴリズムの調整や、オリジナルの投稿の定期的なリマインダーなど、Facebookが共有を強化しようとしたいくつかの戦略も明らかになった。 Facebookがデータソースとして使用されることを望んでいる研究者にとって、これらの調査結果にはどのような影響がありますか?

  9. [ 中 ]社会学者と歴史家の違いは何ですか? Goldthorpe (1991)よると、主な違いはデータ収集のコントロールです。歴史家は遺物の使用を余儀なくされ、社会学者はデータ収集を特定の目的に合わせることができます。 Goldthorpe (1991)を読んでください。どのように社会学と歴史の違いは、カスタムメイドとレディメイドのアイデアに関連していますか?

  10. [ ハードこれは前のquesitonに基づいています。 Goldthorpe (1991)は、Nicky Hart (1994)がGoldthorpeのテーラーメイドデータへの挑戦に異議を唱えたことを含む、いくつかの重大な対応を行った。ハート氏は、カスタマイズされたデータの潜在的な限界を明確にするために、1960年代半ばにGoldthorpeらが実施した社会階級と投票の関係を測定する大規模な調査である富裕労働者プロジェクトについて説明しました。豊かな労働者プロジェクトは、発見されたデータの上に設計されたデータを好む学者から期待されるように、生活水準の向上の時代に社会階級の将来について最近提唱された理論に対処するために調整されたデータを収集した。しかし、Goldthorpeらは、女性の投票行動に関する情報を収集することをどうにかして「忘れてしまった」。ニッキー・ハート(1994) Nicky Hart (1994)が全エピソードを要約した方法は次のとおりです。

    「このテーラーメイドのデータセットが女性の経験を排除したパラダイムな論理に限定されていたため、女性が省略されたという結論を避けることは困難です。ゴールソープと彼の同僚たちは、男性意識としての階級意識と行動の理論的ビジョンを踏まえて、適切な妥当性テストに曝す代わりに、理論的な仮定を与えて育てた一連の経験的証拠を作った」

    ハートは続けた:

    「豊かな労働者プロジェクトの実証的な知見は、世紀半ばの社会学のマスリン主義者の価値について、層別化、政治、物質的な生活の過程を伝えるよりも、もっとわかりやすい」と語った。

    カスタムメイドのデータ収集に組み込まれたデータコレクタの偏りがある他の例について考えてみましょうか?これはアルゴリズム的な交絡とどう違うのでしょうか?研究者がレディメイドを使うべきときやカスタムメイドを使うべきときには、これはどのような意味があるでしょうか?

  11. [ 中 ]この章では、企業や政府によって作成された行政記録を持つ研究者のために、研究者によって収集されたデータを対照しました。これらの行政記録は、「発見されたデータ」と呼ばれ、「設計データ」と対照をなすものもあります。管理記録は研究者によって発見されていますが、高度に設計されています。たとえば、現代のテクノロジー企業は、データの収集と管理を非常に難しくしています。したがって、これらの行政記録は見つけられ、設計されています。あなたの視点にかかっています(図2.12)。

    図2.12:写真はアヒルとウサギの両方です。あなたが見るものはあなたの視点にかかっています。大きなデータソースは検出され、設計されています。もう一度、あなたが見るものはあなたの視点にかかっています。例えば、携帯電話会社が収集した通話データは、研究者の立場から見たデータである。しかし、これらの全く同じレコードは、電話会社の課金部門で働いている人の視点から設計されたデータです。出典:Popular Science Monthly(1899)/ウィキメディアコモンズ。

    図2.12:写真はアヒルとウサギの両方です。あなたが見るものはあなたの視点にかかっています。大きなデータソースは検出され、設計されています。もう一度、あなたが見るものはあなたの視点にかかっています。例えば、携帯電話会社が収集した通話データは、研究者の立場から見たデータである。しかし、これらの全く同じレコードは、電話会社の課金部門で働いている人の視点から設計されたデータです。出典:Popular Science Monthly(1899)/ ウィキメディアコモンズ

    そのデータソースを使用して研究に役立てる場合は、見つかったものと設計されたものの両方を見ることが有用なデータソースの例を示します。

  12. [ 簡単 ]思慮深いエッセイで、Christian SandvigとEszter Hargittai (2015)は、デジタルシステムが「楽器」であるか「研究対象」であるかによって、デジタル研究を2つの大きなカテゴリーに分けました。楽器はBengtssonら(2011)が2010年にハイチ地震の後に移動を追跡するために携帯電話のデータを使用することに関する研究である。第2の種類(システムが研究目的である場合)の例は、Jensenインドのケララでの携帯電話の導入が魚の市場機能にどのように影響を与えたか(2007)デジタルデータソースを使用した研究では、同じ種類のデータソースを使用していても、目標が大きく異なる可能性があるため、この区別が役立ちます。この区別をさらに明確にするために、あなたが見た4つの研究、すなわち、デジタルシステムを機器として使用する2つの研究と、デジタルシステムを調査対象として使用する2つの研究について説明します。必要に応じて、この章の例を使用できます。