キー:
[ 、 ]アルゴリズム交絡は、Googleインフルトレンドと問題がありました。論文を読むLazer et al. (2014) 、およびGoogleのエンジニアの問題点を説明し、問題を解決する方法のアイデアを提供することに短く、明確なメールを書きます。
[ ] Bollen, Mao, and Zeng (2011) Twitterからのデータは、株式市場を予測することができると主張しています。この知見は、ツイッターから収集したデータに基づいて株式市場に投資する市場-ヘッジファンド-ダーウェント・キャピタルの創出につながっ(Jordan 2010)どのような証拠あなたはその資金にあなたのお金を入れる前に見たいでしょうか?
[ いくつかの公衆衛生の支持者は、他の人がそのようなニコチンの高レベルのような潜在的なリスク、警告し、禁煙のための効果的な援助として、電子タバコを雹ながら。研究者は、電子タバコ関連のTwitterの投稿を収集し、感情分析を行うことにより、電子タバコに向けて世論を調査することを決定したことを想像してみてください。
[ ] 2009年11月、Twitterはからつぶやきボックスに質問を変更し、「あなたは何をしているの?」に「何が起きているのでしょうか?」(https://blog.twitter.com/2009/whats-happening)。
[ ] Kwak et al. (2010) 、彼らがツイッターをより情報共有の新しいメディアとして多くを提供していますと結論この分析に基づいて4170万ユーザープロファイル、14.7億社会的関係、4262トレンドトピック、および6月6日と6月31日、2009年の間に106百万ツイートを分析しましたソーシャルネットワーク。
[ 「favを "は、多くの場合、Twitterの影響の影響の広がりを測定するために使用されます。最初は、ユーザーがコピー&ペースト、彼らが言ってつぶやきを、彼/彼女のハンドルを使用して、元の作者にタグを付けて、手動でそれがリツイートだことを示すために、つぶやきの前に「RT」を入力しなければなりませんでした。その後、2009年にTwitterは「リツイート」ボタンを追加しました。 2016年6月で、Twitterはそれが可能なユーザーが(https://twitter.com/twitter/status/742749353689780224)自分のツイートをリツイートするために作られました。これらの変更は、あなたの研究に「リツイート」を使用する方法に影響すべきであると思いますか?その理由は?
[ 、 、 ] Michel et al. (2011)本をデジタル化するGoogleの努力から新興コーパスを構築しました。 2009年に公開され、500万デジタル化された書籍の上に含まれていたコーパスの最初のバージョンを使用して、著者らは、言語学的変化と文化のトレンドを調査するために単語の使用頻度を分析しました。まもなくGoogleブックスコーパスは研究者のための一般的なデータソースとなり、データベースの第二版が2012年にリリースされました。
しかし、 Pechenick, Danforth, and Dodds (2015)研究者が十分に広い結論を導くためにそれを使用する前に、コーパスのサンプリング処理を特徴付けるために必要があると警告しました。主な問題は、各書籍の1つを含む、コーパスは、ライブラリーのようであるということです。その結果、個々の、多作の著者が顕著Googleブックス辞書に新しいフレーズを挿入することが可能です。また、科学的な文章は、1900年代を通じてコーパスのますます実質的な部分を構成しています。また、英語を学ぶフィクションデータセット、Pechenickらの2つのバージョンを比較します。不十分なフィルタリングは、最初のバージョンを製造する際に使用されることを見出した証拠。活性のために必要なデータのすべてがここにあります:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ 、 、 、 ] Penney (2016) 2013年6月におけるNSA / PRISMサーベイランス(すなわち、スノーデンの啓示)に関する広範囲の広報はプライバシーの問題を提起トピックに関するWikipediaの記事へのトラフィックの急激かつ突然の減少と関連しているかどうかを探ります。もしそうであれば、この動作の変更は監視社会から生じる萎縮効果と一致するであろう。アプローチPenney (2016) 、時々 、中断時系列の設計と呼ばれ、観測データ(2.4.3)から実験を近似に関する章のアプローチに関連しています。
トピックキーワードを選択するには、ペニーは、ソーシャルメディアを追跡し、監視するために米国国土安全保障省が使用するリストと呼ばれます。 DHSリストは、問題の範囲内にある特定の検索語を分類、すなわち「健康上の懸念」、「インフラストラクチャセキュリティ」、および「テロリズム。(表8を参照してください「テロリズム」の研究グループでは、ペニーはに関連四〇から八キーワードを使用します」付録)。彼はその後、彼の議論を強化するために8月2014の終わりに2012年1月の最初から32個ヶ月の期間にわたって対応する四〇から八Wikipediaの記事のために毎月ウィキペディアの記事ビュー数を集計し、彼はまた、いくつかの比較を作成しました他のトピックに関する記事の景色を追跡することによってグループ。
さて、あなたは、複製および拡張しようとしているPenney (2016)あなたはこの活動のために必要とするすべての生データはウィキペディア(https://dumps.wikimedia.org/other/pagecounts-raw/)から入手可能です。それとも、Rパッケージwikipediatrendからそれを得ることができます(Meissner and Team 2016)あなたが書くアップすると、あなたの応答を、あなたが使用するデータソースに注意してください。 (注:この同じ活性はまた、第6章に表示されます)
[ ] Efrati (2016) 、「元の放送の共有が「ダウン21%前年比であったFacebookの「全共有が「約5.5%の前年比減少しましたことを、機密情報に基づいて、報告します。この減少は、年齢の30歳未満のFacebookユーザーで特に深刻でした。レポートには、2つの要因の減少を挙げています。一つは、人々がFacebook上で持っている「友人」の数の増加です。他には、いくつかの共有活動は、メッセージング、およびそのようなSnapChatなどの競合他社に移行したことです。報告書はまた、Facebookが数年前にニュースフィードアルゴリズムのオリジナルポストはより顕著にする微調整だけでなく、「この日に「オリジナルポストユーザーの定期的な通知を含め、共有を後押ししようとしたいくつかの戦術を明らかにしました。これらの知見は、データソースとしてのFacebookを利用したい研究者のためにどのような影響を、もしあれば、ありますか?
[ ] Tumasjan et al. (2010)政党に言及つぶやきの割合は当事者が2009年にドイツの議会選挙で得票(図2.9)の割合と一致したと報告しました。言い換えれば、あなたが選挙を予測するためにTwitterを使用することができると思われました。ビッグデータの共通ソースのための貴重な使用を示唆したようだったので、この研究が公開された時点で、それは非常に刺激的な考えられていました。
ビッグデータの悪い特徴を考えると、しかし、あなたはすぐにこの結果の懐疑的であるべきです。 2009年にTwitterでドイツ人は非常に非代表的なグループだった、と1党の支持者はより頻繁に政治についてつぶやくかもしれません。したがって、あなたが想像できるすべての可能なバイアスが何とか相殺だろうことは驚くべきことと思われます。実際には、中に結果Tumasjan et al. (2010)本当であるには余りにも良いことが判明しました。彼らの論文では、 Tumasjan et al. (2010)キリスト教民主同盟(CDU)、キリスト教社会民主同盟(CSU)、SPD、自由党(FDP)、左(リンケダイ)、および緑の党(グルーネ):6政党考え。しかし、その時点でのTwitter上で最も言及したドイツの政党は、海賊党(Piraten)、インターネットの政府の規制を戦う政党でした。海賊党が分析に含まれたとき、Twitterは選挙結果(図2.9)の恐ろしい予測因子となる言及(Jungherr, Jürgens, and Schoen 2012)
その後、世界中の他の研究者が使用している愛好家の方法、そのような正と負の間で区別するために感情分析の使用などは、選挙の様々な異なるタイプの予測するためのTwitterのデータの能力向上させるためには、当事者-の言及(Gayo-Avello 2013; Jungherr 2015, Ch. 7.)ここでは方法ですHuberty (2015)選挙を予測するこれらの試みの結果をまとめました。
真の前向きな選挙予測の要求を受けたときに、「ソーシャルメディアに基づいて、すべての既知の予測方法が失敗しています。これらの障害は、ソーシャルメディアの基本的な性質にではなく、方法論やアルゴリズムの難しさに起因すると思われます。要するに、ソーシャルメディアはそうではない、おそらく、有権者の安定した、公平な、代表的な画像を提供しませんでし。ソーシャルメディアの利便性サンプルは、これらの問題事後を修正するための十分なデータが不足しています。」
つながる研究のいくつかの記事を読むHuberty (2015)その結論にして、Twitterのは選挙を予測するために使用されるべきか、どのように記述した政治家候補に1ページのメモを書きます。
[ ]社会学者と歴史家の違いは何ですか? Goldthorpeによると(1991)社会学者や歴史家の間の主な違いは、 データ収集の制御です。歴史家は、社会学者は、特定の目的へのデータ収集を調整することができ、一方、遺物を使用することを余儀なくされています。読むGoldthorpe (1991) CustommadesとReadymadesのアイデアに関連する社会学と歴史の違いはどうですか?
[ ]前の質問を踏まえ、 Goldthorpe (1991)ニッキー・ハートから1を含む重要な応答の数、描きました(1994)行われたデータを調整するためにGoldthorpeの献身に挑戦しました。オーダーメイドのデータの潜在的な限界を明確にするために、ハートは豊かな労働者プロジェクト、1960年代半ばにGoldthorpeらによって行われた社会階級と投票の間の関係を測定するための大規模な調査を説明しました。 1が検出されたデータ上で設計されたデータを好む学者から予想されるように、豊かな労働者プロジェクトは生活水準を向上させる時代に社会階級の将来について、最近提案された理論に対処するように調整されたデータを収集しました。しかし、Goldthorpeらは、何らかの形で女性の投票行動に関する情報を収集するために、「忘れました」。ここでニッキーハート方法です(1994) 、全エピソードをサマリーを:
"。 。 。この「テーラーメイド」データセットは女性の経験を除外パラダイムロジックによって閉じ込められたため、女性が省略された結論を回避することは困難です[]。男性の関心事として、階級意識と行動の理論的なビジョンによって駆動されます。 。 。 、Goldthorpeと彼の同僚は、供給され、妥当性の有効なテストにそれらをさらすのではなく、独自の理論的な仮定を育んで経験的な証拠のセットを構築しました。」
ハートは続けました:
「彼らは層化、政治や材料の寿命の過程を知らせるより豊かな労働者プロジェクトの実証結果は、ミッドセンチュリーの社会学の男性優位主義者の値についての詳細を教えて。」
あなたは、オーダーメイドのデータ収集は、それに組み込まれたデータコレクタのバイアスを持っている他の例を考えることができますか?これはどのようにアルゴリズムの交絡と比べてどうですか?これは、彼らがCustommadesを使用する必要があるとき研究者がReadymadesを使用し、必要があるときに何の意味があるかもしれませんか?
[ この章では、私は企業や政府機関が作成した行政記録を持つ研究者のための研究者によって収集されたデータを対比しました。一部の人々は、行政記録が研究者によって発見されていることは事実である」。設計データ」これらの管理レコードは、彼らはとのコントラスト」のデータを、見つかった "と呼んで、しかし、彼らはまた、高度に設計されています。例えば、現代のハイテク企業は、収集し、そのデータをキュレートするために膨大な時間の量とリソースを費やしています。したがって、これらの管理レコードが両方の発見と設計されている、それだけであなたの視点(図2.10)に依存します。
研究のためのデータソースを使用する場合に発見し、設計通りの両方にそれを見てすることは有用であるデータソースの例を提供します。
[ ]思慮深いエッセイでは、キリスト教のSandvig及びエスズターハーギッタイ(2015) 、デジタルシステムは「楽器」やデジタル研究、の2種類の記述」研究の対象を。」研究の第一種の例はどこベングソンや同僚です(2011)第二種の例は、2010年にハイチでの地震後の移行を追跡するために、携帯電話のデータを使用する場合にジェンセン(2007)ケララ州全体での携帯電話の導入は、インドは魚のための市場の機能に影響を与えた方法を研究。それはデジタルデータソースを用いた研究は、彼らがデータソースの同じ種類を使用している場合でも、全く異なる目標を持つことができることを明確ので、私は、これは参考します。楽器や研究の対象としてデジタルシステムを使用する2つのようなデジタルシステムを使用して2:さらに、この区別を明確にするために、あなたが見てきた4件の研究について説明します。あなたがしたい場合は、この章の例を使用することができます。