このセクションでは、物語のように読まれるべきではなく、参照として使用されるように設計されています。
それを観察する一つの種類は、この章に含まれていない民族誌です。デジタル空間での民族誌の詳細についてを参照してくださいBoellstorff et al. (2012) 、および混合デジタルと物理的なスペースでの民族誌に関する詳細のためには、参照Lane (2016) 。
あなたがデータを再利用している場合、あなたはあなたが遭遇する可能性のある問題を理解するのに役立つことができる2つの精神的なトリックがあります。まず、あなたの問題のための理想的なデータセットを想像してみてください、あなたが使用しているデータセットと比較することがあります。彼らはどのように類似しており、どのように異なっていますか?自分でデータを収集していなかった場合、何を望んでいるものと、あなたが持っているとの違いがある可能性が高いです。しかし、あなたはこれらの違いがマイナーまたはメジャーであるかどうかを判断する必要があります。
第二に、誰かが何らかの理由であなたのデータを作成し、収集したことを覚えておいてください。あなたはそれらの推論を理解しようとする必要があります。リバース・エンジニアリングのこの種は、あなたの再利用データで起こりうる問題とバイアスを特定するのに役立ちます。
あり、「ビッグデータ」の単一のコンセンサス定義はありませんが、多くの定義は3対に焦点を当てるように見える:ボリューム、様々な、と速度(例えば、 Japec et al. (2015)むしろ、データの特性に焦点を当てよりも、私の定義は、より多くのデータが作成された理由に焦点を当てています。
ビッグデータのカテゴリ内部政府の管理データのマイ含めることは少し異常です。このケースを行った他は、含まLegewie (2015) Connelly et al. (2016) 、およびEinav and Levin (2014)研究のための政府の管理データの値の詳細については、 Card et al. (2010) Taskforce (2012)およびGrusky, Smeeding, and Snipp (2015)
政府統計制度、特に米国国勢調査局内部から行政研究の観点については、 Jarmin and O'Hara (2016)スウェーデン統計局での行政記録の研究の本の長さは処理のために、参照Wallgren and Wallgren (2007)
章では、私は簡単に、このようなツイッターなどのソーシャルメディア・データ・ソースに、このような一般的な社会調査(GSS)などの伝統的な調査を比較しました。伝統的な調査やソーシャルメディアのデータとの間の徹底的かつ慎重な比較については、以下を参照してくださいSchober et al. (2016) 。
大きなデータのこれらの10の特性は、異なる著者の様々な異なる様々な方法で記載されています。これらの問題について私の考えに影響を与えた書き込みは、次のとおりです。 Lazer et al. (2009) 、 Groves (2011) Howison, Wiggins, and Crowston (2011) boyd and Crawford (2012) 、 Taylor (2013) Mayer-Schönberger and Cukier (2013) Golder and Macy (2014) Ruths and Pfeffer (2014) 、 Tufekci (2014) Sampson and Small (2015) Lewis (2015) Lazer (2015) Horton and Tambe (2015) 、 Japec et al. (2015) 、そしてGoldstone and Lupyan (2016)
この章では、私は比較的中立的だと思う用語デジタル・トレースを使用しました。デジタル・トレースのためのもう一つの人気用語はデジタル足跡である(Golder and Macy 2014)が、ハル・アベルソン、ケンレディーン、そしてハリー・ルイスのように(2008)指摘し、より適切な用語は、おそらくデジタル指紋です。あなたが足跡を作成するときは、何が起こっているかを認識しており、あなたの足跡は、一般的に個人的にトレースすることはできません。同じことがあなたのデジタル・トレースには当てはまりません。実際には、トレースを使用すると、非常に少しの知識を持っているかについてのすべての時間を残しています。これらのトレースは、それらの上に自分の名前を持っていないが、そして、彼らはしばしば、あなたに戻ってリンクすることができます。言い換えれば、彼らはより多くの指紋のようなものです:目に見えないし、個人を特定します。
大きい
大規模なデータセットは、問題の統計的検定をレンダリングする理由の詳細については、 Lin, Lucas, and Shmueli (2013)とMcFarland and McFarland (2015)これらの問題は、実用的な意義ではなく、統計的有意性に焦点を当てて研究をリードする必要があります。
常にオン
常時オン検討する際のデータ、あなたが時間をかけて正確に同じ人を比較しているかどうか、人々のいくつかの変更グループを比較しているかどうかを検討することが重要です。例えば参照、 Diaz et al. (2016) 。
非反応
非反応性対策に関する古典的な本があるWebb et al. (1966) 。ブックプリ日の例デジタル時代、彼らはまだ照明されています。なぜなら監視社会の存在の彼らの行動を変える人々の例については、 Penney (2016)とBrayne (2014)
不完全な
レコードリンケージの詳細については、 Dunn (1946)とFellegi and Sunter (1969)歴史)とLarsen and Winkler (2014) (現代の)を。同様に、このようなデータの重複排除、インスタンスID、名前の一致としても名前でコンピュータサイエンスで開発されている近づいて、レコード検出の検出を複製し、複製(Elmagarmid, Ipeirotis, and Verykios 2007)個人識別情報の送信を必要としないリンケージ記録するためのアプローチを維持し、プライバシーもあります(Schnell 2013) Facebookはまた、投票行動に彼らのレコードをリンクするために進んで開発しました。これは、私は、第4章ではをご紹介しましょう実験を評価するために行われました(Bond et al. 2012; Jones et al. 2013)
構成概念妥当性の詳細については、を参照してくださいShadish, Cook, and Campbell (2001) 、第3章を。
アクセスできない
AOL検索ログの大失敗の詳細については、 Ohm (2010)私は実験を記述するときは、第4章の企業や政府機関との提携についてのアドバイスを提供しています。著者の数はアクセスできないデータに依存している研究についての懸念を表明している、参照Huberman (2012)とboyd and Crawford (2012)
大学の研究者は、データ・アクセスを取得するための一つの良い方法は、インターンまたは客員研究員として会社で働くことです。データアクセスを可能にすることに加えて、このプロセスは、分析のために重要である、研究者がデータの作成方法についての詳細を学ぶのに役立ちます。
非代表
非代表は集団全体についてのステートメントをしたい研究者や政府にとって大きな問題です。これは、典型的には、そのユーザーに焦点を当てている企業にとって、それほど心配です。オランダ統計局が業務の非代表ビッグデータの問題を考慮する方法の詳細については、 Buelens et al. (2014) 。
第3章では、私はずっと、より詳細にサンプリングし、推定を説明します。データは非代表であっても、一定の条件の下で、それらは良好な推定値を生成するように重み付けすることができます。
漂流
システムドリフトが外から見ることは非常に困難です。しかし、(より4章で説明)MovieLensプロジェクトは、学術研究グループが15年以上のために実行されています。したがって、彼らは文書化され、システムが時間をかけて進化してきたやり方と方法についての情報を共有して、この影響を与える可能性分析(Harper and Konstan 2015)
学者の数は、Twitterでのドリフトに焦点を当てている: Liu, Kliman-Silver, and Mislove (2014)とTufekci (2014)
アルゴリズム的混乱
私は、第1項は話にジョンKleinbergで使用される「アルゴリズム的混乱」を聞きました。 performativityの背後にある主なアイデアは、いくつかの社会科学の理論が「エンジンないカメラ」ということである(Mackenzie 2008)つまり、彼らは実際に世界を形作るだけではなく、それをキャプチャします。
汚れた
政府の統計機関は。データクリーニング、統計データの編集を呼び出すDe Waal, Puts, and Daas (2014)調査データ用に開発された統計データの編集テクニックを説明し、彼らがビッグデータ・ソース、およびに適用されるどの程度に調べるPuts, Daas, and Waal (2015) 、より一般的な聴衆のために同じアイデアのいくつかを紹介します。
ツイッターでスパムに焦点を当てた研究のいくつかの例については、 Clark et al. (2016)及びChu et al. (2012) 。最後に、 Subrahmanian et al. (2016) DARPAのTwitterボットチャレンジの結果を記載します。
敏感
Ohm (2015)機密情報の考え方に以前の研究をレビューし、多要素テストを提供しています。彼が提案している4つの要因は次のとおりです。危害の可能性;危害の可能性;信頼関係の存在;リスクかどうか多数派の懸念を反映しています。
ニューヨークのタクシーのファーバーの研究は、による初期の研究に基づいたCamerer et al. (1997)トリップ開始時間を記録するためにドライバが使用する用紙トリップシート紙フォーム、終了時間、および料金の三つの異なる便利なサンプルを使用したこと。彼らは彼らの賃金は高かった日にはあまり働いていた:これは、以前の研究では、ドライバーは、ターゲット所得者のようだったことがわかりました。
Kossinets and Watts (2009)ソーシャルネットワークにおけるhomophilyの起源に焦点を当てました。参照してくださいWimmer and Lewis (2010)のFacebookからのデータを使用して、同じ問題に異なるアプローチのために。
その後の研究では、王とその同僚は、さらに中国でのオンライン検閲を検討してきた(King, Pan, and Roberts 2014; King, Pan, and Roberts 2016)中国でオンライン検閲を測定する関連するアプローチについては、 Bamman, O'Connor, and Smith (2012)で使用されているような統計的方法の詳細についてKing, Pan, and Roberts (2013) 1100万ポストの感情を推定するために、参照Hopkins and King (2010)教師付き学習の詳細については、 James et al. (2013)以下、技術)とHastie, Tibshirani, and Friedman (2009)より技術的な)。
予測は、工業用データ科学の大部分である(Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013)一般的に社会的な研究者によって行われている予測の一つのタイプは、例えば、人口統計的予測されているRaftery et al. (2012) 。
Googleインフルトレンドは、インフルエンザの流行をナウキャストするための検索データを使用する最初のプロジェクトではありませんでした。実際には、米国の研究者(Polgreen et al. 2008; Ginsberg et al. 2009)スウェーデン(Hulth, Rydevik, and Linde 2009) 、特定の検索用語ことを見出した(例えば、「インフルエンザ」)国民の公衆衛生の監視を予測その前にデータがリリースされました。その後多く、他の多くのプロジェクトが参照し、疾病監視検出のためのデジタルトレースデータを使用しようとしましたAlthouse et al. (2015)レビューのために。
健康転帰を予測するために、デジタルトレースデータを使用することに加えて、選挙の結果を予測するためにTwitterのデータを用いて、作業の膨大な量がありました。レビューを参照Gayo-Avello (2011) Gayo-Avello (2013) Jungherr (2015) (7章)、およびHuberty (2015)
インフルエンザの流行を予測し、選挙は、世界でのイベントのいくつかの種類を予測するために、デジタルトレースのいくつかの種類を使用して、両方の例です予測するために、Twitterのデータを使用して検索データを使用して。そこに、この一般的な構造を有する研究の膨大な数。表2.5は、他のいくつかの例が含まれています。
デジタルトレース | 結果 | 引用 |
---|---|---|
ツイッター | 米国で映画の興行収入 | Asur and Huberman (2010) |
検索ログ | 米国の映画、音楽、書籍、ビデオゲームの販売 | Goel et al. (2010) |
ツイッター | ダウ・ジョーンズ工業株平均(米国の株式市場) | Bollen, Mao, and Zeng (2011) |
ジャーナルPS政治学は、ビッグデータ、因果推論、および正式な理論に関するシンポジウムがあったが、 Clark and Golder (2015)それぞれの貢献をまとめたものです。 米国の科学アカデミーのジャーナル議事進行は、因果推論とビッグデータに関するシンポジウムを持っていた、とShiffrin (2016)それぞれの貢献をまとめたものです。
自然の実験に関しては、 Dunning (2012)優れた本の長さの治療を提供します。自然実験として、ベトナムのドラフト抽選の使用方法の詳細については、 Berinsky and Chatfield (2015)ビッグデータ・ソース内の自然実験を自動的に検出しようとする機械学習の手法については、 Jensen et al. (2008)とSharma, Hofman, and Watts (2015)
マッチングの面では、楽観的な総説については、 Stuart (2010)および悲観的な総説についてはSekhon (2009)剪定の種類としてマッチングの詳細については、 Ho et al. (2007) 。マッチングの優れた治療法を提供する書籍については、 Rosenbaum (2002) Rosenbaum (2009) Morgan and Winship (2014)およびImbens and Rubin (2015)