この章には含まれていない観測の1つは民族誌です。ディジタル空間における民族誌の詳細については、 Boellstorff et al. (2012) 、混合デジタルおよび物理空間における民族誌の詳細については、 Lane (2016)参照してください。
「ビッグ・データ」のコンセンサスの定義は一例もないが、多くの定義はボリューム、バラエティ、速度(例えばJapec et al. (2015) )に焦点を当てているようである。 De Mauro et al. (2015)を参照してください。
大きなデータのカテゴリに政府の行政データを含めるのはちょっと珍しいですが、他の人たちもLegewie (2015) 、 Connelly et al. (2016) 、 Einav and Levin (2014) 。研究のための政府行政データの価値の詳細については、 Card et al. (2010) 、管理Adminstrative Data Taskforce (2012) 、 Grusky, Smeeding, and Snipp (2015)です。
政府の統計システム、特に米国国勢調査局の内部からの行政研究の見通しについては、 Jarmin and O'Hara (2016) 。統計スウェーデンでの行政記録研究の本の長さの扱いについては、 Wallgren and Wallgren (2007) 。
この章では、一般社会調査(GSS)などの従来の調査と、Twitterなどのソーシャルメディアデータソースを簡単に比較しました。伝統的な調査とソーシャルメディアデータとの間の徹底的かつ慎重な比較については、 Schober et al. (2016) 。
ビッグデータのこれらの10の特性は、様々な異なる著者によってさまざまな方法で記述されています。これらの問題に関する私の考えに影響を与えた執筆には、 Lazer et al. (2009) 、 Groves (2011) 、 Howison, Wiggins, and Crowston (2011) 、 Howison, Wiggins, and Crowston (2011) boyd and Crawford (2012) 、 SJ Taylor (2013) 、 Mayer-Schönberger and Cukier (2013) 、 Golder and Macy (2014) 、 Ruths and Pfeffer (2014) 、 Tufekci (2014) 、 Sampson and Small (2015) 、 K. Lewis (2015b) 、 Lazer (2015) 、 Horton and Tambe (2015) Japec et al. (2015) Horton and Tambe (2015) 、 Japec et al. (2015) 、 Goldstone and Lupyan (2016)
この章では、 デジタルトレースという用語を使用しましたが、これは比較的中立的です。デジタル・トレースのためのもう一つの人気用語はデジタル足跡である(Golder and Macy 2014)が、ハル・アベルソン、ケンLedeen、そしてハリー・ルイスとして(2008)指摘して、より適切な用語は、おそらくデジタル指紋です。フットプリントを作成すると、何が起きているのか分かり、フットプリントを個人的に追跡することはできません。同じことがあなたのデジタルトレースには当てはまりません。実際には、あなたは知識がほとんどない痕跡を常に残しています。そして、これらの痕跡はあなたの名前を持っていませんが、しばしばあなたに戻ってリンクすることができます。言い換えれば、彼らは指紋によく似ています。目に見えず、個人を特定します。
大規模なデータセットがなぜ統計的テストに問題M. Lin, Lucas, and Shmueli (2013)については、 M. Lin, Lucas, and Shmueli (2013)およびMcFarland and McFarland (2015) 。これらの問題によって、研究者は統計的有意性よりもむしろ実用的意義に焦点を当てるべきである。
Raj Chetty氏とその同僚が税務記録にアクセスする方法の詳細については、 Mervis (2014)参照してください。
大規模なデータセットは、一般に単一のコンピュータの能力を超えている計算上の問題を引き起こす可能性があります。したがって、大規模なデータセットで計算を行う研究者は、しばしば並列プログラミングと呼ばれるプロセスである多くのコンピュータに作業を広めます 。並列プログラミング、特にHadoopと呼ばれる言語については、 Vo and Silvia (2016)参照してください。
常時稼動データを検討するときは、時間の経過とともに正確に同じ人を比較しているのか、変化する人のグループを比較しているのかを検討することが重要です。例えば、 Diaz et al. (2016) 。
非反応測定に関する古典的な本はWebb et al. (1966) 。その本の例は、デジタル時代に先立っていますが、まだ明るいです。大量の監視のために行動を変える人々の例は、 Penney (2016)とBrayne (2014) Penney (2016)を参照してください。
反応性は、研究者が要求効果(Orne 1962; Zizzo 2010)およびHawthorne効果(Adair 1984; Levitt and List 2011)と密接に関連している。
レコードリンケージの詳細については、 Dunn (1946)とFellegi and Sunter (1969) (歴史的)とLarsen and Winkler (2014) (現代)を参照してください。同様のアプローチが、データ重複排除、インスタンス識別、名前照合、重複検出、重複レコード検出(Elmagarmid, Ipeirotis, and Verykios 2007)などの名前でコンピュータサイエンスでも開発されています。また、個人識別情報の送信を必要としない連鎖を記録するためのプライバシー保護の手法もあります(Schnell 2013) 。 Facebookはまた、記録を投票行動にリンクさせるプロセスを開発しました。これは第4章で述べる実験を評価するために行われました(Bond et al. 2012; Jones et al. 2013) 。
構築の妥当性の詳細については、 Shadish, Cook, and Campbell (2001)第3章を参照のこと。
AOL検索ログの流出の詳細については、 Ohm (2010)参照してください。私は実験を説明するときに第4章で企業や政府と提携することについて助言します。 Huberman (2012)とboyd and Crawford (2012)参照して、アクセスできないデータに依存する研究について懸念を表明しています。
大学の研究者は、データ・アクセスを取得するための一つの良い方法は、インターンまたは客員研究員として会社で働くことです。データアクセスを可能にすることに加えて、このプロセスは、分析のために重要である、研究者がデータの作成方法についての詳細を学ぶのに役立ちます。
Mervis (2014)は、政府データへのアクセスを得るという観点から、Raj Chettyとその同僚が、社会移動性に関する研究で使用された税金記録にどのようにアクセスしたかについて説明します。
Kruskal and Mosteller (1979a) 、 Kruskal and Mosteller (1979b) 、 Kruskal and Mosteller (1979c) 、 Kruskal and Mosteller (1980) 。
雪の仕事と人形と丘の仕事の私の要約は簡単でした。雪のコレラに関する詳細については、 Freedman (1991)参照。英国医師研究の詳細については、 Doll et al. (2004)とKeating (2014) 。
ドールとヒルは35歳未満の女性医師や医師からのデータを収集していたが、最初の分析では意図的にこのデータを使用しなかったことに驚いた。 「35歳未満の女性と男性では肺がんは比較的まれであるため、今後数年間は有用な数字が得られない可能性があります。したがって、この予備的報告書では、35歳以上の男性に注意を払っている」と述べた。「なぜ表現力を避けるべきか」という挑発的なタイトルを持つRothman, Gallacher, and Hatch (2013) 、非代表的なデータを意図的に作成する。
非代表性は、人口全体についての声明を出すことを望む研究者および政府にとって大きな問題である。これは、一般的にユーザーに焦点を当てている企業にとってはそれほど重要ではありません。統計オランダがビジネスビッグデータの非代表性の問題をどのように考慮しているかの詳細については、 Buelens et al. (2014) 。
ビッグデータソースの非代表的な性質について懸念を表明している研究者の例は、 K. Lewis (2015b) boyd and Crawford (2012) 、 K. Lewis (2015b) 、 K. Lewis (2015b) Hargittai (2015) 。
社会調査と疫学研究の目標の詳細な比較については、 Keiding and Louis (2016)参照してください。
有権者に関するサンプル外の一般化、特に2009年のドイツ選挙の場合のTwitterの使用については、 Jungherr (2013)とJungherr (2015)参照してください。 Tumasjan et al. (2010)の研究に続いて、 Tumasjan et al. (2010)世界中の研究者は、さまざまな種類の選挙を予測するためにTwitterデータの能力を向上させるために、肯定的な分析を使用して肯定的な意見と否定的な意見を区別するなどの優れた方法を使用してきました(Gayo-Avello 2013; Jungherr 2015, chap. 7.) 。 Huberty (2015)選挙を予測するこれらの試みの結果を要約した方法は次のとおりです。
真の先見的な選挙予測の要求を受けた場合、ソーシャルメディアに基づくすべての既知の予測方法は失敗しています。これらの失敗は、方法論上またはアルゴリズム上の困難ではなく、ソーシャルメディアの基本的な性質によるものと思われます。要するに、ソーシャルメディアは、有権者の安定した公平で代表的なイメージを提供しているわけではなく、決してこれを決して提供しません。ソーシャルメディアの便利なサンプルでは、これらの問題を解決するのに十分なデータが不足しています。
第3章では、サンプリングと推定について詳しく説明します。たとえデータが非代表的なものであっても、特定の条件下では、それらを重み付けして良好な推定値を生成することができる。
システムのドリフトは外部から見るのが非常に困難です。しかし、MovieLensプロジェクト(第4章で詳しく説明)は、学術研究グループによって15年以上にわたって実施されています。したがって、彼らは、システムが時間の経過とともに進化した方法と、これが分析にどのように影響するかについての情報を文書化し、共有することができました(Harper and Konstan 2015) 。
多くの学者がLiu, Kliman-Silver, and Mislove (2014) 、 Tufekci (2014) Twitterでのドリフトに注目している。
人口のドリフトに対処する1つのアプローチは、研究者が時間の経過とともに同じ人を研究することを可能にするユーザパネルを作成することである( Diaz et al. (2016) 。
私は最初、Jon Kleinbergが講演で使った「アルゴリズム的に混乱した」という言葉を聞いたことがありますが、残念ながら話がいつどこで行われたかは覚えていません。私が印刷物の中で最初に見たのはAnderson et al. (2015) 、これは、サイトをデートすることによって使用されるアルゴリズムが、これらのウェブサイトからのデータを使用して社会的嗜好を研究する研究者の能力をいかに複雑にするかについての興味深い議論である。この懸念は、 Anderson et al. (2014)によるK. Lewis (2015a)によって提起されたAnderson et al. (2014) 。
Facebookに加えて、Twitterは、ユーザーが3人の閉鎖のアイデアに基づいて従うことを人々に推奨しています。 Su, Sharma, and Goel (2016)参照してください。だから、Twitterにおける三者閉鎖のレベルは、三者閉鎖に対する人間の傾向と三重閉鎖を促進するアルゴリズム的傾向の組み合わせです。
特に、社会科学理論は「カメラではなくエンジン」(すなわち、単にそれを記述するのではなく世界を形作る)であるというアイデアは、 Mackenzie (2008) 。
政府統計機関は、データクリーニング統計データ編集を呼びます。 De Waal, Puts, and Daas (2014)は、調査データ用に開発された統計データ編集技術を記述し、大きなデータソースに適用できる範囲を調査し、 Puts, Daas, and Waal (2015)より一般的な視聴者
ソーシャルボットの概要については、 Ferrara et al. (2016) 。 Twitterでスパムを発見することに焦点を当てた研究の例については、 Clark et al. (2016)およびChu et al. (2012) 。最後に、 Subrahmanian et al. (2016)は、DARPAのTwitter Bot Challengeの結果を記述しています。これは、Twitterでボットを検出するアプローチを比較するための大規模な共同作業です。
Ohm (2015)は、機密情報の考え方に関する以前の研究をレビューし、複数要素テストを提供しています。彼が提案する4つの要素は、危害の大きさ、害の可能性、機密関係の存在、およびリスクが大多数の懸念を反映しているかどうかです。
ファーバーのニューヨークでのタクシーの研究は、 Camerer et al. (1997) 、3つの異なる利便性の紙を使用した。この以前の調査によると、運転手はターゲット獲得者のように見えました。
その後の作業では、Kingとその同僚は、中国でのオンライン検閲をさらに検討した(King, Pan, and Roberts 2014, [@king_how_2016] ) 。中国におけるオンライン検閲の測定に関する関連するアプローチについては、 Bamman, O'Connor, and Smith (2012)参照してください。 1100万ポストの感情を推定するために、 King, Pan, and Roberts (2013)使用されているような統計的手法については、 Hopkins and King (2010)参照してください。教師あり学習の詳細については、 James et al. (2013) (技術的ではない)、 Hastie, Tibshirani, and Friedman (2009) (より技術的)
予測は産業データ科学の大きな部分を(Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) 。社会研究者によって一般的に行われる予測の1つのタイプは、人口統計学的予測です。例えば、 Raftery et al. (2012) 。
Googleインフルエンザ流行は、検索データを使用してインフルエンザ流行を起こした最初のプロジェクトではありませんでした。実際、米国の研究者(Polgreen et al. 2008; Ginsberg et al. 2009) (Hulth, Rydevik, and Linde 2009) (Polgreen et al. 2008; Ginsberg et al. 2009)とスウェーデン(Hulth, Rydevik, and Linde 2009)は、特定の検索用語(例えば、「インフルエンザ」)が国民の公衆衛生監視データがリリースされる前にその後、多くの他の多くのプロジェクトが、疾病監視のためにデジタルトレースデータを使用しようとしています。 Althouse et al. (2015)をレビューしました。
健康の成果を予測するためにデジタルトレースデータを使用することに加えて、選挙の結果を予測するためにTwitterデータを使用する膨大な作業があります。レビューを参照Gayo-Avello (2011) Gayo-Avello (2013) Jungherr (2015)第7章)、およびHuberty (2015)国内総生産(GDP)などの経済指標の今キャスティングは、中央銀行でも一般的です( Bańbura et al. (2013) 。表2.8には、何らかの種類のデジタルトレースを使用して世界の何らかのイベントを予測する研究の例がいくつか含まれています。
デジタルトレース | 結果 | 引用 |
---|---|---|
米国映画の興行収入 | Asur and Huberman (2010) | |
検索ログ | 米国での映画、音楽、書籍、ビデオゲームの販売 | Goel et al. (2010) |
ダウ・ジョーンズ工業株平均(米国株式市場) | Bollen, Mao, and Zeng (2011) | |
ソーシャルメディアと検索ログ | 米国、英国、カナダ、中国における投資家の感情と株式市場の調査 | Mao et al. (2015) |
検索ログ | シンガポールとバンコクのデング熱の流行 | Althouse, Ng, and Cummings (2011) |
最後に、Jon Kleinbergら(2015)は、予測問題が2つの微妙に異なるカテゴリに分類され、社会科学者は1つに集中して他のものを無視する傾向があることを指摘しています。ある政策立案者が、干ばつに直面している彼女のアナに電話し、雨のチャンスを増やすために雨のダンスをするためにシャーマンを雇うかどうかを決めなければならないと想像してください。もう一つの政策立案者は、私はベティと呼ぶでしょう。家に帰る途中で濡れないように傘を取るかどうかを決める必要があります。アンナとベティの両方が天気を理解すればより良い決定をすることができますが、彼らは異なることを知る必要があります。アンナは、雨のダンスが雨を引き起こすかどうかを理解する必要があります。一方、ベティは因果関係について何も理解する必要はありません。彼女はちょうど正確な予測が必要です。社会研究者は、アンレーが直面しているような問題に焦点を当てることが多い。アンレーが直面しているような問題は、因果関係の問題を含んでいるため、Kleinbergらは「雨のような」政策問題と呼んでいる。クラインバーグとその同僚が「傘のような」政策問題と呼んでいるベティが直面しているような疑問も非常に重要なことですが、社会研究者からはあまり注目されていません。
ジャーナルPS Political Scienceには、大きなデータ、因果推論、正式な理論に関するシンポジウムがあり、 Clark and Golder (2015)はそれぞれの貢献を要約しています。 米国国立科学アカデミー紀要には因果推論と大きなデータに関するシンポジウムがあり、 Shiffrin (2016)は各貢献を要約している。大きなデータソースの中で自然な実験を自動的に発見しようとする機械学習アプローチについては、 Jensen et al. (2008) 、 Sharma, Hofman, and Watts (2015) 、 Sharma, Hofman, and Watts (2016) 。
自然実験の観点から、 Dunning (2012)は、多くの例を紹介した、書籍長の治療法を提供しています。自然実験の懐疑的な見解については、 Rosenzweig and Wolpin (2000) (経済学)またはSekhon and Titiunik (2012) (政治学)を参照のこと。 Deaton (2010)とHeckman and Urzúa (2010)は、自然実験に焦点を当てることは、重要ではない因果関係の推定に焦点を当てることができると主張している。 Imbens (2010)は、自然実験の価値をより楽観的に見て、これらの議論に対抗しています。
研究者が起草の効果を見積もることから奉仕の効果に行く方法を説明するとき、私は器械的変数と呼ばれる技法を記述していました。 Imbens and Rubin (2015) 、23章と24章で、宝くじドラフトの例を紹介し、使用する。コンパイラーに対する兵役の効果は、時にコンパイラー平均因果律(CAcE)と呼ばれることもあり、地域平均の治療効果(LATE)と呼ばれることもあります。 Sovey and Green (2011) 、 Angrist and Krueger (2001) 、 Bollen (2012)は、政治学、経済学、社会学における道具的変数の使用のレビューを提供し、 Sovey and Green (2011)は「読者のチェックリスト」道具的変数を用いて研究を評価する。
実際、適切に無作為化されていないことが判明した。純粋なランダム性からの小さな偏差があった(Fienberg 1971) 。 Berinsky and Chatfield (2015)は、この小さな偏差は実質的に重要ではなく、適切に実施されるランダム化の重要性を論じている。
マッチングに関しては、 Stuart (2010)は楽観的な見直しを、 Sekhon (2009)は悲観的な見直しを検討している。剪定の一種としてのマッチングの詳細については、 Ho et al. (2007) 。一人一人の完璧なマッチを見つけることはしばしば困難であり、これは多くの複雑さをもたらす。第1に、正確な一致が利用できない場合、研究者は2つのユニット間の距離を測定する方法と、所定の距離が十分に近いかどうかを判断する必要があります。研究者が治療群の各症例に対して複数の一致を使用したい場合は、より正確な見積りにつながるため、2番目の複雑さが生じます。これらの問題は、 Imbens and Rubin (2015)第18章で詳しく説明されています。 ( ??? )パートIIも参照してください。
マッチング手法が無作為化された制御実験と類似の推定値を生成できる例については、 Dehejia and Wahba (1999)を参照のこと。しかし、 Arceneaux, Gerber, and Green (2006) 、 Arceneaux, Gerber, and Green (2010)では、マッチング手法が実験的なベンチマークを再現できなかった例があります。
Rosenbaum (2015)とHernán and Robins (2016)は、大きなデータソース内で有用な比較を発見するためのアドバイスを提供しています。