Eine Art der Beobachtung, die in diesem Kapitel nicht enthalten ist, ist die Ethnographie. Mehr zur Ethnographie in digitalen Räumen finden Sie bei Boellstorff et al. (2012) und mehr über Ethnographie in gemischten digitalen und physischen Räumen, siehe Lane (2016) .
Es gibt keine einheitliche Konsensdefinition von "Big Data", aber viele Definitionen scheinen sich auf die "3 Vs" zu konzentrieren: Volumen, Vielfalt und Geschwindigkeit (z. B. Japec et al. (2015) ). Siehe De Mauro et al. (2015) für eine Überprüfung der Definitionen.
Meine Einbeziehung von Verwaltungsdaten der Regierung in die Kategorie der Big Data ist etwas ungewöhnlich, obwohl andere auch diesen Fall vertreten haben, darunter Legewie (2015) , Connelly et al. (2016) und Einav and Levin (2014) . Mehr über den Wert von Verwaltungsdaten der Regierung für Forschung, siehe Card et al. (2010) , Adminstrative Data Taskforce (2012) und Grusky, Smeeding, and Snipp (2015) .
Für einen Überblick über administrative Forschung innerhalb des statistischen Systems der Regierung, insbesondere des US Census Bureau, siehe Jarmin and O'Hara (2016) . Für eine buchlange Behandlung der Verwaltungsrekordforschung bei Statistics Sweden siehe Wallgren and Wallgren (2007) .
In dem Kapitel habe ich eine traditionelle Umfrage wie die Allgemeine Sozialerhebung (GSS) kurz mit einer Social-Media-Datenquelle wie Twitter verglichen. Für einen gründlichen und sorgfältigen Vergleich zwischen traditionellen Umfragen und Social-Media-Daten siehe Schober et al. (2016) .
Diese 10 Merkmale von Big Data wurden von verschiedenen Autoren auf verschiedene Arten beschrieben. Das Schreiben, das mein Denken zu diesen Themen beeinflusst hat, beinhaltet Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) und Goldstone and Lupyan (2016) .
In diesem Kapitel habe ich den Begriff digitale Spuren verwendet , der meiner Meinung nach relativ neutral ist. Ein anderer populärer Begriff für digitale Spuren sind digitale Fußabdrücke (Golder and Macy 2014) , aber wie Hal Abelson, Ken Ledeen und Harry Lewis (2008) herausstellen, ist ein passender Begriff wahrscheinlich digitale Fingerabdrücke . Wenn Sie Footprints erstellen, wissen Sie, was passiert und Ihre Fußabdrücke können im Allgemeinen nicht zu Ihnen zurückverfolgt werden. Das gleiche gilt nicht für Ihre digitalen Spuren. In der Tat hinterlassen Sie ständig Spuren, über die Sie sehr wenig wissen. Und obwohl diese Spuren Ihren Namen nicht tragen, können sie oft mit Ihnen verknüpft werden. Mit anderen Worten, sie sind mehr wie Fingerabdrücke: unsichtbar und persönlich identifizierbar.
Für mehr darüber, warum große Datensätze statistische Tests problematisch machen, siehe M. Lin, Lucas, and Shmueli (2013) und McFarland and McFarland (2015) . Diese Fragen sollten dazu führen, dass sich die Forscher eher auf praktische als auf statistische Signifikanz konzentrieren.
Mehr darüber, wie Raj Chetty und seine Kollegen Zugang zu den Steuerunterlagen erhielten, finden Sie unter Mervis (2014) .
Große Datasets können auch Rechenprobleme verursachen, die in der Regel die Möglichkeiten eines einzelnen Computers übersteigen. Daher verbreiten Forscher, die Berechnungen in großen Datensätzen durchführen, die Arbeit häufig über viele Computer, was manchmal als parallele Programmierung bezeichnet wird . Für eine Einführung in die parallele Programmierung, insbesondere eine Sprache namens Hadoop, siehe Vo and Silvia (2016) .
Bei der Betrachtung von Always-On-Daten ist es wichtig zu überlegen, ob Sie genau dieselben Personen im Zeitverlauf vergleichen oder ob Sie eine sich ändernde Gruppe von Personen vergleichen. siehe zum Beispiel Diaz et al. (2016) .
Ein klassisches Buch über nichtreaktive Maßnahmen ist Webb et al. (1966) . Die Beispiele in diesem Buch sind älter als das digitale Zeitalter, aber sie sind immer noch erhellend. Beispiele für Menschen, die ihr Verhalten aufgrund der Massenüberwachung ändern, finden sich in Penney (2016) und Brayne (2014) .
Die Reaktivität ist eng verwandt mit dem, was (Orne 1962; Zizzo 2010) Nachfrageeffekte nennen (Orne 1962; Zizzo 2010) und den Hawthorne-Effekt (Adair 1984; Levitt and List 2011) .
Für mehr auf Aufzeichnung Verbindung, siehe Dunn (1946) und Fellegi and Sunter (1969) (historisch) und Larsen and Winkler (2014) (modern). Ähnliche Ansätze wurden auch in der Informatik unter Namen wie Datendeduplizierung, (Elmagarmid, Ipeirotis, and Verykios 2007) Duplikaterkennung und Dublettenerkennung entwickelt (Elmagarmid, Ipeirotis, and Verykios 2007) . Es gibt auch datenschutzkonservierende Ansätze zur Erfassung von Verknüpfungen, die keine Übermittlung personenbezogener Daten erfordern (Schnell 2013) . Facebook hat auch einen Prozess entwickelt, um ihre Aufzeichnungen mit dem Wahlverhalten zu verknüpfen. Dies wurde gemacht, um ein Experiment auszuwerten, das ich Ihnen in Kapitel 4 erzählen werde (Bond et al. 2012; Jones et al. 2013) .
Weitere Shadish, Cook, and Campbell (2001) zur Konstruktvalidität finden Sie in Kapitel 3 von Shadish, Cook, and Campbell (2001) .
Weitere Informationen zum AOL-Suchprotokoll-Debakel finden Sie unter Ohm (2010) . Ich biete Ratschläge zur Zusammenarbeit mit Unternehmen und Regierungen in Kapitel 4, wenn ich Experimente beschreibe. Eine Reihe von Autoren hat Bedenken bezüglich der Forschung geäußert, die auf unzugängliche Daten boyd and Crawford (2012) , siehe Huberman (2012) und boyd and Crawford (2012) .
Eine gute Möglichkeit für Forscher der Universität den Datenzugriff zu erwerben, ist in einem Unternehmen als Praktikant oder Gastforscher zu arbeiten. Zusätzlich zu den Datenzugriff ermöglicht, wird dieser Prozess auch dazu beitragen, die Forscher mehr darüber zu erfahren, wie die Daten erstellt wurde, die für die Analyse wichtig ist.
In Bezug auf den Zugang zu Regierungsdaten diskutiert Mervis (2014) , wie Raj Chetty und Kollegen Zugang zu den Steuerunterlagen erhielten, die in ihrer Forschung zur sozialen Mobilität verwendet wurden.
Mehr zur Geschichte der "Repräsentativität" als Konzept finden Sie in Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) sowie Kruskal and Mosteller (1980) .
Meine Zusammenfassungen der Arbeit von Snow und die Arbeit von Doll und Hill waren kurz. Für mehr über die Arbeit von Snow an der Cholera, siehe Freedman (1991) . Für weitere Informationen über die British Doctors Study siehe Doll et al. (2004) und Keating (2014) .
Viele Forscher werden überrascht sein zu erfahren, dass Doll und Hill, obwohl sie Daten von weiblichen Ärzten und von Ärzten unter 35 Jahren gesammelt hatten, diese Daten bei ihrer ersten Analyse absichtlich nicht verwendet haben. Sie argumentierten: "Da Lungenkrebs bei Frauen und Männern unter 35 Jahren relativ selten ist, werden in diesen Gruppen für einige Jahre wahrscheinlich keine brauchbaren Zahlen erreicht. In diesem vorläufigen Bericht haben wir uns daher auf Männer ab 35 Jahren beschränkt. " Rothman, Gallacher, and Hatch (2013) , die den provokativen Titel" Warum Repräsentativität sollte vermieden werden ", geben ein allgemeineres Argument für den Wert von absichtlich nicht repräsentative Daten erstellen.
Nicht-Repräsentativität ist ein großes Problem für Forscher und Regierungen, die Aussagen über eine ganze Bevölkerung machen wollen. Dies ist weniger wichtig für Unternehmen, die sich in der Regel auf ihre Benutzer konzentrieren. Mehr darüber, wie Statistics Netherlands die Frage der Nicht-Repräsentativität von Geschäftsdaten berücksichtigt, finden Sie bei Buelens Buelens et al. (2014) .
Beispiele für Forscher, die ihre Besorgnis über den nicht repräsentativen Charakter von Big-Data-Quellen zum Ausdruck bringen, finden sich in boyd and Crawford (2012) , K. Lewis (2015b) und Hargittai (2015) .
Für einen detaillierteren Vergleich der Ziele von Sozialerhebungen und epidemiologischer Forschung, siehe Keiding and Louis (2016) .
Mehr zu den Versuchen, Twitter zur Verallgemeinerung der Wähler zu verwenden, insbesondere den Fall der Wahl 2009, siehe Jungherr (2013) und Jungherr (2015) . Nach der Arbeit von Tumasjan et al. (2010) Forscher auf der ganzen Welt haben raffiniertere Methoden verwendet - wie zum Beispiel Sentimentanalyse, um zwischen positiven und negativen Erwähnungen der Parteien zu unterscheiden -, um die Fähigkeit von Twitter-Daten zu verbessern, verschiedene Arten von Wahlen vorherzusagen (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . So hat Huberty (2015) die Ergebnisse dieser Versuche, Wahlen vorherzusagen, zusammengefasst:
"Alle bekannten Prognosemethoden, die auf sozialen Medien basieren, sind gescheitert, als sie den Anforderungen einer zukunftsgerichteten Wahlprognose unterworfen wurden. Diese Fehler scheinen eher auf grundlegende Eigenschaften sozialer Medien als auf methodische oder algorithmische Schwierigkeiten zurückzuführen zu sein. Kurz gesagt, soziale Medien bieten kein stabiles, unvoreingenommenes und repräsentatives Bild der Wählerschaft und werden dies wahrscheinlich auch nie tun. und Social-Media-Samples fehlen ausreichende Daten, um diese Probleme post hoc zu beheben. "
In Kapitel 3 werde ich Sampling und Schätzung viel detaillierter beschreiben. Selbst wenn Daten nicht repräsentativ sind, können sie unter bestimmten Bedingungen gewichtet werden, um gute Schätzungen zu liefern.
Systemdrift ist von außen sehr schwer zu erkennen. Das Projekt MovieLens (mehr in Kapitel 4 beschrieben) wird jedoch seit mehr als 15 Jahren von einer akademischen Forschungsgruppe betrieben. So konnten sie Informationen darüber, wie sich das System im Laufe der Zeit entwickelt hat und wie sich dies auf die Analyse auswirken könnte, dokumentieren und weitergeben (Harper and Konstan 2015) .
Eine Reihe von Wissenschaftlern hat sich auf Twitter konzentriert: Liu, Kliman-Silver, and Mislove (2014) und Tufekci (2014) .
Ein Ansatz zur Bewältigung der Bevölkerungsdrift besteht darin, eine Gruppe von Nutzern zu schaffen, die es den Forschern ermöglicht, im Laufe der Zeit dieselben Personen zu untersuchen, siehe Diaz et al. (2016) .
Ich habe zuerst den Begriff "algorithmisch verwirrt" gehört, den Jon Kleinberg in einem Vortrag verwendet hat, aber leider kann ich mich nicht erinnern, wann oder wo das Gespräch geführt wurde. Das erste Mal, dass ich den Begriff im Druck sah, war in Anderson et al. (2015) , eine interessante Diskussion darüber, wie die von Dating-Sites verwendeten Algorithmen die Fähigkeit von Forschern erschweren könnten, Daten von diesen Websites zu verwenden, um soziale Präferenzen zu untersuchen. Dieses Problem wurde von K. Lewis (2015a) als Antwort auf Anderson et al. (2014) .
Zusätzlich zu Facebook empfiehlt Twitter Benutzern auch, basierend auf der Idee des Triadischen Schließens, den Benutzern zu folgen; siehe Su, Sharma, and Goel (2016) . Das Niveau der triadischen Schließung in Twitter ist also eine Kombination aus einer menschlichen Tendenz zur triadischen Schließung und einer algorithmischen Tendenz, die triadische Schließung zu fördern.
Mehr zur Performativität - insbesondere die Idee, dass einige sozialwissenschaftliche Theorien "Motoren nicht Kameras" sind (dh sie prägen die Welt, anstatt sie nur zu beschreiben) - siehe Mackenzie (2008) .
Staatliche Statistikämter rufen Datenbereinigung statistischer Datenbearbeitung auf . De Waal, Puts, and Daas (2014) beschreiben statistische Dateneditierungsmethoden, die für Umfragedaten entwickelt wurden, und untersuchen, inwieweit sie auf große Datenquellen anwendbar sind. Puts, Daas, and Waal (2015) stellen einige der gleichen Ideen vor ein allgemeines Publikum.
Für einen Überblick über soziale Bots, siehe Ferrara et al. (2016) . Für einige Beispiele von Studien, die sich auf das Auffinden von Spam in Twitter konzentrieren, siehe Clark et al. (2016) und Chu et al. (2012) . Subrahmanian et al. (2016) beschreiben die Ergebnisse der DARPA Twitter Bot Challenge, einer Massen-Kollaboration, die Ansätze zum Aufspüren von Bots auf Twitter vergleicht.
Ohm (2015) frühere Forschungen zur Idee sensibler Informationen und bietet einen Multifaktor-Test an. Die vier Faktoren, die er vorschlägt, sind das Ausmaß des Schadens, die Wahrscheinlichkeit eines Schadens, das Vorhandensein einer vertraulichen Beziehung und ob das Risiko die Mehrheitsanliegen widerspiegelt.
Farbers Studie über Taxis in New York basierte auf einer früheren Studie von Camerer et al. (1997) , die drei verschiedene Komfortproben von Papierreiseblättern verwendet. Diese frühere Studie ergab, dass die Fahrer Zielverdiener zu sein scheinen: Sie arbeiteten weniger an Tagen, an denen ihre Löhne höher waren.
In weiteren Arbeiten haben King und seine Kollegen die Online-Zensur in China weiter erforscht (King, Pan, and Roberts 2014, [@king_how_2016] ) . Für einen verwandten Ansatz zur Messung der Online-Zensur in China siehe Bamman, O'Connor, and Smith (2012) . Mehr über statistische Methoden wie die in King, Pan, and Roberts (2013) zur Schätzung der Stimmung der 11 Millionen Posts, siehe Hopkins and King (2010) . Weitere Informationen zum überwachten Lernen finden Sie in James et al. (2013) (weniger technisch) und Hastie, Tibshirani, and Friedman (2009) (technischer).
Prognose ist ein großer Teil der industriellen Datenwissenschaft (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Eine Art von Prognosen, die von Sozialforschern üblicherweise durchgeführt werden, ist die demografische Vorhersage; siehe beispielsweise Raftery et al. (2012) .
Google Flu Trends war nicht das erste Projekt, das Suchdaten nutzte, um die Influenza-Prävalenz zu simulieren. Tatsächlich haben Forscher in den USA (Polgreen et al. 2008; Ginsberg et al. 2009) und Schweden (Hulth, Rydevik, and Linde 2009) festgestellt, dass bestimmte Suchbegriffe (z. B. "Grippe") eine nationale Überwachung der öffentlichen Gesundheit voraussagten Daten vor der Veröffentlichung. In der Folge haben viele, viele andere Projekte versucht, digitale Trace-Daten zur Erkennung von Krankheitsüberwachungen zu verwenden. siehe Althouse et al. (2015) für eine Überprüfung.
Zusätzlich zur Verwendung von digitalen Trace-Daten zur Vorhersage von Gesundheitsergebnissen, gab es auch eine Menge Arbeit mit Twitter-Daten, um Wahlergebnisse vorherzusagen; für Bewertungen siehe Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Kapitel 7) und Huberty (2015) . Nowcasting von Wirtschaftsindikatoren wie dem Bruttoinlandsprodukt (BIP) ist auch in Zentralbanken üblich, siehe Bańbura et al. (2013) . Tabelle 2.8 enthält einige Beispiele von Studien, die eine Art von digitaler Spur verwenden, um eine Art von Ereignis in der Welt vorherzusagen.
Digitale Ablaufverfolgung | Ergebnis | Zitat |
---|---|---|
Kasseneinnahmen von Filmen in den USA | Asur and Huberman (2010) | |
Logs durchsuchen | Verkauf von Filmen, Musik, Büchern und Videospielen in den USA | Goel et al. (2010) |
Dow Jones Industrial Average (US-Aktienmarkt) | Bollen, Mao, and Zeng (2011) | |
Social Media und Suchprotokolle | Umfragen zur Anlegerstimmung und den Aktienmärkten in den Vereinigten Staaten, Großbritannien, Kanada und China | Mao et al. (2015) |
Logs durchsuchen | Prävalenz von Dengue-Fieber in Singapur und Bangkok | Althouse, Ng, and Cummings (2011) |
Schließlich haben Jon Kleinberg und seine Kollegen (2015) darauf hingewiesen, dass Prognoseprobleme in zwei subtil unterschiedliche Kategorien fallen und dass Sozialwissenschaftler sich auf einen konzentrieren und den anderen ignorieren. Stellen Sie sich eine Politikerin vor, ich nenne sie Anna, die sich einer Dürre gegenübersieht und sich entscheiden muss, ob sie einen Schamanen anheuert, um einen Regentanz zu veranstalten, um die Chance auf Regen zu erhöhen. Eine andere Politikerin, ich nenne sie Betty, muss entscheiden, ob sie einen Regenschirm mitnehmen soll, um auf dem Heimweg nicht nass zu werden. Anna und Betty können eine bessere Entscheidung treffen, wenn sie das Wetter verstehen, aber sie müssen verschiedene Dinge wissen. Anna muss verstehen, ob der Regentanz Regen verursacht. Betty hingegen braucht nichts über die Kausalität zu verstehen; Sie braucht nur eine genaue Prognose. Die Sozialforscher konzentrieren sich oft auf die Probleme, mit denen Anna konfrontiert ist - was Kleinberg und Kollegen "regentanzartige" Politikprobleme nennen - weil sie Kausalitätsfragen beinhalten. Fragen wie die von Betty - die Kleinberg und seine Kollegen als "schirmartige" Politikprobleme bezeichnen - können ebenfalls sehr wichtig sein, haben aber von Sozialforschern viel weniger Aufmerksamkeit erhalten.
Die Zeitschrift PS Political Science hatte ein Symposium über Big Data, kausale Inferenz und formale Theorie, und Clark and Golder (2015) fassen jeden Beitrag zusammen. Das Journal Proceedings der National Academy of Sciences der Vereinigten Staaten von Amerika hatte ein Symposium über kausale Inferenz und Big Data, und Shiffrin (2016) fasst jeden Beitrag zusammen. Für Ansätze des maschinellen Lernens, die versuchen, natürliche Experimente in großen Datenquellen automatisch zu entdecken, siehe Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) sowie Sharma, Hofman, and Watts (2016) .
In Bezug auf natürliche Experimente bietet Dunning (2012) eine einführende, buchlange Behandlung mit vielen Beispielen. Für eine skeptische Sicht auf natürliche Experimente siehe Rosenzweig and Wolpin (2000) (Wirtschaft) oder Sekhon and Titiunik (2012) (Politikwissenschaft). Deaton (2010) und Heckman and Urzúa (2010) argumentieren, dass die Konzentration auf natürliche Experimente dazu führen kann, dass Forscher sich darauf konzentrieren, unwichtige kausale Effekte abzuschätzen; Imbens (2010) begegnet diesen Argumenten mit einer optimistischeren Einschätzung des Wertes natürlicher Experimente.
Wenn ich beschreibe, wie ein Forscher von der Abschätzung des Wirkungseffekts auf die Wirkung des Servierens übergehen kann, beschreibe ich eine Technik, die instrumentelle Variablen genannt wird . Imbens and Rubin (2015) in ihren Kapiteln 23 und 24 eine Einführung und verwenden den Lotterieentwurf als Beispiel. Der Effekt des Militärdienstes auf Compliers wird manchmal der Complier-Durchschnittskausaleffekt (CAcE) und manchmal der lokale durchschnittliche Behandlungseffekt (LATE) genannt. Sovey and Green (2011) , Angrist and Krueger (2001) sowie Bollen (2012) bieten einen Überblick über die Verwendung von instrumentellen Variablen in Politikwissenschaft, Ökonomie und Soziologie, und Sovey and Green (2011) bietet eine "Checkliste für Leser" Auswertung von Studien mit instrumentellen Variablen.
Es stellt sich heraus, dass der Lotterieentwurf von 1970 nicht richtig randomisiert wurde; es gab kleine Abweichungen von der reinen Zufälligkeit (Fienberg 1971) . Berinsky and Chatfield (2015) argumentieren, dass diese kleine Abweichung nicht substanziell wichtig ist und diskutieren die Wichtigkeit einer richtig durchgeführten Randomisierung.
Hinsichtlich des Matchings siehe Stuart (2010) für eine optimistische Überprüfung und Sekhon (2009) für eine pessimistische Überprüfung. Näheres zur Anpassung als eine Art Beschneidung finden Sie in Ho et al. (2007) . Es ist oft schwierig, eine einzelne perfekte Übereinstimmung für jede Person zu finden, was zu einer Reihe von Komplexitäten führt. Erstens, wenn genaue Übereinstimmungen nicht verfügbar sind, müssen die Forscher entscheiden, wie der Abstand zwischen zwei Einheiten gemessen werden soll und ob eine gegebene Entfernung nahe genug ist. Eine zweite Komplexität entsteht, wenn Forscher für jeden Fall in der Behandlungsgruppe mehrere Treffer verwenden wollen, da dies zu genaueren Schätzungen führen kann. Diese und andere Fragen sind in Kapitel 18 von Imbens and Rubin (2015) ausführlich beschrieben. Siehe auch Teil II von ( ??? ) .
Siehe Dehejia and Wahba (1999) für ein Beispiel, in dem übereinstimmende Methoden Schätzungen ähnlich denen eines randomisierten kontrollierten Experiments liefern konnten. Aber, siehe Arceneaux, Gerber, and Green (2006) und Arceneaux, Gerber, and Green (2010) für Beispiele, bei denen Matching-Methoden keinen experimentellen Benchmark reproduzierten.
Rosenbaum (2015) und Hernán and Robins (2016) bieten weitere Ratschläge, um nützliche Vergleiche in großen Datenquellen zu finden.