D'autres commentaires

Cette section est conçue pour être utilisée comme référence, plutôt que d'être lu comme un récit.

  • Introduction (section 2.1)

Un genre d'observation qui ne sont pas inclus dans ce chapitre est l'ethnographie. Pour en savoir plus sur l' ethnographie dans des espaces numériques voir Boellstorff et al. (2012) , et pour en savoir plus sur l' ethnographie dans les espaces numériques et physiques mixtes voir Lane (2016) .

  • Big data (section 2.2)

Lorsque vous repurposing données, il existe deux astuces mentales qui peuvent vous aider à comprendre les problèmes éventuels que vous pourriez rencontrer. D'abord, vous pouvez essayer d'imaginer l'ensemble de données idéal pour votre problème et le comparer à l'ensemble de données que vous utilisez. Comment sont-ils semblables et comment sont-ils différents? Si vous ne collectez vos données vous-même, il y a probablement différence entre ce que vous voulez et ce que vous avez. Mais, vous devez décider si ces différences sont mineures ou majeures.

Deuxièmement, rappelez-vous que quelqu'un a créé et recueilli vos données pour une raison quelconque. Vous devriez essayer de comprendre leur raisonnement. Ce type de rétro-ingénierie peut vous aider à identifier les problèmes et les biais possibles dans vos données repurposed.

Il n'y a pas de définition unique de consensus "big data", mais de nombreuses définitions semblent se concentrer sur le 3 Vs: (par exemple, le volume, la variété et la vitesse Japec et al. (2015) ). Plutôt que de se concentrer sur les caractéristiques des données, ma définition se concentre davantage sur la raison pour laquelle les données ont été créées.

Mon inclusion de données administratives du gouvernement à l'intérieur de la catégorie des gros volumes de données est un peu inhabituelle. D' autres qui ont fait de ce cas, notamment Legewie (2015) , Connelly et al. (2016) , et Einav and Levin (2014) . Pour en savoir plus sur la valeur des données administratives du gouvernement pour la recherche, voir Card et al. (2010) , Taskforce (2012) de Grusky, Smeeding, and Snipp (2015) Taskforce (2012) , et Grusky, Smeeding, and Snipp (2015) .

Pour une vue de la recherche administrative de l' intérieur du système statistique du gouvernement, en particulier le Bureau du recensement des États - Unis, voir Jarmin and O'Hara (2016) . Pour un traitement de longueur de livre de la recherche sur les dossiers administratifs à Statistics Sweden, voir Wallgren and Wallgren (2007) .

Dans le chapitre, je comparais brièvement une enquête traditionnelle comme l'Enquête sociale générale (ESG) à une source de données de médias sociaux tels que Twitter. Pour une comparaison approfondie et minutieuse entre les enquêtes traditionnelles et les données des médias sociaux, voir Schober et al. (2016) .

  • Les caractéristiques communes des grandes données (section 2.3)

Ces 10 caractéristiques de grands volumes de données ont été décrites dans une variété de façons différentes par une variété de différents auteurs. L' écriture qui a influencé ma réflexion sur ces questions comprennent: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , et Goldstone and Lupyan (2016) .

Tout au long de ce chapitre, je l' ai utilisé les traces numériques à long terme, ce qui je pense est relativement neutre. Un autre terme populaire pour les traces numériques est empreintes numériques (Golder and Macy 2014) , mais comme Hal Abelson, Ken Ledeen, et Harry Lewis (2008) signale, un terme plus approprié est probablement empreintes digitales. Lorsque vous créez des empreintes, vous êtes au courant de ce qui se passe et vos empreintes ne peuvent généralement pas être attribués à vous personnellement. La même chose est pas vrai pour vos traces numériques. En fait, vous laissez des traces tout le temps dont vous avez très peu de connaissances. Et, bien que ces traces ne sont pas votre nom sur eux, ils peuvent souvent être reliés à vous. En d'autres termes, ils sont plus comme les empreintes digitales: invisible et d'identification personnelle.

Gros

Pour en savoir plus sur les raisons de grands ensembles de données, rendent les tests statistiques problématique, voir Lin, Lucas, and Shmueli (2013) et McFarland and McFarland (2015) . Ces questions devraient conduire les chercheurs à se concentrer sur la signification pratique plutôt que la signification statistique.

Toujours sur

Lorsque l'on considère toujours sur les données, il est important d'examiner si vous comparez les mêmes personnes exactes au fil du temps ou si vous comparez un groupe changeant de personnes; voir , par exemple, Diaz et al. (2016) .

Non réactive

Un livre classique sur les mesures non-réactifs est Webb et al. (1966) . Les exemples dans le livre antidater l'âge numérique, mais ils sont toujours éclairantes. Pour des exemples de gens changent leur comportement en raison de la présence de la surveillance de masse, voir Penney (2016) et Brayne (2014) .

Incomplet

Pour en savoir plus sur le couplage d'enregistrements, voir Dunn (1946) et Fellegi and Sunter (1969) (historique) et Larsen and Winkler (2014) (moderne). Approché similaires ont également été développés en informatique sous les noms tels que la déduplication des données, l' identification de l' instance, le nom correspondant, détection des doublons, et la détection de doublons d'enregistrement (Elmagarmid, Ipeirotis, and Verykios 2007) . Il y a aussi la vie privée en préservant les approches pour enregistrer liaison qui ne nécessitent pas la transmission d'informations d' identification personnelle (Schnell 2013) . Facebook a également développé un procéder pour relier leurs dossiers au comportement de vote; cela a été fait pour évaluer une expérience que je vais vous parler dans le chapitre 4 (Bond et al. 2012; Jones et al. 2013) .

Pour en savoir plus sur la validité conceptuelle, voir Shadish, Cook, and Campbell (2001) , chapitre 3.

Inaccessible

Pour en savoir plus sur AOL recherche journal débâcle, voir Ohm (2010) . Je vous offre des conseils sur des partenariats avec des entreprises et des gouvernements dans le chapitre 4, quand je décris les expériences. Un certain nombre d'auteurs ont exprimé des préoccupations au sujet de la recherche qui repose sur les données inaccessibles, voir Huberman (2012) et boyd and Crawford (2012) .

Une bonne façon pour les chercheurs universitaires d'acquérir l'accès aux données est de travailler dans une entreprise en tant que stagiaire ou chercheur invité. En plus de permettre l'accès aux données, ce processus aidera aussi le chercheur en savoir plus sur la façon dont les données ont été créés, ce qui est important pour l'analyse.

Non représentatif

Non-représentativité est un problème majeur pour les chercheurs et les gouvernements qui souhaitent faire des déclarations sur une population entière. Cela est moins préoccupante pour les entreprises qui sont généralement axés sur leurs utilisateurs. Pour en savoir plus sur la façon dont Statistique Pays - Bas considère que la question de la non-représentativité des entreprises grandes données, voir Buelens et al. (2014) .

Dans le chapitre 3, je vais décrire l'échantillonnage et l'estimation beaucoup plus en détail. Même si les données ne sont pas représentatives, sous certaines conditions, ils peuvent être pondérés pour produire de bonnes estimations.

Dérive

la dérive du système est très difficile de voir de l'extérieur. Cependant, le projet de MovieLens (discuté plus dans le chapitre 4) a été exécuté pendant plus de 15 ans par un groupe de recherche universitaire. Par conséquent, ils ont documenté et partagé des informations sur la façon dont le système a évolué au fil du temps et comment cette analyse pourrait avoir un impact (Harper and Konstan 2015) .

Un certain nombre de chercheurs ont mis l' accent sur ​​la dérive sur Twitter: Liu, Kliman-Silver, and Mislove (2014) et Tufekci (2014) .

algorithmiquement confondu

J'ai entendu le terme «algorithmiquement confondu» utilisé par Jon Kleinberg dans un discours. L'idée principale derrière la performativité est que certaines théories des sciences sociales sont des «moteurs non caméras» (Mackenzie 2008) , (Mackenzie 2008) . Autrement dit, ils façonnent effectivement le monde plutôt que de le capturer.

Sale

Organismes statistiques gouvernementales appellent le nettoyage des données, l' édition des données statistiques. De Waal, Puts, and Daas (2014) décrivent des techniques d'édition des données statistiques élaborées pour les données d'enquête et d' examiner dans quelle mesure ils sont applicables aux sources de données grandes et Puts, Daas, and Waal (2015) présente quelques - uns des mêmes idées pour un public plus général.

Pour quelques exemples d'études ont porté sur le spam sur Twitter, Clark et al. (2016) et Chu et al. (2012) . Enfin, Subrahmanian et al. (2016) décrit les résultats de la DARPA Twitter Bot Challenge.

Sensible

Ohm (2015) examine les recherches antérieures sur l'idée de l' information sensible et propose un test multi-facteurs. Les quatre facteurs qu'il propose sont: la probabilité d'un dommage; probabilité d'un dommage; présence d'une relation confidentielle; et si le risque de refléter les préoccupations majoritaires.

  • Comptage des choses (section 2.4.1)

L'étude de Farber de taxis à New York a été basé sur une étude antérieure par Camerer et al. (1997) qui a utilisé trois échantillons de voyage papier formes feuilles-papier utilisés par les conducteurs pour enregistrer le temps de début de voyage, heure de fin, et des plats différents dépanneurs. Cette étude antérieure a révélé que les conducteurs semblaient être salariés cibles: ils ont travaillé moins les jours où leurs salaires étaient plus élevés.

Kossinets and Watts (2009) a été porté sur les origines de l' homophilie dans les réseaux sociaux. Voir Wimmer and Lewis (2010) pour une approche différente du même problème qui utilise les données de Facebook.

Dans les travaux ultérieurs, le roi et ses collègues ont exploré plus la censure en ligne en Chine (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Pour une approche liée à la mesure de la censure en ligne en Chine, voir Bamman, O'Connor, and Smith (2012) . Pour en savoir plus sur les méthodes statistiques comme celle utilisée dans King, Pan, and Roberts (2013) pour estimer le sentiment des 11 millions de messages, voir Hopkins and King (2010) . Pour en savoir plus sur l' apprentissage supervisé, voir James et al. (2013) (moins technique) et Hastie, Tibshirani, and Friedman (2009) (plus technique).

  • Prévision (section 2.4.2)

La prévision est une grande partie de la science de données industrielles (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Un type de prévision qui sont généralement fait par des chercheurs sociaux sont des prévisions démographiques, par exemple Raftery et al. (2012) .

Google Flu Trends n'a pas été le premier projet à utiliser les données de recherche pour nowcast la prévalence de la grippe. En fait, les chercheurs aux États-Unis (Polgreen et al. 2008; Ginsberg et al. 2009) et la Suède (Hulth, Rydevik, and Linde 2009) ont constaté que certains termes de recherche (par exemple, la «grippe») prédit la surveillance nationale de la santé publique données avant qu'il a été libéré. Par la suite beaucoup, beaucoup d' autres projets ont essayé d'utiliser des données de trace numérique pour la détection de la surveillance des maladies, voir Althouse et al. (2015) pour un examen.

En plus d'utiliser les données de trace numérique pour prédire les résultats de la santé, il y a également eu une énorme quantité de travail en utilisant les données de Twitter pour prédire les résultats des élections; les avis voir Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), et Huberty (2015) .

En utilisant les données de recherche pour prédire la prévalence de la grippe et l'utilisation des données Twitter pour prédire les élections sont deux exemples de utilisant une sorte de trace numérique pour prédire un certain type d'événement dans le monde. Il un très grand nombre d'études qui ont cette structure générale. Le tableau 2.5 comprend quelques autres exemples.

Tableau 2.5: Liste partielle des études utilisent une trace numérique pour prédire un événement.
trace numérique Résultat Citation
Gazouillement Box revenus de bureau des films aux États-Unis Asur and Huberman (2010)
Rechercher les journaux Les ventes de films, musique, livres et jeux vidéo aux Etats-Unis Goel et al. (2010)
Gazouillement Dow Jones Industrial Average (marché boursier américain) Bollen, Mao, and Zeng (2011)
  • Expériences Approximation (section 2.4.3)

La revue PS science politique a eu un colloque sur les gros volumes de données, l' inférence causale, et la théorie formelle, et Clark and Golder (2015) résume chaque contribution. Les Actes du journal de l'Académie Nationale des Sciences des Etats-Unis d'Amérique ont eu un symposium sur l' inférence causale et les grandes données et Shiffrin (2016) résume chaque contribution.

En termes d'expériences naturelles, Dunning (2012) fournit un excellent traitement de la longueur du livre. Pour en savoir plus sur l' utilisation du Vietnam projet de loterie comme une expérience naturelle, voir Berinsky and Chatfield (2015) . Pour les méthodes d'apprentissage de la machine qui tentent de découvrir automatiquement des expériences naturelles à l' intérieur de sources de données grandes, voir Jensen et al. (2008) et Sharma, Hofman, and Watts (2015) .

En termes d'adaptation, pour un examen optimiste, voir Stuart (2010) , et pour un examen pessimiste voir Sekhon (2009) . Pour en savoir plus sur l' appariement comme une sorte de taille, voir Ho et al. (2007) . Pour les livres qui fournissent d' excellents traitements de correspondance, voir Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , et Imbens and Rubin (2015) .