Один вид наблюдения, который не включен в эту главу, - это этнография. Более подробно об этнографии в цифровых пространствах см. Boellstorff et al. (2012) , а также об этнографии в смешанных цифровых и физических пространствах, см. Lane (2016) .
Единого консенсусного определения «больших данных» нет, но многие определения, по-видимому, сосредоточены на «3 Vs»: объеме, разнообразии и скорости (например, Japec et al. (2015) ). См. De Mauro et al. (2015) для обзора определений.
Мое включение правительственных административных данных в категорию больших данных несколько необычно, хотя другие также делали это дело, включая Legewie (2015) , Connelly et al. (2016) и Einav and Levin (2014) . Для получения дополнительной информации о правительственных административных данных для исследований см. Card et al. (2010) , « Adminstrative Data Taskforce (2012) и Grusky, Smeeding, and Snipp (2015) .
Для изучения административных исследований изнутри государственной статистической системы, в частности Бюро переписи населения США, см. Jarmin and O'Hara (2016) . Для книжного изучения исследований административных записей в Статистическом управлении Швеции см. Wallgren and Wallgren (2007) .
В этой главе я кратко сопоставил традиционный опрос, такой как «Общее социальное исследование» (GSS) с источником данных в социальных сетях, таких как Twitter. Для тщательного и тщательного сравнения традиционных обследований с данными в социальных сетях см. Schober et al. (2016) .
Эти 10 характеристик больших данных были описаны различными способами различными авторами. Написание, которое повлияло на мое мышление по этим вопросам, включает Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) и Goldstone and Lupyan (2016) .
Всюду в этой главе я использовал термин « цифровые следы» , который, я думаю, относительно нейтрален. Другой популярный термин для цифровых следов - цифровые следы (Golder and Macy 2014) , но, как отмечают Хэл Абельсон, Кен Ледин и Гарри Льюис (2008) , более подходящим термином, вероятно, являются цифровые отпечатки пальцев . Когда вы создаете следы, вы знаете, что происходит, и ваши следы обычно не могут быть отслежены лично вам. То же самое не относится к вашим цифровым трассам. Фактически, вы оставляете следы все время, о которых у вас мало знаний. И, хотя эти следы не имеют вашего имени на них, их часто можно связать с вами. Другими словами, они больше похожи на отпечатки пальцев: невидимые и лично идентифицирующие.
Более подробно о том, почему большие наборы данных ставят статистические тесты проблематично, см. M. Lin, Lucas, and Shmueli (2013) и McFarland and McFarland (2015) . Эти вопросы должны побуждать исследователей сосредоточиться на практическом значении, а не на статистической значимости.
Подробнее о том, как Радж Четти и его коллеги получили доступ к налоговым отчетам, см. Mervis (2014) .
Большие наборы данных также могут создавать вычислительные проблемы, которые обычно выходят за пределы возможностей одного компьютера. Поэтому исследователи, делающие вычисления на больших наборах данных, часто распространяют работу на многих компьютерах, что иногда называют параллельным программированием . Для введения в параллельное программирование, в частности язык под названием Hadoop, см. Vo and Silvia (2016) .
Рассматривая данные о времени, важно учитывать, сравниваетесь ли вы с теми же людьми с течением времени или сравниваете ли вы какую-то меняющуюся группу людей; см., например, Diaz et al. (2016) .
Классическая книга о нереактивных мерах - Webb et al. (1966) . Примеры в этой книге предшествовали эпохе цифровых технологий, но они все еще освещают. Примеры людей, изменяющих свое поведение из-за наличия массового наблюдения, см. Penney (2016) и Brayne (2014) .
Реактивность тесно связана с тем, что исследователи называют эффектами спроса (Orne 1962; Zizzo 2010) и эффектом Хоторна (Adair 1984; Levitt and List 2011) .
Более подробно о Fellegi and Sunter (1969) связи см. Dunn (1946) и Fellegi and Sunter (1969) (исторический) и Larsen and Winkler (2014) (современный). Аналогичные подходы также были разработаны в области компьютерных наук под такими именами, как дедупликация данных, идентификация экземпляра, совпадение имен, обнаружение дубликатов и обнаружение дублированных записей (Elmagarmid, Ipeirotis, and Verykios 2007) . Существуют также способы сохранения конфиденциальности для записи связей, которые не требуют передачи персональной информации (Schnell 2013) . Facebook также разработал процесс привязки своих записей к голосованию; это было сделано для оценки эксперимента, о котором я расскажу в главе 4 (Bond et al. 2012; Jones et al. 2013) .
Более подробно о конструкции можно найти в главе 3 « Shadish, Cook, and Campbell (2001) .
Дополнительные сведения о фиалке журнала поиска AOL см. В разделе « Ohm (2010) . Я предлагаю советы о партнерстве с компаниями и правительствами в главе 4, когда я описываю эксперименты. Ряд авторов высказали озабоченность по поводу исследований, которые основаны на недоступных данных, см. Huberman (2012) и boyd and Crawford (2012) .
Один хороший способ для университетских исследователей, чтобы получить доступ к данным, чтобы работать в компании в качестве стажера или приглашенного исследователя. В дополнение к предоставлению доступа к данным, этот процесс также поможет исследователю узнать больше о том, как создавалась данных, что важно для анализа.
Что касается получения доступа к правительственным данным, Mervis (2014) обсуждает, как Радж Четти и его коллеги получили доступ к налоговым отчетам, используемым в их исследованиях по социальной мобильности.
Более подробно об истории «репрезентативности» как концепции см. Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) и Kruskal and Mosteller (1980) .
Мои резюме работы Снега и работы Куклы и Хилла были краткими. Более подробно о работе Снега по холере см. Freedman (1991) . Более подробно о британских исследованиях врачей см. Doll et al. (2004) и Keating (2014) .
Многие исследователи с удивлением узнают, что, хотя Кукла и Хилл собирали данные от женщин-врачей и докторов до 35 лет, они намеренно не использовали эти данные в своем первом анализе. Поскольку они утверждали: «Поскольку рак легких относительно редок у женщин и мужчин в возрасте до 35 лет, полезные цифры вряд ли будут получены в этих группах на несколько лет вперед. В этом предварительном докладе мы поэтому ограничили наше внимание мужчинами в возрасте 35 лет и старше ». Rothman, Gallacher, and Hatch (2013) , в котором есть провокационное название« Почему репрезентативность следует избегать », сделайте более общий аргумент в пользу ценности намеренно создавая нерепрезентативные данные.
Непредставленность является серьезной проблемой для исследователей и правительств, которые хотят выступить с заявлениями о целом населении. Это меньше беспокоит компании, которые, как правило, ориентированы на своих пользователей. Подробнее о том, как Статистическое управление Нидерландов рассматривает проблему нерепрезентативности крупных деловых данных, см. Buelens et al. (2014) .
Для примеров исследователей, выражающих озабоченность по поводу нерепрезентативности больших источников данных, см. boyd and Crawford (2012) , K. Lewis (2015b) и Hargittai (2015) .
Более подробное сравнение целей социальных опросов и эпидемиологических исследований см. Keiding and Louis (2016) .
Более подробно о попытках использовать Twitter для составления обобщенных данных об избирателях, особенно в случае выборов в Германии в 2009 году, см. Jungherr (2013) и Jungherr (2015) . После работы Tumasjan et al. (2010) исследователи во всем мире использовали более благоприятные методы, такие как использование анализа настроений, чтобы отличить положительные и отрицательные упоминания сторон, - чтобы улучшить способность данных Twitter прогнозировать различные типы выборов (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Вот как Huberty (2015) подытожил результаты этих попыток предсказать выборы:
«Все известные методы прогнозирования, основанные на социальных сетях, потерпели неудачу, когда они подвергались требованиям настоящего прогнозного предвыборного прогнозирования. Эти неудачи, по-видимому, связаны с фундаментальными свойствами социальных сетей, а не с методологическими или алгоритмическими трудностями. Короче говоря, социальные медиа не могут и, вероятно, никогда не будут предлагать стабильную, непредвзятую, представительную картину электората; и образцы удобства в социальных сетях не располагают достаточными данными для решения этих проблем после hoc ».
В главе 3 я опишу выборку и оценку более подробно. Даже если данные нерепрезентативны, при определенных условиях их можно взвешивать для получения хороших оценок.
Системный дрейф очень трудно увидеть снаружи. Однако проект MovieLens (более подробно обсужденный в главе 4) уже более 15 лет проводится академической исследовательской группой. Таким образом, они смогли документировать и делиться информацией о том, как система эволюционировала с течением времени и как это может повлиять на анализ (Harper and Konstan 2015) .
Ряд ученых сосредоточился на дрейфе в Twitter: Liu, Kliman-Silver, and Mislove (2014) и Tufekci (2014) .
Один из подходов к борьбе с демографическим дрейфом заключается в создании группы пользователей, которая позволяет исследователям изучать одни и те же люди с течением времени, см. Diaz et al. (2016) .
Я впервые услышал слово «алгоритмически запутанное», которое использовал Джон Клейнберг в разговоре, но, к сожалению, я не помню, когда и где был дан разговор. В первый раз, когда я увидел этот термин в печати, в Anderson et al. (2015) , что представляет собой интересное обсуждение того, как алгоритмы, используемые сайтами знакомств, могут усложнить способность исследователей использовать данные с этих сайтов для изучения социальных предпочтений. Эта проблема была поднята K. Lewis (2015a) в ответ на Anderson et al. (2014) .
В дополнение к Facebook, Twitter также рекомендует людям следить за пользователями на основе идеи триадного закрытия; см. Su, Sharma, and Goel (2016) . Таким образом, уровень триадного закрытия в Twitter - это сочетание некоторой человеческой тенденции к триадическому закрытию и некоторой алгоритмической тенденции к продвижению триадного закрытия.
Более подробно о перформативности, в частности, идея о том, что некоторые теории социальных наук являются «двигателями не камер» (т. Е. Они формируют мир, а не просто описывают его) - см. Mackenzie (2008) .
Правительственные статистические агентства называют редактирование статистических данных для очистки данных . De Waal, Puts, and Daas (2014) описывают методы редактирования статистических данных, разработанные для данных опроса, и изучают, насколько они применимы к крупным источникам данных, а Puts, Daas, and Waal (2015) представляют некоторые из тех же идей для более общая аудитория.
Для обзора социальных ботов см. Ferrara et al. (2016) . Для некоторых примеров исследований, посвященных поиску спама в Twitter, см. Clark et al. (2016) и Chu et al. (2012) . Наконец, Subrahmanian et al. (2016) описывают результаты DARPA Twitter Bot Challenge, массовое сотрудничество, предназначенное для сравнения подходов к обнаружению ботов в Twitter.
Ohm (2015) рассматривает раннее исследование идеи чувствительной информации и предлагает многофакторный тест. Четыре фактора, которые он предлагает, - это величина ущерба, вероятность причинения вреда, наличие конфиденциальных отношений и отражает ли риск мажоритарные проблемы.
Исследование Фарбера такси в Нью-Йорке было основано на более раннем исследовании Camerer et al. (1997) котором использовались три различных примера удобных листов для листов бумаги. Это раннее исследование показало, что водители, казалось, были целевыми людьми: они работали меньше в дни, когда их заработная плата была выше.
В последующей работе Кинг и его коллеги изучили онлайн-цензуру в Китае (King, Pan, and Roberts 2014, [@king_how_2016] ) . Для соответствующего подхода к измерению онлайн-цензуры в Китае см. Bamman, O'Connor, and Smith (2012) . Более подробно о статистических методах, подобных тем, которые использовались в King, Pan, and Roberts (2013) чтобы оценить настроение 11 миллионов должностей, см. В Hopkins and King (2010) . Более подробно о контролируемом обучении см. James et al. (2013) (менее технические) и Hastie, Tibshirani, and Friedman (2009) (более технические).
Прогнозирование - это значительная часть науки о промышленных данных (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Одним из видов прогнозирования, который обычно делают социальные исследователи, является демографическое прогнозирование; см., например, Raftery et al. (2012) .
Google Flu Trends не был первым проектом, который использовал данные поиска для распространения распространенности вируса в настоящее время. Фактически, исследователи в Соединенных Штатах (Polgreen et al. 2008; Ginsberg et al. 2009) и Швеция (Hulth, Rydevik, and Linde 2009) обнаружили, что определенные поисковые термины (например, «грипп») предсказывают национальный надзор за общественным здравоохранением данных до его выпуска. Впоследствии многие и многие другие проекты пытались использовать данные цифровой трассировки для обнаружения заболеваний; см. Althouse et al. (2015) для обзора.
Помимо использования данных цифровой трассировки для прогнозирования результатов в отношении здоровья, также была огромная работа с использованием данных Twitter для прогнозирования результатов выборов; для обзоров см. Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (глава 7) и Huberty (2015) . Прогнозирование экономических показателей, таких как валовой внутренний продукт (ВВП), также распространено в центральных банках, см. Bańbura et al. (2013) . таблица 2.8 включает в себя несколько примеров исследований, которые используют какой-то цифровой след для предсказания какого-либо события в мире.
Цифровая трасса | результат | цитирование |
---|---|---|
щебет | Доход в кино в США | Asur and Huberman (2010) |
Журналы поиска | Продажа фильмов, музыки, книг и видеоигр в США. | Goel et al. (2010) |
щебет | Промышленный индекс Dow Jones (фондовый рынок США) | Bollen, Mao, and Zeng (2011) |
Социальные медиа и поисковые журналы | Опросы инвесторов и фондовых рынков в США, Великобритании, Канаде и Китае | Mao et al. (2015) |
Журналы поиска | Распространенность лихорадки денге в Сингапуре и Бангкоке | Althouse, Ng, and Cummings (2011) |
Наконец, Джон Клейнберг и его коллеги (2015) отметили, что проблемы прогнозирования делятся на две, несколько разные категории и что социологи склонны сосредоточиться на одном и игнорировать другие. Представьте себе одного из политиков, я позвоню ее Анне, которая сталкивается с засухой и должна решить, нанимать ли шамана для танцев дождем, чтобы увеличить вероятность дождя. Другой политик, я позвоню ей Бетти, должен решить, нужно ли использовать зонтик для работы, чтобы не промокнуть по дороге домой. И Анна, и Бетти могут принять лучшее решение, если они понимают погоду, но им нужно знать разные вещи. Анна должна понять, вызывает ли дождь дождь дождь. С другой стороны, Бетти не нуждается в понимании причинности; ей просто нужен точный прогноз. Социальные исследователи часто сосредотачиваются на проблемах, подобных тем, с которыми сталкивается Анна, - которые Клейнберг и его коллеги называют «проблемами, связанными с танцами в стиле дождя», потому что они связаны с вопросами причинности. Вопросы, подобные тем, с которыми сталкивается Бетти, которые Клейнберг и его коллеги называют «проблемами, подобными зонтику», могут быть весьма важными, но они получили гораздо меньше внимания со стороны социальных исследователей.
В журнале « Политическая наука» был проведен симпозиум по крупным данным, каузальным выводам и формальной теории, а Clark and Golder (2015) суммируют каждый вклад. В журнале « Труды Национальной академии наук Соединенных Штатов Америки» был проведен симпозиум по каузальным выводам и большим данным, а Shiffrin (2016) суммирует каждый вклад. Для подходов машинного обучения, которые пытаются автоматически обнаружить естественные эксперименты внутри больших источников данных, см. Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , Sharma, Hofman, and Watts (2016) .
Что касается естественных экспериментов, Dunning (2012) предлагает вводное, книжное лечение со многими примерами. Для скептического взгляда на естественные эксперименты см. Rosenzweig and Wolpin (2000) (экономика) или Sekhon and Titiunik (2012) (политология). Deaton (2010) и Heckman and Urzúa (2010) утверждают, что сосредоточение внимания на естественных экспериментах может Heckman and Urzúa (2010) исследователей сосредоточиться на оценке несущественных причинно-следственных эффектов; Imbens (2010) эти аргументы с более оптимистичным представлением о ценности естественных экспериментов.
При описании того, как исследователь мог перейти от оценки эффекта подготовки к действию служения, я описывал метод, называемый инструментальными переменными . Imbens and Rubin (2015) , в своих главах 23 и 24, предоставляют введение и используют проект лотереи в качестве примера. Влияние военной службы на судейских работников иногда называют средним причинным эффектом (CAcE), а иногда и местным средним лечебным эффектом (ПОЗЖЕ). Sovey and Green (2011) , Angrist and Krueger (2001) и Bollen (2012) предлагают обзоры использования инструментальных переменных в политической науке, экономике и социологии, а Sovey and Green (2011) предоставляет «контрольный список читателей» для оценивая исследования с использованием инструментальных переменных.
Оказывается, лотерея в 1970 году не была, по сути, рандомизирована; были небольшие отклонения от чистой случайности (Fienberg 1971) . Berinsky and Chatfield (2015) утверждают, что это небольшое отклонение не имеет существенного значения и обсуждает важность правильно проведенной рандомизации.
Что касается соответствия, см. Stuart (2010) для оптимистического обзора, а Sekhon (2009) для пессимистического обзора. Более подробно о согласовании в качестве своего рода обрезки см. Ho et al. (2007) . Поиск единственного идеального соответствия для каждого человека часто бывает трудным, и это создает ряд сложностей. Во-первых, когда точные совпадения недоступны, исследователям необходимо решить, как измерить расстояние между двумя единицами, и если заданное расстояние достаточно близко. Вторая сложность возникает, если исследователи хотят использовать несколько совпадений для каждого случая в группе лечения, поскольку это может привести к более точным оценкам. Оба этих вопроса, как и другие, подробно описаны в главе 18 « Imbens and Rubin (2015) . См. Также часть II ( ??? ) .
См. Dehejia and Wahba (1999) на примере, где методы сопоставления были способны производить оценки, аналогичные оценкам из рандомизированного контролируемого эксперимента. Но, см. Arceneaux, Gerber, and Green (2006) и Arceneaux, Gerber, and Green (2010) для примеров, когда методы сопоставления не смогли воспроизвести экспериментальный бенчмарк.
Rosenbaum (2015) и Hernán and Robins (2016) предлагают другие рекомендации для обнаружения полезных сравнений в больших источниках данных.