Этот раздел предназначен для использования в качестве эталона, вместо того , чтобы быть прочитан как рассказ.
Один вид наблюдения, не включенные в этой главе этнография. Более подробную информацию о этнографию в цифровых пространствах см Boellstorff et al. (2012) и Boellstorff et al. (2012) , а также более подробную информацию о этнографию в смешанных цифровых и физических пространств см Lane (2016) .
Когда вы перепрофилирования данные, есть два ментальных трюков, которые могут помочь вам понять возможные проблемы, с которыми можно столкнуться. Во-первых, вы можете попытаться представить себе идеальный набор данных для вашей проблемы, и сравнить его с набором данных, которые вы используете. Как они похожи и чем они отличаются? Если вы не собирать ваши данные самостоятельно, есть, вероятно, будет разница между тем, что вы хотите и что у вас есть. Но, вы должны решить, если эти различия являются незначительными или майора.
Во-вторых, помните, что кто-то создал и собрали данные по какой-то причине. Вы должны попытаться понять их рассуждение. Этот вид обратной инженерии может помочь вам определить возможные проблемы и перекосы в ваших данных многократно использовать.
Там не существует единого определения консенсус "больших данных", но , кажется , много определений , чтобы сосредоточиться на 3 Vs: (например, объем, разнообразие и скорость Japec et al. (2015) и Japec et al. (2015) ). Вместо того, чтобы сосредоточиться на характеристиках данных, мое определение больше фокусируется на том, почему была создана данные.
Мое включение государственных административных данных внутри категории больших объемов данных немного необычно. Другие , которые сделали этот случай, включают Legewie (2015) , Connelly et al. (2016) и Connelly et al. (2016) , и Einav and Levin (2014) . Более подробную информацию о стоимости государственных административных данных для проведения исследований, см Card et al. (2010) и Card et al. (2010) , Taskforce (2012) , и Grusky, Smeeding, and Snipp (2015) .
Для зрения административного исследования изнутри государственной статистической системы, в частности , Бюро переписи населения США, см Jarmin and O'Hara (2016) . Для длины книга лечения исследования административных записей в Статистическое управление Швеции, см Wallgren and Wallgren (2007) .
В этой главе я кратко сравнил традиционный опрос, таких как General Social Survey (GSS) в качестве источника данных социальных медиа, таких как Twitter. Для тщательного и тщательного сравнения между традиционными обследований и данных социальных медиа, см Schober et al. (2016) и Schober et al. (2016) .
Эти 10 характеристик больших данных были описаны в различных способов с помощью множества различных авторов. Дать , что повлияло на мое мышление по этим вопросам относятся: Lazer et al. (2009) и Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) и Japec et al. (2015) , и Goldstone and Lupyan (2016) .
В этой главе я использовал термин цифровые следы, которые я думаю относительно нейтральным. Еще один популярный термин для цифровых следов является цифровые отпечатки ног (Golder and Macy 2014) , но , как Hal Абельсоном, Кен Ледин, и Гарри Льюис (2008) указывают, более подходящий термин, вероятно , цифровые отпечатки пальцев. Когда вы создаете следы, вы знаете о том, что происходит, и ваши отпечатки ног вообще не может быть прослежена к вам лично. То же самое не верно для ваших цифровых следов. На самом деле, вы оставляете следы все время о том, какие у вас есть очень мало знаний. И, хотя эти следы не имеют свое имя на них, они часто могут быть связаны с вами. Другими словами, они больше похожи на отпечатки пальцев: невидимая и лично идентификации.
большой
Более подробную информацию о том, почему большие наборы данных, визуализации статистических тестов проблематично см Lin, Lucas, and Shmueli (2013) и McFarland and McFarland (2015) . Эти вопросы должны привести исследователей сосредоточить внимание на практическую значимость, а не статистической значимости.
Всегда включен
При рассмотрении вопроса всегда на данных, важно рассмотреть вопрос о том, что вы сравниваете те же люди в течение долгого времени, или вы сравниваете некоторую меняющуюся группу людей; смотри, например, Diaz et al. (2016) и Diaz et al. (2016) .
Нереактивный
Классическая книга по нереакционноспособных мер Webb et al. (1966) и Webb et al. (1966) . Примеры, приведенные в книге предварительной дате цифровой век, но они по-прежнему освещая. Примеры людей изменить свое поведение из-за наличия массового наблюдения, см Penney (2016) и Brayne (2014) .
незавершенный
Более подробную информацию о звукозаписывающей связи см Dunn (1946) и Fellegi and Sunter (1969) (историческое) и Larsen and Winkler (2014) (современный). Аналогичные подошли также были разработаны в информатике под названиями , такие как дедупликации данных, идентификации , например, сопоставление имен, обнаружения дубликатов, и дублировать запись обнаружения (Elmagarmid, Ipeirotis, and Verykios 2007) . Есть также конфиденциальность сохранения подходов к записи связи , которые не требуют передачи личную информацию (Schnell 2013) . Facebook также разработала приступить связать свои записи с поведением голосования; это было сделано , чтобы оценить эксперимент , который я вам расскажу в главе 4 (Bond et al. 2012; Jones et al. 2013) и (Bond et al. 2012; Jones et al. 2013) и (Bond et al. 2012; Jones et al. 2013) .
Более подробную информацию о валидности см Shadish, Cook, and Campbell (2001) , глава 3.
недоступный
Более подробную информацию о результатах поиска в журнале AOL фиаско, см Ohm (2010) . Я предлагаю советы о партнерстве с компаниями и правительствами в главе 4, когда я описывают эксперименты. Ряд авторов выражают озабоченность по поводу исследования , которое опирается на недоступных данных см Huberman (2012) и boyd and Crawford (2012) .
Один хороший способ для университетских исследователей, чтобы получить доступ к данным, чтобы работать в компании в качестве стажера или приглашенного исследователя. В дополнение к предоставлению доступа к данным, этот процесс также поможет исследователю узнать больше о том, как создавалась данных, что важно для анализа.
Нерепрезентативного
Non-репрезентативности является серьезной проблемой для исследователей и правительств, которые желают сделать заявления о генеральной совокупности. Это меньше беспокойства для компаний, которые, как правило, сосредоточены на своих пользователей. Более подробную информацию о том , как Статистическое управление Нидерландов рассматривает вопрос о непредставлении репрезентативности бизнеса больших объемов данных, см Buelens et al. (2014) и Buelens et al. (2014) .
В главе 3 я опишу отбор проб и оценку гораздо более подробно. Даже если данные не являются репрезентативными, при определенных условиях, они могут быть взвешиванию для получения хороших оценок.
дрейфующий
Дрейф системы очень трудно понять, с внешней стороны. Тем не менее, проект MovieLens (подробнее обсуждается в главе 4) была запущена в течение более 15 лет академической исследовательской группой. Таким образом, они задокументированы и поделились информацией о том , как система развивалась с течением времени и как это может повлиять на анализ (Harper and Konstan 2015) .
Ряд ученых были сосредоточены на дрейф в Twitter: Liu, Kliman-Silver, and Mislove (2014) и Tufekci (2014) .
Алгоритмически посрамлены
Я впервые услышал термин "алгоритмически посрамлены", используемый Джоном Клейнберг в беседе. Основная идея перформативности является то , что некоторые теории социальных наук являются "двигателями не камеры" (Mackenzie 2008) . То есть, они на самом деле формируют мир, а не просто захватить его.
грязный
Правительственные статистические ведомства назвать очистку данных, редактирование статистических данных. De Waal, Puts, and Daas (2014) описывают методы редактирования статистических данных , разработанные для данных обследования и исследовать , в какой степени они применимы к крупным источникам данных, и Puts, Daas, and Waal (2015) представлены некоторые из тех же самых идей для более широкой аудитории.
Для некоторых примеров исследований , направленных на спам в Twitter, Clark et al. (2016) и Clark et al. (2016) и Chu et al. (2012) и Chu et al. (2012) . И, наконец, Subrahmanian et al. (2016) и Subrahmanian et al. (2016) описывает результаты DARPA Twitter Bot Challenge.
чуткий
Ohm (2015) рассматривает результаты предыдущих исследований на идее конфиденциальной информации и предлагает испытание многофакторной. Четыре фактора он предлагает, являются: вероятность причинения вреда; вероятность причинения вреда; наличие конфиденциальных отношений; и есть ли риск отражать мажоритарных проблемы.
Исследование Фарбера такси в Нью - Йорке была основана на более раннем исследовании Camerer et al. (1997) и Camerer et al. (1997) , которые использовали три различных образцов удобства бумаги командировочных листов-бумажных форм , используемых для записи водителей поездки время начала, время окончания, а также платы за проезд. Это раннее исследование показало, что водители, казалось, целевыми добытчики: они работали меньше на те дни, когда их зарплаты были выше.
Kossinets and Watts (2009) было сосредоточено на происхождении гомофилии в социальных сетях. См Wimmer and Lewis (2010) для иного подхода к той же проблеме , которая использует данные из Facebook.
В последующей работе, король и его коллеги исследовали дальше онлайн - цензуру в Китае (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Для соответствующего подхода к измерению интернет - цензуру в Китае, см Bamman, O'Connor, and Smith (2012) . Более подробную информацию о статистических методах , как той , которая используется в King, Pan, and Roberts (2013) г. Hopkins and King (2010) King, Pan, and Roberts (2013) , чтобы оценить настроения 11 миллионов сообщений, см Hopkins and King (2010) . Более подробную информацию о поднадзорной обучения см James et al. (2013) и James et al. (2013) (менее технический) и Hastie, Tibshirani, and Friedman (2009) (более технический).
Прогнозирование является большая часть промышленных данных науки (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) г. (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Один тип прогнозирования, которые обычно делается социальных исследователей демографического прогнозирования, например , Raftery et al. (2012) и Raftery et al. (2012) .
Google Flu Trends не был первый проект, чтобы использовать данные поиска для няшней распространенности гриппа. На самом деле, исследователи в Соединенных Штатах (Polgreen et al. 2008; Ginsberg et al. 2009) и (Hulth, Rydevik, and Linde 2009) (Polgreen et al. 2008; Ginsberg et al. 2009) и (Polgreen et al. 2008; Ginsberg et al. 2009) и Швеции (Hulth, Rydevik, and Linde 2009) обнаружили , что некоторые поисковые термины (например, "грипп") предсказал национального эпиднадзора в области общественного здравоохранения данные прежде чем он был освобожден. Впоследствии многие, многие другие проекты пытались использовать цифровые данные трассировки для обнаружения эпиднадзора за болезнями, см Althouse et al. (2015) и Althouse et al. (2015) для обзора.
В дополнение к использованию цифровых данных трассировки для прогнозирования результатов в отношении здоровья, существует также огромное количество работы с использованием данных Twitter для прогнозирования результатов выборов; обзоры см Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (гл. 7) и Huberty (2015) .
Использование данных поиска для прогнозирования распространенности гриппа и использования данных Twitter, чтобы предсказать выборы являются примерами использования какой-то цифровой след, чтобы предсказать, какое-то событие в мире. Там огромное количество исследований, которые имеют эту общую структуру. Таблица 2.5 включает в себя несколько других примеров.
цифровой след | результат | цитирование |
---|---|---|
щебетать | доход в офисе Box фильмов в США | Asur and Huberman (2010) |
журналы поиска | Продажа фильмов, музыки, книг и видеоигр в США | Goel et al. (2010) |
щебетать | Dow Jones Industrial Average (фондовый рынок США) | Bollen, Mao, and Zeng (2011) |
Журнал PS политология был симпозиум по большим данным, причинной вывода и формальной теории, и Clark and Golder (2015) обобщает вклад каждого участника. В журнале Труды Национальной академии наук Соединенных Штатов Америки был симпозиум по причинного умозаключения и больших объемов данных, и Shiffrin (2016) суммирует вклад каждого участника.
С точки зрения естественных экспериментов, Dunning (2012) обеспечивает отличную обработку длины книги. Для получения дополнительной информации об использовании проекта лотереи во Вьетнаме в качестве естественного эксперимента, см Berinsky and Chatfield (2015) . Для машинного обучения подходов , которые пытаются автоматически обнаруживать естественные эксперименты внутри больших источников данных, см Jensen et al. (2008) и Jensen et al. (2008) и Sharma, Hofman, and Watts (2015) .
С точки зрения соответствия, для оптимистического обзора см Stuart (2010) , а также для пессимистического обзора см Sekhon (2009) . Более подробную информацию о сопоставив как своего рода обрезке см Ho et al. (2007) и Ho et al. (2007) . Для книг , которые обеспечивают отличные трактовки соответствия, см Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) и Imbens and Rubin (2015) .