Одним з видів спостережень, які не входять до цього розділу, є етнографія. Більш детальну інформацію про етнографію в цифрових просторах див. Boellstorff et al. (2012) , а також докладніше про етнографію в змішаних цифрових та фізичних просторах см. Lane (2016) .
Немає єдиного консенсусного визначення "великих даних", але багато визначень, здається, зосереджуються на "3 Vs": обсязі, різноманітності та швидкості (наприклад, Japec et al. (2015) ). Див De Mauro et al. (2015) Для перегляду визначень.
Моє включення державних адміністративних даних у категорію великих даних є дещо незвичним, хоча інші також зробили цю справу, зокрема Legewie (2015) , Connelly et al. (2016) , а також Einav and Levin (2014) . Більш детальну інформацію про вартість державних адміністративних даних для дослідження див. Card et al. (2010) , Adminstrative Data Taskforce (2012) , А також Grusky, Smeeding, and Snipp (2015) . Grusky, Smeeding, and Snipp (2015) .
З точки зору адміністративного дослідження зсередини державної статистичної системи, зокрема Бюро перепису населення США, див. Jarmin and O'Hara (2016) . Для Wallgren and Wallgren (2007) обробки досліджень адміністративних записів у Статистичній Швеції див. Wallgren and Wallgren (2007) .
У розділі я коротко порівняв традиційне опитування, таке як "Загальний соціальний огляд" (GSS) з джерелом даних соціальних мереж, такими як Twitter. Для ретельного та ретельного порівняння даних традиційних опитувань та даних соціальних мереж див. Schober et al. (2016) . Schober et al. (2016) .
Ці 10 характеристик великих даних були описані різними способами різними авторами. Письмо, яке вплинуло на мій погляд на ці питання, включає Lazer et al. (2009) boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) Ruths and Pfeffer (2014) Golder and Macy (2014) , Ruths and Pfeffer (2014) Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , А також Goldstone and Lupyan (2016) . Goldstone and Lupyan (2016) .
У цій главі я використовував термін " цифрові сліди" , що, на мою думку, є відносно нейтральним. Ще одним популярним терміном для цифрових слідів є цифрові сліди (Golder and Macy 2014) , але, як зазначають Хал Абельсон, Кен Ледін та Гаррі Льюїс (2008) , більш правильним терміном, ймовірно, є цифрові відбитки пальців . Коли ви створюєте сліди, ви усвідомлюєте, що відбувається, і ваші сліди взагалі не можна простежити до вас особисто. Те саме не стосується ваших цифрових слідів. Фактично, ви залишаєте сліди весь час, про які у вас дуже мало знань. І, хоча ці сліди не мають вашого імені, їх часто можна зв'язати з вами. Іншими словами, вони більше схожі на відбитки пальців: невидимий та особистий ідентифікатор.
Більш докладно про те, чому великі набори даних ставлять статистичні випробування проблематичними, див. M. Lin, Lucas, and Shmueli (2013) та McFarland and McFarland (2015) . Ці питання повинні змусити дослідників зосередитись на практичному значенні, а не на статистичній значимості.
Докладніше про те, як Рад Четті та його колеги отримали доступ до податкових записів, див. Mervis (2014) .
Великі набори даних також можуть створювати обчислювальні проблеми, які, як правило, перевершують можливості одного комп'ютера. Тому дослідники, що проводять обчислення на великих наборах даних, часто поширюють роботу над багатьма комп'ютерами, процес, який іноді називають паралельним програмуванням . Для ознайомлення з паралельним програмуванням, зокрема мовою, що називається Hadoop, див. Vo and Silvia (2016) .
При розгляді постійних даних важливо враховувати, чи порівнюєте ви з точністю ті ж самі люди з плином часу, чи порівнюєте ви деяку зміну групи людей; див. наприклад, Diaz et al. (2016) . Diaz et al. (2016) .
Класична книга про нереактивних заходах - Webb et al. (1966) . Приклади в цій книзі передували цифровому століттю, але вони все ще висвітлюють. Для прикладу людей, які змінюють свою поведінку через наявність масового спостереження, див. Penney (2016) та Brayne (2014) .
Реактивність тісно пов'язана з тим, що дослідники називають ефектом попиту (Orne 1962; Zizzo 2010) та ефектом Готорна (Adair 1984; Levitt and List 2011) .
Більше про рекордну зв'язок див. Dunn (1946) Fellegi and Sunter (1969) (історичний) і Larsen and Winkler (2014) (сучасні). Подібні підходи також були розроблені в області комп'ютерних наук за такими іменами, як дедупликація даних, ідентифікація екземплярів, збіг імен, виявлення дублікатів і виявлення повторюваних записів (Elmagarmid, Ipeirotis, and Verykios 2007) . Існують також підходи до збереження конфіденційності для запису зв'язків, які не вимагають передачі особистої інформації (Schnell 2013) . Facebook також розробив спосіб пов'язати свої записи з поведінкою голосування; це було зроблено для оцінки експерименту, про який я розповім у розділі 4 (Bond et al. 2012; Jones et al. 2013) .
Більш детальну інформацію щодо правильності конструкції див. У главі 3 Shadish, Cook, and Campbell (2001) .
Більш детальну інформацію про розбивку журналу пошуку AOL див. У статті Ohm (2010) . Я пропоную поради щодо співпраці з компаніями та урядами у розділі 4, коли я описую експерименти. Ряд авторів висловили стурбованість дослідженнями, які спираються на недоступні дані, див. Huberman (2012) та boyd and Crawford (2012) .
Один хороший спосіб для університетських дослідників, щоб отримати доступ до даних, щоб працювати в компанії в якості стажера або запрошеного дослідника. На додаток до надання доступу до даних, цей процес також допоможе досліднику дізнатися більше про те, як створювалася даних, що важливо для аналізу.
З точки зору доступу до державних даних, Mervis (2014) обговорює, як Рад Четті та його колеги отримали доступ до податкових записів, використаних у своїх дослідженнях щодо соціальної мобільності.
Докладніше про історію "репрезентативності" як концепції див. Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , а Kruskal and Mosteller (1980) .
Мої резюме роботи Сноу та роботи Ляльки та Гори були короткі. Докладніше про роботу Сноу з холери, див. Freedman (1991) . Докладніше про вивчення британських лікарів див. Doll et al. (2004) Та Keating (2014) . Keating (2014) .
Багато дослідників будуть здивовані, дізнавшись, що, хоча Doll and Hill зібрав дані жінок-лікарів та лікарів віком до 35 років, вони навмисно не використовували ці дані у своєму першому аналізі. Як вони стверджували: "Оскільки рак легенів відносно рідкий у жінок та чоловіків до 35 років, навряд чи ці корисні фігури будуть отримані в цих групах протягом кількох років. У цьому попередньому звіті ми обмежили увагу чоловікам віком від 35 років. " Rothman, Gallacher, and Hatch (2013) , який має провокаційне назва "Чому репрезентативність слід уникати", роблять загальні аргументи щодо вартості навмисне створення нерепрезентативних даних.
Невідчутність є однією з основних проблем для дослідників та урядів, які хочуть робити заяви про ціле населення. Це менше стосується компаній, які, як правило, орієнтовані на своїх користувачів. Докладніше про те, як Статистичне управління Нідерландів розглядає проблему непредставницькості великих даних про бізнес, див. Buelens et al. (2014) .
Наприклад, дослідники, які висловлюють занепокоєння з приводу boyd and Crawford (2012) характеру великих джерел даних, див .: boyd and Crawford (2012) , K. Lewis (2015b) та Hargittai (2015) .
Більш детальне порівняння цілей соціальних досліджень та епідеміологічних досліджень див. У Keiding and Louis (2016) .
Більш детальну інформацію про спроби використання Twitter для Jungherr (2013) узагальнень виборців, особливо про випадок виборів у Німеччині за 2009 рік, див. У Jungherr (2013) та Jungherr (2015) . Після роботи Tumasjan et al. (2010) Дослідники у всьому світі використовували чуттєві методи, такі як аналіз настроїв, щоб відрізняти позитивні та негативні згадки сторін, з тим щоб підвищити можливості даних Twitter для прогнозування різноманітних типів виборів (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Ось як Huberty (2015) підбив підсумки цих спроб прогнозувати вибори:
"Всі відомі методи прогнозування, засновані на соціальних мережах, зазнали невдачі, коли піддавалися вимогам справжнього прогнозування на виборах. Ці помилки, мабуть, пов'язані з фундаментальними властивостями соціальних мереж, а не з методологічними чи алгоритмічними труднощами. Одним словом, соціальні мережі не дають і, ймовірно, ніколи не зможуть запропонувати стабільну, неупереджену, представницьку картину електорату; і зручні зразки соціальних мереж не мають достатніх даних для вирішення цих проблем після події ".
У розділі 3 я опишу вибірку та оцінку набагато докладніше. Навіть якщо дані не є репрезентативними, за певних умов вони можуть бути зваженими для отримання хороших оцінок.
Дрейф системи дуже важко побачити ззовні. Проте проект "MovieLens" (про це більш докладно описано в главі 4) проводиться академічною дослідницькою групою вже понад 15 років. Таким чином, вони змогли документувати та ділитися інформацією про те, як система розвивалася з часом та як це може вплинути на аналіз (Harper and Konstan 2015) .
Ряд учених сфокусувався на дрейф у Twitter: Liu, Kliman-Silver, and Mislove (2014) і Tufekci (2014) .
Одним із підходів до боротьби з дрейфом населення є створення групи користувачів, яка дозволяє дослідникам досліджувати тих самих людей з часом, див. Diaz et al. (2016) . Diaz et al. (2016) .
Я спочатку почув термін "алгоритмічно збентежений", який Джон Клейнберг використовував у розмові, але, на жаль, я не пам'ятаю, коли і де мова була надана. Перший раз, коли я бачив цей термін у друкованому вигляді, був Anderson et al. (2015) , що представляє цікаве обговорення того, як алгоритми, що використовуються сайтами для ознайомлення, можуть ускладнити здатність дослідників використовувати дані з цих веб-сайтів для вивчення соціальних уподобань. Ця проблема була піднята K. Lewis (2015a) у відповідь на Anderson et al. (2014) .
Крім Facebook, Twitter також рекомендує користувачам стежити за ідеєю триадного закриття; див. Su, Sharma, and Goel (2016) . Таким чином, рівень тріадного закриття в Twitter - це поєднання деякої людської тенденції до тріадного замикання та деяка алгоритмічна тенденція сприяти тріадному закриттю.
Докладніше про перформативність, зокрема, про те, що деякі теорії соціальних наук є "движками не камерами" (тобто вони формують світ, а не просто описують його) - див. Mackenzie (2008) .
Державні статистичні агенції називають очищення даних, редагування статистичних даних . De Waal, Puts, and Daas (2014) описують статистичні методи редагування даних, розроблені для даних опитування, і вивчають, наскільки вони застосовні до великих джерел даних, і Puts, Daas, and Waal (2015) представляють ті самі ідеї для більш загальна аудиторія.
Огляд соціальних ботів див. Ferrara et al. (2016) . Ferrara et al. (2016) . Для деяких прикладів досліджень, присвячених пошуку спаму у Twitter, див. Clark et al. (2016) і Chu et al. (2012) . Нарешті, Subrahmanian et al. (2016) описують результати DARPA Twitter Bot Challenge, масового співробітництва, розробленого для порівняння підходів до виявлення ботів у Twitter.
Ohm (2015) розглядає попередні дослідження щодо ідеї конфіденційної інформації та пропонує багатофакторний тест. Чотири чинники, які він пропонує, - це величина шкоди, ймовірність заподіяння шкоди, наявність конфіденційних відносин і чи ризик відображає мажоритарні проблеми.
Фарбер у вивченні таксі в Нью-Йорку спирався на попереднє дослідження Camerer et al. (1997) який використовував три різні зразки зручності паперових листів. Це попереднє дослідження показало, що водії здаються цільовими працівниками: вони менше працювали в дні, коли їхня заробітна плата була вищою.
У подальшій роботі Кінг та його колеги далі досліджували інтернет-цензуру в Китаї (King, Pan, and Roberts 2014, [@king_how_2016] ) . Для відповідного підходу до вимірювання цензури в Інтернеті в Китаї див. Bamman, O'Connor, and Smith (2012) . Більш детальну інформацію про статистичні методи, подібні до тих King, Pan, and Roberts (2013) використовувалися в " King, Pan, and Roberts (2013) оцінюють почуття 11 мільйонів постів, див. Hopkins and King (2010) . Докладніше про контрольоване навчання див. James et al. (2013) (менш технічний) і Hastie, Tibshirani, and Friedman (2009) (більш технічні).
Прогнозування є великою частиною промислових даних (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Одним з видів прогнозування, яке зазвичай проводять соціальні дослідники, є демографічне прогнозування; див., наприклад, Raftery et al. (2012) .
Google Flu Trends не був першим проектом, який би використовував пошукові дані для виявлення поширеності грипу. Фактично дослідники США (Polgreen et al. 2008; Ginsberg et al. 2009) та Швеція (Hulth, Rydevik, and Linde 2009) виявили, що певні пошукові терміни (наприклад, "грип") передбачають національний нагляд за охороною здоров'я дані до його випуску. Згодом багато, багато інших проектів намагалися використовувати цифрові дані траєкторії для виявлення нагляду за захворюваннями; див. Althouse et al. (2015) Для перегляду.
На додаток до використання цифрових даних трафіку для прогнозування результатів здоров'я, також було проведено величезну кількість робіт із використанням даних Twitter для прогнозування результатів виборів; для перегляду див. Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (глава 7) і Huberty (2015) . Bańbura et al. (2013) за економічними показниками, такими як валовий внутрішній продукт (ВВП), також є загальним для центральних банків, див. Bańbura et al. (2013) . Таблиця 2.8 містить кілька прикладів досліджень, які використовують якийсь цифровий слід для прогнозування свого роду події у світі.
Цифровий слід | Результат | Цитування |
---|---|---|
Дохід від кінофільмів у США | Asur and Huberman (2010) | |
Журнали пошуку | Продаж фільмів, музики, книг та відеоігор у США | Goel et al. (2010) |
Dow Jones Industrial Average (фондовий ринок США) | Bollen, Mao, and Zeng (2011) | |
Соціальні медіа та пошукові журнали | Опитування настроїв інвесторів та фондових ринків у Сполучених Штатах, Великобританії, Канаді та Китаї | Mao et al. (2015) |
Журнали пошуку | Поширеність лихоманки денге в Сінгапурі та Бангкоку | Althouse, Ng, and Cummings (2011) |
Нарешті, Джон Клейнберг та його колеги (2015) зазначили, що проблеми прогнозування поділяються на дві, тонко різні категорії, і що соціальні вчені зосереджені на одній і ігнорують інший. Уявіть собі одного політика, я називаю її Анною, яка стикається з посухою, і вона повинна вирішити, чи наймати шамана, щоб зробити танець для дощу, щоб збільшити ймовірність дощу. Інший політик, я називаю її Бетті, повинен вирішити, чи брати з собою парасольку, щоб не допустити мокрого на шляху додому. Як Анна, так і Бетті можуть прийняти краще рішення, якщо вони розуміють погоду, але їм потрібно знати різні речі. Анна повинна зрозуміти, чи танець дощу викликає дощ. Бетті, з іншого боку, не має нічого зрозуміти про причинність; їй просто потрібен точний прогноз. Соціальні дослідники часто зосереджують увагу на таких проблемах, як Анна, яку Кляйнберг і його колеги називають "проблемами дощу", оскільки вони включають в себе питання причинності. Такі запитання, як та, з якою стикаються Бетті, - які Клейнберг та його колеги називають "парасольковими" політичними проблемами, - також можуть бути дуже важливими, але отримали набагато менше уваги соціологів.
У журналі PS Politology з'явився симпозіум з великими даними, причинними висновками та формальною теорією, а Clark and Golder (2015) підсумували кожний внесок. У журналі " Матеріали" Національної академії наук Сполучених Штатів Америки відбувся симпозіум про причинні висновки та великі дані, а Shiffrin (2016) підбив підсумки кожного внеску. Для підходів до машинного навчання, які намагаються автоматично виявляти природні експерименти всередині великих джерел даних, див. Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , а також Sharma, Hofman, and Watts (2016) .
З точки зору природних експериментів, Dunning (2012) надає вступне, довготривале лікування з багатьма прикладами. З скептичним поглядом на природні експерименти див. Rosenzweig and Wolpin (2000) (економіка) або Sekhon and Titiunik (2012) (політологія). Deaton (2010) і Heckman and Urzúa (2010) стверджують, що концентрація уваги на природних експериментах може привести дослідників до зосередження уваги на оцінці несуттєвих причинних наслідків; Imbens (2010) стверджує ці аргументи з більш оптимістичним уявленням про цінність природних експериментів.
Описуючи те, як дослідник міг піти від оцінки ефекту складання до ефекту подачі, я описував техніку, названу інструментальними змінними . Imbens and Rubin (2015) , у своїх розділах 23 і 24, забезпечують вступ і використання проекту лотереї на прикладі. Ефект від військової служби на пособників іноді називається ускладненим середнім причинним ефектом (CAcE), а іноді і локальним середнім ефектом лікування (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) та Bollen (2012) пропонують огляди використання інструментальних змінних в політології, економіці та соціології, а Sovey and Green (2011) надає "контрольний список читачів" для оцінка досліджень з використанням інструментальних змінних.
Виявляється, що проект лотереї 1970 року не був, насправді належним чином рандомізований; були невеликі відхилення від чистої випадковості (Fienberg 1971) . Berinsky and Chatfield (2015) стверджують, що це невелике відхилення не є суттєво важливим та обговорює важливість правильно проведеної рандомізації.
З точки зору відповідності, див. Stuart (2010) для оптимістичного огляду, і Sekhon (2009) для песимістичного огляду. Більш детальну інформацію про згортання можна отримати, як певну обрізку, див. Ho et al. (2007) . Знаходження єдиного ідеального матчу для кожної людини часто буває складним, і це вказує на ряд складнощів. По-перше, коли точні відповідності недоступні, дослідники повинні вирішити, як виміряти відстань між двома одиницями, і якщо певна відстань досить близька. Друга складність виникає, якщо дослідники хочуть використовувати кілька відповідей для кожного випадку в групі лікування, оскільки це може привести до більш точних оцінок. Обидві ці питання, як і інші, докладно описані в главі 18 " Imbens and Rubin (2015) . Див. Також Частину II ( ??? ) .
Див Dehejia and Wahba (1999) на приклад, коли методи збігу дозволяють сформувати оцінки, подібні до результатів рандомізованого контрольованого експерименту. Але, наприклад, можна побачити Arceneaux, Gerber, and Green (2006) а також Arceneaux, Gerber, and Green (2010) приклади, коли відповідні методи не змогли відтворити експериментальний еталон.
Rosenbaum (2015) та Hernán and Robins (2016) пропонують інші поради щодо виявлення корисних порівнянь у великих джерелах даних.