Цей розділ призначений для використання в якості еталону, замість того , щоб бути прочитаний як розповідь.
Один вид спостереження, не включені в цьому розділі етнографія. Більш детальну інформацію про етнографію в цифрових просторах см Boellstorff et al. (2012) і Boellstorff et al. (2012) , а також більш докладну інформацію про етнографію в змішаних цифрових і фізичних просторів см Lane (2016) .
Коли ви перепрофілювання дані, є два ментальних трюків, які можуть допомогти вам зрозуміти можливі проблеми, з якими можна зіткнутися. По-перше, ви можете спробувати уявити собі ідеальний набір даних для вашої проблеми, і порівняти його з набором даних, які ви використовуєте. Як вони схожі і чим вони відрізняються? Якщо ви не збирати ваші дані самостійно, є, ймовірно, буде різниця між тим, що ви хочете і що у вас є. Але, ви повинні вирішити, якщо ці відмінності є незначними або майора.
По-друге, пам'ятайте, що хтось створив і зібрали дані з якоїсь причини. Ви повинні спробувати зрозуміти їх міркування. Цей вид зворотної інженерії може допомогти вам визначити можливі проблеми і перекоси в ваших даних багаторазово використовувати.
Там не існує єдиного визначення консенсус "великих даних", але , здається , багато визначень , щоб зосередитися на 3 Vs: (наприклад, обсяг, різноманітність і швидкість Japec et al. (2015) і Japec et al. (2015) ). Замість того, щоб зосередитися на характеристиках даних, моє визначення більше фокусується на тому, чому була створена дані.
Моє включення державних адміністративних даних всередині категорії великих обсягів даних трохи незвично. Інші , які зробили цей випадок, включають Legewie (2015) , Connelly et al. (2016) і Connelly et al. (2016) , і Einav and Levin (2014) . Більш детальну інформацію про вартість державних адміністративних даних для проведення досліджень, см Card et al. (2010) і Card et al. (2010) , Taskforce (2012) , і Grusky, Smeeding, and Snipp (2015) .
Для зору адміністративного дослідження зсередини державної статистичної системи, в зокрема , Бюро перепису населення США, см Jarmin and O'Hara (2016) . Для довжини книга лікування дослідження адміністративних записів в Статистичне управління Швеції, см Wallgren and Wallgren (2007) .
У цьому розділі я коротко порівняв традиційне опитування, таких як General Social Survey (GSS) в якості джерела даних соціальних медіа, таких як Twitter. Для ретельного і ретельного порівняння між традиційними обстежень і даних соціальних медіа, см Schober et al. (2016) і Schober et al. (2016) .
Ці 10 характеристик великих даних були описані в різних способів за допомогою безлічі різних авторів. Дати , що вплинуло на моє мислення з цих питань відносяться: Lazer et al. (2009) і Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) і Japec et al. (2015) , і Goldstone and Lupyan (2016) .
У цьому розділі я використовував термін цифрові сліди, які я думаю відносно нейтральним. Ще один популярний термін для цифрових слідів є цифрові відбитки ніг (Golder and Macy 2014) , але , як Hal Абельсона, Кен Ледин, і Гаррі Льюїс (2008) вказують, більш відповідний термін, ймовірно , цифрові відбитки пальців. Коли ви створюєте сліди, ви знаєте про те, що відбувається, і ваші відбитки ніг взагалі не може бути простежено до вас особисто. Те ж саме не вірно для ваших цифрових слідів. Насправді, ви залишаєте сліди весь час про те, які у вас є дуже мало знань. І, хоча ці сліди не мають своє ім'я на них, вони часто можуть бути пов'язані з вами. Іншими словами, вони більше схожі на відбитки пальців: невидима і особисто ідентифікації.
великий
Більш детальну інформацію про те, чому великі набори даних, візуалізації статистичних тестів проблематично см Lin, Lucas, and Shmueli (2013) і McFarland and McFarland (2015) . Ці питання повинні привести дослідників зосередити увагу на практичну значимість, а не статистичної значущості.
Завжди
При розгляді питання завжди на даних, важливо розглянути питання про те, що ви порівнюєте ті ж люди протягом довгого часу, або ви порівнюєте деяку мінливу групу людей; дивись, наприклад, Diaz et al. (2016) і Diaz et al. (2016) .
Не реактивний
Класична книга по нереакционноспособниє заходів Webb et al. (1966) і Webb et al. (1966) . Приклади, наведені в книзі попередню дату цифровому столітті, але вони як і раніше висвітлюючи. Приклади людей змінити свою поведінку через наявність масового спостереження, см Penney (2016) і Brayne (2014) .
незавершений
Більш детальну інформацію про звукозаписної зв'язку см Dunn (1946) і Fellegi and Sunter (1969) (історичне) і Larsen and Winkler (2014) (сучасний). Аналогічні підійшли також були розроблені в інформатиці під назвами , такі як дедуплікаціі даних, ідентифікації , наприклад, зіставлення імен, виявлення дублікатів, і дублювати запис виявлення (Elmagarmid, Ipeirotis, and Verykios 2007) . Є також конфіденційність збереження підходів до запису зв'язку , які не вимагають передачі особисту інформацію (Schnell 2013) . Facebook також розробила приступити зв'язати свої записи з поведінкою голосування; це було зроблено , щоб оцінити експеримент , який я вам розповім в розділі 4 (Bond et al. 2012; Jones et al. 2013) і (Bond et al. 2012; Jones et al. 2013) і (Bond et al. 2012; Jones et al. 2013) .
Більш детальну інформацію про валідності см Shadish, Cook, and Campbell (2001) , глава 3.
недоступний
Більш детальну інформацію про результати пошуку в журналі AOL фіаско, см Ohm (2010) . Я пропоную поради про партнерство з компаніями та урядами в розділі 4, коли я описують експерименти. Ряд авторів висловлюють заклопотаність по приводу дослідження , яке спирається на недоступних даних см Huberman (2012) і boyd and Crawford (2012) .
Один хороший спосіб для університетських дослідників, щоб отримати доступ до даних, щоб працювати в компанії в якості стажера або запрошеного дослідника. На додаток до надання доступу до даних, цей процес також допоможе досліднику дізнатися більше про те, як створювалася даних, що важливо для аналізу.
нерепрезентативного
Non-репрезентативності є серйозною проблемою для дослідників і урядів, які бажають зробити заяви про генеральної сукупності. Це менше занепокоєння для компаній, які, як правило, зосереджені на своїх користувачів. Більш детальну інформацію про те , як Статистичне управління Нідерландів розглядає питання про неподання репрезентативності бізнесу великих обсягів даних, див Buelens et al. (2014) і Buelens et al. (2014) .
У розділі 3 я опишу відбір проб і оцінку набагато більш докладно. Навіть якщо дані не є репрезентативними, при певних умовах, вони можуть бути зважування для отримання гарних оцінок.
дрейфуючий
Дрейф системи дуже важко зрозуміти, з зовнішньої сторони. Проте, проект MovieLens (докладніше обговорюється в розділі 4) була запущена протягом більше 15 років академічної дослідницькою групою. Таким чином, вони задокументовані і поділилися інформацією про те , як система розвивалася з плином часу і як це може вплинути на аналіз (Harper and Konstan 2015) .
Ряд вчених були зосереджені на дрейф в Twitter: Liu, Kliman-Silver, and Mislove (2014) і Tufekci (2014) .
алгоритмічно осоромлені
Я вперше почув термін "алгоритмічно осоромлені", який використовується Джоном Клейнберг в бесіді. Основна ідея перформативности є те , що деякі теорії соціальних наук є "двигун не камери" (Mackenzie 2008) . Тобто, вони насправді формують світ, а не просто захопити його.
брудний
Урядові статистичні відомства назвати очищення даних, редагування статистичних даних. De Waal, Puts, and Daas (2014) описують методи редагування статистичних даних , розроблені для даних обстеження та дослідити , якою мірою вони можуть бути застосовані до великих джерел даних, і Puts, Daas, and Waal (2015) представлені деякі з тих же самих ідей для більш широкої аудиторії.
Для деяких прикладів досліджень , спрямованих на спам в Twitter, Clark et al. (2016) і Clark et al. (2016) і Chu et al. (2012) і Chu et al. (2012) . І, нарешті, Subrahmanian et al. (2016) і Subrahmanian et al. (2016) описує результати DARPA Twitter Bot Challenge.
чуйний
Ohm (2015) розглядає результати попередніх досліджень на ідеї конфіденційної інформації і пропонує випробування багатофакторної. Чотири фактори він пропонує, є: ймовірність заподіяння шкоди; ймовірність заподіяння шкоди; наявність конфіденційних відносин; і чи є ризик відображати мажоритарних проблеми.
Дослідження Фарбера таксі в Нью - Йорку була заснована на більш ранньому дослідженні Camerer et al. (1997) і Camerer et al. (1997) , які використовували три різних зразків зручності паперу відрядження листів-паперових форм , використовуваних для запису водіїв поїздки час початку, час закінчення, а також плати за проїзд. Це раннє дослідження показало, що водії, здавалося, цільовими добувачі: вони працювали менше на ті дні, коли їх зарплати були вищі.
Kossinets and Watts (2009) було зосереджено на походження гомофілія в соціальних мережах. Див Wimmer and Lewis (2010) для іншого підходу до тієї ж проблеми , яка використовує дані з Facebook.
У подальшій роботі, король і його колеги досліджували далі онлайн - цензуру в Китаї (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Для відповідного підходу до вимірювання інтернет - цензуру в Китаї, см Bamman, O'Connor, and Smith (2012) . Більш детальну інформацію про статистичні методи , як тієї , яка використовується в King, Pan, and Roberts (2013) р Hopkins and King (2010) King, Pan, and Roberts (2013) , щоб оцінити настрої 11 мільйонів повідомлень, див Hopkins and King (2010) . Більш детальну інформацію про піднаглядний навчання см James et al. (2013) і James et al. (2013) (менш технічний) і Hastie, Tibshirani, and Friedman (2009) (більш технічний).
Прогнозування є велика частина промислових даних науки (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) р (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Один тип прогнозування, які зазвичай робиться соціальних дослідників демографічного прогнозування, наприклад , Raftery et al. (2012) і Raftery et al. (2012) .
Google Flu Trends ні перший проект, щоб використовувати дані пошуку для няшная поширеності грипу. Насправді, дослідники в Сполучених Штатах (Polgreen et al. 2008; Ginsberg et al. 2009) і (Hulth, Rydevik, and Linde 2009) (Polgreen et al. 2008; Ginsberg et al. 2009) та (Polgreen et al. 2008; Ginsberg et al. 2009) і Швеції (Hulth, Rydevik, and Linde 2009) виявили , що деякі пошукові терміни (наприклад, "грип") передбачив національного епіднагляду в області суспільної охорони здоров'я дані перш ніж він був звільнений. Згодом багато, багато інших проектів намагалися використовувати цифрові дані трасування для виявлення епіднагляду за хворобами, см Althouse et al. (2015) і Althouse et al. (2015) для огляду.
На додаток до використання цифрових даних трасування для прогнозування результатів щодо здоров'я, існує також величезна кількість роботи з використанням даних Twitter для прогнозування результатів виборів; огляди см Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (гл. 7) і Huberty (2015) .
Використання даних пошуку для прогнозування поширеності грипу і використання даних Twitter, щоб передбачити вибори є прикладами використання якийсь цифровий слід, щоб передбачити, якась подія в світі. Там величезна кількість досліджень, які мають цю загальну структуру. Таблиця 2.5 включає в себе кілька інших прикладів.
цифровий слід | результат | цитування |
---|---|---|
щебетати | дохід в офісі Box фільмів в США | Asur and Huberman (2010) |
журнали пошуку | Продаж фільмів, музики, книг і відеоігор в США | Goel et al. (2010) |
щебетати | Dow Jones Industrial Average (фондовий ринок США) | Bollen, Mao, and Zeng (2011) |
Журнал PS політологія був симпозіум по великим даними, причинного виведення і формальної теорії, і Clark and Golder (2015) узагальнює внесок кожного учасника. У журналі Праці Національної академії наук Сполучених Штатів Америки був симпозіум по причинного умовиводи і великих обсягів даних, і Shiffrin (2016) підсумовує внесок кожного учасника.
З точки зору природних експериментів, Dunning (2012) забезпечує відмінну обробку довжини книги. Для отримання додаткової інформації про використання проекту лотереї під В'єтнамі в якості природного експерименту, см Berinsky and Chatfield (2015) . Для машинного навчання підходів , які намагаються автоматично виявляти природні експерименти всередині великих джерел даних, див Jensen et al. (2008) і Jensen et al. (2008) і Sharma, Hofman, and Watts (2015) .
З точки зору відповідності, для оптимістичного огляду см Stuart (2010) , а також для песимістичного огляду см Sekhon (2009) . Більш детальну інформацію про зіставивши як свого роду обрізку см Ho et al. (2007) і Ho et al. (2007) . Для книг , які забезпечують відмінні трактування відповідності, см Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) і Imbens and Rubin (2015) .