Посилений запит використання прогнозованої моделі для об'єднання даних опитування з кількох людей із великим джерелом даних багатьох людей.
Інший спосіб об'єднати опитування та великі джерела даних - це процес, який я називаю посиленим запитом . У посиленому питанні дослідник використовує прогнозну модель, яка об'єднує невелику кількість даних опитування з великим джерелом даних для того, щоб створювати оцінки за шкалою або деталізацією, яка не могла б бути індивідуально для кожного джерела даних. Важливим прикладом посиленого запитання є робота Джошуа Блуменстока, який хотів зібрати дані, які могли б сприяти розвитку в бідних країнах. У минулому дослідники, які збирають такі дані, зазвичай мали приймати один із двох підходів: вибіркові обстеження або перепису. Зразки опитувань, де дослідники проводять інтерв'ю невеликої кількості людей, можуть бути гнучкими, своєчасними та відносно дешевими. Проте ці опитування, оскільки вони базуються на вибірці, часто обмежуються їх вирішенням. За допомогою вибіркового опитування часто важко скласти кошториси щодо певних географічних регіонів або окремих демографічних груп. З іншого боку, переписуються спроби інтерв'ю кожен, і тому вони можуть бути використані для створення оцінок для невеликих географічних регіонів або демографічних груп. Але перепису, як правило, дорогі, вузькі в фокусі (вони містять лише невелику кількість питань), а не своєчасні (вони трапляються за фіксованим графіком, наприклад кожні 10 років) (Kish 1979) . Замість того, щоб закріпити вибіркові обстеження чи перепису, уявіть, чи зможуть дослідники об'єднати найкращі характеристики обох. Уявіть собі, чи зможуть дослідники кожен день запитати кожне питання кожному. Очевидно, що це всюдисущий, завжди на огляд є своєрідною фантазією суспільних наук. Але видається, що ми можемо почати наближати це, поєднуючи опитування з невеликою кількістю людей із цифровими слідами багатьох людей.
Дослідження Blumenstock почалися, коли він співпрацював з найбільшим постачальником мобільних телефонів у Руанді, і компанія надала анонімні записи транзакцій з приблизно 1,5 мільйонів клієнтів у період між 2005 і 2009 роками. Ці записи містили інформацію про кожний дзвінок і текстові повідомлення, такі як час початку, тривалість , а також приблизне географічне розташування абонента та одержувача. Перш ніж говорити про статистичні питання, варто зазначити, що цей перший крок може бути одним із найважчих для багатьох дослідників. Як я описав у розділі 2, більшість великих джерел даних недоступні дослідникам. Телефонні метадані, зокрема, особливо недоступні, тому що їх анонімність практично неможлива, і майже напевно містить інформацію, яку учасники розглядають як чутливі (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . У цьому конкретному випадку дослідники уважно захищали дані, а їхня робота під наглядом третьої сторони (тобто їх IRB). Я повернуся до цих етичних питань докладніше в розділі 6.
Блюменсток зацікавився виміром багатства і благополуччя. Але ці риси не знаходяться безпосередньо в журналах дзвінків. Іншими словами, ці записи дзвінків є неповними для цього дослідження - загальна риса великих джерел даних, про яку детально обговорювалося в главі 2. Однак, мабуть, ймовірність того, що записи записів, можливо, містять певну інформацію, яка може побічно надавати інформацію про багатство та благополуччя Беручи до уваги цю можливість, Блюменсток запитав, чи можна було навчити модель машинного навчання, щоб передбачити, як хтось буде реагувати на опитування на основі своїх записів про виклики. Якщо це можливо, то Blumenstock зможе використати цю модель для прогнозування відповідей усіх 1,5 мільйона клієнтів.
Для того, щоб побудувати та навчити таку модель, Blumenstock та дослідники з Інституту науки і техніки Кігалі називають випадкову вибірку близько тисячі клієнтів. Дослідники пояснили цілі проекту учасникам, просили їх згоду зв'язати опитування з відповідями на записи викликів, а потім поставили їм ряд питань, щоб оцінити їх багатство та добробут, такі як "Ви володієте радіо? "та" Чи є у вас велосипед? "(див. малюнок 3.14 для часткового списку). Всі учасники опитування були компенсовані фінансово.
Далі, Blumenstock використовував двоетапну процедуру, загальну для машинного навчання: інженерну особливість, а потім контрольоване навчання. По-перше, на етапі функціональної інженерії , для всіх, з якими проводили інтерв'ю, Blumenstock перетворив записи дзвінків на набір характеристик щодо кожної людини; Вчені даних можуть називати ці характеристики "функціями", а соціологи називають їх "змінні". Наприклад, для кожної людини, Блюменсток розрахував загальну кількість днів із активністю, кількість різних людей, з якими людина контактував, сума грошей, витрачена на ефірне час, і так далі. Критично, хороша технічна функція вимагає знань про умови дослідження. Наприклад, якщо важливо відрізнити внутрішні та міжнародні дзвінки (ми можемо очікувати, що люди, які телефонують на міжнародному рівні, будуть більш заможними), тоді це потрібно зробити на етапі технічної інженерії. Дослідник з мало розумінням Руанди може не включати цю функцію, а потім прогностична ефективність моделі постраждає.
Далі, в процесі керованого навчання , Blumenstock побудував модель для прогнозування відповіді на опитування для кожної людини на основі їх особливостей. У цьому випадку Blumenstock використовував логістичну регресію, але він міг би скористатися різними іншими статистичними чи машинознавчими підходами.
Так як це добре? Чи був Блюменсток спроможним передбачати відповіді на опитувальні запитання, такі як "У вас є радіо?" Та "Чи є у вас велосипед?", Використовуючи функції, отримані з записів викликів? Для того, щоб оцінити ефективність його прогнозної моделі, Blumenstock використовував крос-валідацію , техніку, що часто використовується в галузі інформатики, але рідко - в соціальній науці. Метою крос-валідації є забезпечення справедливої оцінки прогнозованої продуктивності моделі шляхом її навчання та тестування на різних підмножинах даних. Зокрема, Блюменсток розбив свої дані на 10 шматок по 100 осіб кожен. Потім він використовував дев'ять шматків для навчання своєї моделі, а прогностична ефективність навченої моделі оцінювалася на решті частини. Він повторив цю процедуру 10 разів - кожна частина даних отримала одну чергу як дані перевірки та усереднювала результати.
Точність прогнозів була високою для деяких рис (рис. 3.14); наприклад, Blumenstock міг передбачити з точністю 97,6%, якщо комусь належить радіо. Це може здатися вражаюче, але завжди важливо порівнювати складний метод прогнозування з простою альтернативою. У цьому випадку проста альтернатива - передбачити, що кожна людина дасть найбільш поширену відповідь. Наприклад, 97,3% респондентів повідомили про те, що володіють радіо, тому що, якби Блюменсток спрогнозував, що всі повідомляють, що володіють радіо, то він матиме точність 97,3%, що на подив схоже на виконання його більш складної процедури (точність 97,6%) . Іншими словами, всі фантастичні дані та моделювання підвищили точність прогнозу з 97,3% до 97,6%. Проте для інших питань, таких як "Чи є у вас велосипед?", Прогнози зросли з 54,4% до 67,6%. У цілому, малюнок 3.15 показує, що для деяких рис Blumenstock не покращився значно, крім простого прогнозування базової лінії, але для інших рис було певне поліпшення. Проте, дивлячись лише на ці результати, ви, можливо, не думаєте, що цей підхід є особливо перспективним.
Проте лише через рік Блюменсток і два колеги - Габріель Кадамуро та Роберт Оне-опублікували статтю в галузі науки з суттєво кращими результатами (Blumenstock, Cadamuro, and On 2015) . Існували дві основні технічні причини для цього поліпшення: (1) вони використовували більш складні методи (тобто новий підхід до функціональної інженерії та більш складну модель для прогнозування відповідей від функцій) і (2), а не спроба визначити відповіді на окремі Питання опитування (наприклад, "Ви володієте радіо?"), вони намагалися зробити висновок про складений індекс матеріальних цінностей. Ці технічні удосконалення означали, що вони могли б розумно виконувати роботу з використання записів про дзвінки, щоб передбачити багатство для людей у своїй вибірці.
Однак прогнозування багатства людей у зразку не було кінцевою метою дослідження. Пам'ятайте, що кінцевою метою було поєднання деяких найкращих рис вибіркових обстежень та переписів з метою отримання чітких оцінок рівня бідності в країнах, що розвиваються. Щоб оцінити їх здатність досягти цієї мети, Blumenstock та його колеги використали свою модель та їхні дані для прогнозування багатства всіх 1,5 мільйонів людей у журналах дзвінків. І вони використовували геопросторову інформацію, вбудовану в записи викликів (нагадаємо, що дані включали розташування найближчої стільникової стільниці для кожного дзвінка) для оцінки приблизного місця проживання кожної людини (рис 3.17). Помітивши ці дві оцінки разом, Блюменсток і його колеги підготували оцінку географічного розподілу заробітної плати абонентів за надзвичайно дрібним просторовим деталізацією. Наприклад, вони могли б оцінити середнє багатство в кожній з 1448 клітин Руанди (найменша адміністративна одиниця у країні).
Наскільки ці оцінки відповідали фактичному рівню бідності в цих регіонах? Перш ніж відповісти на це запитання, я хочу підкреслити той факт, що є багато причин, щоб бути скептичним. Наприклад, здатність робити прогнози на індивідуальному рівні була досить шумною (рис. 3.17). І, мабуть, що важливіше, люди з мобільними телефонами можуть систематично відрізнятися від людей без мобільних телефонів. Таким чином, Blumenstock та його колеги можуть постраждати від типів покривних помилок, які зсунули опитування 1936 року " Літературний дайджест", який я описав раніше.
Щоб зрозуміти якість своїх оцінок, Блюменсток і його колеги мали порівняти їх з чимось іншим. На щастя, приблизно в той же час, як і їхнє дослідження, ще одна група дослідників проводила більш традиційне соціологічне опитування в Руанді. Цей інший огляд, який був частиною широко відомих програм демографічного обстеження та охорони здоров'я, мав великий бюджет і використовував високоякісні традиційні методи. Отже, оцінки Демографічного опитування та охорони здоров'я можна обґрунтовано вважати оціночними стандартами золота. Коли порівнювалися ці дві оцінки, вони були досить подібними (рис. 3.17). Інакше кажучи, об'єднавши невелику кількість даних опитування з записами викликів, Блюменток та його колеги змогли скласти оцінки, які можна порівняти з підходами, що застосовуються за стандартом золота.
Скептик може побачити ці результати як розчарування. Зрештою, одним із способів їх перегляду є те, що, використовуючи великі дані та машинне навчання, Blumenstock та його колеги змогли скласти оцінки, які можна було б зробити більш надійно за допомогою вже існуючих методів. Але я не думаю, що це правильний спосіб думати про це дослідження з двох причин. По-перше, оцінки від Блюменстока та його колег були приблизно в 10 разів швидше і в 50 разів дешевші (коли вартість вимірюється за зміною витрат). Як я вже стверджував раніше в цій главі, дослідники ігнорують витрати на їх небезпеку. У цьому випадку, наприклад, різке зниження вартості означає, що замість того, щоб проводитись кожні кілька років, як це є стандартом для демографічного обстеження та охорони здоров'я, такого роду опитування можна проводити щомісяця, що дасть численні переваги дослідникам та політиці виробники Друга причина не вважати думку скептиків полягає в тому, що це дослідження забезпечує основний рецепт, який може бути адаптований до різних дослідницьких ситуацій. Цей рецепт містить лише два компоненти та два кроки. Інгредієнти є (1) великим джерелом даних, яке є широким, але тонким (тобто у нього багато людей, але не потрібна інформація про кожну людину); і (2) обстеження, яке є вузьким, але товстим (тобто є лише кілька людей, але у вас є інформація про тих людей). Ці інгредієнти потім об'єднуються в два етапи. По-перше, для людей в обох джерелах даних створіть модель машинного навчання, яка використовує велике джерело даних для прогнозування відповідей на опитування. Далі, використовуйте цю модель, щоб підрахувати відповіді на опитування кожного у великому джерелі даних. Отже, якщо є якесь питання, про яке ви хочете запитати багато людей, шукайте велике джерело даних від тих людей, які можуть бути використані для прогнозування їх відповіді, навіть якщо ви не дбаєте про велике джерело даних . Тобто, Blumenstock та його колеги по суті не піклуються про записи викликів; вони лише піклувалися про записи викликів, тому що вони могли використовуватися для прогнозування відповідей на опитування, про яке вони піклувалися. Цей характерний лише непрямий інтерес до великого джерела даних посилює запит, відмінний від вставленого запитання, який я описав раніше.
На закінчення, підсилений підхід Blumenstock поєднував дані опитування з великим джерелом даних для отримання оцінок, які можна порівняти з результатами опитування в золотому стандарті. Цей конкретний приклад також пояснює деякі компроміси між посиленими запитами та традиційними методами опитування. Посилені розрахункові запити були більш своєчасними, істотно дешевшими та більш гранульованими. Але, з іншого боку, ще не існує сильної теоретичної основи для такого посиленого запитання. Цей окремий приклад не показує, коли цей підхід буде працювати і коли він не буде, і дослідники, що використовують цей підхід, повинні особливо стурбовані можливими упередженнями, викликаними тим, хто включений і хто не включений - в їхнє велике джерело даних. Крім того, посилений підхід до запитання ще не має хороших способів кількісно визначити невизначеність навколо своїх оцінок. На щастя, посилене запитання має глибокі зв'язки з трьома великими областями статистики - оцінки невеликої площі (Rao and Molina 2015) , підрахунки (Rubin 2004) та модельна пост-стратифікація (яка сама по собі тісно пов'язана з паном П., метод, який я описав раніше в розділі) (Little 1993) . Через ці глибокі зв'язки я сподіваюсь, що багато методологічних основ посилення запитань скоро будуть покращені.
Нарешті, порівняння першої та другої спроб Blumenstock також ілюструє важливий урок про соціальні дослідження цифрового віку: початок не є кінцем. Тобто, багато разів, перший підхід не буде найкращим, але якщо дослідники продовжуватимуть працювати, все може покращитись. У загальному випадку, оцінюючи нові підходи до соціальних досліджень у цифрову епоху, важливо провести дві окремі оцінки: (1) Наскільки добре це працює зараз? і (2) наскільки добре це буде працювати в майбутньому, коли зміниться ландшафт даних, і як дослідники приділяють більше уваги проблемі? Незважаючи на те, що дослідники навчаються робити перший вид оцінювання, другий часто є більш важливим.