Невідповідні дані погані для узагальнення поза вибірки, але можуть бути досить корисними для порівняння зразків.
Деякі соціальні вчені звикли працювати з даними, що походять з імовірнісного випадкового зразка з чітко визначеної популяції, такою як усі дорослі в певній країні. Такі дані називаються репрезентативними даними, оскільки вибірка "відображає" більшу кількість населення. Багато дослідників привласнюють репрезентативні дані, а деякі репрезентативні дані - синоніми суворої науки, тоді як невідповідні дані є синонімом тяжкості. Насамкінець, деякі скептики здаються впевнені, що нічого не можна дізнатись із непредставлених даних. Якщо це правда, це, схоже, суворо обмежує те, що можна дізнатись із великих джерел даних, оскільки багато з них не є репрезентативними. На щастя, ці скептики є лише частково правильними. Існують певні цілі досліджень, для яких невідповідні дані явно не підходять, але є й інші, для яких воно може бути дуже корисним.
Щоб зрозуміти цю різницю, давайте розглянемо наукову класику: дослідження Джона Сноу про спалаху холери в 1853-54 роках у Лондоні. У той час багато лікарів вважали, що холера була викликана "поганим повітрям", але Сноу вважав, що це інфекційне захворювання, яке, можливо, поширюється питною водою з питною водою. Щоб перевірити цю ідею, Сног скористався тим, що ми можемо зараз назвати природним експериментом. Він порівнював рівень холерів у домогосподарствах, що обслуговуються двома різними водними компаніями: Lambeth і Southwark & Vauxhall. Ці компанії служили подібним домогосподарствам, однак вони відрізнялися одним важливим чином: у 1849 році, за кілька років до початку епідемії, Ламбет перемістив свій споживчий пункт вгору за течією від основного скидання стічних вод в Лондоні, тоді як Southwark & Vauxhall залишили свою трубку вниз по течії від скидання стічних вод Коли Сніг порівнював показники смертності від холери в домогосподарствах, які обслуговує ці дві компанії, він виявив, що клієнти компанії Southwark & Vauxhall - компанії, яка надає клієнтам стічні води - в 10 разів частіше вмирають від холери. Цей результат дає сильні наукові докази аргументації Сноу про причину холери, хоча він не базується на репрезентативній вибірці людей у Лондоні.
Однак дані цих двох компаній не будуть ідеальними для відповіді на інше питання: якою була поширеність холери в Лондоні під час спалаху? Для цього другого питання, що також важливо, було б набагато краще мати репрезентативну вибірку людей з Лондона.
Як показує робота Сноу, існують деякі наукові питання, для яких невідповідні дані можуть бути досить ефективними, а також інші, для яких це не підходить. Одним важким способом розрізнити ці два види запитань є те, що деякі питання стосуються порівнянь вибіркових зразків, а деякі - про вибіркові узагальнення. Це відмінність можна проілюструвати ще одним класичним дослідженням епідеміології: "Британські лікарі-дослідники", які відіграли важливу роль у демонстрації того, що куріння викликає рак. У цьому дослідженні Ріхард Долл та А. Бредфорд Хілл протягом декількох років дотримувалися приблизно 25 000 лікарів чоловічої статі і порівнювали їх рівень смертності з урахуванням кількості, яку вони курили під час початку дослідження. Лялька та голя (1954) виявили сильне відношення впливу-реакції: чим більше людей курили, тим більше імовірно, що вони повинні померти від раку легенів. Звичайно, було б нерозумно оцінити поширеність раку легенів серед усіх британських людей на основі цієї групи лікарів-чоловіків, але порівняння всередині вибірки все ще свідчить про те, що куріння викликає рак легенів.
Тепер, коли я проілюстрував різницю між порівняннями в межах вибірки та невикористаними узагальненнями, два застереження в порядку. По-перше, існують природні питання про те, наскільки відносини, які зберігаються в вибірці чоловіків-британських лікарів, будуть також проводитись у зразках жінок, британських лікарів або чоловіків-британських фабричних робітників, жінок-німецьких робітників фабрик або багатьох інших груп. Ці питання цікаві та важливі, але вони відрізняються від питань про те, наскільки ми можемо узагальнювати з вибірки на населення. Зверніть увагу, наприклад, що ви, ймовірно, підозрюєте, що відносини між курінням та раком, які були виявлені в чоловічих британських лікарях, будуть, імовірно, подібними у цих інших групах. Ваша здатність робити цю екстраполяцію не виходить з того, що чоловіки-британські лікарі - це імовірнісний випадкова вибірка з будь-якого населення; скоріше, це відбувається з розуміння механізму, який зв'язує куріння та рак. Таким чином, узагальнення від зразка до населення, з якого намальовано, є в основному статистичним питанням, але питання про транспортуемость шаблону, виявленого в одній групі іншої групи, в значній мірі є (Pearl and Bareinboim 2014; Pearl 2015) проблемою (Pearl and Bareinboim 2014; Pearl 2015) .
На цьому етапі скептик може вказати на те, що більшість соціальних моделей, ймовірно, менш транспортабельними по групах, ніж відносини між курінням та раком. І я згоден. Наскільки ми повинні очікувати, що моделі будуть перенесені, це, в кінцевому рахунку, наукове питання, яке має вирішуватися на основі теорії та доказів. Не слід автоматично припускати, що візерунки будуть переносими, але також не слід вважати, що вони не будуть переносими. Ці дещо абстрактні питання про транспортування будуть вам знайомі, якщо ви (Sears 1986, [@henrich_most_2010] ) дискусії щодо того, скільки дослідників зможе дізнатися про поведінку людини, вивчаючи студентів старших курсів (Sears 1986, [@henrich_most_2010] ) . Проте, незважаючи на ці дебати, було б нерозумно сказати, що дослідники не можуть нічого дізнатись у навчанні студентів старших курсів.
Друга застереження полягає в тому, що більшість дослідників з непредставленими даними не настільки обережно, як Сніг або Кукла та Хілл. Отже, щоб проілюструвати те, що може статися не так, коли дослідники намагаються зробити невикористане узагальнення з непредставлених даних, я хотів би розповісти вам про дослідження парламентських виборів 2009 року, проведених Андраніком Тумасяном та його колегами (2010) . Аналізуючи понад 100 тисяч твітів, вони з'ясували, що частка твітів, що згадують політичну партію, співпала з пропорціями голосів, отриманих партією на парламентських виборах (рис. 2.3). Іншими словами, з'ясувалося, що дані Twitter, які були по суті вільними, могли замінити традиційні опитування громадської думки, які є дорогими через наголос на репрезентативних даних.
Враховуючи те, що ви, напевно, вже знаєте про Twitter, ви повинні негайно скептично ставитися до цього результату. Німці на Twitter в 2009 році не були випадковою вибіркою німецьких виборців, і прихильники деяких партій могли б частіше писати про політику частіше, ніж прихильники інших партій. Таким чином, здається дивним, що всі можливі упередження, які ви могли собі уявити, якимось чином скасовуються, щоб ці дані могли безпосередньо відображати німецькі виборці. Фактично результати в Tumasjan et al. (2010) виявилося занадто добре, щоб бути правдою. У наступному документі Андреаса Юнггера, Паскаля Юргенса та Гаральда Шоена (2012) зазначено, що вихідний аналіз виключив політичну партію, яка фактично отримала найбільше згадок на Twitter: піратська партія, невелика партія, яка бореться з державним регулюванням Інтернету. Коли піратська партія була включена в аналіз, згадане твір стає жахливим предиктором результатів виборів (малюнок 2.3). Як показує цей приклад, використання непредставницьких великих джерел даних для здійснення узагальнених зразків може бути дуже неправильним. Крім того, ви повинні помітити, що той факт, що було 100 000 твітів, в основному не має значення: безліч нерепрезентативних даних все ще не є репрезентативним, тема, яку я повернемо до розділу 3, коли я обговорюю обстеження.
На закінчення, багато великих джерел даних - це не репрезентативні зразки з деякого певного населення. Для питань, які вимагають узагальнення результатів з вибірки населенню, з якого це було намальовано, це серйозна проблема. Але для запитань про порівняння в межах вибірки, непредставницькі дані можуть бути потужними, якщо дослідники чітко розуміють характеристики своїх зразків та підтримують твердження про транспортуемость з теоретичними або емпіричними доказами. Фактично, я сподіваюсь, що великі джерела даних дозволять дослідникам робити більше порівняння в межах вибірки у багатьох непредставницьких групах, і я думаю, що оцінки з багатьох різних груп зробить більше для просування соціальних досліджень, ніж окрема оцінка з імовірнісного випадкового зразок