Великі набори даних є засобом для досягнення мети; вони не є самоціллю.
Найбільш широко обговорювана особливість великих джерел даних полягає в тому, що вони великі. Наприклад, багато документів починають обговорювати, а іноді й хвастати - про те, скільки даних вони аналізують. Наприклад, стаття, опублікована в журналі Science, яка вивчає тенденції використання слів у книзі Google Books, включає в себе наступне (Michel et al. 2011) :
"Наш корпус містить понад 500 мільярдів слів: англійською (361 мільярда), французькою (45 мільярдів), іспанською (45 мільярдів), німецькою (37 мільярдами), китайською (13 мільярдами), росіяни (35 мільярдів) та івритом (2 млрд.). Найдавніші твори були опубліковані в 1500-ті роки. Перші десятиліття представлені лише кількома книгами на рік, що складається з декількох сотень тисяч слів. До 1800 року корпус зростає до 98 мільйонів слів на рік; до 1900 р. - 1,8 млрд .; і до 2000 р. - 11 млрд. Корпус не може бути прочитаний людиною. Якщо ви спробували читати лише англійську мову лише з 2000 року, при розумних темпах 200 слів / хв, без перерв для їжі або сну, це займе 80 років. Послідовність букв у 1000 разів перевищує людський геном: якщо ви написали це прямолінійно, це досягне 10 разів до Місяця та назад. "
Масштаб цих даних, безсумнівно, вражає, і всім нам пощастило, що команда Google Books оприлюднила ці дані для громадськості (насправді деякі з дій в кінці цієї глави використовують ці дані). Але, коли ви бачите щось подібне, ви повинні запитати: чи всі дані дійсно щось роблять? Чи могли б вони зробити те ж дослідження, якщо дані могли б досягати Місяця і назад лише один раз? Що робити, якщо дані можуть досягти лише вершини Евересту або вершини Ейфелевої вежі?
У цьому випадку їх дослідження насправді мають деякі висновки, які потребують величезного змісту слів протягом тривалого періоду часу. Наприклад, одне, що вони вивчають, - це еволюція граматики, зокрема, зміни швидкості неправильного спряження дієслова. Оскільки деякі нерегулярні дієслова досить рідкісні, велика кількість даних повинна визначати зміни з часом. Проте занадто часто дослідники вважають, що розглядають величину великого джерела даних як кінця - "подивіться, скільки даних я можу потиснути" - швидше, ніж засіб для якоїсь важливішої наукової мети.
З мого досвіду, вивчення рідкісних подій є одним з трьох конкретних наукових кінців, які великі набори даних, як правило, дозволяють. Друге - вивчення неоднорідності, про що свідчить дослідження, проведене Радже Хетті та його колегами (2014) Про соціальну мобільність у Сполучених Штатах. В минулому багато дослідників вивчали соціальну мобільність, порівнюючи результати життя батьків та дітей. Послідовне висновок з цієї літератури полягає в тому, що благополучні батьки, як правило, мають благополучних дітей, але сила цих відносин змінюється з часом і між країнами (Hout and DiPrete 2006) . Проте останнім часом Chetty та його колеги змогли використати податкові записи від 40 мільйонів людей для оцінки неоднорідності між поколіннями мобільності в різних регіонах США (рис. 2.1). Вони виявили, наприклад, що ймовірність того, що дитина досягає верхнього квинтиля розподілу національного доходу, починаючи з сім'ї в нижньому квинтилі, складає близько 13% у Сан-Хосе, штат Каліфорнія, але лише близько 4% у Шарлотті, штат Північна Кароліна. Якщо на певний момент ви дивитесь на рис. 2.1, ви можете подумати, чому в деяких місцях мобільність між поколіннями є вищою, ніж інші. Четті та його колеги мали точно таке ж питання, і вони виявили, що в цих районах високої мобільності є менша сегментація за місцем проживання, менша нерівність доходів, кращі початкові школи, більший соціальний капітал та більша стабільність у сім'ї. Звичайно, лише ці співвідношення не свідчать про те, що ці чинники викликають підвищену мобільність, але вони пропонують можливі механізми, які можна досліджувати в подальшій роботі, що саме робили Четті та його колеги в подальшій роботі. Зверніть увагу, як величина даних була дійсно важливою у цьому проекті. Якщо Chetty та його колеги використовували податкові записи 40 тисяч людей, а не 40 мільйонів, вони не змогли б оцінити гетерогенність у регіонах і вони ніколи не змогли б провести подальші дослідження, щоб спробувати виявити механізми, які створюють цю різницю.
Нарешті, крім вивчення рідкісних подій та вивчення неоднорідності, великі набори даних також дозволяють дослідникам виявити невеликі відмінності. Справді, основна увага приділяється великим даним у промисловості - це такі невеликі відмінності: надійно виявляючи різницю між показниками пропуску від 1% і 1,1%, оголошення може переводити додаткові доходи в мільйони доларів. Проте в деяких наукових установках такі невеликі відмінності можуть бути не особливо важливими, навіть якщо вони статистично значимі (Prentice and Miller 1992) . Але, в деяких налаштуваннях політики, вони можуть стати важливими, якщо розглядати сукупно. Наприклад, якщо існує два заходи з громадської охорони здоров'я, і один з них трохи ефективніший, ніж інший, тоді вибір ефективнішого втручання може призвести до заощадження тисяч додаткових життів.
Незважаючи на те, що, якщо правильно використовувати гру, як правило, це хороша властивість, я помітив, що іноді це може призвести до концептуальної помилки. З деяких причин величезна сила, здається, веде дослідників до ігнорування того, як створюються їх дані. Хоча величезна сила знижує потребу турбуватися про випадкову помилку, це фактично збільшує потребу турбуватися про систематичні помилки, види помилок, які я описати нижче, які виникають упередженнями щодо того, як створюються дані. Наприклад, у проекті, описаному пізніше в цій главі, дослідники використовували повідомлення, створені 11 вересня 2001 року, для створення емоційної шкали з високою роздільною здатністю реакції на теракт (Back, Küfner, and Egloff 2010) . Оскільки дослідники мали велику кількість повідомлень, їм не потрібно було турбуватися про те, чи були вони спостережуваними закономірностями, що викликають гнів на протязі дня, можна пояснити випадковим варіантом. Там було так багато даних, і така картина була настільки ясною, що всі статистичні статистичні тести показали, що це справжній шаблон. Але ці статистичні тести не знали, як створені дані. Фактично, виявилося, що багато з моделей були пов'язані з єдиним ботом, який протягом дня генерував все більше безглуздих повідомлень. Видалення цього бота повністю знищило деякі основні висновки в роботі (Pury 2011; Back, Küfner, and Egloff 2011) . Просто, дослідники, які не думають про систематичні помилки, ризикують використовувати свої великі набори даних, щоб отримати точну оцінку незначної кількості, наприклад, емоційного змісту безглуздих повідомлень, створених автоматичним ботом.
На закінчення, великі набори даних не є самоціллю, але вони можуть дозволити певні види досліджень, включаючи вивчення рідкісних подій, оцінку неоднорідності та виявлення невеликих відмінностей. Великі набори даних також примушують деяких дослідників ігнорувати, як їх дані були створені, що може привести їх до точної оцінки незначної кількості.