Големи масиви от данни, са средство за постигане на целта; те не са самоцел.
Най-широко обсъжданата особеност на големите източници на данни е, че те са BIG. Много статии, например, започват, като обсъждат - и понякога се хвалят - колко анализирани данни. Например публикация, публикувана в " Наука", която проучва тенденциите в използването на думи в корпуса на Google Книги, включва следното (Michel et al. 2011) :
"Нашият корпус съдържа над 500 милиарда думи на английски език (361 милиарда), френски (45 милиарда), испански (45 милиарда), немски (37 милиарда), китайски (13 милиарда), руски (35 милиарда) (2 милиарда). Най-старите произведения са публикувани през 1500-те. Първите десетилетия са представени само от няколко книги на година, съдържащи няколко стотин хиляди думи. До 1800 г. корпусът нараства до 98 милиона думи на година; до 1900, 1,8 милиарда; и до 2000 г. - 11 млрд. евро. Корпусът не може да бъде прочетен от човек. Ако се опитате да прочетете само записи по английски език от 2000 г., с разумно темпо от 200 думи / мин, без прекъсвания за храна или сън, това ще отнеме 80 години. Последователността на буквите е 1000 пъти по-дълга от човешкия геном: ако го напишеш по права линия, ще стигне до Луната и ще се върне 10 пъти.
Мащабът на тези данни несъмнено е впечатляващ и ние сме щастливи, че екипът на Google Книги публикува тези данни на обществеността (в действителност някои от дейностите в края на тази глава използват тези данни). Но когато видите нещо подобно, трябва да попитате: дали всички тези данни действително правят нещо? Биха могли да са направили същото изследване, ако данните могат да достигнат до Луната и да се върнат само веднъж? Ами ако данните можеха да стигнат само до върха на връх Еверест или в горната част на Айфеловата кула?
В този случай техните проучвания всъщност имат известни констатации, които изискват огромен набор от думи за дълъг период от време. Например, едно нещо, което те изследват, е еволюцията на граматиката, особено промените в степента на конюгацията на неправилните глаголи. Тъй като някои неправилни глаголи са доста редки, е необходимо голямо количество данни, за да се открият промените с течение на времето. Твърде често обаче изследователите изглежда, че разглеждат големината на големия източник на данни като крайна "виж колко данни мога да направя" - по-скоро от средства за по-важна научна цел.
Според моето преживяване изследването на редки събития е един от трите специфични научни цели, които големите набори от данни са склонни да дадат възможност. Второто е проучването на хетерогенността, което може да бъде илюстрирано от проучване на Raj Chetty и колеги (2014) относно социалната мобилност в Съединените щати. В миналото много изследователи са изучавали социалната мобилност чрез сравняване на резултатите от живота на родителите и децата. Постоянното заключение от тази литература е, че привилегированите родители са склонни да имат привилегировани деца, но силата на тези взаимоотношения варира във времето и в различните страни (Hout and DiPrete 2006) . Напоследък обаче Чети и колегите са могли да използват данъчните регистри от 40 милиона души, за да преценят разнородността на мобилността между поколенията в регионите в САЩ (фигура 2.1). Те установиха например, че вероятността детето да достигне горния квинтил от националното разпределение на доходите, започващо от семейство в долния квинтил, е около 13% в Сан Хосе, Калифорния, но само около 4% в Шарлот, Северна Каролина. Ако погледнете фигура 2.1 за момент, може да започнете да се чудите защо мобилността между поколенията е по-висока в някои места, отколкото в други. Четя и колегите имаха точно същия въпрос и установиха, че районите с висока мобилност имат по-малка жилищна сегрегация, по-малко неравенство в доходите, по-добри начални училища, по-голям социален капитал и по-голяма семейна стабилност. Разбира се, само тези корелации не показват, че тези фактори предизвикват по-голяма мобилност, но предлагат възможни механизми, които могат да бъдат проучени в по-нататъшната работа, което точно направиха Chety и колегите в следващата работа. Забележете как размерът на данните е наистина важен за този проект. Ако Чети и колегите са използвали данъчните регистри на 40 хиляди души, отколкото 40 милиона, те не биха могли да преценят регионалната хетерогенност и никога не биха могли да направят последващи изследвания, за да се опитат да идентифицират механизмите, които създават тази вариация.
И накрая, в допълнение към изучаването на редки събития и изучаването на разнородността, големите набори от данни също позволяват на изследователите да откриват малки различия. Всъщност голяма част от фокуса върху големите данни в индустрията е за тези малки разлики: надеждно откриване на разликата между 1% и 1,1% процента на кликванията върху рекламата може да се превърне в допълнителни приходи от милиони долари. В някои научни среди обаче такива малки разлики може да не са особено важни, дори и да са статистически значими (Prentice and Miller 1992) . Но в някои политически настройки те могат да станат важни, когато се разглеждат като цяло. Например, ако има две интервенции в областта на общественото здравеопазване и едната е малко по-ефективна от другата, тогава събирането на по-ефективна намеса може да доведе до спестяване на хиляди допълнителни животи.
Въпреки, че понятието обикновено е добро свойство, когато се използва правилно, забелязах, че понякога може да доведе до концептуална грешка. По някаква причина, порядъкът изглежда води изследователите да пренебрегват как са генерирани техните данни. Докато порядъкът намалява нуждата от тревога за случайна грешка, всъщност се увеличава нуждата от тревога за системни грешки, видовете грешки, които ще опиша по-долу, които възникват от отклонения в начина на създаване на данните. Например, в един проект, който ще опиша по-късно в тази глава, изследователите използваха съобщенията, генерирани на 11 септември 2001 г., за да създадат емоционална хронология на реакцията при терористичната атака (Back, Küfner, and Egloff 2010) . Тъй като изследователите имаха голям брой послания, те всъщност не трябваше да се безпокоят дали схемите, наблюдавани от тях - увеличаващ се гняв в течение на деня - биха могли да се обяснят с случайни вариации. Имаше толкова много данни и моделът беше толкова ясен, че всички статистически статистически тестове предполагаха, че това е истински модел. Но тези статистически тестове не са знаели как са създадени данните. Всъщност се оказа, че много от моделите се дължат на един бот, който генерира все по-безсмислени съобщения през целия ден. Премахването на този ботуш напълно унищожи някои от основните открития в статията (Pury 2011; Back, Küfner, and Egloff 2011) . Просто, изследователите, които не мислят за систематична грешка, са изправени пред риска да използват своите големи масиви от данни, за да получат точна оценка на незначително количество, като например емоционалното съдържание на безсмислени съобщения, произведени от автоматизиран бот.
В заключение, големите масиви от данни не са самоцел, но могат да позволят някои видове изследвания, включително проучване на редки събития, оценка на хетерогенността и откриване на малки различия. Големите масиви от данни също така водят някои изследователи да пренебрегват как са създадени техните данни, което може да ги доведе до точна оценка на незначително количество.