Simple броене може да бъде интересно, ако се съчетаят добър въпрос с добри данни.
Въпреки, че е изработена в сложен звуков език, много социални изследвания всъщност просто преброяват нещата. Във времето на големите данни изследователите могат да разчитат повече от всякога, но това не означава, че те просто трябва да започнат да броят случайно. Вместо това, изследователите трябва да попитат: Какви неща са на стойност да броим? Това може да изглежда като напълно субективен въпрос, но има някои общи модели.
Често студентите мотивират изследванията си, като казват: "Аз ще разчитам нещо, което никой никога не е броил преди. Например, един студент може да каже, че много хора са учили мигранти и много хора са учили близнаци, но никой не е учил близнаци мигранти. Според моя опит тази стратегия, която аз наричам мотивация чрез отсъствие , обикновено не води до добри изследвания. Мотивацията от отсъствието е нещо като да кажа, че там има дупка и аз ще работя много усилено, за да я напълня. Но не всяка дупка трябва да бъде запълнена.
Вместо да мотивирам от отсъствие, мисля, че по-добра стратегия е да се търсят научни въпроси, които са важни или интересни (или в идеалния случай и двете). И двата термина са малко трудни за дефиниране, но един от начините да се мисли за важни изследвания е, че той има някакво измеримо въздействие или се захваща с важно решение на политиците. Например, измерването на нивото на безработица е важно, защото е индикатор за икономиката, която ръководи политическите решения. Като цяло мисля, че изследователите имат доста добро чувство за това, което е важно. Така че в останалата част на този раздел ще дам два примера, за които мисля, че броенето е интересно. Във всеки случай, изследователите не се броят случайно; по-скоро те се броят в много специфични условия, които разкриват важни прозрения в по-общи идеи за това как функционират социалните системи. С други думи, много от това, което прави тези специални преброявания интересни, не са самите данни, идва от тези по-общи идеи.
Един пример за простата сила на преброяването идва от проучването на Хенри Фарбер (2015) за поведението на таксиметровите шофьори в Ню Йорк. Въпреки че тази група може да не звучи по същество интересна, тя е стратегически изследователски сайт за тестване на две конкуриращи се теории в икономиката на труда. За целите на изследването на Farber съществуват две важни характеристики за работната среда на таксиметровите шофьори: (1) тяхната часова заплата варира от ден на ден, на базата на фактори като времето и (2) броя часове, които те работата може да се колебае всеки ден въз основа на техните решения. Тези характеристики водят до интересен въпрос относно връзката между часовото възнаграждение и отработените часове. Неокласическите модели в икономиката прогнозират, че таксиметровите шофьори ще работят повече в дните, в които имат по-високи почасови заплати. Алтернативно, моделите от поведенческата икономика прогнозират точно обратното. Ако шофьорите определиха определена цел за доходите - да речем 100 долара на ден - и да работят, докато тази цел бъде изпълнена, тогава шофьорите ще свършат да работят по-малко часове в дните, в които печелят повече. Например, ако сте били целеви, може да приключите работата си четири часа в един добър ден ($ 25 на час) и пет часа в лош ден ($ 20 на час). Така че шофьорите работят ли повече часове на дни с по-високи заплати на час (както се предсказват от неокласическите модели) или повече часове на дни с по-ниски часови заплати (както се прогнозира от поведенческите икономически модели)?
За да отговори на този въпрос, Фарбер получи данни за всяко пътуване с такси, извършено от кабините в Ню Йорк от 2009 до 2013 г., данни, които вече са обществено достъпни. Тези данни, събрани от електронни измервателни уреди, които градът изисква да използват таксита, включват информация за всяко пътуване: начално време, начално местоположение, крайно време, крайна точка, тарифа и съвет (ако съветът е платен с кредитна карта) , Използвайки тези таксиметрови данни, Фарбер установи, че повечето водачи работят повече в дни, когато заплатите са по-високи, в съответствие с неокласическата теория.
В допълнение към тази основна констатация, Фарбер успя да използва размера на данните за по-добро разбиране на хетерогенността и динамиката. Той установи, че с течение на времето по-новите шофьори постепенно се научават да работят повече часове в дните с високи заплати (напр. Се учат да се държат, както прогнозира неокласическият модел). И новите водачи, които се държат по-скоро като прицелни, са по-склонни да напуснат таксиметровите шофьори. И двете по-фини открития, които помагат да се обясни наблюдаваното поведение на настоящите шофьори, бяха възможни само поради размера на масива от данни. В предходните проучвания не е било възможно да се установи, че за кратък период от време са използвани хартии с отпечатъци от малък брой таксиметрови шофьори (Camerer et al. 1997) .
Изследването на Фарбър е близко до най-добрия сценарий за изследване, използващо голям източник на данни, тъй като данните, събрани от града, са доста близки до данните, които Фарбер щеше да събере (една разлика е, че Фарбер би искал данни за общо заплати-тарифи плюс съвети - но данните за града включват само съвети, платени с кредитна карта). Само данните обаче не бяха достатъчни. Ключът към изследванията на Фарбър поставя интересен въпрос към данните, въпрос, който има по-големи последици отвъд тази конкретна обстановка.
Втори пример за разглеждане на нещата идва от изследванията на Гари Кинг, Дженифър Пан и Моли Робъртс (2013) относно онлайн цензурата от страна на китайското правителство. В този случай обаче изследователите трябваше да съберат собствените си големи данни и те трябваше да се справят с факта, че данните им бяха непълни.
Кралят и колегите му бяха мотивирани от факта, че социалните медийни постове в Китай са цензурирани от огромен държавен апарат, за който се смята, че включва десетки хиляди хора. Изследователите и гражданите обаче нямат представа как тези цензури да решат какво съдържание да бъде изтрито. Учените в Китай всъщност имат противоречиви очаквания относно това кои видове публикации най-вероятно ще бъдат изтрити. Някои смятат, че цензурите се съсредоточават върху публикации, които са критични към държавата, докато други смятат, че те се съсредоточават върху постове, насърчаващи колективно поведение, като например протести. Изчисляването на това кое от тези очаквания е правилно има последици за начина, по който изследователите разбират Китай и други авторитарни правителства, които се занимават с цензура. Поради това кралят и колегите искаха да сравнят публикациите, публикувани и впоследствие изтрити, с публикации, които бяха публикувани и никога не бяха изтрити.
Събирането на тези постове, участващи в невероятно инженерно постижение на пълзене повече от 1000 китайски сайтове на социални медии-всяка с различна страница оформления-намирането съответните постове, а след това равносметка тези постове, за да видите, които впоследствие са били изтрити. В допълнение към нормалните инженерни проблеми, свързани с голям мащаб уеб-пълзене, този проект имаше добавена предизвикателството, че е необходимо да бъде изключително бързо, защото много цензурирани мнения са взети за определяне на по-малко от 24 часа. С други думи, по-бавен робота ще пропусне много мнения, които бяха цензурирани. Освен това, роботите трябваше да направим всичко това събиране на данни, докато избягване на откриване да не би интернет сайта на социални медии блокират достъп или по друг начин да промени политиките си в отговор на проучването.
Докато завърши тази мащабна инженерна задача, кралят и колегите получиха около 11 милиона публикации по 85 различни предварително зададени теми, всяка от които с предполагаемо ниво на чувствителност. Например, тема с висока чувствителност е Ай Уейуей, дисидентският художник; темата за средната чувствителност е поскъпването и девалвацията на китайската валута, а темата за ниската чувствителност е световната купа. От тези 11 милиона пункта около 2 милиона бяха цензурирани. Изненадващо, Крал и колеги открили, че публикациите по чувствителни теми са цензурирани само малко по-често, отколкото публикации по теми от средно и ниска чувствителност. С други думи, китайските цензури са най-вероятно да цензурират пост, която споменава Ai Weiwei като пост, която споменава Световната купа. Тези констатации не подкрепят идеята, че правителството цензурира всички постове по чувствителни теми.
Това просто изчисление на процента на цензурата по теми може да бъде подвеждащо. Например, правителството може да цензурира мнения, които подкрепят Ai Weiwei, но оставят мнения, които са критични към него. За да се направи по-внимателно разграничаване между длъжностите, изследователите трябваше да измерват чувствата на всяка публикация. За съжаление, въпреки много работа, напълно автоматизираните методи за откриване на настроения, използващи съществуващи речници, все още не са много добри в много ситуации (обмислете проблемите, създаващи емоционална хронология от 11 септември 2001 г., описана в раздел 2.3.9). Следователно, кралят и колегите им се нуждаят от начин да обозначат своите 11 милиона социални медийни постове, дали те са (1) критични към държавата, (2) подкрепят държавата или (3) неотносими или фактически доклади за събитията. Това звучи като масивна работа, но те го решават, използвайки мощен трик, който е често срещан в областта на науката на данните, но относително рядък в социалната наука: контролирано обучение ; виж фигура 2.5.
Първо, в стъпка, която обикновено се нарича преработка , изследователите преобразуват публикациите в социалните медии в матрица за документи , където има един ред за всеки документ и една колона, в която се записва дали публикацията съдържа конкретна дума (например протест или трафик) , След това група асистенти за научни изследвания ръчно обозначава чувството за извадка от публикации. След това използваха тези ръчно маркирани данни, за да създадат модел за машинно обучение, който може да изведе нагласата на дадена публикация въз основа на нейните характеристики. И накрая, те използваха този модел, за да преценят настроението на всичките 11 милиона публикации.
По този начин, отколкото ръчно четене и етикетиране на 11 милиона публикации - което би било логично невъзможно - кралят и колегите ръчно означават малък брой длъжности и след това използват контролирано обучение, за да преценят нагласите на всички длъжности. След приключването на този анализ те успяват да заключат, че донякъде изненадващо вероятността за заличаване на дадена длъжност не е свързана с това дали е критична към държавата или поддържаща държавата.
В крайна сметка, Крал и колеги откриха, че само три типа длъжности са редовно цензурирани: порнография, критика на цензурите и такива, които имат потенциал за колективно действие (т.е. възможност да доведат до мащабни протести). С наблюдението на огромен брой изтрити публикации и публикации, които не бяха изтрити, кралят и колегите успяха да научат как цензурите работят само чрез гледане и броене. Освен това, предупреждавайки тема, която ще се появи в цялата тази книга, подходът под контролиран учебен процес, който използваха - ръчно обозначаване на някои резултати и създаване на модел за машинно обучение, за да обозначи останалото - се оказва много често срещано в социалните изследвания в дигиталната ера , Ще видите снимки, подобни на фигура 2.5, в глави 3 (Въпроси за задаване) и 5 (Създаване на масово сътрудничество); това е една от малкото идеи, които се появяват в няколко глави.
Тези примери - работното поведение на таксиметровите шофьори в Ню Йорк и поведението на китайското правителство за цензуриране на социалните медии показват, че сравнително простото отчитане на големи източници на данни може в някои ситуации да доведе до интересни и важни изследвания. И в двата случая обаче изследователите трябваше да зададат интересни въпроси към големия източник на данни; данните сами по себе си не бяха достатъчни.