Едноставна броење може да биде интересно ако се комбинираат добро прашање со добри податоци.
Иако е напишано со софистициран звучен јазик, многу општествени истражувања навистина само ги бројат работите. Во ерата на големи податоци, истражувачите можат да сметаат повеќе од кога било, но тоа не значи дека тие треба само да почнат да сметаат случајно. Наместо тоа, истражувачите треба да се запрашаат: кои работи вредат да се бројат? Ова може да изгледа како целосно субјективна материја, но постојат некои општи обрасци.
Често учениците ги мотивираат своите бројачки истражувања велејќи: Ќе пресметувам нешто што никој досега не го сметал. На пример, еден ученик може да каже дека многу луѓе ги проучувале мигрантите, а многу луѓе проучувале близнаци, но никој не ги проучувал близнаците-мигранти. Според моето искуство, оваа стратегија, која ја нарекувам мотивација од страна на отсуство , обично не доведува до добро истражување. Мотивацијата од страна на отсуство е како да се каже дека има дупка таму, и јас ќе работам многу напорно за да го пополнам. Но, не треба да се пополни секоја дупка.
Наместо мотивирање од отсуство, мислам дека подобрата стратегија е да бараме истражувачки прашања кои се важни или интересни (или идеално и двете). Двата термини малку тешко се дефинираат, но еден начин да се размислува за важни истражувања е тоа што има некои мерливи влијанија или се хранат во важна одлука на креаторите на политиката. На пример, мерењето на стапката на невработеност е важно, бидејќи тоа е показател за економијата што ги води политичките одлуки. Општо земено, мислам дека истражувачите имаат прилично добро чувство за она што е важно. Значи, во остатокот од овој дел, ќе дадам два примери каде што мислам дека броењето е интересно. Во секој случај, истражувачите не сметаа случајно; Напротив, тие сметаа во многу конкретни поставувања кои откриваа важни согледувања во поопштите идеи за тоа како социјалните системи функционираат. Со други зборови, многу од она што ги прави овие посебни вежби за броење интересни, не се самите податоци, туку доаѓаат од овие поопшто идеи.
Еден пример за едноставна моќ на броење доаѓа од студијата на Henry Farber (2015) за однесувањето на таксистите во Њујорк. Иако оваа група не може да звучи инхерентно интересно, тоа е стратешко истражување место за тестирање две натпреварувачки теории во економијата на трудот. За целите на истражувањето Farber, постојат две важни карактеристики за работната средина на таксистите: (1) нивната час плата варира од ден на ден, делумно делумно врз фактори како времето и (2) бројот на часови што тие ги работата може да флуктуира секој ден врз основа на нивните одлуки. Овие карактеристики доведуваат до интересно прашање за односот помеѓу часовите и работните часови. Неокласичните модели во економијата предвидуваат дека таксистите ќе работат повеќе на денови кога имаат повисоки плата по час. Алтернативно, моделите од економијата во однесувањето предвидуваат токму спротивното. Ако возачите поставија одредена цел за приход - велат 100 долари дневно - и работат додека таа цел не е исполнета, тогаш возачите ќе завршат со работа помалку часови денови за кои заработуваат повеќе. На пример, ако сте биле целна заработувачка, можеби ќе завршите со работа четири часа на добар ден (25 $ на час) и пет часа на лош ден (20 $ на час). Значи, дали возачите работат повеќе часови денови со повисоки плата на час (како што е предвидено со неокласичните модели) или повеќе часови денови со пониски плати на час (како што е предвидено од моделите на однесување во однесувањето)?
За да одговорат на ова прашање, Фабер доби податоци за секое такси патување од кабините во Њујорк од 2009 до 2013 година, податоци кои сега се достапни на јавноста. Овие податоци - кои беа собрани од страна на електронски броила дека градот бара да се користат такси-вклучуваат информации за секое патување: почеток, почеток на локација, време на завршување, крајна локација, билет и врв (ако врвот бил платен со кредитна картичка) . Користејќи ги овие податоци за таксискиот метар, Farber откри дека повеќето возачи работат повеќе на денови кога платите се повисоки, во согласност со неокласичната теорија.
Во прилог на овој главен наод, Farber успеа да ја искористи големината на податоците за подобро разбирање на хетерогеноста и динамиката. Тој откри дека со текот на времето, поновите возачи постепено учат да работат повеќе часови на денови со високи плати (на пример, учат да се однесуваат како што предвидува неокласичниот модел). И нови возачи кои се однесуваат повеќе како целни заработувачи се со поголема веројатност да се откажете од таксистите. Двата посуптилни наоди, кои помагаат да се објасни забележаното однесување на тековните возачи, беа можни само поради големината на базата на податоци. Тие биле невозможно да се детектираат во претходните студии кои користеле листови за хартија од мал број таксисти за кратко време (Camerer et al. 1997) .
Студијата Фарбер беше блиска до најдобро сценарио за истражување со користење на голем извор на податоци, бидејќи податоците собрани од градот беа прилично блиску до податоците што Фарбер би ги собрал (една разлика е во тоа што Фарбер би сакал податоци за вкупно цените на платите плус совети, но градските податоци содржеа само совети платени со кредитна картичка). Сепак, податоците сами по себе не беа доволни. Клучот за истражувањето на Farber беше поставување на интересно прашање за податоците, прашање кое има поголеми импликации надвор од само овој специфичен амбиент.
Вториот пример за пребројување на работите доаѓа од истражувањето на Гери Кинг, Џенифер Пан и Моли Робертс (2013) за цензурата на интернет од страна на кинеската влада. Меѓутоа, во овој случај, истражувачите мораа да собираат сопствени големи податоци и мораа да се справуваат со фактот дека нивните податоци не беа целосни.
Кинг и колегите беа мотивирани од фактот дека објавите на социјалните медиуми во Кина се цензурирани од огромен државен апарат кој се смета дека вклучува десетици илјади луѓе. Истражувачите и граѓаните, сепак, немаат смисла за тоа како овие цензури одлучуваат што содржината треба да се избрише. Научниците од Кина, всушност, имаат спротивставени очекувања за тоа кои видови на мислења најверојатно ќе бидат избришани. Некои сметаат дека цензорите се фокусираат на мислења кои се критични за државата, додека други мислат дека се фокусираат на мислења кои го поттикнуваат колективното однесување, како што се протестите. Откривањето кое од овие очекувања е точно има импликации за тоа како истражувачите ја разбираат Кина и другите авторитарни влади кои се ангажираат во цензура. Затоа, кралот и колегите сакаа да ги споредат објавените објави и потоа да бидат избришани со натписи кои беа објавени и никогаш не беа избришани.
Собирање на овие места се вклучени во неверојатна инженеринг подвиг на индексирање повеќе од 1.000 кинески социјалните медиуми веб-страниците-секој со различни страница распоред за наоѓање релевантни мислења, а потоа и посетување на овие места за да ја видите кои потоа беа избришани. Во прилог на нормална инженерски проблеми кои се поврзани со големи размери веб-индексирање, овој проект го додадена предизвик со кој што требаше да биде многу брзо, бидејќи многу цензурирани мислења се симнат за помалку од 24 часа. Со други зборови, бавно Роботот ќе го пропушти многу места кои беа цензурирани. Понатаму, роботите мораше да го направи сето ова за собирање на податоци, додека избегнување на откривање на веб-сајтови за да не на социјалните медиуми го блокира пристапот или на друг начин ги променат нивните политики како одговор на студијата.
До времето кога оваа масовна инженерска задача беше завршена, Кинг и неговите колеги добија околу 11 милиони мислења на 85 различни преципифицирани теми, секој со претпоставено ниво на чувствителност. На пример, тема на висока чувствителност е Аи Веивеи, дисидентскиот уметник; тема на средината чувствителност е благодарност и девалвација на кинеската валута, а тема со ниска осетливост е Светското првенство. Од овие 11 милиони постови, околу 2 милиони биле цензурирани. Нешто изненадувачки, Кинг и неговите колеги открија дека мислењата за високо чувствителни теми биле цензурирани само малку почесто отколку мислења за теми од средна и ниска осетливост. Со други зборови, кинеските цензори имаат тенденција да го цензурираат мислењето кое го споменува Аи Веивеи како пост кој го споменува Светското првенство. Овие наоди не ја поддржуваат идејата дека владата ги цензурира сите мислења на осетливи теми.
Сепак, оваа едноставна пресметка на стапката на цензура по тема може да биде погрешна. На пример, владата може да ги цензурира мислењата кои го поддржуваат Аи Веивеи, но оставаат мислења кои се критични за него. Со цел да се направи разлика меѓу мислењата внимателно, истражувачите требаше да го измерат чувството на секое мислење. За жал, и покрај многуте работи, целосно автоматизирани методи за откривање на чувства со користење на постоечки речници сеуште не се многу добри во многу ситуации (размислете за проблемите што создаваат емоционална временска линија од 11 септември 2001 година опишана во дел 2.3.9). Затоа, на Кинг и колегите им беше потребен начин да ги етикетираат своите 11 милиони ставови во социјалните медиуми за тоа дали се (1) критични за државата, (2) поддржуваат државата, или (3) ирелевантни или фактички извештаи за настаните. Ова звучи како масовна работа, но тие го решија користејќи моќен трик што е вообичаен во науката за податоци, но релативно редок во општествените науки: надгледувано учење ; види слика 2.5.
Прво, во еден чекор кој обично се нарекува препроцесира , истражувачите ги трансформираа постовите на социјалните медиуми во матрикс за документи , каде што имаше еден ред за секој документ и една колона која забележа дали пост содржи одреден збор (на пример, протест или сообраќај) . Потоа, група на истражувачки асистенти рачно го означиле чувството на примерок од мислења. Потоа, тие ги користеа овие податоци со рачно означување за да создадат модел за машинско учење што може да го заклучи чувството на мислење врз основа на неговите карактеристики. Конечно, тие го користеа овој модел за проценка на чувството на сите 11 милиони постови.
Така, наместо рачно читање и етикетирање 11 милиони мислења - што би било логистички невозможно - Кинг и неговите колеги рачно означија мал број мислења, а потоа користеле надгледувано учење за да го проценат чувството на сите мислења. По завршувањето на оваа анализа, тие успеаја да заклучат дека, нешто изненадувачки, веројатноста за бришење на мислење не е поврзана со тоа дали е критична за државата или за поддршка на државата.
На крајот, Кинг и неговите колеги откриле дека редовно се цензурирани само три типа на мислења: порнографија, критики за цензори и оние кои имале колективен акционен потенцијал (т.е. можноста да доведат до големи протести). Со набљудување на огромен број на постови кои беа избришани и мислења кои не беа избришани, Кинг и неговите колеги беа во можност да научат како цензорите работат само со гледање и броење. Понатаму, предвесник на тема што ќе се појави во текот на оваа книга, пристапот на надгледувано учење што го користеа - рачно обележување на некои исходи, а потоа и градење на модел за машинско учење за етикетирање на останатите - се покажа како многу честа појава во социјалните истражувања во дигиталното доба . Ќе видите слики слични на сликата 2.5 во поглавјата 3 (Поставување прашања) и 5 (Создавање масовна соработка); ова е една од ретките идеи што се појавуваат во повеќе поглавја.
Овие примери - работното однесување на таксистите во Њујорк и однесувањето на кинеската влада на центарот за социјални медиуми - покажуваат дека релативно едноставното пребројување на големи извори на податоци може во некои ситуации да доведе до интересни и важни истражувања. Во двата случаи, сепак, истражувачите мораа да донесат интересни прашања до големиот извор на податоци; податоците самите по себе не беа доволни.