Егер сіз жақсы деректермен жақсы сұрақ біріктіру, егер қарапайым санау қызықты болуы мүмкін.
Дегенмен, ол күрделі дыбыс шығаратын тілде болса да, көптеген әлеуметтік зерттеулер шын мәнінде заттарды санайды. Үлкен деректер жасында зерттеушілер бұрын-соңды болмағандай санай алады, бірақ бұл олар жай ғана санауды бастауға тиіс дегенді білдірмейді. Оның орнына, зерттеушілер: «Қандай нәрселерді санау керек?» Деп сұрауы керек. Бұл тұтастай субъективті мәселе сияқты көрінуі мүмкін, бірақ кейбір жалпы құрылымдар бар.
Жиі студенттер өздерінің санағын зерттеуге ынталандырады: «Мен бұрын-соңды ешкім есептелмеген нәрсені есептеймін». Мысалы, студент көптеген адамдардың мигранттарды зерттегенін және көптеген адамдар егіздіктерді зерттегенін айтады, бірақ ешкім мигранттардың егіздерін зерттемейді. Менің тәжірибемде, мен мотивацияны жоқ деп тапқан бұл стратегия, әдетте, жақсы зерттеуге әкелмейді. Мотивация жоқ, ол жерде бір тесік бар деп айтуға болады, мен оны толтыру үшін өте көп жұмыс істеймін. Бірақ әрбір тесік толтырылуы керек емес.
Жауапкершіліктен бас тартудың орнына, менің ойымша, жақсы стратегия - бұл маңызды немесе қызықты (немесе екеуінде де) маңызды ғылыми зерттеулерді іздеу. Бұл терминдердің екеуі де біршама қиын, бірақ маңызды зерттеу туралы ойланудың бір жолы - бұл саясаткерлердің маңызды шешімдеріне әсер етуі мүмкін. Мысалы, жұмыссыздық деңгейін өлшеу өте маңызды, себебі ол саяси шешімдерді қозғайтын экономиканың көрсеткіші болып табылады. Жалпы алғанда, менің ойымша, зерттеушілер маңызды нәрсені жақсы түсінеді. Мәселен, осы бөлімнің қалған бөлігінде, менің ойымша, санау қызықты екені туралы екі мысалды ұсынамын. Әрбір жағдайда, зерттеушілер мұны бақыламады; Керісінше, олар әлеуметтік жүйелердің қалай жұмыс істейтіні туралы жалпы түсінікке қатысты маңызды түсініктерді анықтаған нақты жағдайларды санап жүрді. Басқаша айтқанда, осы нақты санауды қызықтыратын көптеген нәрсе деректердің өзі емес, бұл жалпы идеялардан келеді.
Генри Фарбердің (2015) Нью-Йорк такси жүргізушілерінің мінез-құлқын зерттеуін қарапайым есептеудің бір мысалы келтірілген. Бұл топ шын мәнінде қызықты болмаса да, бұл еңбек экономикасы саласында бәсекелесетін екі теорияны сынайтын стратегиялық зерттеу орны . Фарбердің зерттеулеріне сәйкес, такси жүргізушілерінің жұмыс ортасы туралы екі маңызды ерекшелігі бар: (1) олардың сағаттық жалақысы күнделікті ауытқып, ішінара ауа-райы сияқты факторларға байланысты және (2) сағат саны жұмыс олардың шешімдерінің негізінде күн сайын ауытқуы мүмкін. Бұл мүмкіндіктер сағаттық жалақылар мен жұмыс істейтін сағат арасындағы қарым-қатынас туралы қызықты сұрақ туғызады. Экономиканың неоклассикалық үлгілері такси жүргізушілерінің сағаттық жалақының жоғары болған күндері көп жұмыс істейтінін болжайды. Немесе, мінез-құлық экономикасы модельдері керісінше болжайды. Драйверлер белгілі бір табыс мақсатына - күніне 100 доллар дейміз - және сол мақсатқа жету үшін жұмыс істесе, онда жүргізушілер көп жұмыс істейтін күндері аз жұмыс істейді. Мысалға, сіз мақсатты тапқыш болған болсаңыз, жақсы жұмыс күні (сағатына 25 $) және жаман күнде бес сағаттан (сағатына 20 $) төрт сағат жұмыс істеуге болады. Сонымен, жүргізушілер сағаттық жалақының жоғары болуы (неоклассикалық модельдер болжанғандай) немесе сағаттық жалақымен (күнделікті мінез-құлықтың экономикалық модельдерінде болжанған) бірнеше күнмен көбірек сағат жұмыс істейді?
Бұл сұраққа жауап беру үшін Фарбер 2009-2013 жылдар аралығында Нью-Йорк қалалық таксилерімен жүргізілген әрбір такси сапарының деректерін алды. Бұл деректер қалаға таксиді қажет ететін электронды есептегіштермен жиналған - әр сапар туралы ақпаратты қамтиды: басталу уақыты, басталу орны, аяқталу уақыты, аяқталу орны, тарифі және ұшы (егер ұшақ несие картасымен төленген болса) . Бұл таксометрдің деректерін пайдаланып, Фарбер жалақылардың неоклассикалық теорияға сәйкес келетін күндерде көптеген жүргізушілердің көп жұмыс істейтінін көрсетті.
Осы негізгі қорытындыдан басқа, Фарбер біртектілігін және динамикасын жақсы түсіну үшін деректердің көлемін пайдалана алды. Уақыт өте келе жаңа драйверлер біртіндеп жоғары жалақы күндерінде көп сағат жұмыс істеуге үйренді (мысалы, неоклассический модель деп болжайды). Сонымен қатар, мақсатты жұмысшылар сияқты көп әрекет жасайтын жаңа жүргізушілер такси жүргізушілері болудан бас тартады. Ағымдағы драйверлердің мінез-құлқының түсіндірілуіне көмектесетін осы неғұрлым нәзік нәтижелердің екеуі де деректер жиынтығының өлшеміне байланысты мүмкін болды. Бұрынғы зерттеулерде қысқа мерзім ішінде такси жүргізушілерінің шағын санынан қағаз парақтарын қолданған (Camerer et al. 1997) .
Фарбердің зерттеуі үлкен дерек көзі арқылы зерттеуге арналған ең жақсы сценарийге жақындады, өйткені қала жинаған деректер Фарбер жинайтын деректерге өте жақын болды (бір айырмашылық Фарбердің жалпы деректер бойынша мәліметтерді алғысы келеді жалақы ақылы кеңестер - бірақ қалалық деректер тек несиелік картамен төленген кеңестерді қамтиды). Дегенмен, деректер тек жеткіліксіз. Фарбердің зерттеуі осы деректерге қызықты сұрақ тудырды, бұл осы нақты жағдайдан тыс үлкен салдары бар мәселе.
Есептеудің екінші мысалы - Гэри Кинг, Дженнифер Пан және Молли Робертс (2013) Қытай үкіметінің онлайн цензурасы бойынша жүргізген зерттеулерінен алынған. Алайда бұл жағдайда зерттеушілер өздерінің үлкен деректерін жинап, олардың деректерінің толық емес екендігін ескеру керек болды.
Король және оның әріптестері Қытайдағы әлеуметтік бұқаралық ақпарат құралдарының он мыңдаған адамдарды қамтуы мүмкін үлкен мемлекеттік аппаратпен цензураға ұшыратқандығына негіз болды. Зерттеушілер мен азаматтар, дегенмен, осы цензорлар қандай мазмұнды жою керектігін қалай шешетінін білмейді. Қытайдың ғалымдары шын мәнінде қандай лауазымдар жойылып кетуі мүмкін екендігіне қатысты қайшылықтар күтеді. Кейбіреулер цензорлар мемлекетті сынайтын лауазымдарға шоғырландырады деп ойлайды, ал басқалары шерулер сияқты ұжымдық әрекеттерді көтеретін посттарға назар аударады деп ойлайды. Осы үміттердің қайсысын дұрыс деп санай отырып, зерттеушілер Қытай мен цензурамен айналысатын басқа авторитарлық үкіметтерді қалай түсінеді? Сондықтан Король және әріптестер басылып шыққан және кейінірек жарияланған және ешқашан жойылмаған хабарлармен салыстырғылары келеді.
осы лауазымдарға жинау түрлі бет орналасулары-табу тиісті лауазымдарға бар 1000-нан астам қытай әлеуметтік мультимедиа веб-сайттарын-әрбір тексеріп шығу, содан кейін кейіннен жойылған болатын көру үшін осы лауазымдарға қайта қарауға таңғажайып ерлігі инженерлік тартылған. ауқымды веб-тексеріп байланысты қалыпты инженерлік проблемаларына Сонымен қатар, бұл жоба көптеген цензураға хабарламалар кем дегенде 24 сағат төмен алынады, өйткені ол өте тез болуы үшін қажетті қосылған міндеті болды. Басқаша айтқанда, баяу тексеріп шығушы цензураға болды лауазымдарының көп жіберіп еді. қол оқшаулауға немесе басқаша зерттеу жауап өз саясатын өзгертуге әлеуметтік медиа сайттардың Әйтпесе анықтауды жалтарған, ал одан әрі, жинақтағыштар барлық осы деректер жинау жасауға мәжбүр болды.
Бұл массивтік инженерлік тапсырма аяқталған кезде, Король және әріптестер әрқайсысы болжалды деңгейдегі сезімталдығы бар 85 түрлі алдын-ала анықталған тақырып бойынша шамамен 11 миллион пост алды. Мысалы, жоғары сезімталдық тақырыбы - диссидент Ай Вайвей; орташа сезімталдық тақырыбы - қытай валютасының құндылығы мен девальвациясы, ал төмен сезімталдық тақырыбы - Әлем кубогы. Осы 11 миллион лауазымнан 2 миллионға жуық адам цензураға ұшырады. Бір қызығы, Король және оның әріптестері жоғары сезімтал тақырыптардағы тақырыптар орта және төмен сезімтал тақырыптар бойынша хабарламаларға қарағанда біршама жиі цензураға ие екендігін анықтады. Басқаша айтқанда, қытайлық цензорлар Ai Weiwei-ні Әлем Кубогы туралы айтатын лауазым туралы айтатын лауазымға цензураға ұқсайды. Бұл тұжырымдар үкіметтің сезімтал тақырыптар бойынша барлық лауазымдарды цензуралайтыны туралы идеяны қолдамайды.
Дегенмен, цензура деңгейінің қарапайым есептелуі тақырып бойынша жаңылыстыруы мүмкін. Мысалы, үкімет Ai Weiwei-ді қолдайтын лауазымдарды цензураға алып келуі мүмкін, бірақ оның сыни лауазымдарын қалдырады. Хабарларды мұқият бөліп алу үшін зерттеушілер әр лауазымның көңіл-күйін өлшеуі керек болды. Өкінішке орай, көп жұмыс істегеніне қарамастан, бұрыннан бар сөздіктерді пайдалана отырып, көңіл бөлуді толық автоматтандырылған әдістер көптеген жағдайларда әлі де жақсы емес (2001 жылғы 11 қыркүйектегі 2.3.9-бөлімде сипатталған эмоционалдық уақыт кестесін құрайтын мәселелерді ойластырыңыз). Демек, Король және әріптестер өздерінің 11 миллион әлеуметтік медиа-постын мемлекеттік (1) сынап-бағындыруға, 2) мемлекет тарапынан қолдау көрсетуге немесе (3) іс-шаралар туралы маңызды емес немесе фактологиялық есептерге қатысты белгілеуіне мұқтаж болды. Бұл массивтік жұмыс сияқты көрінеді, бірақ оны деректер ғылымында кең таралған, бірақ әлеуметтік ғылымда салыстырмалы түрде сирек кездесетін қуатты трюк арқылы шешті: бақыланатын оқыту ; 2.5 суретін қараңыз.
Біріншіден, әдетте алдын-ала өңдеу деп аталатын кезеңде зерттеушілер әлеуметтік медиа-посттарды құжаттың кез-келген матрицасына айналдырды , онда әр құжат үшін бір жол және бір бағанда нақты бір сөз бар ма (мысалы, наразылық немесе қозғалыс) . Әрі қарай, зерттеушілердің тобы посттардың үлгісі туралы пікірге қол қояды. Содан кейін, олар қолмен таңбаланған деректерді өз сипаттамаларына негізделген посттың сезімін тудыра алатын машина үлгісін жасау үшін қолданды. Ақырында, олар 11 миллион посттың көңіл-күйін бағалау үшін осы модельді пайдаланды.
Мәселен, 11 миллион хабарламаны қолмен оқып, таңбалаудың орнына, ол логистикалық түрде мүмкін емес еді - Король және әріптестер қолмен аздаған посттерді белгілеп, содан кейін барлық лауазымдарға деген сенімдерін бағалау үшін бақылауды қолданды. Бұл талдауды аяқтағаннан кейін, олар таңқаларлықтай, бұл лауазымның жойылуы ықтималдығы мемлекеттің немесе мемлекет тарапынан қолдау көрсетудің маңыздылығына байланысты емес деген қорытындыға келді.
Ақырында, Король және әріптестер пост-порнографияны, цензорларды сынға алуды және ұжымдық әрекеттер әлеуетін (яғни кең ауқымды наразылықтарға жол ашу мүмкіндігін) бар болғаны үш түрін үнемі цензураға айналдырды. Көптеген хабарламаларды алып тастап, жойылмаған жазбаларды байқап, Король және әріптестер сценарийлерді қарау және санау арқылы қалай жұмыс істейтінін біле алды. Бұдан басқа, осы кітапта пайда болатын тақырыпты алдын-ала қарастырып, олар белгілі бір нәтижелерді қолмен белгілеп, содан кейін қалғандарды белгілеу үшін машина моделін құру сандық ғасырда әлеуметтік зерттеулерде өте кең таралуы мүмкін . Сіз суреттерді 2,5-суреттегідей 3-тарауда (Сұрақтар қою) және 5-ші (Жаппай ынтымақтастықты құру) өте ұқсас көресіз; Бұл бірнеше тарауда пайда болатын бірнеше идеялардың бірі.
Бұл мысалдар - Нью-Йорктегі такси жүргізушілерінің жұмыс тәртібі және қытай үкіметінің әлеуметтік медиа цензурасы - үлкен деректер көздерін салыстырмалы қарапайым санау кейбір жағдайларда қызықты және маңызды зерттеулерге әкелуі мүмкін екендігін көрсетеді. Алайда екі жағдайда да зерттеушілер үлкен деректер көзіне қызықты сұрақтарды әкелуі керек еді; деректер өзі жеткіліксіз.