Simple numërimit mund të jetë interesante në qoftë se ju të kombinuar një pyetje të mirë me të dhëna të mira.
Megjithëse është e lidhur me një gjuhë të sofistikuar, shumë hulumtime sociale janë me të vërtetë vetëm duke numëruar gjëra. Në epokën e të dhënave të mëdha, hulumtuesit mund të llogarisin më shumë se kurrë, por kjo nuk do të thotë se ata duhet të fillojnë vetëm duke numëruar rastësisht. Në vend të kësaj, hulumtuesit duhet të pyesin: Çfarë gjërash merren parasysh? Kjo mund të duket si një çështje tërësisht subjektive, por ka disa modele të përgjithshme.
Shpesh studentët motivojnë hulumtimin e tyre duke numëruar duke thënë: Unë do të numëroj diçka që askush nuk e ka llogaritur kurrë më parë. Për shembull, një student mund të thotë se shumë njerëz kanë studiuar migrantë dhe shumë njerëz kanë studiuar binjakë, por askush nuk ka studiuar binjakë emigrantë. Në përvojën time, kjo strategji, të cilën e quaj motivim nga mungesa , zakonisht nuk çon në kërkime të mira. Motivimi nga mungesa është sikur të thosha se ka një vrimë atje dhe unë do të punoj shumë për ta mbushur. Por jo çdo vrimë duhet të mbushet.
Në vend që të motivoj nga mungesa, mendoj se një strategji më e mirë është të kërkosh pyetje kërkimore që janë të rëndësishme ose interesante (ose në mënyrë ideale të dyja). Të dyja këto terma janë paksa të vështirë për t'u definuar, por një mënyrë për të menduar për hulumtime të rëndësishme është se ai ka një ndikim të matshëm ose ushqen një vendim të rëndësishëm nga krijuesit e politikave. Për shembull, matja e shkallës së papunësisë është e rëndësishme sepse është një tregues i ekonomisë që vendos vendimet e politikave. Në përgjithësi, unë mendoj se studiuesit kanë një kuptim mjaft të mirë për atë që është e rëndësishme. Pra, në pjesën tjetër të këtij seksioni, unë do të jap dy shembuj ku mendoj se numërimi është interesant. Në çdo rast, hulumtuesit nuk u numëruan rastësisht; përkundrazi, ata u numëruan në mjedise shumë të veçanta që zbuluan njohuri të rëndësishme për idetë më të përgjithshme rreth asaj se si funksionojnë sistemet sociale. Me fjalë të tjera, shumë nga ato që i bëjnë këto ushtrime të veçanta të numërimit të interesit nuk janë të dhënat vetë, ajo vjen nga këto ide më të përgjithshme.
Një shembull i fuqisë së thjeshtë të numërimit vjen nga studimi i Henry Farber (2015) për sjelljen e shoferëve të taksive në New York City. Edhe pse ky grup mund të mos zë vend interesi interesant, ai është një vend strategjik për të testuar dy teori konkurruese në ekonominë e punës. Për qëllimet e hulumtimit të Farberit, ekzistojnë dy karakteristika të rëndësishme në lidhje me mjedisin e punës të shoferëve të taksive: (1) paga e tyre orë ndryshon nga dita në ditë, bazuar në faktorët si moti dhe (2) numri i orëve puna mund të luhatet çdo ditë në bazë të vendimeve të tyre. Këto karakteristika çojnë në një pyetje interesante në lidhje me marrëdhëniet midis pagave orë dhe orëve të punës. Modelet neoklasike në ekonomi parashikojnë se shoferët e taksive do të punojnë më shumë në ditët ku ata kanë paga më të larta për orë. Nga ana tjetër, modelet nga ekonomia e sjelljes parashikojnë pikërisht të kundërtën. Nëse shoferët vendosin një objektiv të veçantë të ardhurash - domethënë $ 100 në ditë - dhe punojnë derisa të arrihet ky objektiv, atëherë shoferët do të përfundojnë duke punuar më pak orë në ditë që ata po fitojnë më shumë. Për shembull, nëse do të ishit një fitues i synuar, mund të përfundoni duke punuar katër orë në një ditë të mirë ($ 25 në orë) dhe pesë orë në një ditë të keqe ($ 20 në orë). Pra, shoferët punojnë më shumë orë në ditë me paga më të larta për orë (siç parashikohet nga modelet neoklasike) ose më shumë orë në ditë me paga më të ulëta për orë (siç parashikohet nga modelet ekonomike të sjelljes)?
Për t'iu përgjigjur kësaj pyetje Farber mori të dhëna për çdo udhëtim taksie të marra nga kabinat e qytetit të Nju Jorkut nga viti 2009 deri në 2013, të dhënat që tani janë në dispozicion të publikut. Këto të dhëna - të cilat janë mbledhur nga matësit elektronikë që qyteti i kërkon taksitë për të përdorur - përfshijnë informacionin për çdo udhëtim: kohën e fillimit, vendndodhjen e fillimit, kohën e mbarimit, vendin përfundimtar, çmimin dhe tipin (nëse maja është paguar me kartë krediti) . Duke përdorur këtë të dhënë me metër taksi, Farber gjeti se shumica e shoferëve punojnë më shumë në ditët kur pagat janë më të larta, në përputhje me teorinë neoklasike.
Përveç kësaj gjetje kryesore, Farber ishte në gjendje të përdorte përmasat e të dhënave për një kuptim më të mirë të heterogjenitetit dhe dinamikës. Ai gjeti që, me kalimin e kohës, shoferët më të rinj gradualisht mësojnë të punojnë më shumë orë në ditë me paga të larta (p.sh. ata mësojnë të sillen si model parashikuese neoklasik). Dhe shoferët e rinj që sillen më shumë si fitues të synuar kanë më shumë gjasa të largohen duke qenë shoferët e taksive. Të dyja këto gjetje më delikate, të cilat ndihmojnë në shpjegimin e sjelljes së vërejtur të shoferëve aktualë, ishin të mundshëm vetëm për shkak të madhësisë së grupit të të dhënave. Ata ishin të pamundur për të zbuluar në studimet e mëparshme që përdorën fletët e udhëtimit të letrës nga një numër i vogël i shoferëve të taksive për një periudhë të shkurtër kohore (Camerer et al. 1997) .
Studimi i Farber ishte afër një skenari më të mirë për një hulumtim duke përdorur një burim të madh të dhënash për shkak se të dhënat që ishin mbledhur nga qyteti ishin shumë afër të dhënave që Farber do të kishte mbledhur (një dallim është se Farber do të kishte kërkuar të dhëna mbi totalin paga-çmimet plus këshilla-por të dhënat e qytetit përfshinin vetëm këshilla të paguara me kartë krediti). Megjithatë, të dhënat vetëm nuk ishin të mjaftueshme. Çështja kryesore për hulumtimin e Farber ishte të sjellë një pyetje interesante për të dhënat, një pyetje që ka implikime më të mëdha përtej vetëm këtij përcaktimi specifik.
Një shembull i dytë i numërimit të gjërave vjen nga hulumtimet nga Gary King, Jennifer Pan dhe Molly Roberts (2013) mbi censurën në internet nga qeveria kineze. Në këtë rast, megjithatë, hulumtuesit duhej të mbledhnin të dhënat e tyre të mëdha dhe ata duhej të merreshin me faktin se të dhënat e tyre ishin jo të plota.
Mbreti dhe kolegët u motivuan nga fakti që postimet e mediave sociale në Kinë cenzurohen nga një aparat i madh shtetëror që mendohet të përfshijë dhjetëra mijëra njerëz. Studiuesit dhe qytetarët, megjithatë, kanë pak kuptim se si këta censorë vendosin se çfarë përmbajtje duhet të fshihet. Dijetarët e Kinës në fakt kanë pritshmëri kontradiktore se cilat lloje të postimeve kanë më shumë gjasa të fshihen. Disa mendojnë se censorët përqendrohen në postet që janë kritike për shtetin, ndërsa të tjerë mendojnë se përqendrohen në poste që inkurajojnë sjelljen kolektive, si protesta. Duke kuptuar se cili prej këtyre pritjeve është i saktë ka implikime për atë se si studiuesit e kuptojnë Kinën dhe qeveritë e tjera autoritare që angazhohen në censurë. Prandaj, King dhe kolegët dëshironin të krahasonin postimet që u publikuan dhe më pas u fshinë me postimet që u botuan dhe nuk fshihen kurrë.
Mbledhja e këtyre postimet përfshirë inxhinieri feat mahnitshme të zvarritur më shumë se 1.000 të mediave sociale faqet e internetit-secila kineze me ndryshëm faqe Layouts gjetjen mesazhet përkatëse, dhe pastaj të rishikuar këto poste për të parë se cilat janë fshirë më pas. Përveç problemeve inxhinierike normale të lidhura me shkallë të madhe web-zvarritje, ky projekt kishte sfidën shtuar se është e nevojshme të jetë shumë e shpejtë për shkak se shumë mesazhe censuruar janë marrë poshtë në më pak se 24 orë. Me fjalë të tjera, një servil i ngadalshëm do të humbasë shumë e posteve që janë censuruar. Më tej, crawlers kishte për të bërë gjithë këtë të mbledhjes së të dhënave duke shmangur zbulimin mos faqet e internetit të mediave sociale bllokojnë qasjen ose përndryshe ndryshojnë politikat e tyre në përgjigje të studimit.
Deri në kohën kur ky detyrë masive inxhinierike kishte përfunduar, King dhe kolegët kishin marrë rreth 11 milion postime në 85 tema të ndryshme të paracaktuara, secila me një nivel të supozuar të ndjeshmërisë. Për shembull, një temë me ndjeshmëri të lartë është Ai Weiwei, artisti disident; një temë e ndjeshmërisë së mesme është vlerësimi dhe zhvlerësimi i monedhës kineze, dhe një temë me ndjeshmëri të ulët është Kampionati Botëror. Nga këto 11 milionë poste, rreth 2 milion ishin censuruar. Çuditërisht, Mbreti dhe kolegët gjetën se postimet në tema shumë të ndjeshme u censuruan pak më shpesh se postimet në tema të mesme dhe të ndjeshme. Me fjalë të tjera, censorët kinezë kanë të ngjarë të censurojnë një post që përmend Ai Weiwei si një post që përmend Kupën Botërore. Këto gjetje nuk mbështesin idenë se qeveria censuron të gjitha postet në tema të ndjeshme.
Megjithatë, kjo llogaritje e thjeshtë e shkallës së censurës sipas temave mund të jetë mashtruese. Për shembull, qeveria mund të cenzurojë postimet që mbështesin Ai Weiwei, por lënë postet që janë kritike ndaj tij. Në mënyrë që të bëjnë dallimin midis posteve më me kujdes, hulumtuesit duhet të matin ndjenjat e çdo postimi. Fatkeqësisht, pavarësisht nga shumë punë, metodat plotësisht të automatizuara të zbulimit të ndjenjave duke përdorur fjalorët ekzistues ende nuk janë shumë të mirë në shumë situata (mendoni prapa problemeve duke krijuar një afat kohor emocional të 11 shtatorit 2001 të përshkruar në seksionin 2.3.9). Prandaj, mbreti dhe kolegët kishin nevojë për një mënyrë për të etiketuar 11 milion postimet e tyre në media sociale nëse ishin (1) kritikë ndaj shtetit, (2) përkrahës të shtetit, ose (3) raporte jo relevante ose faktike rreth ngjarjeve. Kjo tingëllon si një punë masive, por ata e zgjidhën atë duke përdorur një mashtrim të fuqishëm që është i zakonshëm në shkencën e të dhënave por relativisht të rralla në shkencën shoqërore: të mësuarit e mbikëqyrur ; shih figurën 2.5.
Së pari, në një hap që zakonisht quhet përpunimi paraprak , hulumtuesit i kthyen postimet e mediave sociale në një matricë dokument-terminale ku kishte një rresht për secilin dokument dhe një kolonë që regjistroi nëse ky post përmbante një fjalë specifike (p.sh. protestë ose trafik) . Tjetra, një grup i asistentëve të hulumtimit me dorë emërtuan ndjenjën e një mostre të posteve. Më pas, ata përdorën këtë të dhënë me dorë për të krijuar një model të mësimit të makinës që mund të konkludonte ndjenjën e një postimi bazuar në karakteristikat e tij. Së fundi, ata përdorën këtë model për të vlerësuar ndjenjën e të gjitha 11 milion postimeve.
Kështu, në vend që të lexonin dhe etiketonin me dorë 11 milionë postime - të cilat do të ishin logjikisht e pamundur - Mbreti dhe kolegët etiketonin me dorë një numër të vogël postesh dhe pastaj përdorën mësimin e mbikëqyrur për të vlerësuar ndjenjën e të gjitha posteve. Pas përfundimit të kësaj analize, ata ishin në gjendje të arrinin në përfundimin se, disi çuditërisht, probabiliteti i fshirjes së një postimi nuk ishte i lidhur me atë nëse ishte kritik ndaj shtetit apo mbështetjes së shtetit.
Në fund, mbreti dhe kolegët zbuluan se vetëm tre lloje të posteve ishin censuruar rregullisht: pornografi, kritika e censorëve dhe ata që kishin potencial kolektiv të veprimit (p.sh., mundësia për të udhëhequr në protesta në shkallë të gjerë). Duke vëzhguar një numër të madh të postimeve që u fshinë dhe postimeve që nuk u fshinë, King dhe kolegët ishin në gjendje të mësonin se si censorët punojnë vetëm duke shikuar dhe numëruar. Për më tepër, duke parashikuar një temë që do të ndodhë në këtë libër, qasja e të mësuarit të mbikëqyrur që ata përdorën - etiketimi i dores së disa rezultateve dhe pastaj ndërtimi i një modeli të mësimit të makinës për etiketimin e pjesës tjetër - rezulton shumë e zakonshme në kërkimin shoqëror në epokën digjitale . Ju do të shihni fotografi shumë të ngjashme me figurën 2.5 në kapitujt 3 (Pyetja në pyetje) dhe 5 (Krijimi i bashkëpunimit masiv); kjo është një nga idetë e pakta që shfaqet në kapituj të shumëfishtë.
Këta shembuj - sjellja e punës së shoferëve të taksive në Nju Jork dhe sjellja e censurës së mediave sociale të qeverisë kineze - tregojnë se numërimi relativisht i thjeshtë i burimeve të mëdha të të dhënave mundet, në disa situata, të çojë në kërkime interesante dhe të rëndësishme. Megjithatë, në të dyja rastet, hulumtuesit duhej të sjellin pyetje interesante për burimin e madh të të dhënave; të dhënat në vetvete nuk ishin të mjaftueshme.