Egyszerű számolás érdekes lehet, ha össze egy jó kérdés, jó adatokat.
Annak ellenére, hogy kifinomult hangzású nyelven készül, sok társadalmi kutatás valóban számít. A nagy adatok korában a kutatók számíthatnak többet, mint valaha, de ez nem jelenti azt, hogy csak számolniuk kellett volna. Ehelyett a kutatóknak meg kell kérdezniük: Milyen dolgokat érdemes számolni? Ez teljesen szubjektívnek tűnhet, de vannak általános minták.
Gyakran a diákok motiválják számbavételüket azzal, hogy azt mondják: számítok valamit, amit korábban senki sem számolt. Például egy diák azt mondhatja, hogy sokan tanulmányozták a bevándorlókat és sokan tanulmányozták az ikreket, de senki sem tanulmányozott migráns ikreket. Tapasztalatom szerint ez a stratégia, amelyet a hiányzó motivációnak nevezek, általában nem vezet jó kutatáshoz. A távollét motiválása olyan, mintha azt mondaná, hogy ott van egy lyuk, és nagyon keményen fogok dolgozni, hogy kitöltsék. De nem minden lyukat kell kitölteni.
Ahelyett, hogy motiválnám a távollétet, úgy gondolom, hogy egy jobb stratégia olyan kutatási kérdések keresése, amelyek fontosak vagy érdekesek (vagy ideális esetben mindkettő). Mindkét kifejezés egy kicsit nehéz meghatározni, de az egyik módja annak, hogy fontos kutatásokra gondoljon, hogy némi mérhető hatással bír, vagy a döntéshozók fontos döntéseibe táplálkozik. Például a munkanélküliségi ráta mérése fontos, mert a gazdaságpolitika döntéseit vezérli. Általánosságban azt gondolom, hogy a kutatók nagyon jól értik a fontosakat. Tehát a szakasz többi részében két példát fogok adni, amelyek szerint a számolás érdekes. Mindegyik esetben a kutatók nem számítanak véletlenül; inkább igen különös körülmények között számoltak be, amelyek rávilágítottak arra, hogyan lehet általánosabb elképzeléseket találni a szociális rendszerek működéséről. Más szavakkal, sok mindent, ami ezeket a számolási gyakorlatokat érdekesnek tartja, nem az adatok, hanem ezek az általánosabb elképzelések.
A számolás egyszerű erejének egyik példája a Henry Farber (2015) tanulmánya a New York-i taxisofőrök viselkedéséről. Bár ez a csoport talán nem hangzatosan érdekes, stratégiai kutatási helyszín két versengő elmélet tesztelésére a munkaügyi közgazdaságtanban. Farber kutatása szempontjából két fontos jellemzője van a taxisok munkakörnyezetének: (1) óránkénti bérük napról napra ingadozik, részben olyan tényezőkön alapulva, mint az időjárás, és (2) az órák számának a munka döntései alapján minden nap ingadozhat. Ezek a jellemzők érdekes kérdést vetnek fel az órabérek és a ledolgozott órák kapcsolatáról. A neoklasszikus modellek a közgazdaságtanban azt jósolják, hogy a taxisok többet dolgoznak azon napokon, ahol magasabb az órabérük. Vagylagosan a viselkedési közgazdaságtanból származó modellek pontosan az ellenkezőjét mutatják. Ha az illesztőprogramok meghatározott jövedelemcélokat állítanak be - például napi 100 dollárt - és addig dolgoznak, amíg a cél nem teljesül, akkor a vezetők majdnem több órát dolgoznak azon napokon, amikor többet keresnek. Például, ha célzott kereső voltál, akkor egy jó napra négy óra (25 dollár / óra) és öt óra egy rossz napon (20 dollár / óra) megy végbe. Tehát a gépjárművezetők több órát töltöttek naponta több óránkénti bérekkel (ahogy azt a neoklasszikus modellek előre jelzik), vagy több órát naponta alacsonyabb óránkénti bérekkel (ahogy a magatartási gazdasági modellek előre jelzik)?
A kérdés megválaszolásához Farber adatokat gyűjtött a New York City fülkék által 2009 és 2013 között végzett minden egyes taxival kapcsolatban, és mostantól nyilvánosan elérhető adatokról van szó. Ezek az adatok, amelyeket a város által igénybe vett elektronikus mérőeszközök gyűjtenek, tartalmazzák az egyes utakra vonatkozó információkat: kezdési időpont, kezdőhely, végső idő, végső helyszín, viteldíj és tipp (ha a tippet hitelkártyával fizetik) . A taximéter adatainak felhasználásával Farber megállapította, hogy a legtöbb járművezető többet dolgozik azon napokon, amikor a bérek magasabbak, összhangban a neoklasszikus elmélettel.
Ezzel a fő megállapítással Farber képes volt felhasználni az adatok méretét a heterogenitás és a dinamika jobb megértéséhez. Úgy találta, hogy idővel az újabb vezetők fokozatosan megtanulják több órát dolgozni a magas fizetésű napokon (pl. Megtanulják magukat viselkedni, ahogy a neoklasszikus modell jósolja). És az új vezetők, akik inkább úgy viselkednek, mint a célt keresők nagyobb valószínűséggel kilép a taxisofőrök. Mindkét finomabb eredmény, amelyek segítenek megmagyarázni a jelenlegi meghajtók megfigyelt viselkedését, csak az adatkészlet méretének köszönhetően lehetségesek. Ezeket a korábbi tanulmányokban nem lehetett kimutatni, mivel rövid idő alatt kisszámú taxisofőr-papírt használtak (Camerer et al. 1997) .
Farber tanulmánya közel állt a legjobb adatforrásból származó kutatás legjobb esetéhez, mivel a város által összegyűjtött adatok elég közel álltak Farber által gyűjtött adatokhoz (az egyik különbség abban áll, hogy Farber összesen bérek, árak és tippek - de a város adatai csak a hitelkártyával fizetett tippeket tartalmazták). Azonban az adatok önmagukban nem elegendőek. Farber kutatásának kulcsa érdekes kérdést vetett fel az adatokhoz, olyan kérdéseket, amelyeknek nagyobb kihatása van ezen egyedi környezeten túl.
A dolgok számlálásának másik példája a Gary King, Jennifer Pan és Molly Roberts (2013) kutatásai a kínai kormány online cenzúrájáról. Ebben az esetben azonban a kutatóknak meg kellett gyűjteniük saját nagy adataikat, és foglalkozniuk kellett azzal, hogy adatuk nem teljes.
A király és a kollégák motiváltak az a tény, hogy a kínai szociális médiát cenzúrázza egy hatalmas állami készülék, amelyről úgy gondolják, hogy több tízezer embert tartalmaz. A kutatóknak és a polgároknak azonban kevés értelme van annak, hogy ezek a cenzorok hogyan határoznak meg tartalmat. A kínai tudósok valójában ellentmondásos elvárásokat támasztanak arról, hogy milyen típusú hozzászólások valószínűleg törlésre kerülnek. Egyesek úgy vélik, hogy a cenzorok olyan állásokra összpontosítanak, amelyek kritikusak az államban, míg mások úgy gondolják, hogy olyan közös álláspontokra összpontosítanak, amelyek ösztönzik a kollektív viselkedést, például a tiltakozásokat. Annak megállapítása, hogy melyik várakozás helyes, hatással van arra, hogy a kutatók megértik Kínát és más, a cenzúrát folytató önkényes kormányokat. Ezért király és munkatársai a közzétett és a későbbiekben törölt bejegyzéseket szeretett volna összehasonlítani a közzétett és soha törölt bejegyzésekkel.
Gyűjtés az ilyen beosztásban részt a lenyűgöző mérnöki bravúr mászó több mint 1000 kínai szociális média weboldalak-mindegyik különböző elrendezésben-megállapítás fontos üzenete, majd feleleveníti ezeket a bejegyzéseket, hogy mely később törölték. Amellett, hogy a szokásos műszaki problémák járó nagyszabású webtérképező, ez a projekt volt a hozzáadott kihívás, hogy szükség van, hogy rendkívül gyorsan, mert sok cenzúrázott üzenetét hozzák le kevesebb, mint 24 óra. Más szóval, a lassú lánctalpas hiányozni fog sok hozzászólás, hogy cenzúrázták. Továbbá, a csúszómászó kellett mindezt adatgyűjtés közben kijátssza felismerés nehogy a szociális média weboldalak blokkolja a hozzáférést, vagy más módon megváltoztassák politika válaszul a tanulmány.
Mire ez a hatalmas mérnöki feladat befejeződött, a király és munkatársai körülbelül 11 millió álláshelyet kaptak 85 különféle előre meghatározott témakörön, amelyek mindegyike feltételezett érzékenységgel rendelkezett. Például egy nagy érzékenységű témát Ai Weiwei, a disszidens művész; a középérzékenység témája a kínai valuta felértékelődése és leértékelődése, és az alacsony érzékenységű téma a Világkupa. Ebből a 11 millió állásból mintegy 2 millió embert cenzúráztak. Valami meglepő, hogy King és munkatársai azt találták, hogy a nagyon érzékeny témákra vonatkozó álláshelyeket csak kissé gyakrabban cenzúrázzák, mint a közepes és alacsony érzékenységű témákban. Más szavakkal, a kínai cenzorok olyannyira fel vannak cenzúrálva, hogy az a Weiwei-t megemlíti, mint a Világkupa megemlékezése. Ezek az eredmények nem támasztják alá azt az elképzelést, hogy a kormány érzékenyen reagál az érzékeny témákkal kapcsolatos valamennyi álláshelyre.
A cenzúrázás eme egyszerű számítása azonban félrevezető lehet. Például a kormány cenzúrázhatja azokat az álláshelyeket, amelyek támogatják az Ai Weiwei-t, de olyan álláshelyeket hagynak ki, amelyek kritikusak. Annak érdekében, hogy jobban megkülönböztessék a posztokat, a kutatóknak meg kellett mérniük az egyes beosztások hangulatát . Sajnálatos módon a sok munka ellenére a már meglévő szótárak használatával teljesen automatizált érzéki felismerési módszerek sok helyzetben még mindig nem túl jó (gondolja vissza a 2001. szeptember 11-i érzelmi idővonalat létrehozó, a 2.3.9 fejezetben leírt problémákat). Ezért királynak és kollégáinak szükségük volt arra, hogy címkézzék 11 millió közösségi média állásukat arról, hogy (1) bírálják-e az államot, (2) az állam támogatását, vagy (3) az eseményekről nem releváns vagy tényszerű jelentéseket. Ez úgy hangzik, mint egy hatalmas munka, de egy olyan erőteljes trükk használatával oldotta meg, amely az adatkutatásban gyakori, de viszonylag ritka a társadalomtudományban: felügyelt tanulás ; lásd a 2.5 ábrát.
Először egy előre feldolgozott lépésben a kutatók átmásolták a közösségi médiát egy dokumentum-kifejezés mátrixba , ahol minden egyes dokumentumhoz egy sor és egy oszlop rögzítette, hogy a bejegyzés adott-e egy bizonyos szót (pl. Tiltakozás vagy forgalom) . Ezután a kutatói asszisztensek egy csoportja kézzel jelezte a hozzászólásminta hangulatát. Ezután a kézzel jelölt adatokat használva olyan gépi tanulási modellt hoztak létre, amely a beosztásnak a tulajdonságai alapján történő megítélését vonhatja le. Végül, ezt a modellt arra használják fel, hogy megbecsülje az összes 11 millió hozzászólás érzését.
Így, 11 millió álláshely manuális olvasása és címkézése helyett - amely logisztikailag lehetetlen - a király és a munkatársak manuálisan kis számú bejegyzést jelöltek ki, majd felügyelt tanulással értékelték az összes hozzászólás érzését. Az elemzés befejezése után arra a következtetésre jutottak, hogy meglehetősen meglepő módon a poszt törlésének valószínűsége nem függött attól, hogy kritikus volt-e az állam állapotáról vagy az állam támogatásáról.
Végül a király és munkatársai azt találták, hogy rendszeresen cenzúráztak mindössze háromféle álláshelyet: a pornográfiát, a cenzorok kritikáját és azokat, amelyek kollektív cselekvési potenciállal rendelkeztek (azaz a nagyszabású tiltakozások lehetősége). Figyelembe véve, hogy hatalmas számú hozzászólást töröltek és nem törölték a hozzászólásokat, a király és a munkatársak képesek voltak megtudni, hogyan működnek a cenzorok csak figyelemmel és számolással. Továbbá egy olyan téma, amely e könyv egészében megjelenik, a digitális korszakban a társadalomkutatásban nagyon gyakori a felügyelt tanulás megközelítése, amelyet használtak - kézzel címkézve néhány eredményt, majd gépi tanulási modellt építettek fel a többi címkére - . Láthatja a 2.5. Ábrához hasonló képeket a 3. fejezetben (Kérdések feltérképezése) és az 5. pontban (tömeges együttműködés létrehozása); ez az egyik olyan kevés ötlet, amely több fejezetben jelenik meg.
Ezek a példák - a New York-i taxisofőrök működő viselkedése és a kínai kormány szociális média cenzúra viselkedése - azt mutatják, hogy a nagy adatforrások viszonylag egyszerű számolása bizonyos helyzetekben érdekes és fontos kutatásokhoz vezethet. Mindkét esetben azonban a kutatóknak érdekes kérdéseket kellett felmutatniuk a nagy adatforrásnak; az adatok önmagukban nem voltak elégek.