Jednoduché počítanie môže byť zaujímavé, ak budete kombinovať je dobrá otázka s dobrými dátami.
Aj keď je formulovaný v sofistikovanom jazyku, veľa spoločenského výskumu skutočne počítá veci. Vo veku veľkých údajov môžu výskumníci počítať viac ako kedykoľvek predtým, ale to neznamená, že by sa mali počítať náhodne. Namiesto toho by sa vedci mali pýtať: Čo je potrebné počítať? Môže sa to zdať úplne subjektívne, ale existujú určité všeobecné vzory.
Často študenti motivujú svoj počítanie výskumu povediac: budem počítať niečo, čo nikto nikdy predtým nepočítal. Napríklad, študent by mohol povedať, že veľa ľudí študovalo migrantov a veľa ľudí študovalo dvojčatá, ale nikto študoval dvojčatá migrantov. Podľa mojej skúsenosti táto stratégia, ktorú ja nazývam motiváciou absenciou , zvyčajne nevedie k dobrému výskumu. Motivácia absenciou je trochu ako povedať, že tam je diera a budem veľmi tvrdo pracovať na jej vyplnenie. Ale nie každá diera musí byť vyplnená.
Namiesto motivovania absenciou myslím, že lepšou stratégiou je hľadať výskumné otázky, ktoré sú dôležité alebo zaujímavé (alebo ideálne oboje). Oba tieto pojmy sú ťažko definovateľné, ale jeden spôsob, ako premýšľať o dôležitom výskume, je, že má určitý merateľný vplyv alebo sa podieľa na dôležitom rozhodnutí tvorcov politík. Napríklad meranie miery nezamestnanosti je dôležité, pretože je ukazovateľom hospodárstva, ktorý riadi politické rozhodnutia. Všeobecne si myslím, že vedci majú celkom dobrý pocit, čo je dôležité. Takže v zostávajúcej časti tejto časti uvádzam dva príklady, ktoré si myslím, že je to zaujímavé. V každom prípade výskumníci nezamýšľali náhodne; skôr sa spájali s veľmi špecifickými nastaveniami, ktoré odhalili dôležité poznatky o všeobecnejších predstavách o tom, ako fungujú sociálne systémy. Inými slovami, veľa toho, čo robí tieto konkrétne počítanie cvičenia zaujímavé nie je samotné dáta, pochádza z týchto všeobecnejších myšlienok.
Jedným príkladom jednoduchej sily počítania je štúdia Henry Farber (2015) o správaní taxikárov v New Yorku. Hoci táto skupina nemusí znieť vlastne zaujímavá, je strategickým výskumným miestom na testovanie dvoch konkurenčných teórií v ekonomike práce. Na účely výskumu firmy Farber existujú dve dôležité charakteristiky o pracovnom prostredí taxikárov: (1) ich hodinová mzda sa mení zo dňa na deň, čiastočne na základe faktorov, ako je počasie, a (2) počet hodín, ktoré práca môže každý deň kolísať na základe ich rozhodnutí. Tieto vlastnosti vedú k zaujímavej otázke o vzťahu medzi hodinovou mzdou a odpracovanými hodinami. Neoklasické modely v ekonomike predpovedajú, že vodiči taxíkov budú pracovať viac v dňoch, keď majú vyššie hodinové mzdy. Alternatívne modely z behaviorálnej ekonómie predpovedajú presne opak. Ak vodiči stanovia konkrétny cieľ - napríklad 100 USD za deň - a budú pracovať až do splnenia tohto cieľa, potom vodiči skončia pracujú menej hodín v dňoch, keď zarábajú viac. Napríklad, ak ste boli cieľovým uchádzačom, mohli by ste skončiť prácu štyri hodiny za dobrý deň (25 EUR za hodinu) a päť hodín v zlom dni (20 EUR za hodinu). Takže vodiči pracujú viac hodín v dňoch s vyššou hodinovou mzdou (ako predpovedali neoklasické modely) alebo viac hodín v dňoch s nižšou hodinovou mzdou (ako predpovedali behaviorálne ekonomické modely)?
Na odpoveď na túto otázku Farber získal údaje o každom výletoch taxíkov, ktoré uskutočnili kabíny v New Yorku od roku 2009 do roku 2013, dáta, ktoré sú teraz verejne dostupné. Tieto údaje - zhromažďované elektronickými meračmi, ktoré mesto vyžaduje používanie taxíkov - obsahujú informácie o každej ceste: čas začiatku, miesto štartu, čas konca, koncové miesto, cestovné a tip (ak bol tip zaplatený kreditnou kartou) , Použitím týchto údajov taxametra zistil Farber, že väčšina vodičov pracuje viac v dňoch, keď sú mzdy vyššie, v súlade s neoklasickou teóriou.
Okrem tohto hlavného zistenia spoločnosť Farber využila veľkosť údajov na lepšie pochopenie heterogénnosti a dynamiky. Zistil, že v priebehu času sa novšie vodiči postupne učia pracovať viac hodín na vysokých mzdových dňoch (napr. Sa učia správať ako predpovedá neoklasický model). A noví vodiči, ktorí sa správajú viac ako cieľové, sú pravdepodobnejšie, že prestávajú byť taxikármi. Oba tieto jemnejšie nálezy, ktoré pomáhajú vysvetliť pozorované správanie súčasných vodičov, boli možné len z dôvodu veľkosti súboru údajov. V predchádzajúcich štúdiách sa nedalo zistiť, že v krátkom čase používali listy papierových výletov od malého počtu vodičov taxíkov (Camerer et al. 1997) .
Farberova štúdia bola blízko k najlepšiemu scenáru pre výskum používajúci veľký zdroj údajov, pretože údaje zhromaždené mestom boli dosť blízko k údajom, ktoré by Farber zhromaždil (jeden rozdiel je, že Farber by chcel údaje o celkovom mzdy - cestovné plus tipy - ale údaje o mestách zahŕňali iba tipy platenú kreditnou kartou). Samotné údaje však nestačili. Kľúčom k výskumu firmy Farber bolo priniesť na údaje zaujímavú otázku, ktorá má väčšie dôsledky nad rámec tohto konkrétneho prostredia.
Druhý príklad počítania vecí pochádza z výskumu Gary Kinga, Jennifer Pan a Molly Roberts (2013) o cenzúre online čínskou vládou. V tomto prípade však výskumníci museli zhromaždiť svoje vlastné veľké údaje a museli sa zaoberať skutočnosťou, že ich údaje boli neúplné.
Kráľa a kolegovia boli motivovaní tým, že príspevky sociálnych médií v Číne sú cenzurované obrovským štátnym aparátom, o ktorom sa predpokladá, že zahŕňa desiatky tisíc ľudí. Výskumní pracovníci a občania však majú malý pocit, ako tieto cenzory rozhodnú, aký obsah by sa mal vymazať. Učenci Číny v skutočnosti majú konfliktné očakávania o tom, ktoré typy príspevkov sa s najväčšou pravdepodobnosťou dostanú na odstránenie. Niektorí si myslia, že cenzori sa sústreďujú na posty, ktoré sú kritické voči štátu, zatiaľ čo iné sa domnievajú, že sa sústreďujú na miesta, ktoré podporujú kolektívne správanie, ako napríklad protesty. Zistenie, ktoré z týchto očakávaní je správne, má dôsledky pre to, ako vedci chápu Čínu a iné autoritatívne vlády, ktoré sa zapájajú do cenzúry. Kráľ a kolegovia preto chceli porovnávať publikované a následne odstránené príspevky, ktoré boli uverejnené a nikdy neboli vymazané.
Zhromažďovanie týchto príspevkov podieľajú úžasný inžiniersky čin plaziť viac ako 1000 čínskych sociálnych médií webových stránok-každá s inou stránkou rozloženie zistení relevantné príspevky, a potom prehodnotenie tieto miesta vidieť, ktoré boli následne odstránené. Okrem bežných technických problémov spojených s veľkom meradle webové plazenie, tento projekt mala väčší problém, ktorý je nutné ju veľmi rýchlo, pretože mnoho cenzorované stĺpiky sú odobraní v čase kratšie ako 24 hodín. Inými slovami, pomaly crawler by chýbať veľa miest, ktorá boli cenzurované. Ďalej sú roboti museli robiť všetky tieto údaje sa zbierajú a zároveň sa vyhnúť detekcii lesť webové stránky sociálnych médií blokovať prístup či inak meniť svoju politiku v reakcii na štúdiu.
V čase dokončenia tejto masívnej inžinierskej úlohy dostali králi a kolegovia asi 11 miliónov príspevkov na 85 rôznych preddefinovaných témach, z ktorých každá mala predpokladanú mieru citlivosti. Napríklad téma vysokej citlivosti je dizajnérka Ai Weiwei; téma strednej citlivosti je ocenenie a devalvácia čínskej meny a téma nízkej citlivosti je Svetový pohár. Z týchto 11 miliónov pracovných miest bolo približne 2 milióny cenzorovaných. Surprisingly King a kolegovia zistili, že príspevky na veľmi citlivé témy boli cenzurované len o niečo častejšie ako príspevky na témy strednej a nízkej citlivosti. Inými slovami, čínske cenzúry majú pravdepodobne cenzúť príspevok, ktorý uvádza Ai Weiwei ako príspevok, ktorý spomína svetový pohár. Tieto zistenia nepodporujú myšlienku, že vláda cenzoruje všetky príspevky na citlivé témy.
Tento jednoduchý výpočet miery cenzúry podľa témy by však mohol byť zavádzajúci. Napríklad vláda môže cenzurovať príspevky, ktoré podporujú Ai Weiweiho, ale zanechávajú dôležité príspevky. Aby bolo možné rozlišovať medzi jednotlivými pracovnými miestami dôkladnejšie, výskumníci museli merať sentiment každého príspevku. Bohužiaľ, napriek veľa práce, plne automatizované metódy detekcie sentimentu pomocou predtým existujúcich slovníkov stále nie sú veľmi dobré v mnohých situáciách (premýšľajte o problémoch vytvárajúcich emočnú časovú os 11. septembra 2001 opísanú v časti 2.3.9). Preto Kráľ a kolegovia potrebovali spôsob, ako označiť svoje 11 miliónov príspevkov sociálnych médií, či sú (1) kritické voči štátu, (2) podporujú štát, alebo (3) irelevantné alebo faktické správy o udalostiach. Znie to ako masívna práca, ale vyriešili to pomocou mocného triku, ktorý je bežný v oblasti vedy o údajoch, ale relatívne vzácny v spoločenských vedách: pod dohľadom učenia ; pozri obrázok 2.5.
Po prvé, v kroku, ktorý sa zvyčajne nazýva predspracovanie , výskumníci previedli príspevky zo sociálnych médií na matricu dokumentov , kde bol jeden riadok pre každý dokument a jeden stĺpec, ktorý zaznamenal, či príspevok obsahuje konkrétne slovo (napr. Protest alebo návštevnosť) , Ďalej skupina výskumných asistentov ručne označila sentiment výberu príspevkov. Potom použili tieto ručne označené údaje na vytvorenie modelu strojového učenia, ktorý by mohol vyvodiť sentiment príspevku na základe jeho charakteristík. Nakoniec použili tento model na odhad sentimentu všetkých 11 miliónov príspevkov.
Takže skôr ako manuálne čítať a označovať 11 miliónov príspevkov - čo by bolo logisticky nemožné - kráľ a kolegovia ručne označili malý počet pracovných miest a potom použili supervidované učenie na odhad sentimentu všetkých pracovných miest. Po dokončení tejto analýzy mohli dospieť k záveru, že niekedy prekvapujúco pravdepodobnosť zrušenia príspevku nesúvisí s tým, či bola kritická voči štátu alebo podporovala štát.
Kráľ a kolegovia nakoniec zistili, že boli pravidelne cenzúvané len tri typy postov: pornografia, kritika cenzorov a tie, ktoré mali potenciál kolektívnej akcie (tj možnosť viesť k rozsiahlym protestom). Pozorovaním obrovského počtu odstránených príspevkov a príspevkov, ktoré neboli odstránené, sa králi a kolegovia dokázali naučiť, ako cenzori pracujú len sledovaním a počítaním. Ďalej, predznačením témy, ktorá sa objaví v celej tejto knihe, prístup pod dohľadom, ktorý používajú - ručné označovanie niektorých výsledkov a potom vytvorenie modelu strojového učenia, aby sa označil zvyšok - sa v spoločenskom výskume v digitálnom veku stáva veľmi bežným , Zobrazia sa obrázky veľmi podobné obrázku 2.5 v kapitolách 3 (Asking questions) a 5 (Vytvorenie masovej spolupráce). je to jedna z mála myšlienok, ktoré sa objavujú vo viacerých kapitolách.
Tieto príklady - pracovné správanie taxikárov v New Yorku a cenzúrne správanie čínskej vlády v sociálnych médiách - ukazujú, že pomerne jednoduché počítanie veľkých dátových zdrojov môže v niektorých situáciách viesť k zaujímavému a dôležitému výskumu. V obidvoch prípadoch však výskumníci museli priniesť zaujímavé otázky veľkému zdroju údajov; samotné údaje nestačili.