Loendamine võib olla huvitav, kui sa ühendada hea küsimus häid andmeid.
Kuigi see on kujundatud keerukat kõlavat keelt, on paljudes ühiskondlikes uuringutes asjad tõesti lihtsalt asjad. Suurte andmete ajastul võivad teadlased lugeda rohkem kui kunagi varem, kuid see ei tähenda, et nad peaksid lihtsalt hakkama loota iseseisvalt. Selle asemel peaksid teadlased küsima: millised asjad on väärtuse lugedes? See võib tunduda täiesti subjektiivse asja, kuid on olemas mõned üldised mudelid.
Sageli motiveerivad õpilased oma loendusuuringuid, öeldes: Ma hakkan lugema midagi, mida keegi pole kunagi varem lugenud. Näiteks võib üliõpilane öelda, et paljud inimesed on õppinud sisserändajaid ja paljud inimesed on õppinud kaksikud, kuid keegi ei ole õppinud sisserändajatest kaksikud. Minu kogemuse kohaselt ei anna see strateegia, mida nimetan motivatsiooni puudumise tõttu , head uurimistööd. Väljasoleku motivatsioon on selline, nagu öeldakse, et seal on auk, ja ma hakkan selle üles täitma väga raskeks. Kuid mitte iga auk tuleb täita.
Väljaspool motiveerimise asemel arvan, et parem strateegia on uurida olulisi või huvitavaid uurimisküsimusi (või ideaalis mõlemat). Mõlemad terminid on natuke raske määratleda, kuid üks oluline mõtteviis tähtsamatele teadusuuringutele on see, et sellel on mõni mõõdetav mõju või toidab see poliitikakujundajate oluliseks otsuseks. Näiteks on tööpuuduse määra mõõtmine oluline, sest see on poliitika otsuseid juhtiv majanduslik näitaja. Üldiselt arvan, et teadlastel on väga oluline mõte, mis on oluline. Nii et kogu selle jaotise osas esitan kaks näidet, kus arvan, et lugemine on huvitav. Igal juhul teadlased ei lootis kogemata; pigem lootsid nad väga kindlates seadetes, mis näitasid olulisi teadmisi üldisematest ideedest, kuidas sotsiaalsüsteemid töötavad. Teisisõnu, see, mis muudab need konkreetsed lugemisõpetused huvitavaks, ei ole iseenesest andmed, vaid see tuleneb nendest üldisematest ideedest.
Üks näide lihtne lugemisvõimest tuleneb New Yorgi taksojuhtide käitumise Henry Farberi (2015) uuringust. Kuigi see rühm ei pruugi loomulikult huvitav olla, on see strateegiline uurimiskeskus, kus testitakse kahte konkureerivat teooriat tööjõu majanduses. Farberi uurimise eesmärgil on taksojuhtide töökeskkonna jaoks kaks olulist tunnet: (1) nende tunnipalk muutub igapäevaselt, tuginedes osaliselt sellistele teguritele nagu ilm ja (2) nende tundide arv töö võib nende otsuste alusel iga päev kõikuda. Need tunnused annavad huvitava küsimuse tunnitasu ja töötatud tundide suhte kohta. Majanduse neoklassikalistel mudelitel ennustatakse, et taksojuhid töötavad rohkem päevadel, kus neil on kõrgem tunnipalk. Alternatiivselt ennustavad käitumuslikus majanduses olevad mudelid täpselt vastupidist. Kui juhid määravad konkreetse sissetuleku eesmärgi - ütleme 100 dollarit päevas - ja tööle, kuni see eesmärk on täidetud, siis saavad autojuhid töötada vähem tunde päevadel, mil nad teenivad rohkem. Näiteks kui olete sihikulu saajal, võite lõpetada nelja tunni tööpäeva (25 dollarit tunnis) ja 5 tundi halvas päeval (20 eurot tunnis). Niisiis, kas autojuhid töötavad tundide arvuga päevadel, kus on kõrgem tunnitasu (vastavalt neoklassikalise mudeli prognoosile) või rohkem tunde madalama tunnipalgaga päevadel (nagu on ennustatud käitumisharjumused)?
Sellele küsimusele vastamiseks omandas Farber andmed iga New Yorgi linna kabiinist võetud taksosõidu kohta aastatel 2009-2013, andmed, mis on nüüd avalikult kättesaadavad. Need andmed, mida koguvad elektroonilised arvestid, mida linn vajab taksode kasutamist, sisaldab teavet iga reisi kohta: algusaeg, alguskoht, lõpuaeg, lõppasukoht, hind ja tip (kui otsa makstakse krediitkaardiga) . Selle taksomeetri andmete põhjal leidis Farber, et enamik autojuhid töötavad rohkem päevadel, mil palgad on kõrgemad, kooskõlas neoklassikalise teooriaga.
Lisaks sellele põhialale leidis Farber heterogeensuse ja dünaamika paremaks mõistmiseks andmete suurust. Ta leidis, et aja jooksul saavad uuemad juhid järk-järgult töötada suurema palgaajaga rohkem tunde (nt nad õpivad käituda, kui neoklassikaline mudel ennustab). Ja uued juhid, kes käituvad rohkem nagu sihtkasutajad, loovad rohkem taksojuhte. Mõlemad veelgi peenemad leidud, mis aitavad selgitada käimasolevate draiverite täheldatud käitumist, olid võimalikud ainult andmekogumi suuruse tõttu. Varasemates uuringutes ei olnud võimalik tuvastada väikest arvu taksojuhtidest lühikese ajaga (Camerer et al. 1997) lehti (Camerer et al. 1997) .
Farberi uurimus oli lähedal suurte andmeallikate uurimise parima võimaliku stsenaariumi korral, sest linna kogutud andmed olid päris lähedased nende andmetega, mida Farber oleks kogunud (üks erinevus on see, et Farber oleks soovinud andmeid kogu palgakulu ja vihjeid, kuid linna andmed sisaldavad ainult krediitkaardiga makstavaid näpunäiteid). Kuid andmeid üksi ei piisanud. Farberi uurimise võtmeks oli andmete huvitav esitamine, küsimus, millel on suuremad tagajärjed lisaks sellele konkreetsele olukorrale.
Teine asi loendamise näide pärineb Gary Kingi, Jennifer Pani ja Molly Robertsi (2013) uurimustest Hiina valitsuse veebipõhise tsensuuri kohta. Sel juhul aga pidid teadlased koguma oma suurte andmete ja pidid tegelema asjaoluga, et nende andmed olid puudulikud.
King ja kolleegid olid motiveeritud asjaolust, et Hiinas aset leidnud sotsiaalse meedia postitusi tsenseerib tohutu riiklik aparatuur, mille arvates hõlmab kümneid tuhandeid inimesi. Teadlastel ja kodanikel pole siiski mõtet, kuidas need tsensorid otsustavad, millist sisu tuleks välja jätta. Hiina teadlastel on tegelikult vastuolulised ootused selle kohta, millistel ametikohtadel kõige tõenäolisemalt kustutatakse. Mõned arvavad, et tsensorid keskenduvad riigi kriitilistele ametikohtadele, teised arvavad, et nad keskenduvad kollektiivset käitumist soodustavatele ametikohtadele, näiteks protestidele. Selgitamaks välja, milline neist ootustest on õige, on see, kuidas teadlased mõistavad Hiina ja teisi autoritaarseid valitsusi, kes tegelevad tsensuuriga. Seetõttu soovis King ja kolleegid võrrelda postitusi, mis ilmusid avaldatud ja hiljem välja jäetud postituste kustutamiseks.
Kogudes need ametikohad on seotud hämmastav inseneri feat indekseerimise üle 1000 hiina sotsiaalse meedia veebilehed, millel on erinevad küljendusmäärangutest leidmise asjakohaseid postitusi, ja siis korrates neid postitusi näha, mis seejärel kustutatakse. Lisaks tavalisele tehnilised probleemid, mis on seotud suuremahuliste veebi indekseerimise, see projekt oli lisatud väljakutse, et ta pidi olema väga kiire, sest paljud tsenseeritud postid maha võtta vähem kui 24 tundi. Teisisõnu, aeglane roomik igatsen palju teateid, et tsenseeriti. Lisaks roomikud oli kõike seda teha andmete kogumise ajal kõrvalehoidmises avastamise muidu sotsiaalse meedia veebilehed blokeerida juurdepääsu või muul viisil muuta oma poliitikat vastuseks uuring.
Selle suurejärgulise inseneriülesande täitmise ajaks oli King ja tema kolleegid omandanud umbes 11 miljonit postitust 85 erineval etteantud teemal, millest igaüks oli eeldatava tundlikkuse tasemega. Näiteks on suure tundlikkusega teema dissidentlik kunstnik Ai Weiwei; keskmise tundlikkuse teema on Hiina valuuta kallinemine ja devalveerimine ning vähese tundlikkusega teema on Maailma Karikas. Nendest 11 miljonist ametikohast oli umbes 2 miljonit eurot tsenseeritud. Mõnevõrra üllatusena leidis King ja tema kolleegid, et väga tundlike teemade postitusi tsenseeriti vaid pisut sagedamini kui keskmise ja madala tundlikkusega teemade postitused. Teisisõnu on Hiina tsensorid tõenäoliselt tsenseerinud postitust, mis mainib Ai Weiwei postitust, mis mainib maailmameistrivõistlusi. Need leiud ei toeta mõtet, et valitsus tsenseerib kõik postitused tundlikes teemades.
Kuid see lihtne tsensuurimäära arvutamine teema järgi võib olla eksitav. Näiteks võib valitsus tsenseerida ametikohti, mis toetavad Ai Weiwei, kuid jätavad ametikohad, mis on temast kriitilised. Et ametikohti hoolikamalt eristada, oli teadlastel vaja mõõta iga ametikoha tundeid . Kahjuks on paljudel juhtudel endiselt väga head ennustuste tuvastamise meetodid, kuigi paljud töökohad (vaatamata probleemile, mis tekitas 11. septembri 2001. aasta emotsionaalse ajajoone, mis on kirjeldatud punktis 2.3.9), vaatamata suurele tööle. Seetõttu pidas King ja tema kolleegid oma 11 miljoni sotsiaalmeedia ametikoha märgistamiseks, et nad (1) kritiseeriksid riiki, (2) toetaksid riiki või (3) asjassepuutumatuid või faktilisi aruandeid sündmustest. See kõlab nagu tohutu töö, kuid nad lahendasid seda kasutades võimas trikki, mis on tavaline andmeteaduses, kuid sotsiaalteadustes on see suhteliselt haruldane: juhendatud õppimine ; vt joonis 2.5.
Esiteks, etapis, mida tavaliselt nimetatakse eeltöötluseks , muutsid teadlased sotsiaalmeedia postitused dokumendimõistete maatriksiks , kus iga dokumendi jaoks oli üks rida ja üks veerg, mis registreeris, kas post sisaldas konkreetset sõna (nt protesti või liiklus) . Järgnevalt märkis rühm teadustöötajatega ametikohtade valimust. Seejärel kasutasid nad seda käsitsi märgistatud andmeid masinate õppe mudeli loomiseks, mis võib järeldada, et postitus põhineb selle omadustel. Lõpuks kasutasid nad seda mudelit, et hinnata kõigi 11 miljoni postituse tundeid.
Selle asemel, et käsitsi lugeda ja märgistada 11 miljonit postitust, mis oleks logistiliselt võimatu, märkis King ja tema kolleegid käsitsi väikese arvu ametikohti ja seejärel kasutas kontrollitud õpet, et hinnata kõigi ametikohtade tundeid. Pärast analüüsi läbimist suutsid nad järeldada, et mõnevõrra üllatuslikult oli väljajäetud ametikoha tõenäosus olemuselt seotud riigi kriitikaga või riigi toetamisega.
Lõpuks avastas King ja tema kolleegid, et tsenseeritakse regulaarselt ainult kolme tüüpi ametikohti: pornograafia, tsensuuride kriitika ja kollektiivse tegutsemise potentsiaal (st võimalus suuremahuliste protestide toimumiseks). Vaadates suurt hulka postitusi, mis kustutati ja postitused, mida ei kustutatud, võtsid King ja tema kolleegid õppida, kuidas tsensuurid töötavad lihtsalt vaadates ja loendades. Veelgi enam, digitaalajastu sotsiaalsete uuringute käigus osutub väga levinud teemaks, mis toimub kogu selle raamatu vältel, jälgitav õppimisviis, mida nad kasutasid, käsimüügi mõni tulemus ja seejärel masina õppe mudeli loomine etikettideks. . Näete pilte, mis on väga sarnased joonise 2.5 peatükkidega 3 (Küsimustele vastamine) ja 5 (Massikoostöö loomine); see on üks vähestest ideedest, mis ilmuvad mitmetesse peatükkidesse.
Need näited - New Yorgi taksojuhi töökäitumine ja Hiina valitsuse sotsiaalmeedia tsensuuri käitumine - näitavad, et suuri andmeallikaid suhteliselt lihtne lugemine võib teatud juhtudel kaasa tuua huvitavate ja oluliste uuringute tegemise. Mõlemal juhul pidid teadlased andma suured andmeallikale huvitavaid küsimusi; andmeid iseenesest ei piisa.