Riippumatta siitä, kuinka suuri isot tiedot, sillä ei todennäköisesti ole haluamaasi tietoa.
Useimmat suuret tietolähteet ovat puutteellisia siinä mielessä, että niillä ei ole tarvittavia tietoja tutkimustesi kannalta. Tämä on yhteinen piirre tietoja, jotka on luotu muuhun tarkoitukseen kuin tutkimukseen. Monilla yhteiskuntatieteilijöillä on jo kokemusta epätäydellisyydestä, kuten olemassa olevasta kyselystä, joka ei kysynyt kysymystä, jota tarvitaan. Valitettavasti epätäydellisyyden ongelmat ovat yleensä suurempia suurissa tiedoissa. Kokemukseni mukaan suurilla tiedoilla puuttuu yleensä kolme yhteiskuntatieteelliseen tutkimukseen hyödyllistä tietoa: demografiset tiedot osallistujista, käyttäytyminen muilla alustoilla ja tiedot hyödyntää teoreettisia rakenteita.
Kolmesta erilaisesta epätäydellisyydestä on vaikeinta ratkaista puutteellisten tietojen ongelma teoreettisten rakenteiden toteuttamiseksi. Ja kokemuksessani sitä usein vahingossa unohdetaan. Teoreettiset rakenteet ovat abstrakteja ideoita, joita yhteiskuntatieteilijät tutkivat ja operoivat teoreettisen rakenteen, mikä tarkoittaa jotain tapaa kaapata tämä konstrukti havaittavilla tiedoilla. Valitettavasti tämä yksinkertainen kuuloinen prosessi osoittautuu usein melko vaikeaksi. Kuvitellaan esimerkiksi yrittää kokeilla empiirisesti ilmeisesti yksinkertaista väitettä, että älykkäämmät ihmiset ansaitsevat enemmän rahaa. Tämän vaatimuksen tutkimiseksi sinun olisi mitattava "älykkyyttä". Mutta mikä on älykkyyttä? Gardner (2011) väitti, että tosiasiassa on kahdeksan eri älykkyyttä. Ja onko olemassa menettelyjä, jotka voisivat mitata tarkasti minkä tahansa näiden älykkyyden muodoista? Huolimatta psykologien valtavasta työstä, näillä kysymyksillä ei vielä ole yksiselitteisiä vastauksia.
Niinpä jopa melko yksinkertainen väite - älykkäämpiä ihmisiä ansaitsevat enemmän rahaa - voi olla vaikea arvioida empiirisesti, koska tietoja teoreettisista rakenteista voi olla vaikea operoida. Muita esimerkkejä teoreettisista rakenteista, jotka ovat tärkeitä mutta vaikeita operoida, ovat "normit", "sosiaalinen pääoma" ja "demokratia". Sosiaalitieteilijät kutsuvat (Cronbach and Meehl 1955) teoreettisten rakenteiden ja datarakenteiden pätevyyden välillä (Cronbach and Meehl 1955) . Kuten tämä lyhyt luettelo rakenteista viittaa, konstruointi on ongelma, jota yhteiskuntatieteilijät ovat kamppaillut jo pitkään. Mutta kokemukseni mukaan konstruktion pätevyyden ongelmat ovat vieläkin suurempia, kun käsitellään tietoja, joita ei ole luotu tutkimustarkoituksiin (Lazer 2015) .
Kun arvioit tutkimustulosta, nopea ja hyödyllinen tapa arvioida konstruktion pätevyyttä on saada tulos, joka ilmaistaan tavallisesti konstrukteissa, ja ilmaista se uudelleen käytettyjen tietojen perusteella. Tutki esimerkiksi kahta hypoteettista tutkimusta, jotka väittävät osoittavan, että älykkäämmät ihmiset ansaitsevat enemmän rahaa. Ensimmäisessä tutkimuksessa tutkija havaitsi, että Raven Progressive Matrices Test -tekniikka - hyvin tutkittu analyyttisen älykkyyden testi (Carpenter, Just, and Shell 1990) - on verotulojen korkeampi raportoitu tulotaso. Toisessa tutkimuksessa tutkija huomasi, että Twitterissä olevat henkilöt, jotka käyttävät pitkiä sanoja, mainitsevat todennäköisemmin ylellisyystuotteita. Molemmissa tapauksissa nämä tutkijat voisivat väittää, että he ovat osoittaneet, että älykkäämpiä ihmisiä ansaitsevat enemmän rahaa. Kuitenkin ensimmäisessä tutkimuksessa teoreettiset rakenteet ovat hyvin toimintakykyisiä, kun taas toisessa ne eivät ole. Lisäksi, kuten tässä esimerkissä havainnollistetaan, lisää tietoja ei automaattisesti ratkaise ongelmia konstruktion pätevyyden kanssa. Sinun pitäisi epäillä toisen tutkimuksen tuloksia, onko se mukana miljoona tweetsä, miljardi tweets tai triljoona tweets. Niille tutkijoille, jotka eivät tunne rakentamisen pätevyyttä, taulukossa 2.2 on esimerkkejä tutkimuksista, jotka ovat operatiivisia teoreettisia konstruktioita käyttäen digitaalista jäljitystietoa.
Tietolähde | Teoreettinen rakenne | Viitteet |
---|---|---|
Yliopiston sähköpostilokit (vain metatiedot) | Sosiaaliset suhteet | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Sosiaalisen median virkaa Weibo | Kansalaistoiminta | Zhang (2016) |
Yrityksen sähköpostilokit (metatiedot ja täydellinen teksti) | Kulttuurinen sovitus organisaatiossa | Srivastava et al. (2017) |
Vaikka teoreettisten rakenteiden saaneiden puutteellisten tietojen ongelmana on melko vaikea ratkaista, on olemassa yhteisiä ratkaisuja muihin yleisiin epätäydellyyppeihin: epätäydellinen väestötieto ja epätäydellinen tieto käyttäytymisestä muilla alustoilla. Ensimmäinen ratkaisu on kerätä tarvittavat tiedot; Kerron teille siitä luvussa 3, kun kerron teistä kyselyistä. Toinen tärkein ratkaisu on tehdä mitä tiedetieteilijät kutsuvat käyttäjä-attribuutin päätelmiksi ja yhteiskuntatieteilijät kutsuvat imputointia . Tässä lähestymistavassa tutkijat käyttävät tietoja, joita heillä on joillekin ihmisille päätellä muiden ihmisten ominaisuuksia. Kolmas mahdollinen ratkaisu on yhdistää useita tietolähteitä. Tätä prosessia kutsutaan joskus rekisterikohdaksi . Tämän prosessin suosikki metafori on Dunn (1946) kirjoittama ensimmäinen Dunn (1946) ensimmäinen kappale, joka on koskaan kirjoitettu ennätysliikkeeseen:
"Jokainen ihminen maailmassa luo Elämänkirjan. Tämä kirja alkaa syntymästä ja päättyy kuolemaan. Sen sivut koostuvat kirjauksista tärkeimmistä elämässä tapahtumista. Kirjoitusyhteys on nimen, joka annetaan tämän kirjan sivujen kokoamisessa äänenvoimakkuuteen. "
Kun Dunn kirjoitti tämän kappaleen, hän kuvitteli, että Elämän kirja voisi sisältää merkittäviä elämäntapahtumia, kuten syntymää, avioliittoa, avioeroa ja kuolemaa. Nyt kun ihmisten niin paljon tietoa on kirjattu, Elämän kirja voi olla uskomattoman yksityiskohtainen muotokuva, jos nämä eri sivut (eli digitaaliset jäljet) voidaan yhdistää. Tämä Elämän kirja voisi olla suuri resurssi tutkijoille. Mutta sitä voidaan kutsua myös romutustietokannaksi (Ohm 2010) , jota voidaan käyttää kaikenlaisiin epäeettisiin tarkoituksiin, kuten kuvataan luvussa 6 (etiikka).