Ei-edustavat tiedot ovat huonoja näytteiden yleistymisiä varten, mutta ne voivat olla varsin hyödyllisiä otoksen vertailuissa.
Jotkut yhteiskuntatieteilijät ovat tottuneet työskentelemään sellaisten tietojen kanssa, jotka ovat peräisin probabilistisesta satunnaisotoksesta hyvin määritellystä väestöstä, kuten kaikista aikuisista tietyssä maassa. Tällaisia tietoja kutsutaan edustaviksi tiedoiksi, koska näyte "edustaa" suurempaa väestöä. Monet tutkijat palkitsevat edustavia tietoja, ja eräisiin edustaviin tietoihin on synonyymi tiukka tieteellinen, kun taas ei-edustavat tiedot ovat synonyymi sloppiness. Äärimmäisimmillään jotkut epäilijät uskovat, ettei mitään ei voida oppia ei-edustavista tiedoista. Jos tämä on totta, tämä näyttäisi rajoittavan huomattavasti suuria tietolähteitä, koska monet niistä eivät ole edustavia. Onneksi nämä epäilijät ovat vain osittain oikeita. On olemassa tiettyjä tutkimuskohteita, joiden osalta ei-edustavat tiedot eivät selvästikään ole kovin sopivia, mutta on olemassa muita, joiden käyttö saattaa olla varsin hyödyllistä.
Ymmärtääkseen tätä eroa, harkitsemme tieteellistä klassikkoa: John Snowin tutkimusta Lontoon 1853-54-koleraepidemosta. Tuolloin monet lääkärit uskoivat, että kolera aiheutti "huonoa ilmaa", mutta Snow uskoi, että se oli tarttuva tauti, joka ehkä levisi jätevesiä sisältävällä juomavedellä. Tätä ajatusta testattaessa Snow käytti hyväkseen mitä voimme nyt kutsua luonnolliseksi kokeeksi. Hän vertaili kotitalouksien koleraalisia määriä, joita palvelivat kaksi eri vesilaitosta: Lambeth ja Southwark & Vauxhall. Nämä yritykset palvelivat samankaltaisia kotitalouksia, mutta ne erosivat yhdellä tärkeällä tavalla: vuonna 1849 - muutama vuosi ennen epidemiaa - Lambeth siirsi saantipaikansa ylävirtaan Lontoon tärkeimmistä jätevedenpurkauksista, kun taas Southwark & Vauxhall jättivät saantiputkensa alavirtaan jäteveden purkaus. Kun Snow verrattiin kuolemantapauksia kolerasta kotitalouksien palveluksessa, hän huomasi, että asiakkaat Southwark & Vauxhall-yhtiö, joka tarjosi asiakkailleen viemäröityä vettä-oli 10 kertaa todennäköisemmin kuolla kolerasta. Tämä tulos antaa vahvan tieteellisen näytön Snowin argumentille koleran syystä, vaikka se ei perustu Lontoon edustavien otokseen.
Näiden kahden yrityksen tiedot eivät kuitenkaan ole ihanteellisia vastaamaan toiseen kysymykseen: mikä oli koleran esiintyvyys Lontoossa puhkeamisen aikana? Toinen kysymys, joka on myös tärkeä, olisi paljon parempi saada edustava otos ihmisistä Lontoosta.
Kuten Snown työ havainnollistaa, on joitain tieteellisiä kysymyksiä, joista ei-edustavat tiedot voivat olla varsin tehokkaita, ja muitakin ei ole sopivia. Yksi raaka tapa erottaa nämä kaksi erilaista kysymystä on, että jotkut kysymykset koskevat sisäisen näytteen vertailuja, ja jotkut ovat noin out of the sample yleistyksiä. Tätä eroa voidaan edelleen kuvata toisella klassisella epidemiologisella tutkimuksella: British Doctors Study, jolla oli tärkeä rooli osoittaessaan, että tupakointi aiheuttaa syöpää. Tässä tutkimuksessa Richard Doll ja A. Bradford Hill seurasivat noin 25 000 urospuolista lääkäriä useita vuosia ja vertailivat kuolleisuuttaan sen määrän perusteella, jonka he polttivat tutkimuksen alkamisen jälkeen. Doll ja Hill (1954) löysivät voimakkaan altistumis-vastesuhteen: sitä raskaammat ihmiset polttivat, sitä todennäköisemmin ne kuolivat keuhkosyöpään. Tietenkään olisi järkevää arvioida keuhkosyövän esiintyvyyttä kaikkien brittiläisten keskuudessa tämän miespuolisten lääkäreiden perusteella, mutta näytteen sisäinen vertailu osoittaa edelleen, että tupakointi aiheuttaa keuhkosyövän.
Nyt kun olen havainnut eroa näytteiden vertailujen ja näytepätösten välillä, kaksi varoitusta on kunnossa. Ensinnäkin luonnollisesti on kysymyksiä siitä, missä määrin miesten brittiläisten lääkäreiden otokseen kuuluva suhde on myös naispuolisten, brittiläisten lääkäreiden tai miespuolisten brittiläisten tehtaiden työntekijöiden tai naispuolisten saksalaisten tehtaiden työntekijöiden tai monien muiden ryhmien sisällä. Nämä kysymykset ovat mielenkiintoisia ja tärkeitä, mutta ne eroavat kysymyksistä siitä, missä määrin voimme yleistää näytteestä väestöön. Huomaa esimerkiksi, että luultavasti epäilet, että tupakoinnin ja syövän välinen suhde, joka oli löydetty miesten brittiläisillä lääkäreillä, on luultavasti samanlainen näissä muissa ryhmissä. Sinun kykysi tehdä tämä ekstrapolointi ei johdu siitä, että miespuoliset brittiläiset lääkärit ovat todennäköisesti satunnaisia näytteitä mistä tahansa väestöstä; pikemmin se tulee käsityksestä mekanismista, joka yhdistää tupakoinnin ja syövän. Siten, yleistys näytteestä väestön josta vedetään on pitkälti tilastollinen ongelma, mutta kysymyksiä kuljetettavuutta kuvio todettu yksi ryhmästä toiseen on pitkälti nonstatistical kysymys (Pearl and Bareinboim 2014; Pearl 2015) .
Tässä vaiheessa epäilijä saattaa huomauttaa, että useimmat sosiaaliset mallit ovat luultavasti vähemmän kuljetettavia eri ryhmissä kuin tupakoinnin ja syövän väliset suhteet. Olen samaa mieltä. Missä määrin odotamme, että kuviot ovat kuljetettavia, on viime kädessä tieteellinen kysymys, joka on ratkaistava teorian ja todisteiden perusteella. Ei pidä automaattisesti olettaa, että mallit ovat siirrettäviä, mutta ei myöskään pitäisi olettaa, että ne eivät ole kuljetettavia. Nämä hieman abstrakteja kysymyksiä kuljetettavuudesta ovat sinulle tuttuja, jos olet seurannut keskusteluja siitä, kuinka paljon tutkijoita voi oppia ihmiskäyttäytymistä opiskelemalla perusopiskelijoita (Sears 1986, [@henrich_most_2010] ) . Näistä keskusteluista huolimatta olisi kuitenkin järjetöntä sanoa, että tutkijat eivät voi oppia mitään opiskelemaan perusopiskelijoita.
Toinen huomautus on, että useimmat tutkijat, joilla ei ole edustavia tietoja, eivät ole yhtä varovainen kuin Snow tai Doll ja Hill. Joten kuvittelemaan, mikä voi mennä pieleen, kun tutkijat yrittävät tehdä out-of-sample generalisoitumisen ei-edustavista tiedoista, haluaisin kertoa teille Andranik Tumasjanin ja hänen kollegoidensa vuoden 2010 Saksan parlamenttivaaleista tekemästä selvityksestä (2010) . Analysoimalla yli 100 000 tweetyä he havaitsivat, että poliittisten puolueiden mainitsemien tweets-osuuksien osuus vastasi osapuolten äänimäärää parlamenttivaaleissa (kuva 2.3). Toisin sanoen näytti siltä, että Twitter-tiedot, jotka olivat olennaisilta osiltaan vapaat, voisivat korvata perinteiset yleinen mielipidetutkimukset, jotka ovat kalliita, koska ne korostavat edustavia tietoja.
Koska tiedät jo tiedät Twitteristä, sinun pitäisi välittömästi olla skeptinen tästä tuloksesta. Germaanit Twitterissä vuonna 2009 eivät olleet todennäköisesti satunnaisia näytteitä saksalaisista äänestäjistä, ja joidenkin puolueiden kannattajat saattaisivat twitata politiikasta paljon useammin kuin muiden osapuolten kannattajat. Näin ollen vaikuttaa yllättävältä, että kaikki mahdolliset ennakkoehdot, jotka voisit kuvitella, jotenkin kumoavat, jotta nämä tiedot olisivat suoraan heijastavia saksalaisille äänestäjille. Itse asiassa tulokset Tumasjan et al. (2010) osoittautui liian hyviksi ollakseen totta. Andreas Jungherrin, Pascal Jürgensin ja Harald Schoenin (2012) korosti, että alkuperäinen analyysi oli sulkenut pois poliittisen puolueen, joka oli todella saanut eniten mainoksia Twitterissä: Pirate Party, pieni puolue, joka taistelee hallituksen asetuksella Internetistä. Kun merirosvoryhmä otettiin analyysiin, Twitter-maininnat muuttuvat kauheiksi vaalien tulosten ennustajiksi (kuva 2.3). Kuten tässä esimerkissä havainnollistetaan, ei-edustavien suurien tietolähteiden käyttäminen ulkoistamattomien yleistämisten suhteen voi mennä hyvin väärin. Lisäksi sinun pitäisi huomata, että 100 000 tweetsä oli olemattomasti merkityksetön: paljon ei-edustavia tietoja ei vielä ole edustava, teema, johon palaan luvussa 3, kun keskustelen kyselyistä.
Lopuksi monet suuret tietolähteet eivät ole edustavia näytteitä joistakin hyvin määritetyistä väestöryhmistä. Kysymyksiin, jotka edellyttävät näytteen tulosten yleistämistä väestölle, josta se on otettu, tämä on vakava ongelma. Mutta kysymyksissä, jotka koskevat sisäisen näytteen vertailua, ei-edustavat tiedot voivat olla tehokkaita, kunhan tutkijat ovat selvillä otoksensa ominaisuuksista ja tukevat kuljetettavuutta koskevat väitteet teoreettisten tai empiiristen todisteiden avulla. Itse asiassa toivon, että suuret tietolähteet auttavat tutkijoita tekemään enemmän näytteiden vertailuja monissa ei-edustavissa ryhmissä, ja arvaus on, että monien eri ryhmien arviot tekevät enemmän sosiaalisen tutkimuksen edistämiseksi kuin yksittäinen estimaatti probabilistisesta satunnaisesta näyte.