Selfs al is dit morsig kan wees, kan verryk vra kragtige wees.
'N Ander benadering tot die hantering van die onvolledigheid van digitale spoor data is om dit direk te verryk met opname data, 'n proses wat ek verryk vra sal noem. Een voorbeeld van verrykte vra is die studie van Burke and Kraut (2014) , wat ek vroeër beskryf in die hoofstuk (Afdeling 3.2), oor die vraag of interaksie op Facebook verhoog vriendskap sterkte. In daardie geval, Burke en Kraut gekombineer opname data met Facebook Meld data.
Die instelling wat Burke en Kraut in die werk was egter beteken dat hulle nie te doen het met twee groot probleme wat navorsers doen verryk vra gesig. Eerstens, eintlik 'n skakel saam die datastelle-n proses genaamd rekord koppeling, die passing van 'n rekord in 'n datastel met die toepaslike rekord in die ander dataset-kan moeilik en fout sensitiewe wees (ons sal sien 'n voorbeeld van hierdie probleem hieronder ). Die tweede grootste probleem van verrykte vra, is dat die gehalte van die digitale spore dikwels moeilik vir navorsers om te bepaal sal wees. Byvoorbeeld, soms die proses waardeur dit ingesamel is eiendom en vatbaar vir baie van die wat in Hoofstuk 2. beskryf Met ander woorde probleme kan wees, sal verryk vra gereeld betrek fout sensitiewe koppeling van opnames aan swart-box databronne van onbekende gehalte. Ten spyte van die probleme wat hierdie twee probleme voor te stel, is dit moontlik om belangrike navorsing te doen met hierdie strategie as demonstrasie deur Stephen Ansolabehere en Eitan Hersh (2012) in hul navorsing oor stempatrone in die VSA. Dit is die moeite werd om te gaan oor hierdie studie in detail, want baie van die strategieë wat Ansolabehere en Hersh ontwikkel sal nuttig in ander programme van verrykte vra nie.
Stempersentasie het die onderwerp van uitgebreide navorsing in politieke wetenskap, en in die verlede, navorsers se begrip van wat stemme en waarom is oor die algemeen gebaseer op die ontleding van opname data. Stem in die VSA, is egter 'n ongewone gedrag in dat die regering rekords of elke burger het gestem (natuurlik, die regering nie teken wat elke burger stemme vir). Vir baie jare, hierdie regeringsorganisasies stem rekords beskikbaar op papier vorms, versprei in verskeie plaaslike regering kantore regoor die land. Dit het dit moeilik gemaak, maar nie onmoontlik nie, om politieke wetenskaplikes 'n geheelbeeld van die kiesers het en vergelyk wat mense sê in opnames oor stem met hul werklike stem gedrag (Ansolabehere and Hersh 2012) .
Maar, nou hierdie stem rekords is gedigitaliseerde, en 'n aantal private maatskappye het stelselmatig versamel en saamgesmelt hierdie stem rekords om omvattende meester stem lêers wat die stem gedrag van alle Amerikaners rekord. Ansolabehere en Hersh vennootskap met een van hierdie maatskappye-Catalist LCC-ten einde hul meester stem lêer gebruik om te help 'n beter prentjie van die kiesers te ontwikkel. Verdere, want dit het staatgemaak op digitale rekords versamel en saamgestel deur 'n maatskappy, dit bied 'n aantal voordele bo die vorige pogings deur navorsers wat sonder die hulp van maatskappye en die gebruik van analoog rekords gedoen het.
Soos baie van die digitale spoor bronne in Hoofstuk 2, het die Catalist meesterlêer sluit nie veel van die demografiese, houdings en gedragspatrone inligting wat Ansolabehere en Hersh nodig. Benewens hierdie inligting, Ansolabehere en Hersh was veral geïnteresseerd in vergelyking berig stemgedrag te bekragtig stemgedrag (dit wil sê, die inligting in die Catalist databasis). So, het die navorsers ingesamel die data wat hulle wou as deel van die koöperasie Kongres Election Study (CCES), 'n groot sosiale opname. Volgende, het die navorsers het hierdie inligting aan Catalist, en Catalist het die navorsers 'n saamgesmelte data lêer wat ingesluit bekragtig stemgedrag (vanaf Catalist), die self-gerapporteerde stemgedrag (vanaf CCES) en die demografie en houdings van die respondente terug (uit CCES ). Met ander woorde, Ansolabehere en Hersh verryk die stem data met opname data, en die gevolglike saamgesmelte lêer stel hulle in staat om iets wat nie lêer individueel in staat gestel het.
Deur verryk die Catalist meester data lêer met opname data, Ansolabehere en Hersh het om drie belangrike gevolgtrekkings. In die eerste plek oor verslagdoening van die stemming is rampant: byna die helfte van die nie-kiesers berig te stem. Of 'n ander manier om daarna te kyk is as iemand berig stem, daar is net 'n kans 80% dat hulle eintlik gestem. Tweedens, oor-verslagdoening is nie lukraak; oor-verslagdoening is meer algemeen onder hoë-inkomste, goed opgeleide, partisane wat betrokke is in die openbare sake. Met ander woorde, die mense wat die meeste geneig om te stem is ook heel waarskynlik oor stem laat lê. Derde, en die meeste krities, as gevolg van die sistematiese aard van oor-verslaggewing, die werklike verskille tussen kiesers en nie-kiesers is kleiner as wat hulle verskyn net uit opnames. Byvoorbeeld, diegene met 'n Graad is sowat 22 persentasiepunte meer geneig om te stem rapporteer, maar is slegs 10 persentasiepunte meer geneig om werklike stem. Verdere, bestaande brongebaseerde teorieë stem is baie beter by die voorspelling van wat stem sal rapporteer as wat eintlik stemme, 'n empiriese bevinding dat 'n beroep vir 'n nuwe teorieë te verstaan en stem voorspel.
Maar, hoeveel moet ons hierdie resultate vertrou? Onthou hierdie resultate afhang fout sensitiewe skakeling na swart-box data met onbekende hoeveelhede van die dwaling. Meer spesifiek, die resultate afhang van twee belangrike stappe: 1) die vermoë van Catalist baie uiteenlopende databronne te kombineer om 'n akkurate meester datalêer en 2) die vermoë van Catalist die opname data verwys na sy meester datalêer te produseer. Elkeen van hierdie stappe is baie moeilik en foute aan albei stap kon navorsers tot die verkeerde gevolgtrekkings lei. Maar beide dataverwerking en bypassende is van kritieke belang om die voortbestaan van Catalist as 'n maatskappy dus hulpbronne kan belê in die oplossing van hierdie probleme, dikwels op 'n skaal wat nie individuele akademiese navorser of 'n groep navorsers kan pas. In die verdere lees aan die einde van die hoofstuk, Ek beskryf hierdie probleme in meer besonderhede en hoe Ansolabehere en Hersh selfvertroue in hul resultate. Alhoewel hierdie inligting is spesifiek vir hierdie studie, sal kwessies soos hierdie ontstaan vir ander navorsers wat 'n skakel na swart-box digitale spoor databronne.
Wat is die algemene lesse navorsers kan trek uit hierdie studie? In die eerste plek is daar 'n geweldige waarde van verryk digitale spore met opname data. Tweedens, selfs al is dit saamgevoeg, kommersiële databronne moet nie oorweeg word nie "grond waarheid", in sommige gevalle hulle kan nuttig wees. Trouens, dit is die beste om hierdie databronne nie absolute waarheid (waaruit hulle altyd kort sal val) te vergelyk. Inteendeel, dit is beter om dit te vergelyk met ander beskikbare databronne, wat sonder uitsondering het foute so goed.