Chiar dacă poate fi murdar, întrebând îmbogățit poate fi puternic.
O abordare diferită de a face cu incompletitudinea datelor urme digitale este de a îmbogăți în mod direct cu datele de sondaj, un proces pe care am să - l sun întrebând îmbogățit. Un exemplu de îmbogățit este cerut studiul lui Burke and Kraut (2014) , pe care l - am descris mai devreme în capitolul (secțiunea 3.2), despre faptul daca interactioneaza pe Facebook creste puterea de prietenie. În acest caz, Burke și Kraut combinat datele sondajului așa cum datele de jurnal Facebook.
Setarea că Burke și Șvabilor lucrat, cu toate acestea, a însemnat că ei nu au avut de a face cu două mari probleme pe care cercetătorii fac se confruntă cu cer îmbogățit. În primul rând, de fapt , care leagă împreună seturile de date-un proces numit legătura de înregistrare, potrivirea unei înregistrări într - un set de date cu înregistrarea corespunzătoare în celălalt set de date poate fi dificil și predispuse la erori (vom vedea un exemplu de această problemă de mai jos ). Cea de a doua problemă principală a îmbogățit este faptul că întrebând calitatea urmelor digitale vor fi în mod frecvent dificil pentru cercetatori, pentru a evalua. De exemplu, uneori, procesul prin care este colectat este de proprietate și ar putea fi sensibile la multe dintre problemele descrise în Capitolul 2. Cu alte cuvinte, cerandu îmbogățit se va implica în mod frecvent legarea predispuse la erori de anchete la surse de date black-box de necunoscut calitate. În ciuda preocupărilor pe care aceste două probleme introduc, este posibil să se efectueze cercetări importante cu această strategie așa cum a fost demonstrat de Stephen Ansolabehere și Eitan Herș (2012) , în cercetările lor privind modelele de vot din SUA. Este util de a trece peste acest studiu, în detaliu, deoarece multe dintre strategiile pe care Ansolabehere și Herș dezvoltate vor fi utile în alte aplicații ale îmbogățit întrebând.
Prezența la vot a fost subiectul unor cercetări extinse în științe politice, iar în trecut, percepția cercetătorilor care votează și de ce, în general, s-au bazat pe analiza datelor sondajului. Votul în Statele Unite, cu toate acestea, este un comportament neobișnuit în care se înregistrează guvernul dacă fiecare cetățean a votat (desigur, guvernul nu înregistrează voturi fiecare cetățean OMS pentru). Timp de mulți ani, aceste inregistrari guvernamentale de vot au fost disponibile pe formulare de hârtie, împrăștiate în diferite birouri guvernamentale locale din întreaga țară. Acest lucru a făcut dificilă, dar nu imposibil, pentru oamenii de știință politici să aibă o imagine completă a electoratului și pentru a compara ceea ce oamenii spun în sondaje cu privire la vot pentru comportamentul lor de vot real (Ansolabehere and Hersh 2012) .
Dar, acum aceste înregistrări vot au fost digitizate, precum și un număr de companii private s-au colectat în mod sistematic și au fuzionat aceste înregistrări de vot pentru a produce fișiere complete de vot maestru care înregistrează comportamentul de vot al tuturor americanilor. Ansolabehere si Herș un parteneriat cu una dintre aceste companii-Catalist LCC-, în scopul de a utiliza dosarul lor de vot de master pentru a contribui la dezvoltarea unei imagini mai bune a electoratului. În plus, pentru că s-au bazat pe înregistrările digitale colectate și de o societate curatoriate, ea a oferit o serie de avantaje față de eforturile anterioare de către cercetătorii care au fost efectuate fără ajutorul companiilor și utilizarea înregistrărilor analogice.
La fel ca multe dintre sursele de urme digitale în capitolul 2, fișierul principal Catalist nu a inclus de multe informații demografice, atitudinală și comportamentală care Ansolabehere și Hersh necesare. În plus față de aceste informații, Ansolabehere și Herș au fost deosebit de interesați în compararea comportamentului de vot raportat la comportamentul de vot validat (de exemplu, informațiile din baza de date Catalist). Astfel, cercetatorii au colectat datele pe care le doreau, ca parte a Studiului de Cooperare Congresului Electoral (CCES), un studiu social larg. In continuare, cercetatorii au dat aceste date la Catalist, iar Catalist a dat cercetatorilor înapoi un fișier fuzionat date care au inclus validate comportamentul de vot (de la Catalist), comportamentul de vot auto-raportate (de la CCES), precum și datele demografice și atitudinile respondenților (de la CCES ). Cu alte cuvinte, Ansolabehere și Herș îmbogățit datele de vot cu datele de sondaj, iar fișierul fuzionat care rezultă să le permită să facă ceva ce nici fișier activat în mod individual.
Îmbogățind fișierul de date de master Catalist cu datele sondajului, Ansolabehere și Herș a ajuns la trei concluzii importante. În primul rând, supra-raportarea de vot este agresiv: aproape jumătate din non-alegători au raportat drept de vot. Sau, un alt mod de a privi este dacă cineva a raportat vot, există doar o șansă de 80% că au votat efectiv. În al doilea rând, supra-raportare nu este întâmplătoare; supra-raportare este mai frecvent in randul cu venituri mari, bine educat, partizani care sunt angajate în afacerile publice. Cu alte cuvinte, oamenii care sunt cel mai probabil la vot sunt, de asemenea, cel mai probabil să mintă cu privire la vot. În al treilea rând, și cel mai critic, din cauza naturii sistematice a supra-raportare, diferențele reale dintre alegători și non-alegători sunt mai mici decât par doar din anchete. De exemplu, cei cu un grad burlacii sunt de aproximativ 22 de puncte procentuale mai multe sanse de a raporta vot, dar sunt doar 10 puncte procentuale mai multe șanse de a vota actuale. În plus, teoriile existente bazate pe resurse de vot sunt mult mai bine la estimarea care va raporta vot decât care de fapt de voturi, o constatare empirică care necesită noi teorii pentru a înțelege și anticipa vot.
Dar cât de mult ar trebui să avem încredere în aceste rezultate? Amintiți-vă aceste rezultate depind de legarea predispuse la erori la datele black-box cu cantități necunoscute de eroare. Mai precis, rezultatele depind de două etape principale: 1) capacitatea de a combina Catalist multe surse de date disparate pentru a produce un datafile maestru precis și 2) capacitatea de a lega Catalist datele sondajului pentru a datafile sale de master. Fiecare dintre aceste etape este destul de dificil, iar erorile de la fiecare pas ar putea duce cercetători la concluzii greșite. Cu toate acestea, atât de prelucrare a datelor și de potrivire sunt esențiale pentru existența continuă a Catalist ca o companie astfel încât să poată investi resurse în rezolvarea acestor probleme, de multe ori la o scara pe care nici un cercetător academic individuale sau a unui grup de cercetători se pot potrivi. În lectura suplimentară la finalul capitolului, am descrie aceste probleme mai detaliat și modul în care Ansolabehere și Herș construi încrederea în rezultatele lor. Cu toate că aceste detalii sunt specifice acestui studiu, probleme similare cu acestea vor apărea pentru alți cercetători care doresc să se conecteze la surse de date digitale urmelor de black-box.
Care sunt lecțiile generale cercetatorii pot trage din acest studiu? În primul rând, există o valoare extraordinară de la îmbogățirea urmelor digitale cu datele sondajului. În al doilea rând, chiar dacă aceste agregate, surse de date comerciale ar trebui să nu fie considerat drept "adevăr la sol", în unele cazuri, acestea pot fi utile. De fapt, cel mai bine este de a compara aceste surse de date nu a Adevărului absolut (de la care ei vor cădea întotdeauna scurte). Mai degrabă, este mai bine să le compare cu alte surse de date disponibile, care au invariabil erori, de asemenea.