aktivity

  • stupeň obtížnosti: snadné snadný , médium střední , tvrdé tvrdý , velmi obtížné velmi obtížné
  • vyžaduje matematiku ( vyžaduje matematiku ).
  • vyžaduje kódování ( vyžaduje kódování ).
  • sběr dat ( sběr dat ).
  • můj oblíbený ( můj oblíbený ).
  1. [ tvrdý , vyžaduje matematiku ] V této kapitole jsem měl velmi pozitivní post stratifikace. To však ne vždy zlepšuje kvalitu odhadů. Vytvořte situaci, kdy post-stratifikace může snížit kvalitu odhadů. (Za náznak viz Thomsen (1973) .)

  2. [ tvrdý , sběr dat , vyžaduje kódování ] Vytvořte a provádějte průzkum nepravděpodobné na Amazon Mechanical Turk a zeptejte se na vlastnictví zbraní a postoje k řízení zbraní. Abyste mohli porovnat své odhady s odhady odvozenými z pravděpodobnostní vzorky, zkopírujte text dotazu a možnosti odpovědi přímo z vysoce kvalitního průzkumu, jako jsou průzkumy Pew Research Center.

    1. Jak dlouho trvá váš průzkum? Kolik to bude stát? Jak se srovnávají demografické údaje vašeho vzorku s demografickými údaji populace USA?
    2. Jaký je hrubý odhad vlastnictví zbraně pomocí vzorku?
    3. Opravte nereprezentativnost vašeho vzorku pomocí post stratifikace nebo nějakou jinou technikou. Jaký je odhad vlastnictví zbraní?
    4. Jak se porovnávají vaše odhady s nejnovějším odhadem ze vzorku založeného na pravděpodobnosti? Co si myslíte, že vysvětluje nesrovnalosti, pokud nějaké existují?
    5. Opakujte otázky (b) - (d) o postojích k ovládání zbraně. Jak se vaše zjištění liší?
  3. [ velmi obtížné , sběr dat , vyžaduje kódování ] Goel a kolegové (2016) spravovali 49 dotazů s možností výběru z obecného sociálního průzkumu (GSS) a vybrali průzkumy Pew Research Center k nepravděpodobnosti vzorku respondentů z Amazon Mechanical Turk. Poté se upravili o nereprezentativnost údajů pomocí post-stratifikace založené na modelu a porovnali své upravené odhady s údaji z průzkumů GSS a Pew založených na pravděpodobnosti. Proveďte stejný průzkum na Amazon Mechanical Turk a pokuste se replikovat obrázek 2a a obrázek 2b porovnáním vašich upravených odhadů s odhady z posledních kol v průzkumech GSS a Pew. (Viz příloha tabulka A2 pro seznam 49 otázek.)

    1. Porovnejte a kontrastujte své výsledky s výsledky z Pew a GSS.
    2. Porovnejte a kontrastujte své výsledky s výsledky z průzkumu Mechanical Turk v Goel, Obeng, and Rothschild (2016) .
  4. [ střední , sběr dat , vyžaduje kódování ] Mnohé studie používají samohodnocená měření používání mobilních telefonů. Toto je zajímavé prostředí, v němž výzkumníci mohou srovnávat chování hlášené se zaznamenávaným chováním (viz např. Boase and Ling (2013) ). Dvě běžné chování, které se ptají, jsou volání a textování a dva společné časové rámce jsou "včera" a "v minulém týdnu".

    1. Než shromažďujete údaje, jaké z vlastních zpráv se domníváte, že je přesnější? Proč?
    2. Přijměte pět vašich přátel, abyste byli ve svém průzkumu. Stručně shrňte, jak byli odběreni tito pět přátel. Mohl by tento postup odběru vzorků vyvolat určité odhady ve vašich odhadech?
    3. Zeptejte se na ně následující otázky týkající se mikrosurvey:
    • "Kolikrát jste včera použili svůj mobilní telefon a zavolali ostatní?"
    • "Kolik textových zpráv jste odeslali včera?"
    • "Kolikrát jste použil svůj mobilní telefon a zavolal ostatní v posledních sedmi dnech?"
    • "Kolikrát jste použili svůj mobilní telefon k odesílání nebo přijímání textových zpráv / SMS zpráv za posledních sedm dní?"
    1. Jakmile je tento mikroúčet dokončen, požádejte, aby zkontroloval údaje o jeho používání, které byly zaznamenány telefonem nebo poskytovatelem služeb. Jak se porovnává použití vlastních sestav s daty protokolu? Co je nejpřesnější, co je nejméně přesné?
    2. Nyní zkombinujte data, která jste shromáždili s daty od jiných lidí ve vaší třídě (pokud děláte tuto aktivitu pro třídu). Pomocí této větší množiny dat opakujte část (d).
  5. [ střední , sběr dat ] Schuman a Presser (1996) domnívají, že otázky týkající se otázek by se mohly týkat dvou typů otázek: dílčí otázky, kde jsou dvě otázky na stejné úrovni specifičnosti (např. Hodnocení dvou kandidátů na prezidentský proces); a částečně otázky, kde se obecná otázka řídí konkrétnější otázkou (např. otázka "Jak jste spokojeni s vaší prací?" a následně "Jak jste spokojený se svým životem?").

    Dále charakterizují dva typy efektu pořadí otázek: důsledky konzistence se objevují, když reakce na pozdější otázku jsou přiblížena (než by jinak byly) těm, které byly dány předchozí otázce; kontrastní efekty nastávají, když existují větší rozdíly mezi odpověďmi na dvě otázky.

    1. Vytvořte pár dílčích otázek, o kterých si myslíte, že budou mít velký efekt na otázky; pár dílčích otázek, o kterých si myslíte, že budou mít velký efekt; a pár otázek, jejichž pořadí si myslíte, že by na tom nezáleželo. Proveďte zkušební experiment na Amazon Mechanical Turk a vyzkoušejte své dotazy.
    2. Jak velký efekt dílčích dílků jste vytvořili? Byl to konsistenční nebo kontrastní efekt?
    3. Jak velký efekt byste mohli vytvořit? Byl to konsistenční nebo kontrastní efekt?
    4. Došlo ve vašem páru k otázce pořadí, kde si myslel, že objednávka nezáleží?
  6. [ střední , sběr dat ] Na základě práce Schumana a Pressera, Moore (2002) popisuje samostatný rozměr efektu pořadí otázek: aditivní a subtraktivní účinky. Zatímco účinky kontrastu a konzistence jsou výsledkem hodnocení respondentů obou položek ve vztahu k sobě navzájem, aditive a subtraktivní efekty jsou produkovány, když jsou respondenti citlivější na větší rámec, ve kterém jsou kladeny otázky. Přečtěte si Moore (2002) a pak navrhneme a spusťte průzkumný experiment na MTurk, abychom demonstrovali aditivní nebo subtraktivní účinky.

  7. [ tvrdý , sběr dat ] Christopher Antoun a jeho kolegové (2015) provedli studii, ve které porovnávají vzorky získané ze čtyř různých on-line zdrojů: MTurk, Craigslist, Google AdWords a Facebook. Navrhněte jednoduchý průzkum a získávejte účastníky prostřednictvím nejméně dvou různých zdrojů online náboru (tyto zdroje se mohou lišit od čtyř zdrojů používaných v Antoun et al. (2015) ).

    1. Porovnejte cenu za nábor - z hlediska peněz a času - mezi různými zdroji.
    2. Porovnejte složení vzorků získaných z různých zdrojů.
    3. Porovnejte kvalitu dat mezi vzorky. Informace o tom, jak měřit kvalitu dat od respondentů, naleznete v publikaci Schober et al. (2015) .
    4. Jaký je váš preferovaný zdroj? Proč?
  8. [ střední ] Ve snaze předpovědět výsledky referenda o EU v roce 2016 (tj. Společnost Brexit), společnost YouGov - internetová společnost zabývající se výzkumem trhu - provedla online ankety panelu přibližně 800 000 respondentů ve Spojeném království.

    Podrobný popis statistického modelu společnosti YouGov naleznete na adrese https://yougov.co.uk/news/2016/06/21/yougov-referendum-model/. Zhruba řečeno, YouGov rozdělil voliče na typy založené na volbě hlasování o volbách do roku 2015, věku, kvalifikaci, pohlaví a termínu rozhovoru, stejně jako na volebním obvodu, ve kterém žili. Za prvé, používali údaje shromážděné od panelistů společnosti YouGov, aby mezi těmi, kteří hlasovali, odhadli podíl lidí každého typu voliče, kteří měli v úmyslu hlasovat. Odhadovaly účast každého volebního typu pomocí britské volební studie (BES) z roku 2015, po volbách průzkumu tváří v tvář, který potvrdil účasti na volebních plánech. Nakonec odhadli, kolik lidí bylo v každém volebním druhu, podle nejnovějších údajů o sčítání lidu a roční populaci (s některými doplňujícími informacemi z jiných zdrojů údajů).

    Tři dny před hlasováním ukázal YouGov dvoubodový náskok pro Leave. V předvečer hlasování hlasování ukázalo, že výsledek byl příliš blízko volání (49/51 Remain). Poslední denní studie předpovídala 48/52 ve prospěch společnosti Remain (https://yougov.co.uk/news/2016/06/23/yougov-day-poll/). Ve skutečnosti tento odhad zmeškal konečný výsledek (52/48 Odchod) o čtyři procentní body.

    1. Použijte celkový rámec chyb zjišťování, který je popsán v této kapitole, a zjistěte, co se mohlo pokazit.
    2. YouGovova reakce po volbách (https://yougov.co.uk/news/2016/06/24/brexit-follows-close-run-campaign/) vysvětlila: "To se z velké části projevuje kvůli účasti - něco, co říkali jsme, že po celou dobu bude rozhodující pro výsledek tak jemně vyváženého závodu. Náš volební model byl zčásti založen na tom, zda respondenti hlasovali při posledních všeobecných volbách a úroveň volební účasti nad úrovní všeobecných voleb rozrušila model, zejména na severu. "Změní to vaše odpověď na část (a)?
  9. [ střední , vyžaduje kódování ] Napište simulaci, která ilustruje všechny chyby reprezentace na obrázku 3.2.

    1. Vytvořte situaci, kdy se tyto chyby skutečně zruší.
    2. Vytvořte situaci, ve které se chyby navzájem spojují.
  10. [ velmi obtížné , vyžaduje kódování ] Výzkum Blumenstocka a kolegů (2015) zahrnoval budování modelu strojového učení, který by mohl využívat digitální stopové údaje pro předpovědi reakcí průzkumu. Nyní zkuste stejnou věc s jinou sadou dat. Kosinski, Stillwell, and Graepel (2013) zjistili, že Facebook má rád předpověď jednotlivých vlastností a atributů. Překvapivě mohou být tyto předpovědi ještě přesnější než předpovědi přátel a kolegů (Youyou, Kosinski, and Stillwell 2015) .

    1. Přečtěte si Kosinski, Stillwell, and Graepel (2013) obrázek 2. Jejich údaje jsou k dispozici na http://mypersonality.org/
    2. Nyní replikujte obrázek 3.
    3. Nakonec vyzkoušejte svůj model na svých vlastních datech na adrese Facebook: http://applymagicsauce.com/. Jak dobře funguje pro vás?
  11. [ střední ] Toole et al. (2015) použil záznamy z telefonních čísel (CDR) z mobilních telefonů, aby předpověděl souhrnné trendy nezaměstnanosti.

    1. Srovnejte a kontrastujte návrh studia Toole et al. (2015) s Blumenstock, Cadamuro, and On (2015) .
    2. Myslíte si, že CDR by měly nahradit tradiční průzkumy, doplňovat je nebo vůbec být používány pro vládní tvůrce politik ke sledování nezaměstnanosti? Proč?
    3. Jaké důkazy by vás přesvědčily, že CDR mohou zcela nahradit tradiční míru nezaměstnanosti?