Tevékenységek

Kulcs:

  • nehézségi foka: könnyű könnyen , közepes közepes kemény kemény , nagyon nehéz nagyon nehéz
  • megköveteli matematika ( igényel matematikai )
  • megköveteli kódolás ( megköveteli kódolás )
  • adatgyűjtés ( adatgyűjtés )
  • a kedvenceim ( a kedvencem )
  1. [ közepes , a kedvencem ] Algoritmikus zavaró probléma volt a Google Flu Trends. Olvassa el a papírt Lazer et al. (2014) , és írj egy rövid, egyértelmű az e-mail egy mérnök a Google leírja a problémát és kínál egy ötlet, hogyan lehet megoldani a problémát.

  2. [ közepes ] Bollen, Mao, and Zeng (2011) azt állítja, hogy az adatok a Twitter lehet megjósolni a tőzsde. Ez a felismerés vezetett, hogy hozzanak létre egy hedge fund-Derwent Capital Markets-befektetni a tőzsdén alapján gyűjtött adatok Twitter (Jordan 2010) . Milyen bizonyítékok azt szeretné látni, mielőtt a pénzt, hogy az alapok?

  3. [ könnyen ] Míg néhány közegészségügyi támogatja jégeső e-cigaretta hatékony segítséget a dohányzásról való leszokás, mások figyelmeztetnek a lehetséges kockázatok, mint például a magas szintet a nikotin. Képzeljük el, hogy egy kutató úgy dönt, hogy tanulmányozza a közvélemény felé e-cigaretta összegyűjtésével e-cigaretta kapcsolatos Twitter-bejegyzései és lebonyolítása hangulat elemzést.

    1. Mi az a három lehetséges torzítások, hogy a leginkább aggasztja a vizsgálatban?
    2. Clark et al. (2016) futott egy ilyen tanulmány. Először is gyűjtött 850.000 tweets, hogy a használt e-cigaretta kapcsolatos kulcsszavakat 2012 januárjától a 2014. december Amikor közelebbről megvizsgáljuk, rájöttek, hogy sok ilyen tweets arra automatizált (azaz nem az ember által előállított) és ezek közül az automatizált tweets lényegében reklámok. Kifejlesztettek egy emberi algoritmus külön automatizált tweets a szerves tweets. Ezzel a humán érzékelés algoritmus azt találták, hogy 80% -a tweet került automatizált. Vajon ez a megállapítás megváltoztathatja a választ (a) részben?
    3. Amikor összehasonlították a hangulat szerves és automatizált tweet úgy találták, hogy az automatizált tweets több pozitív, mint a szerves tweet (6,17 vs. 5,84). Vajon ez a megállapítás megváltoztathatja a választ (b)?
  4. [ könnyen ] 2009 novemberében a Twitter megváltoztatta a kérdést a tweet dobozt "Mit csinálsz?", Hogy "Mi történik?" (Https://blog.twitter.com/2009/whats-happening).

    1. Mit gondolsz, a változás az utasításokat hatással lesz, aki csipog és / vagy mit csipog?
    2. Mondj egy kutatási projekt, amely azt szeretné, azonnali "Mit csinálsz?" Magyarázd meg, miért.
    3. Mondj egy kutatási projekt, amely azt szeretné, azonnali "Mi történik?" Magyarázd meg, miért.
  5. [ közepes ] Kwak et al. (2010) elemezték 41700000 felhasználói profilokat, 1470000000 társadalmi kapcsolatok, 4262 trend témák, és 106 millió tweets között június 6. és június 31., 2009. Az elemzés alapján arra a következtetésre jutottak, hogy a Twitter szolgál több, mint egy új médium az információ megosztás, mint a közösségi háló.

    1. Figyelembe véve, Kwak és munkatársai megállapítása, hogy milyen típusú kutatás tennél Twitter adatokat? Milyen típusú kutatás azt nem a Twitter adatait? Miért?
    2. 2010-ben, a Twitter hozzáadjuk Ki következniük szolgáltatást igénybe személyre szabott javaslatot a felhasználók számára. Három ajánlások kijelzésre a főoldalon. Ajánlások gyakran levonni egy "barátai-of-barátok", és a kölcsönös kapcsolatok is megjelenik a javaslatban. A felhasználók frissíteni, hogy egy sor új ajánlások, vagy látogasson el egy oldal egy hosszabb ajánlások listája. Gondolod, hogy ez az új funkció megváltozna a választ, hogy a) részében? Miért vagy miért nem?
    3. Su, Sharma, and Goel (2016) értékelte a hatását ki következniük szolgáltatást, és megállapította, hogy míg a felhasználók az egész népszerűsége spektrum részesült az ajánlásokat, a legnépszerűbb a felhasználók profitált lényegesen nagyobb, mint az átlagos. Vajon ez a megállapítás megváltoztathatja a válasz része b)? Miért vagy miért nem?
  6. [ könnyen ] "Retweets" gyakran mérésére befolyását és terjedését befolyásolja a Twitteren. Kezdetben felhasználók kellett másolja be a tweet, hogy tetszett, tag az eredeti szerző az ő / fogantyú, és kézzel írja "RT", mielőtt a tweet, jelezve, hogy ez egy retweet. Majd 2009-ben a Twitter hozzá a "retweet" gombra. Júniusban 2016 Twitter lehetővé tette a felhasználók számára, hogy retweetelheti saját tweets (https://twitter.com/twitter/status/742749353689780224). Gondolod, ezek a változások befolyásolják, hogyan használja a "retweets" a kutatás? Miért vagy miért nem?

  7. [ közepes , adatgyűjtés , megköveteli kódolás ] Michel et al. (2011) épített egy corpus kikerülő Google erőfeszítést a könyvek digitalizálására. Az első változat a corpus, amely megjelent 2009-ben, és tartalmazott több mint 5 millió digitalizált könyv, a szerzők elemezték szó használatának gyakoriságát vizsgálja a nyelvi változások és kulturális trendek. Hamarosan a Google Books Corpus lett népszerű adatforrás a kutatók, és a 2. változata az adatbázis adták 2012-ben.

    Azonban Pechenick, Danforth, and Dodds (2015) arra figyelmeztetett, hogy a kutatók kell teljes mértékben jellemezni a mintavételi eljárás a corpus használat előtt rajz átfogó következtetések. A fő probléma az, hogy a korpusz könyvtár-szerű, amely egy minden könyv. Ennek eredményeként, az egyén, termékeny szerző képes észrevehetően helyezze be az új kifejezéseket a Google Books lexikon. Sőt, tudományos szövegek alkotják egyre lényegi része a corpus egész 1900-as években. Ezen túlmenően, összehasonlítva két változata az angol-Fi adatállományok, Pechenick et al. talált bizonyítékot arra, hogy elégtelen szűrés használták a termelő az első verzió. Minden szükséges adatok aktivitás elérhető itt: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. Michel és munkatársai. Eredeti papír (2011) , hogy használják az 1. változat angol adathalmaz ábrázoltuk a frekvencia használati évek "1880", "1912" és "1973", és arra a következtetésre jutott, hogy "mi vagyunk felejtés múltunk gyorsabban évről évre "(3A., Michel et al.). Megismételt ugyanazon a parcellán használva 1) 1. változat a corpus, angol adatbázisba (ugyanaz, mint a 3A., Michel et al.)
    2. Most megismételni ugyanazt a telek, az 1. változat, angol-fi-adatbázisba.
    3. Most megismételni ugyanazt a telek a 2. verzió a corpus, angol adatbázisba.
    4. Végül megismételni ugyanazt a telek a 2. verzió, angol-fi-adatbázisba.
    5. Ismertesse a különbségek és hasonlóságok között négy telek. Egyetért-e Ön Michel et al. Eredeti értelmezése a megfigyelt trend? (Tipp: c) és d) meg kell egyeznie a 16. ábra a Pechenick et al.)
    6. Most, hogy már reprodukálni ezt a megállapítást különböző Google Books korpuszok, válasszon egy másik nyelvi változás vagy kulturális jelenségek bemutatott Michel et al. Eredeti papírt. Egyetért-e Ön értelmezésük fényében korlátozások bemutatott Pechenick et al.? Ahhoz, hogy az érv erősebb, próbálja megismételni ugyanazt a grafikon különböző változatai adatállomány, mint fent.
  8. [ nagyon nehéz , adatgyűjtés , megköveteli kódolás , a kedvencem ] Penney (2016) feltárja, hogy a széles körű nyilvánosságot körülbelül NSA / PRISM megfigyelési (azaz a Snowden kinyilatkoztatások) 2013 júniusában jár éles és hirtelen csökkenése a forgalom Wikipedia témájú cikkek, fel adatvédelmi aggályokat. Ha igen, ez a magatartás-változás összhangban lenne dermesztő hatással eredő tömeges ellenőrzésre. Az a megközelítés Penney (2016) néha egy megszakított idősoros tervezés és kapcsolódik a megközelítések a fejezetet közelítő kísérletek a megfigyeléses adatok (2.4.3).

    Kiválasztani a témát kulcsszavak Penney említett listán által használt US Department of Homeland Security nyomon követésére és ellenőrzésére a szociális média. A DHS lista kategorizálja bizonyos keresési kifejezések egy sor kérdés, azaz a "egészségügyi probléma", "Infrastruktúra Biztonság" és a "terrorizmus". A vizsgálati csoport Penney használt negyvennyolc kulcsszavakat, hogy "terrorizmus" (lásd 8. táblázat Függelék). Ezután aggregált Wikipedia cikket nézet számít havonta a megfelelő negyvennyolc Wikipediabejegyzések egy harminckét hónapos időszak elejétől 2012. január augusztus végéig 2014 megerősítése az érve, ő is készített néhány összehasonlítás csoportok követési cikket nézeteit más téma.

    Most fogsz lemásolni és terjeszteni Penney (2016) . Minden a nyers adatokat, hogy szükség lesz erre a tevékenységre elérhető a Wikipédia (https://dumps.wikimedia.org/other/pagecounts-raw/). Vagy lehet kapni azt a R csomag wikipediatrend (Meissner and Team 2016) . Amikor írsz-ig a válaszokat kérjük, vegye figyelembe, hogy mely adatok forrása használt. (Megjegyzés: Ez ugyanaz a tevékenység is megjelenik 6. fejezet)

    1. Olvassa Penney (2016) , és megismételni a 2. ábra, amely bemutatja a oldalletöltésekre "Terrorizmus" kapcsolatos oldalak előtt és után a Snowden kinyilatkoztatás. Az eredmények interpretálására.
    2. Ezután lemásolni ábra 4A, amely összehasonlítja a kutatócsoport ( "Terrorizmus" kapcsolatos cikkek) egy összehasonlító csoportban kulcsszavak segítségével kategóriákba "DHS és más ügynökségek" a DHS listából (lásd Függelék 10. táblázat). Az eredmények interpretálására.
    3. A b), akkor összehasonlítva a kutatócsoport egyik kezelt csoportban. Penney képest is két másik összehasonlító csoportokban: "Infrastructure Security" kapcsolatos cikkeket (Függelék 11. táblázat) és a népszerű Wikipedia oldalain (Függelék 12. táblázat). Felér egy alternatív összehasonlítási csoport és tesztelésére, hogy a megállapítások rész b) érzékeny a választott kezelt csoportban. Amely összehasonlítási alap kiválasztása csoport teszi a legtöbb értelme? Miért?
    4. A szerző megállapította, hogy a kulcsszavak kapcsolatos "terrorizmus" használták ki a Wikipedia cikket, mert az amerikai kormány idézett terrorizmus egyik legfontosabb indoka az online felügyeleti gyakorlat. Ellenőrzésképpen ilyen 48 "Terrorizmus" kapcsolatos kulcsszavakat, Penney (2016) is végzett egy felmérést a MTurk kérve válaszadók aránya az egyes kulcsszavak tekintetében kormány baj, Adatvédelmi érzékeny, és elkerülés (Függelék 7. táblázat és 8. ábra). Megismételni a felmérést MTurk és hasonlítsa össze az eredményeket.
    5. Az eredmények alapján, részben d) és az olvasás a cikk, nem ért egyet a szerző által választott téma kulcsszavak a kutatócsoport? Miért vagy miért nem? Ha nem, mit javasol helyette?
  9. [ könnyen ] Efrati (2016) jelentések alapján bizalmas információkat, hogy a "teljes megosztás" a Facebook-on már csökkent mintegy 5,5% az elmúlt egy évben, míg az "eredeti adás megosztása" volt, meg 21% az elmúlt egy évben. Ez a csökkenés volt különösen súlyos a Facebook felhasználók 30 év alatti életkor. A jelentés tulajdonítható a visszaesés a két tényező. Az egyik a számának növekedése a "barátok" az emberek a Facebook-on. A másik az, hogy néhány megosztási tevékenység eltolódott üzenetküldés és a versenytársak, mint SnapChat. A jelentés azt is feltárta a különböző taktikák Facebook megpróbálta, hogy növeljék megosztását, beleértve a News Feed algoritmus csíp, hogy eredeti üzenetét szembetűnőbb, valamint időszakos emlékeztetőket az eredeti cikkek felhasználók "Ezen a napon" néhány évvel ezelőtt. Milyen hatásokat, ha egyáltalán nem ezek a felfedezések a kutatók, akik szeretnék használni a Facebook, mint egy adatforrás?

  10. [ közepes ] Tumasjan et al. (2010) számolt be, hogy az arány a tweets idéző ​​politikai párt kiegyenlített aránya szavazatok fél megkapta a német parlamenti választások 2009-ben (2.9 ábra). Más szóval, úgy tűnt, hogy jól jönne Twitter megjósolni a választások. Abban az időben ez a tanulmány megjelent úgy ítélték meg, rendkívül izgalmas, mert azt úgy is egy értékes közös forrása a nagy adat.

    Mivel a rossz tulajdonságait nagy adat azonban azonnal meg kell, hogy szkeptikus ennek az eredménynek. Német-en 2009-ben volt jó, nem reprezentatív csoport, és a szurkolók egyik fél talán csipog a politikáról gyakrabban. Vagyis úgy tűnik, meglepő, hogy az összes lehetséges torzításokat, hogy meg tudná képzelni valahogy kioltják. Tény, hogy az eredmények a Tumasjan et al. (2010) kiderült, hogy túl szép, hogy igaz legyen. A tanulmányban, Tumasjan et al. (2010) tekinthető hat politikai párt: kereszténydemokraták (CDU), Christian szociáldemokraták (CSU), SPD, a liberálisok (FDP), a Bal (Die Linke) és a Zöld Párt (Grüne). Azonban a legtöbb fent említett német politikai párt-en akkoriban a Kalóz Párt (Piraten) egy párt, amely harcol a kormányzati szabályozás az internet. Amikor a Kalóz Párt tartalmazza az elemzés, a Twitter megemlíti, rettenetes előrejelzője választási eredmények (2.9 ábra) (Jungherr, Jürgens, and Schoen 2012) .

    2.9 ábra: Twitter említi jelezte előre, az eredmények a 2009-es Német választások (Tumasjan et al. 2010), de ez az eredmény kiderül, hogy attól függ, néhány önkényes és indokolatlan döntések (Jungherr, Jürgens, és Schoen 2012).

    2.9 ábra: Twitter említi jelezte előre, az eredmények a 2009-es Német választások (Tumasjan et al. 2010) , de ez az eredmény kiderül, hogy attól függ, néhány önkényes és indokolatlan döntések (Jungherr, Jürgens, and Schoen 2012) .

    Ezt követően más kutatók világszerte használt tenyésztő módszereket-mint például a hangulat elemzés különbséget tenni a pozitív és negatív megemlíti a felek-annak érdekében, hogy javítsák a Twitter adatok megjósolni a különféle típusú választások (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Itt van, hogyan Huberty (2015) foglalja össze az eredményeket e kísérletek megjósolni választások:

    "Minden ismert előrejelzési módszerek alapján a szociális média nem sikerült kitéve az igények igazi előremutató választási előrejelzés. Ezek a hibák úgy tűnik, hogy az oka, hogy az alapvető tulajdonságai a szociális média, ahelyett, hogy a módszertani vagy algoritmikus nehézségeket. Röviden, a szociális média nem, és valószínűleg soha nem is lesz, felajánl egy stabil, független, reprezentatív képet a választók; és a kényelem mintákat a közösségi média nem rendelkeznek elegendő adatot rögzíteni ezeket a problémákat, post hoc ".

    Olvassa el néhány kutatási vezető Huberty (2015) , hogy ezt a következtetést, és írj egy egyoldalas feljegyzés egy politikai jelölt leírja, és ha igen, hogyan Twitter kell használni, hogy előre választásokat.

  11. [ közepes ] Mi a különbség egy szociológus és történész? Szerint Goldthorpe (1991) , a fő különbség a szociológus és történész feletti ellenőrzés adatgyűjtés. A történészek kénytelenek használni relikviák míg a szociológusok is szabott az adatgyűjtés sajátos célra. Read Goldthorpe (1991) . Hogy a különbség a szociológia és a történelem kapcsolatos elképzelést Custommades és Readymades?

  12. [ kemény ] Építve az előző kérdésre, Goldthorpe (1991) felhívta számos kritikus reakciókat, köztük egy Nicky Hart (1994) , hogy a kifogásolt Goldthorpe odaadás testre szabott adatokat. Hogy tisztázzák a korlátai szabott adatokat, Hart le a Affluent munkás Project, egy nagy felmérés mérésére kapcsolat a társadalmi osztály és a szavazási hogy végezte Goldthorpe és munkatársai a 1960-as évek. Mint várhatnánk egy tudós, akik előnyben tervezett adatokat talált adatok, a bőség munkás Project összegyűjtött adatokat, amelyekről szabni a közelmúltban javasolt elmélet a jövőben a szociális osztály korában növekvő életszínvonal. De Goldthorpe és munkatársai valahogy "elfelejtette", hogy információt gyűjtsön a szavazói viselkedés a nők. Itt van, hogy Nicky Hart (1994) összefoglalók az egész epizód:

    ". . . hogy [a] nehéz elkerülni azt a következtetést, hogy a nők is hagyható, mert ez a "testre szabott" adatbázisba korlátozódott egy paradigmatikus logika, ami kizárja a női tapasztalat. Hajtott egy elméleti elképzelés osztálytudat és a cselekvés, mint férfi aggodalmak. . . , Goldthorpe és kollégái épített egy sor empirikus bizonyítékokat, amelyek táplálják és ápolni a saját elméleti feltételezések helyett kiteszik őket a teszt érvényes megfelelőségi. "

    Hart folytatta:

    "Az empirikus vizsgálat eredményeit a bőség munkás Project többet mond a maszkulin értékek század közepén a szociológia, mint tájékoztatják a folyamatokat a rétegződés, a politika és az anyagi élet."

    Tudsz más példát, ahol személyre szabott adatgyűjtés torzulások az adatgyűjtő beleépítve? Hogyan viszonyul ez a algoritmikus zavaró? Milyen hatásokat lehet mindez, amikor a kutatók használja Readymades és mikor kell használni Custommades?

  13. [ közepes ] Ebben a fejezetben ellentétben által gyűjtött adatokat a kutatók a kutatók számára az adminisztratív nyilvántartások által létrehozott vállalatok és a kormányok. Egyesek ezek az adminisztratív nyilvántartások "talált adatok", melynek elütő "tervezett adatokkal." Igaz, hogy az adminisztratív nyilvántartások találhatók a kutatók, de ők is nagyon kialakítva. Például a modern tech vállalatok költenek hatalmas mennyiségű időt és forrásokat gyűjteni és gondozásában az adatokat. Így ezek az adminisztratív nyilvántartások egyaránt találtak, és célja, ez csak attól függ, hogy a perspektíva (2.10 ábra).

    2.10 ábra: A kép egyszerre egy kacsa és egy nyúl; mit látsz attól függ, hogy a perspektíva. Kormányzati és az üzleti adminisztratív rekordok egyaránt találtak, és célja; mit látsz attól függ, hogy a perspektíva. Például az adatrekordok által gyűjtött egy mobiltelefon társaság található adatok szemszögéből a kutató. De ezek pontosan ugyanazt bejegyzések vannak kialakítva adatok szempontjából, hogy valaki dolgozik a számlázási osztály a telefon társaság. Forrás: Wikimedia Commons

    2.10 ábra: A kép egyszerre egy kacsa és egy nyúl; mit látsz attól függ, hogy a perspektíva. Kormányzati és az üzleti adminisztratív rekordok egyaránt találtak, és célja; mit látsz attól függ, hogy a perspektíva. Például az adatrekordok által gyűjtött egy mobiltelefon társaság található adatok szemszögéből a kutató. De ezek pontosan ugyanazt bejegyzések vannak kialakítva adatok szempontjából, hogy valaki dolgozik a számlázási osztály a telefon társaság. Forrás: Wikimedia Commons

    Adjon példát adatforrás, ahol látta, hogy mind a talált, és célja az, hasznos, ha az adatforrást kutatás.

  14. [ könnyen ] Egy átgondolt esszé, Christian Sandvig és Eszter Hargittai (2015) leírják kétféle digitális kutatási, ahol a digitális rendszer "eszköz", vagy "tárgya tanulmány." Egy példa az első fajta vizsgálat, ahol Bengtsson és munkatársai (2011) használt mobil telefon adatait követni migráció a földrengés után Haitin 2010-ben egy példát a második fajta, ahol Jensen (2007) azt vizsgálja, milyen bevezetése mobiltelefonról Kerala, India hatással működését a halpiac. Szerintem ez azért hasznos, mert egyértelművé teszi, hogy a vizsgálatok a digitális adatforrások lehetnek egészen más célokat is, ha azok ugyanazt a fajta adatforrást. Annak érdekében, hogy további tisztázása ezt a megkülönböztetést, leírja a négy vizsgálatban, hogy láttad: két használó digitális rendszer, mint eszköz és két használó digitális rendszer, mint egy tárgy tanulmány. Használhatja példát ebben a fejezetben, ha akarod.