Tevékenységek

  • nehézségi fok: könnyű könnyen , közepes közepes , kemény kemény , nagyon nehéz nagyon nehéz
  • matematikai követelményt igényel ( matematikai követelményt igényel )
  • kódolást igényel ( kódolást igényel )
  • adatgyűjtés ( adatgyűjtés )
  • a kedvenceim ( a kedvencem )
  1. [ közepes , a kedvencem ] Az algoritmikus zavarás problémát jelentett a Google Influenzatrendekkel kapcsolatban. Olvassa el a cikket Lazer et al. (2014) , és írj rövid, tiszta e-mailt egy mérnöknek a Google-nak, amely elmagyarázza a problémát, és felajánl egy ötletet a javításra.

  2. [ közepes ] Bollen, Mao, and Zeng (2011) azt állítja, hogy a Twitter adatait felhasználhatják a tőzsde megjóslásához. Ez a megállapítás egy fedezeti alap - a Derwent Capital Markets - létrehozását eredményezte a tőzsdén való befektetés érdekében a Twitter-ből (Jordan 2010) gyűjtött adatok alapján. Milyen bizonyítékokat szeretne látni, mielőtt pénzt helyezne el az alapba?

  3. [ könnyen ] Míg egyes közegészségügyi szakemberek úgy vélik, hogy az e-cigaretták hatékony segítséget nyújtanak a dohányzás abbahagyásához, mások figyelmeztetnek a lehetséges kockázatokra, például a magas nikotinszintre. Képzelje el, hogy egy kutató úgy dönt, hogy a közvéleményt az e-cigaretták felé vizsgálja azáltal, hogy összegyűjti az e-cigarettához kapcsolódó Twitter-bejegyzéseket és hangulatelemzéseket végez.

    1. Melyek a három lehetséges előítélet, amelyet leginkább aggaszt a tanulmányban?
    2. Clark et al. (2016) csak egy ilyen tanulmányt indított. Először 850.000 tweetet gyűjtöttek, amelyek 2012 januárjától 2014 decemberéig használtak e-cigarettához kapcsolódó kulcsszavakat. A közelebbi vizsgálatot követően rájöttek arra, hogy ezeknek a tweeteknek többsége automatizált (azaz nem az ember által gyártott), és ezek közül az automatizált tweetek közül lényegében reklámok. Olyan emberi észlelési algoritmust fejlesztettek ki, amely az automatizált tweeteket külön szerves tweetekből különíti el. Ezen emberi detektálási algoritmussal azt találták, hogy a tweetek 80% -a automatizált. Ez a megállapítás megváltoztatja a választ az (a) részre?
    3. Amikor összehasonlították az ökológiai és automatizált hírdetések hangulatát, úgy találták, hogy az automatizált tweetek pozitívabbak, mint a szerves tweetek (6,17 versus 5,84). Ez a megállapítás megváltoztatja a választ a (b) kérdésre?
  4. [ könnyen ] 2009 novemberében a Twitter megváltoztatta a kérdést a "Mit csinál?" Csipogóban a "Mi történik?" (Https://blog.twitter.com/2009/whats-happening).

    1. Mit gondolsz, hogy a változtatások hatással lesznek a tweetekre és / vagy azokra, akiket csipognak?
    2. Nevezzen meg egy olyan kutatási projektet, amelyre a "Mit csinálsz?
    3. Nevezzen el egy olyan kutatási projektet, amelyre a "Mi történik?
  5. [ könnyen ] A "retweeteket" gyakran használják a befolyás befolyásolására és terjedésére a Twitteren. Kezdetben a felhasználóknak be kellett másolniuk és beilleszteniük az általuk kedvelt cédulát, az eredeti szerzővel megcímkézték a fogantyúját, és manuálisan írják be az "RT" -t a csipog előtt, jelezve, hogy ez egy retweet. Ezután 2009-ben a Twitter hozzáadott egy "retweet" gombot. 2016 júniusában a Twitter lehetővé tette a felhasználók számára, hogy saját tweeteiket áttekinthessék (https://twitter.com/twitter/status/742749353689780224). Gondolod, hogy ezek a változtatások befolyásolják, hogyan használják a "retweets" -t a kutatás során? Miért vagy miért nem?

  6. [ nagyon nehéz , adatgyűjtés , kódolást igényel , a kedvencem ] Egy széles körben megvitatott tanulmányban Michel és munkatársai (2011) több mint öt millió digitalizált könyv tartalmát elemezték a hosszú távú kulturális trendek azonosítása érdekében. Az általuk használt adatok most már megjelentek a Google NGrams adatkészleteként, így az adatok felhasználhatók a munkájuk megismétléséhez és kiterjesztéséhez.

    A papír számos eredményében Michel és munkatársai azzal érveltek, hogy gyorsabban és gyorsabban elfelejtjük. Egy adott évre, mondják "1883", kiszámították az 1875 és 1975 között 1883-ban közzétett "1" gramm arányát. Arra a következtetésre jutottak, hogy ez az arány az adott évben bekövetkezett események iránti érdeklődés mértéke. A 3a. Ábrán három évig ábrázolták a használati útvonalat: 1883, 1910 és 1950. Ez a három év egy közös minta szerint osztozik: az év előtti kevés használat, majd a tüske, majd a bomlás. Ezt követõen Michel és munkatársai évente kiszámították az évek "felezési idejét" 1875 és 1975 között. A 3a. Ábrán (beillesztés) azt mutatták, hogy mindegyik fél felezési ideje év csökken, és azt állítják, hogy ez azt jelenti, hogy gyorsabban és gyorsabban felejtjük el a múltat. Az angol nyelvű korpusz 1. verzióját használták, de a Google ezt követően kiadta a corpus második változatát. Kérjük, olvassa el a kérdés összes részét a kódolás megkezdése előtt.

    Ez a tevékenység gyakorlati felhasználást biztosít az újrahasználható kódok írásához, az eredmények értelmezéséhez és az adatok leküzdéséhez (például kényelmetlen fájlok kezeléséhez és a hiányzó adatok kezeléséhez). Ez a tevékenység segít a gazdag és érdekes adatkészlet felkeltésével és működtetésével.

    1. Szerezd meg a nyers adatokat a Google Könyvek NGram Viewer webhelyéről. Különösen a 2012. július 1-jén kiadott angol nyelvű korpusz 2. verzióját kell használni. Tömörítetlen, ez a fájl 1,4 GB.

    2. Helyreállítsuk Michel et al. (2011) 3a. Ábrájának fő részét Michel et al. (2011) . A szám újbóli elkészítéséhez két fájlra van szüksége: az a) részben letöltött és a "teljes számlálás" fájl, amelyet a nyers számok átszámításra használhat. Megjegyezzük, hogy a teljes számlálási fájlnak olyan struktúrája van, amely miatt kicsit nehéz olvasni. Az NGram adatok 2. verziója hasonló eredményeket mutat a Michel et al. (2011) , amelyek az 1. verzió adatain alapulnak?

    3. Most ellenőrizze a grafikont az NGram Viewer által létrehozott grafikonra.

    4. A 3a. Ábrát (fő ábra) újratervezzük, de változtassuk meg a \(y\) -axis értéket a nyers megemlékezés számának (nem pedig a megemlékezések arányának).

    5. A (b) és (d) közötti különbség alapján Michel et al. (2011). Miért vagy miért nem?

    6. Most, a megemlékezések arányának felhasználásával, ismételje meg a 3a. Ábrát. Ez azt jelenti, hogy minden évben 1875 és 1975 között kiszámítják az adott év felezési idejét. A felezési idő meghatározása azt jelenti, hogy az elmúlt évek száma eléri, hogy az emlékek aránya eléri a csúcsértékének felét. Megjegyezzük, hogy Michel et al. (2011) bonyolultabbá teszik a féléletidő felbecslését - lásd a támogató online információ III.6. Szakaszát -, de azt állítják, hogy mindkét módszer hasonló eredményeket produkál. Az NGram-adatok 2. verziója hasonló eredményeket mutat a Michel et al. (2011) , amelyek az 1. verzió adatain alapulnak? (Tipp: Ne lepődj meg, ha nem.)

    7. Vannak olyan évek, amelyek túlvilágiak voltak, például az olyan évek, amelyeket különösen gyorsan vagy különösen lassan elfelejtettek? Röviden spekuláljon a lehetséges okokból, és magyarázza el, hogyan azonosította az outliereket.

    8. Most másolja az eredményt az NGrams adatok 2. verziójára kínai, francia, német, héber, olasz, orosz és spanyol nyelven.

    9. Összehasonlítva az összes nyelvet, voltak olyan évek, amelyek túlszárnyaltak voltak, például olyan éveket, amelyeket különösen gyorsan vagy különösen lassan elfelejtettek? Röviden kitaláljuk a lehetséges okokat.

  7. [ nagyon nehéz , adatgyűjtés , kódolást igényel , a kedvencem ] Penney (2016) feltárta, hogy 2013 júniusában az NSA / PRISM megfigyelés (pl. Snowden kinyilatkoztatások) széles körben elterjedt nyilvánossága összefüggésben volt-e a Wikipédia cikkek forgalmának éles és hirtelen csökkenésével olyan témákban, amelyek az adatvédelmi aggodalmakat növelik. Ha igen, ez a viselkedésváltozás összhangban állna a tömeges megfigyelésből eredő hűtési hatással. Penney (2016) megközelítését néha megszakított idősorozatnak hívják, és a 2.4.3. Szakaszban leírt megközelítésekhez kapcsolódik.

    A téma kulcsszavainak kiválasztásához Penney az Egyesült Államok Belbiztonsági Minisztériuma által használt, a közösségi média nyomon követésére és nyomon követésére használt listára hivatkozott. A DHS-lista bizonyos keresési kifejezéseket számos kérdésre kategorizál, például az "Egészségügyi aggodalomra", "Infrastruktúra biztonságára" és "Terrorizmusra". A tanulmányozócsoport számára a Penney a "Terrorizmus" kapcsolatos 48 kulcsszót használta (lásd a 8. függelék táblázatot ). Ezután összegyűjtötte a Wikipédia cikkek számát havi rendszerességgel a megfelelő 48 Wikipédia cikk számára egy 32 hónapos periódus alatt, 2012. január elejétől 2014. augusztus végéig. Az argumentum megerősítése érdekében több összehasonlító csoportot is létrehozott nyomon követésével cikkek nézetei más témákról.

    Most Penney (2016) és kiterjeszteni. A nyers adatok, amelyekre ehhez a tevékenységhez szüksége lehet, a Wikipédiából. Vagy az R-csomag wikipediatrendből (Meissner and R Core Team 2016) érheti el. Amikor felírja a válaszokat, kérjük, vegye figyelembe az Ön által használt adatforrást. (Ne feledje, hogy ugyanez a tevékenység a 6. fejezetben is megjelenik.) Ez a tevékenység gyakorlatot ad az adatok leküzdésére és a nagy adatforrások természetes kísérleteire. A jövőbeni projektekhez egy potenciálisan érdekes adatforrással is felveszi Önt.

    1. Olvass Penney (2016) és reprodukáld a 2. ábráját, amely a "Terrorizmus" oldalak oldalnézeteit mutatja a Snowden kinyilatkoztatása előtt és után. Értsd meg a megállapításokat.
    2. Ezután hasonlítsuk össze a vizsgálati csoportot ("Terrorizmus" -val kapcsolatos cikkeket) a DHS-listán szereplő "DHS és egyéb ügynökségek" kategóriákba tartozó kulcsszavakkal (lásd a 10. függelék táblázatot és a 139. lábjegyzetet) összehasonlító csoporttal. Értsd meg a megállapításokat.
    3. A (b) részben összehasonlítottuk a vizsgálati csoportot egy összehasonlító csoporttal. Penney szintén összehasonlításra került két másik összehasonlító csoporttal: "Infrastruktúra biztonság" kapcsolódó cikkek (11. mellékletadat) és népszerű Wikipedia oldalak (12. függelék tábla). Keress fel egy alternatív összehasonlító csoportot, és vizsgáld meg, hogy a (b) rész megállapításai érzékenyek-e a komparátor csoport kiválasztására. Melyik választása leginkább értelme van? Miért?
    4. Penney kijelentette, hogy a "Terrorizmus" -ra vonatkozó kulcsszavakat használják a Wikipédia cikkek kiválasztására, mert az amerikai kormány a terrorizmust az online felügyeleti gyakorlatának legfontosabb indokolásaként idézte. Penney (2016) ezen 48 "terrorizmus" -szel kapcsolatos kulcsszavak ellenőrzésénél egy felmérést is készített a MTurk-ról, amelyben felkérte a válaszadókat, hogy értékeljék az egyes ht kulcsszavakat a kormányzavar, az adatvédelem és az elhárítás szempontjából (a 7. és 8. függelék táblázata ). Reprodukálja a MTurk felmérését és hasonlítsa össze az eredményeket.
    5. A (d) rész eredményeinek és a cikk olvasásának eredménye alapján egyetért azzal, hogy Penney a témakör kulcsszavait választotta a tanulmányozócsoportban? Miért vagy miért nem? Ha nem, akkor mit javasolna?
  8. [ könnyen ] Efrati (2016) bizalmas információk alapján azt jelentette, hogy a "teljes megosztás" a Facebookon körülbelül 5,5% -kal csökkent az évről évre, miközben az "eredeti műsorszórás" 21% -kal csökkent az egy év alatt. Ez a visszaesés különösen éles volt a 30 év alatti Facebook felhasználóknál. A jelentés két tényezőt tulajdonolt a visszaesésnek. Az egyik a Facebookon élő "barátok" számának növekedése. A másik az, hogy néhány megosztási tevékenység átterjedt az üzenetküldésre és a versenytársakra, például a Snapchatra. A jelentés rámutatott arra is, hogy a Facebook számos taktikát megpróbálta megnövelni a megosztást, többek között a News Feed algoritmussal kapcsolatos csípéseit, amelyek az eredeti pozíciókat kiemelik, valamint az "On This Day" funkcióval járó, az eredeti bejegyzések periodikus emlékeztetőit. Milyen következményekkel jár ezekre az eredményekre olyan kutatók számára, akik a Facebookot adatforrásként szeretnék használni?

  9. [ közepes ] Mi a különbség a szociológus és a történész között? Goldthorpe (1991) szerint a fő különbség az adatgyűjtés ellenőrzése. A történészek arra kényszerülnek, hogy az ereklyéket használják, míg a szociológusok az adatgyűjtést meghatározott célokra szabhatják. Olvassa el Goldthorpe (1991) . Mi a különbség a szociológia és a történelem között, ami az õsi gondnokok és a readymades gondolataival kapcsolatos?

  10. [ kemény ] Ez az előző kérdésre épül. Goldthorpe (1991) számos kritikus választ adott ki, köztük Nicky Hart (1994) egyikét, amely megkérdőjelezte a Goldthorpe odaadását a szabott adatokhoz. A személyre szabott adatok lehetséges korlátainak tisztázása érdekében Hart leírta a gazdag munkásprojektet, amely nagyméretű felmérést végzett a társadalmi osztály és a szavazás közötti kapcsolat mérésére, amelyet a Goldthorpe és a kollégák 1960-as évek közepén végeztettek. Ahogy azt egy olyan tudóstól elvárható, aki a megtalált adatokon alapuló tervezett adatokat kedvelt, a gazdag munkásprojekt olyan adatokat gyűjtött össze, amelyeket úgy alakítottak ki, hogy egy, a növekvő életszínvonal korában a társadalmi osztály jövőjéről szóló, nemrégiben javasolt elméletet kezeljék. De Goldthorpe és munkatársai valahogy "elfelejtett" információt gyűjteni a nők szavazati viselkedése miatt. Nicky Hart (1994) összefoglalja az egész epizódot:

    "... nehéz elhárítani azt a következtetést, hogy a nőket elhagyták, mert ez a" személyre szabott "adatkészletet egy paradigmatikus logika korlátozta, amely kizárta a női tapasztalatokat. A klasszikus tudatosság és cselekvés elméleti elképzelése szerint férfi foglalkozások ..., Goldthorpe és munkatársai olyan empirikus bizonyítékokat állítottak össze, amelyek saját elméleti feltevéseiket táplálják és táplálják, ahelyett, hogy megfelelő megfelelőségi próbára tennék őket. "

    Hart folytatta:

    "A gazdag munkásprojekt empirikus eredményei többet mondanak a századszaka szociológiájának maszkulinista értékeiről, mint a rétegződés, a politika és az anyagi élet folyamatairól."

    Gondolhat más olyan példákra is, ahol a személyre szabott adatgyűjtésnek az adatgyűjtő elfogultságai vannak benne? Hogyan viszonyul ez az algoritmikus zavaróhoz? Milyen következményekkel járhat ez a helyzet akkor, amikor a kutatóknak olvasmányokat kell készíteniük, és mikor kell használniuk a letétkezelőket?

  11. [ közepes ] Ebben a fejezetben összehasonlítottam azokat a kutatók kutatói által összegyűjtött adatokat, amelyek a vállalatok és a kormányok által készített adminisztratív nyilvántartásokból származnak. Vannak, akik ezeket az adminisztratív rekordokat "talált adatoknak" nevezik, amelyek ellentétben állnak a "tervezett adatokkal". Igaz, hogy az adminisztratív feljegyzéseket a kutatók találják, de ezek is nagyon megtervezettek. Például a modern technológiai cégek nagyon keményen dolgoznak az adatok összegyűjtésében és kezelésében. Így ezeket az adminisztratív feljegyzéseket megtalálják és tervezik, csak az Ön perspektívájától függ (2.12. Ábra).

    2.12 ábra: A kép egyaránt kacsa és nyúl; amit látsz, az perspektívájától függ. Nagy adatforrásokat találnak és terveztek; újra, amit látsz, az perspektívájától függ. Például a mobiltelefon-vállalat által összegyűjtött hívásadat-nyilvántartások találhatók kutató szemszögéből. De ugyanezek a rekordok ugyanis a telefonvállalat számlázási osztályán dolgozó személy szemszögéből készültek. Forrás: Népszerű Tudomány Havi (1899) / Wikimedia Commons.

    2.12 ábra: A kép egyaránt kacsa és nyúl; amit látsz, az perspektívájától függ. Nagy adatforrásokat találnak és terveztek; újra, amit látsz, az perspektívájától függ. Például a mobiltelefon-vállalat által összegyűjtött hívásadat-nyilvántartások találhatók kutató szemszögéből. De ugyanezek a rekordok ugyanis a telefonvállalat számlázási osztályán dolgozó személy szemszögéből készültek. Forrás: Népszerű Tudomány Havi (1899) / Wikimedia Commons .

    Adjon meg egy példát az adatforrásról, ahol a megtalált és tervezett megtekintés hasznos lehet, ha ezt az adatforrást használja a kutatáshoz.

  12. [ könnyen ] Egy átgondolt esszében Christian Sandvig és Hargittai Eszter (2015) két nagy kategóriára osztották a digitális kutatásokat attól függően, hogy a digitális rendszer "eszköz" vagy "tárgy". Az első fajta példa - ahol a rendszer egy eszköz - Bengtsson és munkatársai (2011) kutatása mobiltelefonos adatok felhasználására a migráció nyomon követése érdekében Haiti földrengés után 2010-ben. Példa a második fajta - ahol a rendszer tárgya a tanulmány - a kutatás Jensen (2007) arról, hogy a mobiltelefonok bevezetése Kerala egész területén milyen hatást gyakorolt ​​a halpiac működésére. Ezt a megkülönböztetést hasznosnak találom, mert tisztázza, hogy a digitális adatforrásokat használó tanulmányok akkor is meglehetősen különböző célokat szolgálhatnak, ha ugyanazt az adatforrást használják. E megkülönböztetés további tisztázása érdekében írja le a négy tanulmányt, amelyekről láttál: kettőt használsz digitális rendszerként, kettő pedig olyan digitális rendszert használ, mint tanulmány tárgyát. Példák erre a fejezetre, ha akarod.