Zajęcia

  • stopień trudności: łatwy łatwo , średni średni , ciężko ciężko , bardzo trudny bardzo trudny
  • wymaga matematyki ( wymaga matematyki )
  • wymaga kodowania ( wymaga kodowania )
  • zbieranie danych ( zbieranie danych )
  • moje ulubione ( mój ulubiony )
  1. [ średni , mój ulubiony ] Algorytmiczne zakłócenie było problemem z Google Flu Trends. Przeczytaj artykuł Lazer et al. (2014) i napisać krótki, jasny e-mail do inżyniera z Google wyjaśniającego problem i oferującego pomysł, jak to naprawić.

  2. [ średni ] Bollen, Mao, and Zeng (2011) twierdzą, że dane z Twittera można wykorzystać do przewidywania rynku akcji. To odkrycie doprowadziło do utworzenia funduszu hedgingowego - Derwent Capital Markets - do inwestowania na giełdzie w oparciu o dane zebrane z Twittera (Jordan 2010) . Jakie dowody chciałbyś zobaczyć przed wpłaceniem pieniędzy do tego funduszu?

  3. [ łatwo Podczas gdy niektórzy zwolennicy zdrowia publicznego uważają e-papierosy za skuteczną pomoc w rzucaniu palenia, inni ostrzegają przed potencjalnym ryzykiem, takim jak wysoki poziom nikotyny. Wyobraź sobie, że badacz postanawia zbadać opinię publiczną na temat e-papierosów, zbierając posty na Twitterze związane z e-papierosami i przeprowadzając analizę sentymentów.

    1. Jakie są trzy możliwe uprzedzenia, których najbardziej martwisz w tym badaniu?
    2. Clark et al. (2016) przeprowadzili właśnie takie badanie. Najpierw zebrali 850 000 tweetów, które wykorzystywały słowa kluczowe związane z e-papierosami od stycznia 2012 r. Do grudnia 2014 r. Po bliższym przyjrzeniu się zdali sobie sprawę, że wiele z tych tweetów jest zautomatyzowanych (tj. Nie jest produkowanych przez ludzi), a wiele z tych zautomatyzowanych tweetów było zasadniczo reklamy. Opracowali ludzki algorytm wykrywania w celu oddzielenia automatycznych tweetów od organicznych tweetów. Wykorzystując ten ludzki algorytm wykrywania, wykryto, że 80% tweetów zostało zautomatyzowanych. Czy to odkrycie zmienia twoją odpowiedź na część (a)?
    3. Kiedy porównali sentyment w tweetach organicznych i automatycznych, stwierdzili, że automatyczne tweety były bardziej pozytywne niż tweety organiczne (6.17 w porównaniu z 5,84). Czy to stwierdzenie zmienia twoją odpowiedź na (b)?
  4. [ łatwo ] W listopadzie 2009 r. Twitter zmienił pytanie w polu tweeta z "Co robisz?" Na "Co się dzieje?" (Https://blog.twitter.com/2009/whats-happening).

    1. Jak według ciebie zmiana podpowiedzi wpłynie na to, kto tweetuje i / lub co tweetują?
    2. Nazwij jeden projekt badawczy, dla którego chcesz wyświetlać monit "Co robisz?" Wyjaśnij dlaczego.
    3. Wymień jeden projekt badawczy, dla którego wolałbyś podpowiedź "Co się dzieje?" Wyjaśnij dlaczego.
  5. [ łatwo ] "Retweets" są często używane do mierzenia wpływu i rozprzestrzeniania wpływów na Twitterze. Początkowo użytkownicy musieli kopiować i wklejać tweet, który im się podobał, oznaczać oryginalnym autorem jego rękojeścią i ręcznie wpisać "RT" przed tweetem, aby wskazać, że był to retweet. Następnie w 2009 roku na Twitterze dodano przycisk "Retweet". W czerwcu 2016 r. Twitter umożliwił użytkownikom przesyłanie do sieci własnych tweetów (https://twitter.com/twitter/status/742749353689780224). Czy uważasz, że te zmiany powinny wpłynąć na sposób, w jaki używasz "Retweets" w swoich badaniach? Dlaczego lub dlaczego nie?

  6. [ bardzo trudny , zbieranie danych , wymaga kodowania , mój ulubiony ] W szeroko dyskutowanym artykule Michel i współpracownicy (2011) przeanalizowali treść ponad pięciu milionów zdigitalizowanych książek, próbując zidentyfikować długoterminowe trendy kulturowe. Dane, których użyli, zostały teraz opublikowane jako zbiór danych Google NGrams, więc możemy wykorzystać te dane do replikacji i rozszerzenia niektórych ich prac.

    W jednym z wielu wyników pracy Michel i współpracownicy twierdzili, że zapominamy coraz szybciej. Na konkretny rok, powiedzmy "1883", obliczyli odsetek 1-gramów publikowanych każdego roku pomiędzy 1875 a 1975 rokiem, które były "1883". Uznali, że ta proporcja jest miarą zainteresowania wydarzeniami, które miały miejsce w tym roku. Na ich rysunku 3a, ukształtowali trajektorie wykorzystania na trzy lata: 1883, 1910 i 1950. Te trzy lata mają wspólny wzorzec: niewielkie wykorzystanie przed tym rokiem, potem skok, a następnie rozpad. Następnie, aby oszacować wskaźnik zaniku w każdym roku, Michel i jego współpracownicy obliczyli "okres półtrwania" każdego roku dla wszystkich lat między 1875 a 1975 rokiem. Na ich rysunku 3a (wstawka) wykazali, że okres półtrwania każdego rok się zmniejsza i twierdzili, że oznacza to, że zapominamy o przeszłości coraz szybciej. Użyli wersji 1 korpusu języka angielskiego, ale później Google opublikował drugą wersję tego korpusu. Przed rozpoczęciem kodowania przeczytaj wszystkie części pytania.

    Ta aktywność pozwoli ci ćwiczyć pisanie kodu wielokrotnego użytku, interpretowanie wyników i fałszowanie danych (np. Praca z niezręcznymi plikami i obsługa brakujących danych). Ta aktywność pomoże Ci w uruchomieniu z bogatym i interesującym zestawem danych.

    1. Uzyskaj surowe dane z witryny Google Books NGram Viewer. W szczególności powinieneś użyć wersji 2 korpusu języka angielskiego, który został wydany 1 lipca 2012. Nieskompresowany, ten plik ma 1,4 GB.

    2. Odtworzyć główną część figury 3a Michel et al. (2011) . Aby odtworzyć tę figurę, będziesz potrzebować dwóch plików: tego, który pobrałeś w części (a) i pliku "total counts", za pomocą którego możesz przekonwertować surowe liczby na proporcje. Zauważ, że całkowity plik zliczeń ma strukturę, która może sprawić, że będzie trochę trudny do odczytania. Czy wersja 2 danych NGram daje wyniki podobne do tych przedstawionych w Michel et al. (2011) , które są oparte na danych w wersji 1?

    3. Teraz sprawdź swój wykres przed wykresem utworzonym przez przeglądarkę NGram Viewer.

    4. Odtworzyć rysunek 3a (główny rysunek), ale zmienić \(y\) -axis, aby być liczbą surowych wzmianek (a nie liczbą wzmianek).

    5. Czy różnica między (b) i (d) prowadzi do przewartościowania któregokolwiek z wyników Michel et al. (2011). Dlaczego lub dlaczego nie?

    6. Teraz, używając proporcji wzmianek, powtórz wstawkę z figury 3a. Oznacza to, że dla każdego roku między 1875 a 1975 r. Należy wyliczyć okres półtrwania tego roku. Okres półtrwania definiuje się jako liczbę lat, które upływają, zanim proporcja wzmianek osiągnie połowę swojej wartości szczytowej. Zauważ, że Michel et al. (2011) zrobić coś bardziej skomplikowanego, aby oszacować okres półtrwania - patrz sekcja III.6 Wspieranie informacji online - ale twierdzą, że oba podejścia dają podobne wyniki. Czy wersja 2 danych NGram daje wyniki podobne do tych przedstawionych w Michel et al. (2011) , które są oparte na danych w wersji 1? (Podpowiedź: nie bądź zaskoczony, jeśli tak się nie stanie.)

    7. Czy były jakieś lata, które były odstające, takie jak lata, które zostały zapomniane szczególnie szybko lub szczególnie powoli? Krótko spekuluj na temat możliwych przyczyn tego wzorca i wyjaśnij, jak zidentyfikowałeś te wartości odstające.

    8. Teraz powtórz ten wynik dla wersji 2 danych NGrams w języku chińskim, francuskim, niemieckim, hebrajskim, włoskim, rosyjskim i hiszpańskim.

    9. Porównywanie we wszystkich językach, czy były jakieś lata, które były odstające, takie jak lata, które zostały zapomniane szczególnie szybko lub szczególnie powoli? Krótko spekuluj na temat możliwych przyczyn tego wzorca.

  7. [ bardzo trudny , zbieranie danych , wymaga kodowania , mój ulubiony ] Penney (2016) zbadał, czy powszechny rozgłos dotyczący nadzoru NSA / PRISM (tj. Rewelacji Snowdena) w czerwcu 2013 r. Był związany z gwałtownym i nagłym spadkiem ruchu do artykułów Wikipedii na tematy, które budzą obawy o prywatność. Jeśli tak, ta zmiana zachowania byłaby zgodna z efektem mrożenia wynikającym z masowego nadzoru. Podejście Penney (2016) jest czasami nazywane projektem przerywanej serii czasowej i jest związane z podejściami opisanymi w sekcji 2.4.3.

    Aby wybrać słowa kluczowe w temacie, Penney odniósł się do listy wykorzystywanej przez Departament Bezpieczeństwa Wewnętrznego USA do śledzenia i monitorowania mediów społecznościowych. Lista DHS kategoryzuje niektóre wyszukiwane terminy w szeregu zagadnień, np. "Problemy zdrowotne", "Bezpieczeństwo infrastruktury" i "Terroryzm". W przypadku grupy badawczej Penney użył 48 słów kluczowych związanych z "Terroryzmem" (patrz tabela dodatku 8 ). Następnie agregował miesięcznie liczbę wyświetleń artykułów w Wikipedii dla odpowiednich 48 artykułów z Wikipedii w ciągu 32 miesięcy, od początku stycznia 2012 do końca sierpnia 2014. Aby wzmocnić swoją argumentację, utworzył również kilka grup porównawczych, śledząc widoki artykułów na inne tematy.

    Teraz będziesz replikować i rozszerzać Penney (2016) . Wszystkie surowe dane potrzebne do tego działania są dostępne z Wikipedii. Lub możesz go pobrać z wikipediatrend pakietu R (Meissner and R Core Team 2016) . Kiedy piszesz swoje odpowiedzi, zwróć uwagę na używane źródło danych. (Zauważ, że ta sama aktywność pojawia się również w rozdziale 6.) Ta aktywność da ci praktykę w splataniu danych i myśleniu o naturalnych eksperymentach w dużych źródłach danych. Pozwoli Ci to także na rozpoczęcie pracy z potencjalnie interesującym źródłem danych dla przyszłych projektów.

    1. Przeczytaj Penney (2016) i powtórz jego rysunek 2, który pokazuje widoki strony dla stron związanych z "Terroryzmem" przed i po objawieniach Snowdena. Interpretuj wyniki.
    2. Następnie należy powtórzyć rysunek 4A, który porównuje grupę badawczą (artykuły "związane z terroryzmem") z grupą porównawczą za pomocą słów kluczowych sklasyfikowanych jako "DHS i inne agencje" z listy DHS (zob. Tabela dodatku 10 i przypis 139). Interpretuj wyniki.
    3. W części (b) porównano grupę badaną z jedną grupą porównawczą. Penney porównał również dwie inne grupy porównawcze: artykuły związane z bezpieczeństwem infrastruktury (tabela dodatku 11) i popularne strony Wikipedii (tabela aneksów 12). Wymyśl alternatywną grupę porównawczą i sprawdź, czy wyniki z części (b) są wrażliwe na Twój wybór grupy porównawczej. Który wybór ma sens? Czemu?
    4. Penney stwierdził, że słowa kluczowe odnoszące się do "terroryzmu" zostały użyte do wyboru artykułów Wikipedii, ponieważ rząd Stanów Zjednoczonych cytował terroryzm jako kluczowe uzasadnienie dla swoich praktyk nadzoru online. W ramach kontroli tych 48 słów kluczowych związanych z terroryzmem, Penney (2016) przeprowadziła także ankietę na temat MTurk, prosząc respondentów o ocenę każdego z ht słów kluczowych w kategoriach problemów rządowych, wrażliwości na kwestie ochrony prywatności i unikania (tabela dodatków 7 i 8 ). Wykonaj replikę ankiety na MTurku i porównaj wyniki.
    5. Opierając się na wynikach w części (d) i lekturze artykułu, czy zgadzasz się z wyborem słów kluczowych Penneya w grupie analitycznej? Dlaczego lub dlaczego nie? Jeśli nie, co byś zamiast tego zaproponował?
  8. [ łatwo ] Efrati (2016) zgłosiła, na podstawie poufnych informacji, że "całkowite udostępnienie" na Facebooku zmniejszyło się o około 5,5% rok do roku, podczas gdy "pierwotne udostępnianie programów telewizyjnych" spadło o 21% rok do roku. Ten spadek był szczególnie dotkliwy w przypadku użytkowników Facebooka w wieku poniżej 30 lat. Raport przypisał spadek dwóm czynnikom. Jednym z nich jest wzrost liczby "znajomych" ludzi na Facebooku. Druga polega na tym, że niektóre działania związane z udostępnianiem zostały przeniesione do wiadomości i do konkurencji, takich jak Snapchat. Raport ujawnił także kilka taktyk, które Facebook próbował zwiększyć udostępnianie, w tym usprawnienia algorytmów kanałów informacyjnych, dzięki którym oryginalne posty są bardziej widoczne, a także okresowe przypomnienia o oryginalnych wpisach dzięki funkcji "W tym dniu". Jakie konsekwencje, jeśli w ogóle, mają te odkrycia dla badaczy, którzy chcą używać Facebooka jako źródła danych?

  9. [ średni ] Jaka jest różnica między socjologiem a historykiem? Według Goldthorpe (1991) główną różnicą jest kontrola nad gromadzeniem danych. Historycy są zmuszeni używać relikwii, podczas gdy socjologowie mogą dostosować gromadzenie danych do określonych celów. Przeczytaj Goldthorpe (1991) . Jaka jest różnica między socjologią a historią związaną z ideą kancelarii i gotowych?

  10. [ ciężko ] To opiera się na poprzednim quesiton. Goldthorpe (1991) nakreślił szereg krytycznych odpowiedzi, w tym jeden od Nicky'ego Harta (1994) który podważył przywiązanie Goldthorpe'a do danych na zamówienie. Aby wyjaśnić potencjalne ograniczenia danych szytych na miarę, Hart opisał projekt "Zamożnego Pracownika", dużą ankietę służącą do pomiaru relacji między klasą społeczną a głosowaniem, którą Goldthorpe i jego koledzy przeprowadzili w połowie lat sześćdziesiątych. Jak można się było spodziewać od uczonego, który faworyzował projektowane dane na podstawie znalezionych danych, Projekt Zamożnego Pracownika zbierał dane, które były dostosowane do ostatnio proponowanej teorii o przyszłości klasy społecznej w erze rosnących standardów życia. Ale Goldthorpe i koledzy jakoś "zapomnieli" zebrać informacje na temat zachowań głosujących kobiet. Oto jak Nicky Hart (1994) podsumował cały odcinek:

    "... trudno jest uniknąć wniosku, że kobiety zostały pominięte, ponieważ ten zestaw danych" na miarę "był ograniczony przez paradygmatyczną logikę, która wykluczała doświadczenie kobiet. Kierując się teoretyczną wizją świadomości klasowej i działania jako męskiego zainteresowania ..., Goldthorpe i jego koledzy skonstruowali zestaw empirycznych dowodów, które karmiły i pielęgnowały swoje własne teoretyczne założenia, zamiast wystawiać je na ważny test adekwatności ".

    Hart kontynuowała:

    "Wyniki empiryczne Projektu Zamożnych Pracowników mówią nam więcej o męskich wartościach socjologii w połowie wieku, niż informują o procesach stratyfikacji, polityki i życia materialnego."

    Czy możesz wymyślić inne przykłady, w których gromadzenie danych na zamówienie ma wbudowane w niego zbędne elementy kolektora danych? Jak to się ma do konfrontacji algorytmicznej? Jakie mogą być tego konsekwencje, gdy naukowcy powinni korzystać z gotowych rozwiązań i kiedy powinni korzystać z kancelarii?

  11. [ średni W tym rozdziale zestawiłem dane zebrane przez badaczy dla badaczy z dokumentami administracyjnymi tworzonymi przez firmy i rządy. Niektórzy nazywają te rejestry administracyjne "znalezionymi danymi", które kontrastują z "zaprojektowanymi danymi". Prawdą jest, że rejestry administracyjne są odkrywane przez naukowców, ale są również wysoce zaprojektowane. Na przykład nowoczesne firmy technologiczne bardzo ciężko pracują, aby zebrać i skoordynować swoje dane. W związku z tym te zapisy administracyjne są zarówno znalezione, jak i zaprojektowane, zależą tylko od twojej perspektywy (rysunek 2.12).

    Rysunek 2.12: Zdjęcie przedstawia kaczkę i królika; to, co widzisz, zależy od twojej perspektywy. Znalezione i zaprojektowane są duże źródła danych; znowu, to, co widzisz, zależy od twojej perspektywy. Na przykład, rekordy danych połączeń zebrane przez firmę telefonii komórkowej znajdują dane z perspektywy badacza. Ale te dokładnie te same zapisy są danymi projektowymi z perspektywy osoby pracującej w dziale rozliczeniowym firmy telefonicznej. Źródło: Popular Science Monthly (1899) / Wikimedia Commons.

    Rysunek 2.12: Zdjęcie przedstawia kaczkę i królika; to, co widzisz, zależy od twojej perspektywy. Znalezione i zaprojektowane są duże źródła danych; znowu, to, co widzisz, zależy od twojej perspektywy. Na przykład, rekordy danych połączeń zebrane przez firmę telefonii komórkowej znajdują dane z perspektywy badacza. Ale te dokładnie te same zapisy są danymi projektowymi z perspektywy osoby pracującej w dziale rozliczeniowym firmy telefonicznej. Źródło: Popular Science Monthly (1899) / Wikimedia Commons .

    Podaj przykład źródła danych, w którym widzenie go zarówno jako znalezionego, jak i zaprojektowanego jest pomocne przy używaniu tego źródła danych do badań.

  12. [ łatwo ] W rozważnym eseju Christian Sandvig i Eszter Hargittai (2015) podzielili badania cyfrowe na dwie szerokie kategorie w zależności od tego, czy system cyfrowy jest "instrumentem" czy "przedmiotem badań". Przykład pierwszego rodzaju - gdzie system jest instrument - to badanie przeprowadzone przez Bengtssona i współpracowników (2011) na temat wykorzystywania danych z telefonów komórkowych do śledzenia migracji po trzęsieniu ziemi na Haiti w 2010 roku. Przykładem drugiego rodzaju - gdzie system jest przedmiotem badań - są badania Jensena (2007) w jaki sposób wprowadzenie telefonów komórkowych w całej Kerali w Indiach miało wpływ na funkcjonowanie rynku ryb. Uważam, że to rozróżnienie jest pomocne, ponieważ wyjaśnia, że ​​studia wykorzystujące cyfrowe źródła danych mogą mieć zupełnie inne cele, nawet jeśli używają tego samego źródła danych. W celu dalszego wyjaśnienia tego rozróżnienia opisz cztery przeprowadzone badania: dwa, które wykorzystują system cyfrowy jako instrument i dwa, które wykorzystują system cyfrowy jako przedmiot badań. Możesz użyć przykładów z tego rozdziału, jeśli chcesz.