Klawisz:
[ , ] Algorytmiczne mylących był problem z Google Flu Trends. Czytaj gazetę przez Lazer et al. (2014) , a następnie napisz krótką, jasną wiadomość inżynier w Google wyjaśniającą problem i oferuje pomysł jak rozwiązać ten problem.
[ ] Bollen, Mao, and Zeng (2011) twierdzi, że dane z Twitter może być stosowany do przewidywania rynku akcji. To odkrycie doprowadziło do powstania funduszu hedge-Derwent Capital Markets-inwestować na giełdzie na podstawie danych zebranych z Twittera (Jordan 2010) . Jakie dowody będą chcesz zobaczyć przed włożeniem pieniędzy w ten fundusz?
[ ] Chociaż niektórzy zwolennicy zdrowia publicznego grad e-papierosa jako skutecznej pomocy na rzecz zaprzestania palenia, inni ostrzegają o potencjalnych zagrożeniach, takich jak wysokich poziomów nikotyny. Wyobraźmy sobie, że badacz postanawia zbadać opinię publiczną w kierunku e-papierosów zbierając związanych z e-papierosy posty na Twitterze i przeprowadzenie analizy nastrojów.
[ ] W listopadzie 2009 roku, Twitter zmienił pytanie w polu tweet z "Co robisz?" Do "Co się dzieje?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) przeanalizował 41,7 mln profili użytkowników, 1,47 mld stosunki społeczne, 4262 tematy trendów, oraz 106 mln tweets pomiędzy 6 czerwca do 31 czerwca 2009. Na podstawie tej analizy stwierdzono, że oni Twitter służy bardziej jako nowe medium wymiany informacji niż sieć społeczna.
[ ] "Retweets" są często stosowane do pomiaru wpływu i rozprzestrzeniania wpływu na Twitterze. Początkowo użytkownicy musieli kopiować i wklejać tweet lubili, oznacz oryginalnego autora z jego / jej rączki i ręcznie wpisać "RT" przed tweet, aby wskazać, że jest to retweet. Następnie, w 2009 roku Twitter dodał "retweet" przycisk. W czerwcu 2016, Twitter umożliwił użytkownikom retweet swoje tweety (https://twitter.com/twitter/status/742749353689780224). Czy uważasz, że zmiany te powinny wpłynąć na sposób korzystania z "Retweets" w badaniach? Dlaczego lub dlaczego nie?
[ , , ] Michel et al. (2011) skonstruował corpus wyłaniający się z wysiłkiem Google nad digitalizacją książek. Korzystanie z pierwszej wersji korpusu, który został opublikowany w 2009 roku i zawierała ponad 5 milionów zdigitalizowanych książek, autorzy analizowane słowo częstotliwość użycia w celu zbadania zmian językowych i trendy kulturowe. Wkrótce Książki Corpus Google stał się popularnym źródłem danych dla naukowców i 2nd wersja bazy danych został wydany w 2012 roku.
Jednak Pechenick, Danforth, and Dodds (2015) ostrzegł, że naukowcy muszą w pełni scharakteryzować proces próbkowania korpusu przed użyciem go do rysowania ogólnych wniosków. Głównym problemem jest to, że korpus jest podobny do biblioteki, zawierające jeden z każdej książki. W rezultacie, osoba, płodny autor jest w stanie wyraźnie wstawić nowe frazy do słownika Google Books. Ponadto, teksty naukowe stanowią coraz merytoryczną część korpusu w całym 1900 roku. Ponadto, porównując dwie wersje angielskich zbiorach danych fikcja, Pechenick et al. Znaleziono dowody, że niewystarczające filtrowanie została wykorzystana w produkcji pierwszej wersji. Wszystkie dane potrzebne do działania jest dostępna tutaj: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) bada, czy powszechny rozgłos o NSA nadzoru / PRISM (tj rewelacje Snowden) w czerwcu 2013 roku jest związany z nagłym i gwałtownym spadkiem ruchu do artykułów Wikipedii na tematy, które budzą obawy związane z prywatnością. Jeśli tak, to ta zmiana w zachowaniu byłoby zgodne z chłodni efektu wynikającego z nadzoru masowej. Podejście Penney (2016) nazywa się czasem przerwanej konstrukcję szeregów czasowych i jest związany z podejść w rozdziale o zbliżenie eksperymenty z danych obserwacyjnych (sekcja 2.4.3).
Aby wybrać słowa kluczowe tematycznych, Penney, o których mowa w wykazie używanym przez US Department of Homeland Security do śledzenia i monitorowania mediów społecznościowych. Lista DHS kategoryzuje pewnych haseł do szeregu kwestii, czyli "problemem zdrowia", "Bezpieczeństwo Infrastruktura" i "terroryzm". W grupie badanej, Penney stosować czterdzieści osiem słów kluczowych związanych z "terroryzmem" (patrz tabela 8 Dodatek). Potem agregowane Wikipedii Zobacz artykuł liczy na bazie miesięcznej dla odpowiednich czterdziestu ośmiu artykułów Wikipedii w okresie trzydziestu dwóch miesięcy, od początku stycznia 2012 roku do końca sierpnia 2014. Aby wzmocnić swoją argumentację, stworzył także kilka porównania grupy Śledząc poglądy artykułów na inne tematy.
Teraz idziesz do replikacji i przedłużyć Penney (2016) . Wszystkie surowe dane, które będą potrzebne dla tej działalności jest dostępna z Wikipedii (https://dumps.wikimedia.org/other/pagecounts-raw/~~HEAD=pobj). Albo można je dostać od wikipediatrend pakietu R (Meissner and Team 2016) . Podczas zapisu swoje odpowiedzi, proszę zauważyć, których dane źródłowe użyte. (Uwaga: ta sama działalność pojawia się również w rozdziale 6)
[ ] Efrati (2016) raporty na podstawie informacji poufnej, że "całkowity podział" na Facebooku spadła o około 5,5% rok do roku, podczas gdy "oryginał udostępnianie audycji" był spadek o 21% rok do roku. Spadek ten był szczególnie dotkliwy z użytkowników Facebooka poniżej 30 roku życia. Raport przypisuje spadek do dwóch czynników. Jednym z nich jest wzrost liczby "przyjaciół" Ludzie na Facebooku. Drugim jest to, że niektóre działalność dzielenie przesunął się do wiadomości i konkurentów, takich jak snapchat. Raport ujawnił również kilka taktyk Facebook próbowali zwiększyć wymianę, w tym News Feed algorytmu usprawnień, które sprawiają, oryginalne posty bardziej widoczne, a także okresowe przypomnienia pierwotnych użytkowników posty "w tym dniu" kilka lat temu. Jakie ewentualne konsekwencje, czy wyniki te mają dla naukowców, którzy chcą korzystać z Facebooka jako źródła danych?
[ ] Tumasjan et al. (2010) poinformował, że część tweets wymieniających partię polityczną dobrane proporcje głosów, że strona otrzymała w niemieckim wyborach parlamentarnych w 2009 roku (rysunek 2.9). Innymi słowy, okazało się, że można korzystać z Twittera, aby przewidzieć wybory. W czasie tego badania zostały opublikowane zostało uznane za bardzo ekscytujące, ponieważ wydawało się sugerować cennego pożytku wspólnego źródła dużych danych.
Ze względu na złe cechy dużych danych, jednak użytkownik powinien natychmiast być sceptyczni tego wyniku. Niemcy na Twitterze w 2009 roku były dość non-reprezentatywna grupa, a zwolennicy jednej partii może ćwierkać o polityce częściej. Tak więc, wydaje się zaskakujące, że wszystkie ewentualne uprzedzenia, że można sobie wyobrazić, że jakoś znoszą się. W rzeczywistości powoduje Tumasjan et al. (2010) okazał się zbyt piękne, aby mogło być prawdziwe. W swoim artykule Tumasjan et al. (2010) uważany sześć partii politycznych: chadeków (CDU), Christian socjaldemokraci (CSU), SPD, liberałów (FDP), Lewica (Die Linke), i Partia Zielonych (Grüne). Jednak najbardziej wymienionym niemieckim partia polityczna na Twitterze był w tym czasie Partia Piratów (Piraten), partia, która walczy rozporządzenie rządu z Internetu. Kiedy Partia Piratów została uwzględniona w analizie, Twitter wspomina się fatalny predyktorem wyników wyborów (rysunek 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Następnie innych badaczy na całym świecie stosowane bardziej wyszukane sposoby, takie jak z zastosowaniem analizy nastrojów odróżnić pozytywne i negatywne wymienia stron-, w celu poprawy zdolności danych Twitterze przewidzieć wiele różnych typów wyborów (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Oto jak Huberty (2015) podsumowano wyniki tych prób przewidywania wyborów:
"Wszystkie znane metody prognozowania w oparciu o social media zawiodły, gdy poddane wymogom prawdziwego perspektywicznej prognozy wyborczej. Te awarie wydają się być spowodowane podstawowych właściwości social media, zamiast metodologicznych lub algorytmicznych trudności. W skrócie, social media nie, i prawdopodobnie nigdy nie będzie oferować stabilne, bezstronnej, reprezentatywny obraz elektoratu; a próbki wygody mediów społecznych brak wystarczających danych, aby naprawić te problemy post hoc ".
Przeczytałem kilka badań, które prowadzą Huberty (2015) do tego wniosku i napisać jedną stronę notatkę opisującą kandydata politycznego czy i jak Twitter powinien być stosowany do przewidywania wyborów.
[ ] Jaka jest różnica między socjologa i historyka? Według Goldthorpe (1991) , główna różnica pomiędzy socjologa i historyka jest kontrola nad zbieraniem danych. Historycy są zmuszeni do korzystania relikwie zaś socjologowie mogą dostosować swój zbiór danych do konkretnych celów. Czytaj Goldthorpe (1991) . Jak jest różnica między socjologią i historią wiąże się z ideą Custommades i Readymades?
[ ] Opierając się na poprzednie pytanie, Goldthorpe (1991) zwrócił szereg reakcji krytycznych, w tym jeden z Nicky Hart (1994) , że zakwestionowane oddanie Goldthorpe do Tailor Made danych. W celu wyjaśnienia ewentualnych ograniczeń dostosowanych danych Hart opisał zamożnych Pracownik projektu, duże badania, aby zmierzyć zależność między klasą społeczną i głosowania, które zostało przeprowadzone przez Goldthorpe i współpracowników w połowie 1960 roku. Jak można było oczekiwać od uczonego, który opowiedziała zaprojektowanej danych przez znajdując danych, bogatej Pracownik projektu zebrano dane, które zostały dostosowane do rozwiązania zaproponowanego niedawno teorię o przyszłości klasy społecznej w dobie rosnącego poziomu życia. Ale Goldthorpe i współpracownicy jakoś "zapomniał", aby zebrać informacje na temat zachowań wyborczych kobiet. Oto jak Nicky Hart (1994) podsumowuje cały epizod:
". , , że [jest] trudno nie dojść do wniosku, że kobiety zostały pominięte, ponieważ ta "szyte na miarę" zestaw danych był ograniczony przez paradygmatycznej logiki, która wykluczała żeński doświadczenia. Kierowany przez teoretycznej wizji klasowej świadomości i działania jako męskiej troski. , , , Goldthorpe i jego współpracownicy zbudowali szereg dowodów empirycznych, które karmione i pielęgnowane własnych założeń teoretycznych zamiast wystawiania ich do ważnego testu adekwatności ".
Hart kontynuował:
"Te empiryczne wyniki zamożnych Pracownik Projektu powiedzieć nam więcej o masculinist wartości średniej wieku socjologii niż informują procesy stratyfikacji, polityki i życia materialnego."
Można myśleć o innych przykładów, gdzie szyte na miarę zbierania danych ma uprzedzeń z kolektora danych wbudowane w nią? Jak to porównać do algorytmicznego mylenia? Jakie konsekwencje może to mieć dla gdy naukowcy powinni stosować Readymades i kiedy powinny korzystać Custommades?
[ ] W tym rozdziale I przeciwstawia dane zebrane przez naukowców dla naukowców z rejestrów administracyjnych utworzonych przez przedsiębiorstwa i rządy. Niektórzy nazywają te zapisy administracyjne "znaleziono danych", które kontrastują z "zaprojektowanych danych." Prawdą jest, że rejestry administracyjne są uznane przez badaczy, ale są również bardzo zaprojektowane. Na przykład, nowoczesne tech spędzają ogromne ilości czasu i zasobów do gromadzenia i uzdrowienia swoich danych. Tak więc, te rejestry administracyjne, zarówno znalezione i zaprojektowane, to zależy od punktu widzenia (rysunek 2.10).
Stanowią przykład źródła danych, gdzie widząc go zarówno jako znaleziony i przeznaczona jest pomocne podczas korzystania z tego źródła danych dla badań.
[ ] W przemyślany eseju Christian Sandvig i Eszter Hargittai (2015) opisują dwa rodzaje badań cyfrowej, gdzie system cyfrowy jest "instrumentem" lub "przedmiot badań." Przykładem pierwszego rodzaju studiów jest gdzie Bengtsson i współpracownicy (2011) wykorzystali dane telefonów komórkowych do śledzenia migracji po trzęsieniu ziemi na Haiti w 2010 roku przykładem drugiego rodzaju jest, gdy Jensen (2007) badania, w jaki sposób wprowadzenie telefonów komórkowych na całym Kerala, Indie miały wpływ na funkcjonowanie rynku ryb. Uważam to pomocne, ponieważ wyjaśnia, że badania z użyciem cyfrowych źródeł danych może mieć zupełnie inne cele, nawet jeśli są one za pomocą tego samego rodzaju źródła danych. W celu dalszego wyjaśnienia tego rozróżnienia, opisują cztery badania, które widziałeś: dwa, które wykorzystują system cyfrowego jako instrument i dwa, które wykorzystują system cyfrowego jako przedmiot badań. Można użyć przykładów z tego rozdziału, jeśli chcesz.