Activitati

Cheie:

  • grad de dificultate: ușor uşor , mediu mediu , greu greu , foarte greu foarte greu
  • necesită matematică ( necesită matematică )
  • necesită codificare ( necesită codificare )
  • colectare de date ( colectare de date )
  • preferatele mele ( preferatul meu )
  1. [ mediu . preferatul meu ] Intricate algoritmică a fost o problemă cu Google Tendințele gripei. Citiți lucrarea lui Lazer et al. (2014) , și a scrie un e - mail, clar la un inginer de la Google să explice problema și care oferă o idee despre modul de a rezolva problema.

  2. [ mediu ] Bollen, Mao, and Zeng (2011) susține că datele de la Twitter pot fi folosite pentru a prezice piața de valori. Aceasta constatare a dus la crearea unui fond de hedging-Derwent Capital Markets-a investi în piața de valori , pe baza datelor colectate de la Twitter (Jordan 2010) . Ce dovezi ai vrea sa vezi inainte de a pune banii în acest fond?

  3. [ uşor ] În timp ce unii pledeaza pentru sanatate publica grindina e-tigari ca un ajutor eficient pentru renunțarea la fumat, alții avertizează cu privire la riscurile potentiale, cum ar fi cele mai ridicate niveluri de nicotina. Imaginați-vă că un cercetător decide să studieze opiniei publice față de țigările electronice prin colectarea legate de e-tigari posturi Twitter si efectuarea analizei sentimentelor.

    1. Care sunt cele trei prejudecăți posibile pe care le sunt cei mai îngrijorați cu privire la acest studiu?
    2. Clark et al. (2016) a fugit doar un astfel de studiu. În primul rând, au colectat 850.000 de tweet-uri care au folosit cuvinte cheie legate de e-țigară din ianuarie 2012 până în decembrie 2014. La o inspecție mai atentă, au dat seama că multe dintre aceste tweet-uri au fost automatizate (de exemplu, nu sunt produse de oameni) și multe dintre aceste tweet-uri automate au fost în esență reclame. Ei au dezvoltat un algoritm de detectare uman pentru a separa tweet-uri automate de tweet-uri organice. Cu ajutorul acestui algoritm uman Detect au descoperit că 80% din tweet-uri au fost automatizate. Oare această constatare schimba răspunsul la partea (a)?
    3. Cand au comparat sentimentul în tweet-uri organice si automate au descoperit ca tweet-uri automate sunt mai pozitive decat tweet-uri organice (6,17 față de 5,84). Oare această constatare schimba răspunsul la (b)?
  4. [ uşor ] În noiembrie 2009, Twitter a schimbat întrebarea în caseta din tweet "Ce faci?" La "Ce se întâmplă?" (Https://blog.twitter.com/2009/whats-happening).

    1. Cum crezi că schimbarea de solicitări va afecta cine tweet și / sau ce tweet?
    2. Nume de un proiect de cercetare pentru care ați prefera prompt "Ce faci?" Să explice de ce.
    3. Nume de un proiect de cercetare pentru care ar prefera prompt "Ce se întâmplă?" Să explice de ce.
  5. [ mediu ] Kwak et al. (2010) au analizat profilurile de 41,7 milioane de utilizatori, 1,47 miliarde de relații sociale, 4262 subiecte, și tendințe de 106 de milioane de tweet - uri intre 06 iunie si 31 iunie 2009. Pe baza acestei analize au ajuns la concluzia că Twitter servește mai mult ca un nou mediu de schimb de informații decât o rețea socială.

    1. Având în vedere constatarea Kwak et al, ce tip de cercetare ar face cu datele de pe Twitter? Ce tip de cercetare nu ar face cu datele de pe Twitter? De ce?
    2. În 2010, a adăugat Twitter o Cine Pentru a urmări serviciul a face sugestii adaptate utilizatorilor. Trei recomandări sunt prezentate într-un moment de pe pagina principală. Recomandările sunt adesea extrase din "cuiva prieteni ai prietenilor," și contactele reciproce sunt, de asemenea, afișate în recomandare. Utilizatorii se pot reîmprospăta pentru a vedea un nou set de recomandări sau accesați o pagină cu o listă mai lungă de recomandări. Credeți că această nouă facilitate ar schimba răspunsul la o parte a)? De ce sau de ce nu?
    3. Su, Sharma, and Goel (2016) a evaluat efectul Cine Pentru a urma serviciului și a constatat că în timp ce utilizatorii din întreaga spectrul de popularitate au beneficiat de recomandări, cele mai populare utilizatori în mod substanțial mai mult decât a profitat media. Oare această constatare schimba răspunsul la partea b)? De ce sau de ce nu?
  6. [ uşor ] "Retweets" sunt adesea folosite pentru a măsura influența și răspândirea influenței pe Twitter. Initial, utilizatorii trebuiau să copiați și inserați tweet-ul le-a plăcut, tag-ul autorul original cu mâner lui / ei, și manual de tip "RT", înainte de tweet pentru a indica faptul că este un retweet. Apoi, în 2009, Twitter a adăugat un buton "retweet". În luna iunie 2016, Twitter a făcut posibil ca utilizatorii să retweet propriile tweet-uri (https://twitter.com/twitter/status/742749353689780224). Credeți că aceste modificări ar trebui să afecteze modul în care folosiți "retweets" în cercetare? De ce sau de ce nu?

  7. [ mediu . colectare de date . necesită codificare ] Michel et al. (2011) au construit un corpus în curs de dezvoltare din efortul Google de a digitaliza cărți. Folosind prima versiune a corpusului, care a fost publicat în 2009 și conținea peste 5 milioane de cărți digitalizate, autorii au analizat cuvânt frecvența de utilizare pentru a investiga schimbările lingvistice și tendințele culturale. În curând Google Books Corpus a devenit o sursă de date populară pentru cercetători, precum și o versiune a 2-a bazei de date a fost lansat în 2012.

    Cu toate acestea, Pechenick, Danforth, and Dodds (2015) a avertizat că cercetătorii au nevoie pentru a caracteriza pe deplin procesul de eșantionare a corpusului înainte de a utiliza pentru a trage concluzii generale. Chestiunea principală este faptul că corpus este bibliotecă asemănătoare, conținând una din fiecare carte. Ca rezultat, un individ, prolific autor este capabil de a insera în mod evident noi fraze în lexiconul Google Books. Mai mult decât atât, texte științifice constituie o parte din ce în ce pe fond a corpus pe tot parcursul anilor 1900. In plus, prin compararea a două versiuni ale seturilor de date de fictiune engleza, Pechenick et al. dovada a constatat ca un număr insuficient de filtrare a fost utilizată în producerea de prima versiune. Toate datele necesare pentru activitatea este disponibil aici: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. În lucrarea originală , Michel et al. Au (2011) , au folosit prima versiune a setului de date limba engleză, reprezentate grafic frecvența de utilizare a anilor "1880", "1912" și "1973" și a concluzionat că "suntem uitând trecutul nostru mai repede cu fiecare an care trece "(fig. 3A, Michel și colab.). Replice aceeași parcelă folosind 1) prima versiune a corpusului, setul de date engleza (aceeași ca în Fig. 3A, Michel și colab.)
    2. Acum reproduce aceeași parcelă cu prima versiune, limba engleză ficțiune set de date.
    3. Acum reproduce aceeași parcelă cu două versiune a corpusului, engleza set de date.
    4. În cele din urmă, replica același lot cu a 2-a versiune, limba engleză ficțiune set de date.
    5. Descrie diferențele și asemănările dintre aceste patru parcele. Sunteți de acord cu Michel et al. Au interpretarea originală a tendinței observate? (Sugestie: c) și d) trebuie să fie aceleași ca și figura 16 în Pechenick și colab).
    6. Acum, că ați replicat aceasta constatare una folosind diferite Google Books corpusuri, pentru a alege o altă schimbare lingvistică sau a unor fenomene culturale prezentate în lucrarea originală Michel et al. Au. Sunteți de acord cu interpretarea lor în lumina limitărilor prezentate în Pechenick și colab.? Pentru a face argumentul tau mai puternic, încercați să reproducă același grafic folosind diferite versiuni de date stabilite ca mai sus.
  8. [ foarte greu . colectare de date . necesită codificare . preferatul meu ] Penney (2016) explorează dacă publicitatea pe scară largă cu privire la supravegherea / PRISM ANS (adică, dezvăluirile Snowden) în iunie 2013 asociată cu o scădere bruscă și bruscă a traficului la articole Wikipedia despre subiecte care ridică probleme de confidențialitate. Dacă este așa, această schimbare de comportament ar fi în concordanță cu un efect de răcire care rezultă din supravegherea în masă. Abordarea Penney (2016) este numit uneori întrerupt de proiectare serii de timp și este legat de abordările în capitolul despre apropierea experimentelor din datele observaționale (secțiunea 2.4.3).

    Pentru a alege cuvintele cheie subiect, Penney se face referire la lista folosită de către Departamentul de Securitate Internă al SUA pentru urmărirea și monitorizarea mass-media sociale. Lista de DHS catalogheaza anumiți termeni de căutare într-o serie de probleme, și anume "problemă de sănătate", "infrastructurii de securitate" și "terorismul." Pentru grupul de studiu, Penney a folosit patruzeci și opt de cuvinte cheie legate de "terorism" (a se vedea tabelul 8 Apendice). Apoi, el agregat Wikipedia vedere din articol contează pe o bază lunară pentru patruzeci și opt de articole Wikipedia corespunzătoare pe o perioadă de treizeci și două luni, de la începutul lunii ianuarie 2012 până la sfârșitul lunii august 2014. Pentru a întări argumentul său, el a creat, de asemenea, mai multe comparație grupuri de urmărirea prin puncte de vedere articol cu ​​privire la alte subiecte.

    Acum, aveți de gând să reproducă și să extindă Penney (2016) . Toate datele brute pe care le va avea nevoie pentru această activitate este disponibilă de la Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Sau îl puteți obține de la wikipediatrend pachetul R (Meissner and Team 2016) de (Meissner and Team 2016) . Atunci când a scrie-up răspunsurile dumneavoastră, vă rugăm să rețineți ce sursă de date utilizat. (Notă: Aceeași activitate apare, de asemenea, în capitolul 6)

    1. Citește mai Penney (2016) și să reproducă Figura 2 , care prezintă vederile de pagină pentru "terorism" pagini înainte și după Legate de revelația Snowden. Constatările interpretezi.
    2. În continuare, replica figura 4A, care compară grupul de studiu ( "Terorismul" articole), cu un Legate comparator de grup, folosind cuvinte cheie clasificate în "DHS & Alte Agenții" din lista DHS (a se vedea apendicele Tabelul 10). Constatările interpretezi.
    3. În partea b) ați comparat grupul de studiu la un grup de comparatie. Penney, de asemenea, în comparație cu alte două grupuri: un comparator "infrastructurii de securitate" articolele (apendicele Tabelul Legate 11) și mai populare pagini Wikipedia (Anexa Tabelul 12). Veni cu un grup alternativ comparator, și testa dacă rezultatele din partea B), este sensibil la alegerea dvs. de grup comparator. Care alegerea grupului comparator face cel mai mult sens? De ce?
    4. Autorul a declarat că toate cuvintele cheie referitoare la "Terorism", au fost folosite pentru a selecta articole Wikipedia deoarece guvernul american a citat terorismul ca o justificare cheie pentru practicile sale de supraveghere on-line. Ca o verificare a acestor 48 de "terorism" cuvinte cheie Legate, Penney (2016) a efectuat , de asemenea , un studiu privind MTurk solicitând respondenților să evalueze fiecare dintre cuvintele cheie în ceea ce privește probleme de guvern, privind protecția vieții private sensibile și evitare (apendicele Tabelul 7 și 8). Replice ancheta privind MTurk și compara rezultatele.
    5. Pe baza rezultatelor obținute în partea d) și lectura articolului, nu sunteți de acord cu alegerea autorului de cuvinte-cheie subiect în grupul de studiu? De ce sau de ce nu? Dacă nu, ce-ai sugera în schimb?
  9. [ uşor ] Efrati (2016) rapoarte, pe baza informațiilor confidențiale, că "partajarea totală" pe Facebook a scazut cu an , aproximativ 5,5% fata de anul in timp ce "sharing difuzat inițial" a fost scăzut cu 21% în fiecare an. Acest declin a fost deosebit de acută cu utilizatorii Facebook sub 30 de ani. Raportul a atribuit declinul a doi factori. Una dintre ele este creșterea numărului de "prieteni" au oamenii pe Facebook. Celălalt este faptul că o anumită activitate de partajare a trecut la mesaje și concurenților, cum ar fi Snapchat. Raportul a relevat, de asemenea, cele câteva tactici Facebook au încercat să stimuleze partajarea, inclusiv știri furaje trucurile algoritm care fac posturi originale mai proeminente, precum și memento-uri periodice ale utilizatorilor originale posturi "În această zi," în urmă cu câțiva ani. Ce implicatii, daca este cazul, are aceste rezultate au pentru cercetătorii care doresc să folosească Facebook ca sursă de date?

  10. [ mediu ] Tumasjan et al. (2010) a raportat că proporția de tweet - uri care menționează un partid politic se potrivea cu proporția de voturi pe care partidul a primit în alegerile parlamentare germane în 2009 (Figura 2.9). Cu alte cuvinte, se pare că ai putea folosi Twitter pentru a prezice alegerile. La momentul acestui studiu a fost publicat sa considerat extrem de interesant deoarece părea să sugereze o utilizare valoroasă pentru o sursă comună de date mari.

    Având în vedere caracteristicile proaste de date mari, cu toate acestea, ar trebui să fie imediat sceptic în privința acestui rezultat. Germanii pe Twitter în 2009 au fost un grup destul de non-reprezentative, și susținători ai unui partid s-ar putea tweet despre politica mai des. Astfel, se pare surprinzător faptul că toate posibilele prejudecăți pe care le-ar putea imagina ar anula cumva afară. De fapt, rezultatele din Tumasjan et al. (2010) s -au dovedit a fi prea bun ca să fie adevărat. In lucrarea lor, Tumasjan et al. (2010) a considerat șase partide politice: Creștin - Democrat (CDU), social - democrații creștini (CSU), SPD, liberalii (FDP), stânga (Die Linke) și Partidul Verde (Grüne). Cu toate acestea, partidul politic german cel mai menționat pe Twitter la acel moment a fost Partidul pirat (Piraten), un partid care luptă reglementarea guvernamentală a internetului. În cazul în care Partidul pirat a fost inclusă în analiză, Twitter menționează devine un predictor teribil al rezultatelor alegerilor (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Figura 2.9: Twitter menționează par pentru a prezice rezultatele alegerilor din Germania 2009 (Tumasjan et al 2010.), Dar acest rezultat se dovedește a depinde de anumite alegeri arbitrare și nejustificate (Jungherr, Jürgens și Schoen 2012).

    Figura 2.9: Twitter menționează par pentru a prezice rezultatele alegerilor din Germania 2009 (Tumasjan et al. 2010) , Dar acest rezultat se dovedește a depinde de anumite alegeri arbitrare și nejustificate (Jungherr, Jürgens, and Schoen 2012) .

    Ulterior, alți cercetători din întreaga lume au folosit metode , cum crescătorul ar fi folosind analiza sentimentului de a distinge între pozitive și negative menționează ale părților- , în scopul de a îmbunătăți capacitatea de date de Twitter pentru a prezice o varietate de diferite tipuri de alegeri (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Iată cum Huberty (2015) rezumate rezultatele acestor încercări de a prezice alegeri:

    "Toate metodele cunoscute de prognoză bazate pe social media au eșuat atunci când sunt supuse cerințelor adevărate de prognoză electorală-așteaptă cu nerăbdare. Aceste eșecuri par a fi din cauza proprietăților fundamentale ale mass-media sociale, mai degrabă decât la dificultăți metodologice sau algoritmice. Pe scurt, social media nu, și, probabil, nu va, oferi o imagine stabilă, imparțială, reprezentant al electoratului; și mostre comoditatea de mass-media sociale nu dispun de date suficiente pentru a remedia aceste probleme post hoc. "

    Citiți câteva dintre cercetările care conduc Huberty (2015) la această concluzie, și scrie un memoriu la o pagină la un candidat politic care descrie dacă și modul în care Twitter ar trebui sa fie folosite pentru a prognoza alegeri.

  11. [ mediu ] Care este diferența dintre un sociolog și istoric? Potrivit lui Goldthorpe (1991) , principala diferență între un sociolog și istoric este controlul asupra colectării de date. Istoricii sunt obligați să utilizeze relicve în timp ce sociologi se pot adapta lor de colectare a datelor în scopuri specifice. Citește mai Goldthorpe (1991) . Cum este diferența dintre sociologie și istorie legată de ideea de Custommades și readymade?

  12. [ greu ] Pornind de la întrebarea anterioară, Goldthorpe (1991) , a atras un număr de răspunsuri critice, inclusiv una de la Nicky Hart (1994) , care a contestat devotamentul Goldthorpe de a adapta datele făcute. Pentru a clarifica posibilele limitări ale datelor personalizate, Hart a descris Proiectul Worker clasei înstărite, un studiu de mare pentru a măsura relația dintre clasa socială și votarea, care a fost realizat de Goldthorpe si colegii sai de la mijlocul anilor 1960. După cum s-ar putea aștepta de la un om de știință care au preferat proiectat date peste date găsite, Proiectul Worker a colectat date care socială precară a fost adaptate pentru a aborda o teorie recent propusă cu privire la viitorul clasei sociale într-o epocă de creștere a nivelului de trai. Dar, Goldthorpe si colegii sai intr-un fel "a uitat", pentru a colecta informații despre comportamentul de vot al femeilor. Iată cum Nicky Hart (1994) rezumatele întregului episod:

    ". . . aceasta [este] greu de evitat concluzia că femeile au fost omise, deoarece acest lucru "adaptate", a fost limitată de date CCD o logică paradigmatică care a exclus experiență de sex feminin. Condus de o viziune teoretică a conștiinței de clasă și de acțiune ca preocupări de sex masculin. . . , Goldthorpe si colegii sai au construit un set de dovezi empirice care hrănite și nutrit propriile lor ipoteze teoretice în loc de a le expune la un test valid de adecvare. "

    Hart a continuat:

    "Rezultatele empirice ale Proiectului Worker ne spune mai multe posibilități materiale despre valorile masculinist ale sociologiei la mijlocul secolului decât informează procesele de stratificare, politică și viața materială."

    Vă puteți gândi la alte exemple în cazul în care colectarea de date personalizate are prejudecatile colectorului de date încorporat în ea? Cum se compara cu acest intricate algoritmice? Ce implicații ar putea avea acest lucru atunci când cercetătorii ar trebui să utilizeze readymade și când acestea ar trebui să utilizeze Custommades?

  13. [ mediu ] În acest capitol, am contrast datele colectate de către cercetători pentru cercetători cu înregistrările administrative create de companii și guverne. Unii oameni numesc aceste înregistrări administrative "descoperit că există date", care au contrast cu "date proiectate." Este adevărat că înregistrările administrative sunt găsite de către cercetători, dar ele sunt, de asemenea, foarte proiectate. De exemplu, companiile moderne tech cheltuiesc sume enorme de timp și resurse pentru a colecta și curatoriat datele lor. Astfel, aceste înregistrări administrative sunt ambele găsite și proiectate, doar depinde de perspectiva dumneavoastră (Figura 2.10).

    Figura 2.10: Imaginea este în același timp o rață și un iepure; ceea ce vezi depinde de perspectiva ta. Guvernamentale și de afaceri înregistrările administrative sunt ambele găsite și proiectate; ceea ce vezi depinde de perspectiva ta. De exemplu, înregistrările de date colectate de apel de către o companie de telefon mobil se gasesc date din perspectiva unui cercetător. Dar aceste aceleași înregistrări exacte sunt proiectate în perspectivă a datelor de cineva care lucrează în departamentul de facturare al companiei de telefonie. Sursa: Wikimedia Commons

    Figura 2.10: Imaginea este în același timp o rață și un iepure; ceea ce vezi depinde de perspectiva ta. Guvernamentale și de afaceri înregistrările administrative sunt ambele găsite și proiectate; ceea ce vezi depinde de perspectiva ta. De exemplu, înregistrările de date colectate de apel de către o companie de telefon mobil se gasesc date din perspectiva unui cercetător. Dar aceste aceleași înregistrări exacte sunt proiectate în perspectivă a datelor de cineva care lucrează în departamentul de facturare al companiei de telefonie. Sursa: Wikimedia Commons

    Furnizează un exemplu de sursă de date în cazul în care o văd atât ca și a găsit proiectat este util atunci când se utilizează acea sursă de date pentru cercetare.

  14. [ uşor ] Într - un eseu grijuliu, Christian Sandvig și Eszter Hargittai (2015) descriu două tipuri de cercetare digitale, în cazul în care sistemul digital este "instrument" sau "obiect de studiu". Un exemplu de primul tip de studiu este în cazul în care Bengtsson și colegii (2011) a folosit date de telefon mobil pentru a urmări migrația , după cutremurul din Haiti din 2010. Un exemplu al doilea tip este în cazul în care Jensen (2007) studii de modul în care introducerea de telefoane mobile , în Kerala, India , au influențat funcționarea pieței de pește. Mi se pare util, deoarece clarifică faptul că studiile care utilizează surse de date digitale pot avea destul de diferite scopuri, chiar dacă acestea utilizează același tip de sursă de date. În scopul de a clarifica în continuare această distincție, descrie patru studii pe care le-ați văzut: două care folosesc un sistem digital ca instrument și două care utilizează un sistem digital ca obiect de studiu. Aveți posibilitatea să utilizați exemple din acest capitol, dacă doriți.