Activitati

  • gradul de dificultate: ușor uşor , mediu mediu , greu greu , foarte greu foarte greu
  • necesită matematică ( necesită matematică )
  • necesită codificare ( necesită codificare )
  • colectare de date ( colectare de date )
  • preferatele mele ( preferatul meu )
  1. [ mediu . preferatul meu ] Confuzarea algoritmică a fost o problemă cu Google Flu Trends. Citiți hârtia de Lazer et al. (2014) și scrieți un e-mail scurt și clar unui inginer la Google care explică problema și oferă o idee despre cum să o remediați.

  2. [ mediu ] Bollen, Mao, and Zeng (2011) susțin că datele de pe Twitter pot fi folosite pentru a prezice piața bursieră. Această constatare a condus la crearea unui fond de hedging - Derwent Capital Markets - pentru a investi în piața bursieră pe baza datelor colectate de pe Twitter (Jordan 2010) . Ce dovezi doriți să vedeți înainte de a vă pune banii în fondul respectiv?

  3. [ uşor ] În timp ce unii avocați ai sănătății publice consideră e-țigaretele un ajutor eficient pentru renunțarea la fumat, alții avertizează cu privire la potențialele riscuri, cum ar fi nivelele ridicate de nicotină. Imaginați-vă că un cercetător decide să studieze opinia publică față de țigările electronice prin colectarea de mesaje legate de țigări electronice și efectuarea de analize de sentimente.

    1. Care sunt cele trei posibile prejudecăți despre care vă faceți cea mai mare îngrijorare în acest studiu?
    2. Clark et al. (2016) purtat un astfel de studiu. În primul rând, au colectat 850 000 de tweete care folosesc cuvinte cheie legate de e-țigări din ianuarie 2012 până în decembrie 2014. După o inspecție mai amănunțită, au realizat că multe dintre aceste tweets au fost automatizate (adică nu au fost produse de oameni) și multe dintre aceste tweet-uri automate au fost esențiale reclame. Ei au dezvoltat un algoritm de detecție umană pentru a separa tweet-urile automatizate de tweet-urile organice. Folosind acest algoritm de detectare umană au descoperit că 80% din tweets au fost automatizate. Această constatare schimbă răspunsul dvs. la partea (a)?
    3. Când au comparat sentimentul în tweet-urile organice și automate, au descoperit că tweet-urile automate au fost mai pozitive decât tweet-urile organice (6.17 versus 5.84). Această constatare schimbă răspunsul dvs. la (b)?
  4. [ uşor ] În noiembrie 2009, Twitter a schimbat întrebarea în caseta de tweet de la "Ce faci?" La "Ce se întâmplă?" (Https://blog.twitter.com/2009/whats-happening).

    1. Cum credeți că schimbarea sugestiilor va afecta cine tweet și / sau ce tweet?
    2. Denumiți un proiect de cercetare pentru care ați prefera promptul "Ce faceți?" Explicați de ce.
    3. Denumiți un proiect de cercetare pentru care ați prefera promptul "Ce se întâmplă?" Explicați de ce.
  5. [ uşor ] "Retweets" sunt adesea folosite pentru a măsura influența și răspândirea influenței pe Twitter. Inițial, utilizatorii au trebuit să copieze și să lipsească tweet-urile pe care le-au plăcut, să le eticheteze pe autorul original cu mânerul său și să introducă manual "RT" înainte de tweet pentru a indica faptul că a fost retweet. Apoi, în 2009, Twitter a adăugat un buton "retweet". În iunie 2016, Twitter a făcut posibil ca utilizatorii să returneze propriile tweet-uri (https://twitter.com/twitter/status/742749353689780224). Credeți că aceste schimbări ar trebui să afecteze modul în care utilizați "retweets" în cercetarea dvs.? De ce sau de ce nu?

  6. [ foarte greu . colectare de date . necesită codificare . preferatul meu ] Într-un articol larg discutat, Michel și colegii (2011) analizat conținutul a peste cinci milioane de cărți digitalizate, în încercarea de a identifica tendințele culturale pe termen lung. Datele pe care le-au utilizat au fost lansate acum ca set de date Google NGrams și astfel putem utiliza datele pentru a replica și extinde o parte din munca lor.

    Într-unul din numeroasele rezultate ale lucrării, Michel și colegii au susținut că uităm mai repede și mai repede. Pentru un anumit an, spuneți "1883", au calculat proporția de 1 gram publicată în fiecare an între anii 1875 și 1975 care erau "1883". Ei au argumentat că această proporție este o măsură a interesului pentru evenimentele care au avut loc în acel an. În figura 3a, au trasat traiectoriile de utilizare timp de trei ani: 1883, 1910 și 1950. Acești trei ani au un model comun: puțină utilizare înainte de acel an, apoi un spike, apoi decădere. Apoi, pentru a cuantifica rata de degradare pentru fiecare an, Michel și colegii au calculat "timpul de înjumătățire" al fiecărui an pentru toți anii între 1875 și 1975. În figura 3a (inset), ei au arătat că timpul de înjumătățire al fiecărui anul scade și au argumentat că acest lucru înseamnă că uităm trecutul mai rapid și mai rapid. Ei au folosit versiunea 1 a corpusului de limba engleză, dar ulterior Google a lansat oa doua versiune a corpusului. Citiți toate părțile întrebării înainte de a începe să codificați.

    Această activitate vă va oferi o experiență de scriere a codului reutilizabil, a interpretării rezultatelor și a disputelor de date (cum ar fi lucrul cu fișierele incomode și manipularea datelor lipsă). Această activitate vă va ajuta, de asemenea, să vă pregătiți cu un set de date bogat și interesant.

    1. Obțineți datele brute de pe site-ul web al Google Books NGram Viewer. În special, ar trebui să utilizați versiunea 2 a corpusului de limbă engleză, care a fost lansat pe 1 iulie 2012. Necomprimat, acest fișier este de 1,4 GB.

    2. Refaceți partea principală din figura 3a a lui Michel et al. (2011) . Pentru a recrea această cifră, veți avea nevoie de două fișiere: cea pe care ați descărcat-o în parte (a) și fișierul "total counts", pe care îl puteți folosi pentru a converti numerele brute în proporții. Rețineți că fișierul total de numere are o structură care poate face un pic greu de citit. Versiunea 2 a datelor NGram produce rezultate similare cu cele prezentate în Michel et al. (2011) , care se bazează pe datele din versiunea 1?

    3. Acum, verificați graficul în funcție de graficul creat de vizualizatorul NGram.

    4. Refaceți figura 3a (figura principală), dar schimbați -acestul \(y\) pentru a fi numărul brut de mențiuni (nu rata de mențiuni).

    5. Diferența dintre (b) și (d) vă determină să reevaluați oricare dintre rezultatele lui Michel și colab. (2011). De ce sau de ce nu?

    6. Acum, folosind proporția de mențiuni, replicați inserția din figura 3a. Adică, pentru fiecare an între 1875 și 1975, se calculează timpul de înjumătățire al anului respectiv. Timpul de înjumătățire este definit ca fiind numărul de ani care trec înainte ca proporția mențiunilor să atingă jumătate din valoarea maximă. Rețineți că Michel et al. (2011) fac ceva mai complicat pentru a estima timpul de înjumătățire - a se vedea secțiunea III.6 a informațiilor online de susținere - însă ei susțin că ambele abordări produc rezultate similare. Versiunea 2 a datelor NGram produce rezultate similare cu cele prezentate în Michel et al. (2011) , care se bazează pe datele din versiunea 1? (Sugestie: Nu fi surprins dacă nu.)

    7. Au existat câțiva ani care au fost valoroși, cum ar fi anii care au fost uitați foarte rapid sau foarte încet? Să speculați pe scurt motivele posibile pentru acest model și să explicați cum ați identificat aceste valori.

    8. Acum, replicați acest rezultat pentru versiunea 2 a datelor NGrams în chineză, franceză, germană, ebraică, italiană, rusă și spaniolă.

    9. Comparând toate limbile, au existat anii care au rămas valoroși, cum ar fi anii care au fost uitați foarte rapid sau foarte încet? Să speculați pe scurt despre posibilele motive ale acelui model.

  7. [ foarte greu . colectare de date . necesită codificare . preferatul meu ] Penney (2016) explorat dacă publicitatea pe scară largă despre supravegherea NSA / PRISM (adică dezvăluirile Snowden) din iunie 2013 a fost asociată cu o scădere accentuată și bruscă a traficului către articole Wikipedia pe teme care ridică probleme de confidențialitate. Dacă da, această schimbare a comportamentului ar fi în concordanță cu efectul de răcire rezultat din supravegherea în masă. Abordarea lui Penney (2016) este uneori numită o proiectare a seriilor de timp întrerupte și este legată de abordările descrise în secțiunea 2.4.3.

    Pentru a alege cuvintele cheie, Penney a făcut referire la lista utilizată de Departamentul pentru Securitate Internă al SUA pentru urmărirea și monitorizarea rețelelor sociale. Lista DHS clasifică anumiți termeni de căutare într-o serie de aspecte, cum ar fi "Concernul pentru sănătate", "Securitatea infrastructurii" și "Terorismul". Pentru grupul de studiu, Penney a utilizat cele 48 de cuvinte cheie legate de "Terorism" ). Apoi a agregat vizualizarea articolelor din articolul Wikipedia se numără lunar pentru articolele de Wikipedia corespunzătoare pentru o perioadă de 32 de luni, de la începutul lunii ianuarie 2012 până la sfârșitul lunii august 2014. Pentru a-și întări argumentul, a creat mai multe grupuri de comparație urmărind vizualizări de articole pe alte teme.

    Acum, veți replica și veți extinde Penney (2016) . Toate datele brute de care veți avea nevoie pentru această activitate sunt disponibile pe Wikipedia. Sau puteți obține din pachetul R wikipediatrend (Meissner and R Core Team 2016) . Când scrieți răspunsurile dvs., vă rugăm să rețineți ce sursă de date ați utilizat. (Rețineți că aceeași activitate apare, de asemenea, în capitolul 6.) Această activitate vă va oferi practică în ceea ce privește confuzia datelor și gândirea la experimentele naturale din surse mari de date. De asemenea, vă va pune la dispoziție o sursă de date potențial interesantă pentru proiectele viitoare.

    1. Citiți Penney (2016) și replicați figura 2 care arată paginile de vizualizare a paginilor legate de "Terorism" înainte și după descoperirile Snowden. Interpretați constatările.
    2. În continuare, replicați figura 4A, care compară grupul de studiu (articole legate de "Terorism") cu un grup de comparație care utilizează cuvintele cheie clasificate la "DHS și alte agenții" din lista DHS (vezi tabelul din anexă și nota de subsol 139). Interpretați constatările.
    3. În partea (b), ați comparat grupul de studiu cu un grup de comparator. Penney, de asemenea, a fost comparat cu alte două grupuri de comparator: articolele privind securitatea infrastructurii (tabelul din anexa 11) și paginile Wikipedia populare (tabelul din apendicele 12). Vino cu un grup de comparatori alternativi și testați dacă rezultatele din partea (b) sunt sensibile la alegerea grupului de comparație. Ce alegere are cel mai mult sens? De ce?
    4. Penney a declarat că cuvinte cheie referitoare la "terorism" au fost folosite pentru a selecta articolele Wikipedia, deoarece guvernul american a citat terorismul drept o justificare esențială pentru practicile sale de supraveghere online. Ca o verificare a acestor 48 de cuvinte cheie legate de "Terorism", Penney (2016) a efectuat, de asemenea, un sondaj asupra MTurk, solicitând respondenților să evalueze fiecare dintre cuvintele cheie ht în ceea ce privește problemele guvernamentale, confidențialitatea și evitarea (tabelele anexelor 7 și 8 ). Replicați sondajul despre MTurk și comparați rezultatele.
    5. Pe baza rezultatelor din paragraful (d) și a citirii articolului, sunteți de acord cu alegerea de către Penney a cuvintelor cheie din grupul de studiu? De ce sau de ce nu? Dacă nu, ce ați sugera în schimb?
  8. [ uşor ] Efrati (2016) raportat, pe baza informațiilor confidențiale, că "partajarea totală" pe Facebook a scăzut cu aproximativ 5,5% față de anul precedent, în timp ce "distribuția originală a emisiunilor" a scăzut cu 21% față de an. Acest declin a fost deosebit de accentuat în cazul utilizatorilor din categoria Facebook sub 30 de ani. Raportul a atribuit declinul la doi factori. Una este creșterea numărului de "prieteni" pe care oamenii le au pe Facebook. Cealaltă este faptul că o activitate de partajare sa mutat la mesagerie și la concurenți precum Snapchat. Raportul a dezvăluit, de asemenea, mai multe tactici pe care Facebook le-a încercat să le sporească, inclusiv modificările algoritmului News Feed care fac mai importante mesajele originale, precum și memento-urile periodice ale posturilor originale cu funcția "Pe această zi". Ce implicații, dacă există, au aceste constatări pentru cercetătorii care doresc să folosească Facebook ca sursă de date?

  9. [ mediu ] Care este diferența dintre un sociolog și un istoric? Potrivit lui Goldthorpe (1991) , principala diferență este controlul asupra colectării datelor. Istoricii sunt forțați să folosească relicve, în timp ce sociologii își pot adapta colectarea datelor în scopuri specifice. Citiți Goldthorpe (1991) . Cum este diferența dintre sociologie și istorie legată de ideea de personalizări și pregătiri?

  10. [ greu ] Aceasta se bazează pe întrebările anterioare. Goldthorpe (1991) făcut o serie de răspunsuri critice, printre care unul de la Nicky Hart (1994) care a contestat devotamentul Goldthorpe față de datele personalizate. Pentru a clarifica limitele potențiale ale datelor personalizate, Hart a descris proiectul Affluent Worker, un sondaj amplu de măsurare a relației dintre clasa socială și vot, care a fost realizat de Goldthorpe și colegi la mijlocul anilor '60. Așa cum s-ar putea aștepta de la un savant care a favorizat date proiectate asupra datelor găsite, Proiectul Lucrătorilor Aflați a strâns date care au fost adaptate pentru a aborda o teorie recentă propusă despre viitorul clasei sociale într-o eră de creștere a nivelului de trai. Dar, Goldthorpe și colegii săi au "uitat" cumva să colecteze informații despre comportamentul voturilor femeilor. Iată cum Nicky Hart (1994) rezumat întregul episod:

    "[...] este dificil să se evite concluzia că femeile au fost omise deoarece acest set de date" personalizat "era limitat de o logică paradigmatică care exclude experiența femeilor. Conduită de o viziune teoretică a conștiinței de clasă și a acțiunii ca preocupări masculine ..., Goldthorpe și colegii săi au construit un set de dovezi empirice care au hrănit și hrănit propriile ipoteze teoretice, în loc să le expună la un test valid de adecvare ".

    Hart a continuat:

    "Constatările empirice ale proiectului Affluent Worker ne spun mai multe despre valorile masculiniste ale sociologiei de la jumătatea secolului, decât informează despre procesele de stratificare, politică și viața materială".

    Puteți să vă gândiți la alte exemple în care colectarea datelor personalizate are în elegerea comportamentelor colectorului de date? Cum se compară acest lucru cu confuzia algoritmică? Ce implicații ar putea avea acest lucru atunci când cercetătorii ar trebui să folosească gata și când ar trebui să folosească variante personalizate?

  11. [ mediu ] În acest capitol, am contrastat datele colectate de cercetători pentru cercetători cu înregistrări administrative create de companii și guverne. Unii oameni numesc aceste înregistrări administrative "date găsite", pe care le contrazic cu "date proiectate". Este adevărat că înregistrările administrative sunt găsite de cercetători, dar sunt, de asemenea, foarte proiectate. De exemplu, companiile moderne de tehnologie lucrează foarte mult pentru a-și colecta și curata datele. Astfel, aceste înregistrări administrative sunt găsite și proiectate, depinde doar de perspectiva dvs. (figura 2.12).

    Figura 2.12: Imaginea este atât o rață, cât și un iepure; ceea ce vedeți depinde de perspectiva dvs. Sursele de date mari sunt găsite și proiectate; din nou, ceea ce vedeți depinde de perspectiva dvs. De exemplu, înregistrările de date de apel colectate de o companie de telefonie mobilă găsesc date din perspectiva unui cercetător. Dar, exact aceleași înregistrări sunt date din perspectiva persoanei care lucrează în departamentul de facturare al companiei de telefonie. Sursa: Popular Science Monthly (1899) / Wikimedia Commons.

    Figura 2.12: Imaginea este atât o rață, cât și un iepure; ceea ce vedeți depinde de perspectiva dvs. Sursele de date mari sunt găsite și proiectate; din nou, ceea ce vedeți depinde de perspectiva dvs. De exemplu, înregistrările de date de apel colectate de o companie de telefonie mobilă găsesc date din perspectiva unui cercetător. Dar, exact aceleași înregistrări sunt date din perspectiva persoanei care lucrează în departamentul de facturare al companiei de telefonie. Sursa: Popular Science Monthly (1899) / Wikimedia Commons .

    Furnizați un exemplu de sursă de date în cazul în care văd atât că a fost găsit și proiectat este util atunci când utilizați acea sursă de date pentru cercetare.

  12. [ uşor ] Într-un eseu bine gândit, Christian Sandvig și Eszter Hargittai (2015) împărțit cercetarea digitală în două categorii largi, în funcție de faptul că sistemul digital este un "instrument" sau "obiect de studiu." Un exemplu de primul tip - un instrument - este cercetarea făcută de Bengtsson și colegii săi (2011) privind utilizarea datelor de pe telefonul mobil pentru a urmări migrația după cutremurul din Haiti în 2010. Un exemplu de al doilea tip - în care sistemul este un obiect de studiu - este cercetarea de către Jensen (2007) privind modul în care introducerea telefoanelor mobile pe întreg teritoriul Kerala, India, a afectat funcționarea pieței pentru pești. Consider că această distincție este utilă deoarece clarifică faptul că studiile care utilizează surse de date digitale pot avea obiective diferite, chiar dacă utilizează același tip de sursă de date. Pentru a clarifica această distincție, descrieți patru studii pe care le-ați văzut: două care utilizează un sistem digital ca instrument și două care utilizează un sistem digital ca obiect de studiu. Puteți utiliza exemple din acest capitol dacă doriți.