attività

Chiave:

  • Grado di difficoltà: facile facile , medio medio , difficile difficile , molto difficile molto difficile
  • richiede la matematica ( richiede la matematica )
  • richiede la codifica ( richiede codifica )
  • raccolta dati ( raccolta dati )
  • i miei preferiti ( il mio preferito )
  1. [ medio , il mio preferito ] Confondimento algoritmico è verificato un problema con Google Trend influenzali. Leggi l'articolo di Lazer et al. (2014) , e scrivere una breve e chiara e-mail a un ingegnere di Google che spiega il problema e offrendo un'idea di come risolvere il problema.

  2. [ medio ] Bollen, Mao, and Zeng (2011) sostiene che i dati provenienti da Twitter può essere usato per predire il mercato azionario. Questa scoperta ha portato alla creazione di un hedge fund-Derwent Capital Markets-di investire nel mercato azionario sulla base dei dati raccolti da Twitter (Jordan 2010) . Quali prove vorresti vedere prima di mettere i vostri soldi in questo fondo?

  3. [ facile ] Mentre alcuni sostenitori della salute pubblica grandine e-sigarette come un aiuto efficace per smettere di fumare, altri mettono in guardia sui potenziali rischi, come ad esempio gli alti livelli di nicotina. Immaginate che un ricercatore decide di studiare l'opinione pubblica verso la e-sigarette attraverso la raccolta di e-sigarette-Related Posts Twitter e la conduzione di sentiment analysis.

    1. Quali sono i tre possibili pregiudizi che si sono più preoccupati in questo studio?
    2. Clark et al. (2016) ha funzionato solo come uno studio. In primo luogo, hanno raccolto 850.000 tweets che hanno usato le parole chiave e-sigaretta legati dal gennaio 2012 al dicembre 2014. Dopo un esame più attento, si sono resi conto che molti di questi tweets sono stati automatizzati (ad esempio, non prodotti dagli esseri umani) e molti di questi tweet automatici erano essenzialmente spot pubblicitari. Hanno sviluppato un algoritmo di rilevamento umana per separare i tweet automatici da tweets organici. L'utilizzo di rilevare questo umano Algoritmo hanno scoperto che l'80% dei tweets sono stati automatizzati. Questo risultato cambia la vostra risposta a parte (a)?
    3. Quando hanno confrontato il sentimento di tweets organici ed automatizzati hanno trovato che i tweets automatizzati sono più positivi di tweets organiche (6,17 contro 5,84). Questo risultato cambia la risposta a (b)?
  4. [ facile ] Nel novembre 2009, Twitter ha cambiato la domanda nella casella Tweet da "Che cosa stai facendo?" A "Cosa sta succedendo?" (Https://blog.twitter.com/2009/whats-happening).

    1. Come pensi che il cambio di richieste interesserà che tweet e / o cosa twittare?
    2. Nome un progetto di ricerca per il quale si preferisce il messaggio "Cosa stai facendo?" Spiegare il perché.
    3. Nome un progetto di ricerca per il quale si preferisce la richiesta "Che cosa sta succedendo?" Spiegare il perché.
  5. [ medio ] Kwak et al. (2010) ha analizzato 41,7 milioni di profili utente, 1,47 miliardi di relazioni sociali, 4262 trend argomenti, e 106 milioni di tweets tra il 6 giugno e il 31 giugno 2009. Sulla base di questa analisi hanno concluso che Twitter serve più come un nuovo mezzo di condivisione delle informazioni di un rete sociale.

    1. Considerando la scoperta di Kwak et al, che tipo di ricerca faresti con i dati di Twitter? Che tipo di ricerca potrebbe non fare con i dati di Twitter? Perché?
    2. Nel 2010, Twitter ha aggiunto un servizio di chi seguire facendo suggerimento su misura per gli utenti. Tre raccomandazioni sono mostrati in un momento sulla pagina principale. Le raccomandazioni sono spesso attratti dai propri "amici-di-amici" e contatti reciproci vengono visualizzati anche nella raccomandazione. Gli utenti possono aggiornare a vedere una nuova serie di raccomandazioni o di visitare una pagina con un elenco di raccomandazioni più a lungo. Pensi che questa nuova funzione cambierebbe la risposta a parte a)? Perché o perché no?
    3. Su, Sharma, and Goel (2016) hanno valutato l'effetto di chi seguire il servizio e ha scoperto che, mentre gli utenti in tutto lo spettro popolarità beneficiato le raccomandazioni, gli utenti più popolari beneficiato notevolmente superiore alla media. Questo risultato cambia la vostra risposta a parte b)? Perché o perché no?
  6. [ facile ] "Retweet" sono spesso utilizzati per misurare l'influenza e la diffusione di influenza su Twitter. Inizialmente, gli utenti dovevano copiare e incollare il tweet che volevano, contrassegnare l'autore originale con la sua / il suo manico, e digitare manualmente "RT" prima del tweet per indicare che si tratta di un retweet. Poi, nel 2009, Twitter ha aggiunto un pulsante "di retweet". Nel mese di giugno 2016, Twitter ha reso possibile per gli utenti retweet i propri tweets (https://twitter.com/twitter/status/742749353689780224). Pensi che questi cambiamenti dovrebbero influenzare il modo di utilizzare "retweet" nella tua ricerca? Perché o perché no?

  7. [ medio , raccolta dati , richiede codifica ] Michel et al. (2011) costruito un corpus che emerge da sforzo di Google di digitalizzare i libri. Utilizzando la prima versione del corpus, che è stata pubblicata nel 2009 e conteneva più di 5 milioni di libri digitalizzati, gli autori hanno analizzato parola frequenza di utilizzo di indagare i cambiamenti linguistici e le tendenze culturali. Presto il Google Libri Corpus è diventato una fonte di dati popolare per i ricercatori, e un 2 ° versione del database è stato rilasciato nel 2012.

    Tuttavia, Pechenick, Danforth, and Dodds (2015) ha messo in guardia che i ricercatori devono caratterizzare completamente il processo di campionamento del corpus prima di utilizzarlo per disegnare conclusioni generali. Il problema principale è che il corpus è la biblioteca-like, che contiene una delle ogni libro. Come risultato, un individuo, autore prolifica è in grado di inserire notevolmente nuove frasi nel lessico Google Libri. Inoltre, testi scientifici costituiscono una parte sempre più sostanziale del corpus nel corso del 1900. Inoltre, dal confronto di due versioni delle serie di dati Fiction inglese, Pechenick et al. trovato prove che il filtro è stato utilizzato insufficiente a produrre la prima versione. Tutti i dati necessari per l'attività è disponibile qui: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. In Michel et al. Del documento originale (2011) , hanno usato la prima versione del set di dati inglese, tracciate la frequenza di utilizzo degli anni "1880", "1912" e "1973", e ha concluso che "siamo dimenticando il nostro passato più velocemente con ogni anno che passa "(Fig. 3A, Michel et al.). Replicare la stessa trama con 1) 1 ° versione del corpus, set di dati inglese (lo stesso Fig. 3A, Michel et al.)
    2. Ora replicare la stessa trama con il 1 ° versione, inglese narrativa set di dati.
    3. Ora replicare la stessa trama, con il 2 ° versione del corpus, inglese set di dati.
    4. Infine, replicare la stessa trama con il 2 ° versione, inglese narrativa set di dati.
    5. Descrivere le differenze e le somiglianze tra queste quattro lotti. Sei d'accordo con Michel et al. Di originale interpretazione della tendenza osservata? (Suggerimento: c) ed) deve essere uguale a figura 16 in Pechenick et al).
    6. Ora che avete replicato questo risultato utilizzando diversi Google Libri corpora, scegliere un altro cambiamento linguistico o fenomeni culturali presentati in Michel et al. Di carta originale. Sei d'accordo con la loro interpretazione alla luce delle limitazioni presentati in Pechenick et al.? Per rendere il vostro argomento più forte, prova a replicare lo stesso grafico utilizzando versioni diverse di set di dati come sopra.
  8. [ molto difficile , raccolta dati , richiede codifica , il mio preferito ] Penney (2016) esplora se la pubblicità diffusa su NSA sorveglianza / PRISM (vale a dire, le rivelazioni Snowden) nel mese di giugno 2013 è associato a una diminuzione brusca e improvvisa nel traffico di articoli di Wikipedia su argomenti che sollevano problemi di privacy. Se è così, questo cambiamento nel comportamento sarebbe coerente con un effetto raggelante derivante dalla sorveglianza di massa. L'approccio di Penney (2016) è talvolta chiamato un design interrotta serie temporale ed è correlato agli approcci nel capitolo su approssimare esperimenti dai dati osservativi (sezione 2.4.3).

    Per scegliere l'argomento parole chiave, Penney cui la lista usata da US Department of Homeland Security per il monitoraggio e il monitoraggio dei social media. La lista DHS categorizza determinati termini di ricerca in una serie di questioni, vale a dire "preoccupazione per la salute", "infrastruttura di sicurezza," e "terrorismo". Per il gruppo di studio, Penney ha usato le quarantotto parole chiave correlate a "terrorismo" (vedi Tabella 8 Appendice). Ha poi aggregati di Wikipedia vista articoli conta su base mensile per i corrispondenti quarantotto articoli di Wikipedia su un periodo di 32 mesi, a partire dall'inizio di gennaio 2012 fino alla fine del mese di agosto 2014. Per rafforzare la sua tesi, ha anche creato diversi confronto gruppi di monitoraggio delle visualizzazioni di articoli su altri argomenti.

    Ora, si sta andando a replicare ed estendere Penney (2016) . Tutti i dati grezzi che sarà necessario per questa attività è disponibile da Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Oppure si può ottenere dalla wikipediatrend pacchetto R (Meissner and Team 2016) . Quando si scrive-up tue risposte, si prega di notare che fonte di dati è stato utilizzato. (Nota: questa stessa attività appare anche nel Capitolo 6)

    1. Leggi Penney (2016) e replicare figura 2 che mostra le pagine viste per "terrorismo" pagine -related prima e dopo la rivelazione Snowden. Interpretazione dei risultati.
    2. Avanti, replicare figura 4A, che confronta il gruppo di studio ( "terrorismo" articoli -related) con un gruppo di confronto utilizzando parole chiave categorizzati in "DHS e altre agenzie" dalla lista DHS (vedi Appendice Tabella 10). Interpretazione dei risultati.
    3. Nella parte b) confrontato il gruppo di studio di un gruppo di confronto. Penney anche rispetto ad altri due gruppi di confronto: «Infrastruttura di sicurezza" articoli -related (Appendice 11) e le pagine di Wikipedia popolari (Appendice Tabella 12). Vieni con un gruppo di controllo alternativo, e verificare se i risultati di parte b) è sensibile alla scelta del gruppo di confronto. Quale scelta del gruppo di confronto più senso? Perché?
    4. L'autore ha dichiarato che le parole chiave relative al "terrorismo" sono stati usati per selezionare gli articoli di Wikipedia, perché il governo degli Stati Uniti ha citato il terrorismo come giustificazione fondamentale per le sue pratiche di sorveglianza online. Come verifica di questi 48 "terrorismo" le parole chiave -related, Penney (2016) anche condotto un sondaggio su MTurk chiedendo agli intervistati di valutare ciascuna delle parole chiave in termini di problemi di governo, riservate ed evitare (Tabella appendice 7 e 8). Replicare l'indagine sulla MTurk e confrontare i risultati.
    5. Sulla base dei risultati in parte d), e la lettura di questo articolo, è d'accordo con la scelta dell'autore di argomento parole chiave nel gruppo di studio? Perché o perché no? Se no, che cosa suggerire, invece?
  9. [ facile ] Efrati (2016) le relazioni, sulla base di informazioni riservate, che "totale condivisione" su Facebook è diminuita di circa il 5,5% anno su anno, mentre "condivisione trasmissione originale" è sceso del 21% anno su anno. Questa flessione è stata particolarmente acuta con gli utenti di Facebook di sotto dei 30 anni di età. Il rapporto ha attribuito il calo a due fattori. Uno è la crescita del numero di "amici" le persone hanno su Facebook. L'altro è che alcune attività di condivisione si è spostata di messaggistica e di concorrenti come Snapchat. Il rapporto ha anche rivelato le diverse tattiche Facebook aveva cercato di aumentare la condivisione, tra cui modifiche algoritmo News Feed che rendono i messaggi originali più prominente, così come promemoria periodici degli utenti post originali "In questo giorno" diversi anni fa. Quali implicazioni, se del caso, fa questi risultati hanno per i ricercatori che desiderano utilizzare Facebook come fonte di dati?

  10. [ medio ] Tumasjan et al. (2010) ha riferito che percentuale di tweet che citano un partito politico corrisponde la percentuale di voti che ha ricevuto partito nelle elezioni parlamentari tedeschi nel 2009 (Figura 2.9). In altre parole, è emerso che si potrebbe usare Twitter per prevedere l'elezione. Al momento questo studio è stato pubblicato si è ritenuto estremamente eccitante perché sembrava suggerire un uso prezioso per una fonte comune di dati di grandi dimensioni.

    Date le caratteristiche scadenti di dati di grandi dimensioni, tuttavia, si dovrebbe essere immediatamente scettici di questo risultato. Tedeschi su Twitter nel 2009 sono stati un bel gruppo non rappresentativo, e sostenitori di una parte possa twittare di politica più spesso. Quindi, sembra sorprendente che tutti i possibili pregiudizi che si possa immaginare sarebbe in qualche modo cancellare. Infatti, i risultati in Tumasjan et al. (2010) si è rivelata troppo bello per essere vero. Nel loro documento, Tumasjan et al. (2010) considerato sei partiti politici: democristiani (CDU), Christian socialdemocratici (CSU), SPD, liberali (FDP), la Sinistra (Die Linke), e il partito dei Verdi (Grüne). Tuttavia, il partito politico tedesco più citato su Twitter a quel tempo era il Partito Pirata (Piraten), un partito che combatte la regolamentazione del governo di Internet. Quando il Partito Pirata è stato incluso nell'analisi, Twitter menziona diventa un terribile fattore predittivo dei risultati elettorali (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    Figura 2.9: Twitter indicazioni figurino per prevedere i risultati delle elezioni tedesche del 2009 (Tumasjan et al 2010)., Ma questo risultato risulta dipendere da alcune scelte arbitrarie e ingiustificate (Jungherr, Jürgens, e Schoen 2012).

    Figura 2.9: Twitter indicazioni figurino di prevedere i risultati delle elezioni tedesco 2009 (Tumasjan et al. 2010) , Ma questo risultato risulta dipendere da alcune scelte arbitrarie e ingiustificate (Jungherr, Jürgens, and Schoen 2012) .

    Amatore metodi, ad esempio utilizzando l'analisi sentimento di distinguere tra positivo e negativo Successivamente, altri ricercatori di tutto il mondo hanno utilizzato menzioni delle parti-per migliorare la capacità dei dati di Twitter per prevedere una varietà di diversi tipi di elezioni (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Ecco come Huberty (2015) ha riassunto i risultati di questi tentativi di prevedere elezioni:

    "Tutti i metodi di previsione noti basati sui social media non sono riusciti quando sottoposto alle esigenze del vero previsione elettorale lungimirante. Questi fallimenti sembrano essere causa di proprietà fondamentali dei social media, piuttosto che a difficoltà metodologiche e algoritmici. In breve, i social media non lo fanno, e probabilmente non sarà mai, offrire un imparziale un'immagine stabile, rappresentante degli elettori; e campioni della convenienza dei social media non hanno dati sufficienti per risolvere questi problemi post hoc ".

    Leggere alcune delle ricerche che conducono Huberty (2015) a questa conclusione, e scrivere una nota di una pagina di un candidato politico che descrive se e come Twitter dovrebbe essere usato per prevedere elezioni.

  11. [ medio ] Qual è la differenza tra un sociologo e storico? Secondo Goldthorpe (1991) , la differenza principale tra un sociologo e storico è il controllo sulla raccolta dati. Gli storici sono costretti ad usare le reliquie, mentre i sociologi possono adattare la loro raccolta di dati per scopi specifici. Leggi Goldthorpe (1991) . Come è la differenza tra la sociologia e la storia legata all'idea di Custommades e Readymades?

  12. [ difficile ] Basandosi sul precedente domanda, Goldthorpe (1991) ha attirato un certo numero di risposte critiche, tra cui uno da Nicky Hart (1994) che ha sfidato la devozione di Goldthorpe di adattare dati resi. Per chiarire i potenziali limitazioni di dati su misura, Hart ha descritto il progetto Worker Affluent, una vasta indagine per misurare il rapporto tra classe sociale e il voto che è stato condotto da Goldthorpe e colleghi a metà degli anni 1960. Come ci si potrebbe aspettare da uno studioso che ha favorito progettato dati su dati trovati, il lavoratore a progetto Affluent ha raccolto dati che sono stati adattati per affrontare una teoria recentemente proposto per il futuro della classe sociale in un'epoca di crescente standard di vita. Ma, Goldthorpe e colleghi hanno in qualche modo "dimenticato" per raccogliere informazioni sul comportamento di voto delle donne. Ecco come Nicky Hart (1994) riassume l'intero episodio:

    ". . . si [è] difficile evitare la conclusione che le donne sono stati omessi perché questo 'su misura' insieme di dati è stato limitato da una logica paradigmatico che escludeva dell'esperienza femminile. Guidato da una visione teorica della coscienza di classe e di azione come preoccupazioni maschili. . . , Goldthorpe ei suoi colleghi hanno costruito una serie di prove empiriche che essa alimentata propri assunti teorici, invece di esporli a un test valido di adeguatezza ".

    Hart continuò:

    "I risultati empirici del progetto Worker Affluent dirci di più sui valori maschilisti della sociologia metà del secolo che informano i processi di stratificazione, la politica e la vita materiale".

    Si può pensare ad altri esempi in cui la raccolta dei dati su misura ha i pregiudizi del collettore di dati integrato in esso? Come si confronta per confondimento algoritmica? Quali implicazioni potrebbe avere questo per quando i ricercatori dovrebbero usare Readymades e quando dovrebbero usare Custommades?

  13. [ medio ] In questo capitolo, ho contrapposto dati raccolti dai ricercatori per ricercatori con atti amministrativi creati da aziende e governi. Alcuni lo chiamano questi documenti amministrativi "trovate dei dati", che sono in contrasto con "i dati progettati." E 'vero che i documenti amministrativi sono trovati dai ricercatori, ma sono anche altamente progettati. Ad esempio, moderni tech spendono enormi quantità di tempo e risorse per raccogliere e curare i loro dati. Così, questi registri amministrativi sono entrambi trovati e studiati, dipende solo dalla vostra prospettiva (Figura 2.10).

    Figura 2.10: L'immagine è sia un anatra e un coniglio; ciò che si vede dipende dal vostro punto di vista. Governo e le imprese registri amministrativi sono entrambi trovati e studiati; ciò che si vede dipende dal vostro punto di vista. Ad esempio, i record di dati delle chiamate raccolti da una società di telefonia cellulare si trovano i dati dal punto di vista di un ricercatore. Ma, questi stessi record esatti sono progettati prospettiva i dati di qualcuno che lavora nel reparto di fatturazione della compagnia telefonica. Fonte: Wikimedia Commons

    Figura 2.10: L'immagine è sia un anatra e un coniglio; ciò che si vede dipende dal vostro punto di vista. Governo e le imprese registri amministrativi sono entrambi trovati e studiati; ciò che si vede dipende dal vostro punto di vista. Ad esempio, i record di dati delle chiamate raccolti da una società di telefonia cellulare si trovano i dati dal punto di vista di un ricercatore. Ma, questi stessi record esatti sono progettati prospettiva i dati di qualcuno che lavora nel reparto di fatturazione della compagnia telefonica. Fonte: Wikimedia Commons

    Fornire un esempio di sorgente di dati in cui visto sia come trovato e progettato è utile quando si utilizza tale origine dati per la ricerca.

  14. [ facile ] In un saggio riflessivo, Christian Sandvig e Eszter Hargittai (2015) descrivono due tipi di ricerca digitale, dove il sistema digitale è "strumento" o "oggetto di studio". Un esempio del primo tipo di studio è dove Bengtsson e colleghi (2011) utilizzato i dati di telefonia mobile per monitorare la migrazione, dopo il terremoto di Haiti nel 2010. Un esempio del secondo tipo è dove Jensen (2007) studi come l'introduzione di telefoni cellulari in tutto il Kerala, India influenzato il funzionamento del mercato per il pesce. Trovo che questo sia utile perché chiarisce che gli studi che utilizzano fonti di dati digitali possono avere obiettivi molto diverse, anche se non stanno usando lo stesso tipo di sorgente di dati. Al fine di chiarire ulteriormente questa distinzione, descrivere quattro studi che hai visto: due che utilizzano un sistema digitale come strumento e due che utilizzano un sistema digitale come oggetto di studio. È possibile utilizzare gli esempi di questo capitolo se si desidera.