Chiave:
[ , ] Confondimento algoritmico è verificato un problema con Google Trend influenzali. Leggi l'articolo di Lazer et al. (2014) , e scrivere una breve e chiara e-mail a un ingegnere di Google che spiega il problema e offrendo un'idea di come risolvere il problema.
[ ] Bollen, Mao, and Zeng (2011) sostiene che i dati provenienti da Twitter può essere usato per predire il mercato azionario. Questa scoperta ha portato alla creazione di un hedge fund-Derwent Capital Markets-di investire nel mercato azionario sulla base dei dati raccolti da Twitter (Jordan 2010) . Quali prove vorresti vedere prima di mettere i vostri soldi in questo fondo?
[ ] Mentre alcuni sostenitori della salute pubblica grandine e-sigarette come un aiuto efficace per smettere di fumare, altri mettono in guardia sui potenziali rischi, come ad esempio gli alti livelli di nicotina. Immaginate che un ricercatore decide di studiare l'opinione pubblica verso la e-sigarette attraverso la raccolta di e-sigarette-Related Posts Twitter e la conduzione di sentiment analysis.
[ ] Nel novembre 2009, Twitter ha cambiato la domanda nella casella Tweet da "Che cosa stai facendo?" A "Cosa sta succedendo?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) ha analizzato 41,7 milioni di profili utente, 1,47 miliardi di relazioni sociali, 4262 trend argomenti, e 106 milioni di tweets tra il 6 giugno e il 31 giugno 2009. Sulla base di questa analisi hanno concluso che Twitter serve più come un nuovo mezzo di condivisione delle informazioni di un rete sociale.
[ ] "Retweet" sono spesso utilizzati per misurare l'influenza e la diffusione di influenza su Twitter. Inizialmente, gli utenti dovevano copiare e incollare il tweet che volevano, contrassegnare l'autore originale con la sua / il suo manico, e digitare manualmente "RT" prima del tweet per indicare che si tratta di un retweet. Poi, nel 2009, Twitter ha aggiunto un pulsante "di retweet". Nel mese di giugno 2016, Twitter ha reso possibile per gli utenti retweet i propri tweets (https://twitter.com/twitter/status/742749353689780224). Pensi che questi cambiamenti dovrebbero influenzare il modo di utilizzare "retweet" nella tua ricerca? Perché o perché no?
[ , , ] Michel et al. (2011) costruito un corpus che emerge da sforzo di Google di digitalizzare i libri. Utilizzando la prima versione del corpus, che è stata pubblicata nel 2009 e conteneva più di 5 milioni di libri digitalizzati, gli autori hanno analizzato parola frequenza di utilizzo di indagare i cambiamenti linguistici e le tendenze culturali. Presto il Google Libri Corpus è diventato una fonte di dati popolare per i ricercatori, e un 2 ° versione del database è stato rilasciato nel 2012.
Tuttavia, Pechenick, Danforth, and Dodds (2015) ha messo in guardia che i ricercatori devono caratterizzare completamente il processo di campionamento del corpus prima di utilizzarlo per disegnare conclusioni generali. Il problema principale è che il corpus è la biblioteca-like, che contiene una delle ogni libro. Come risultato, un individuo, autore prolifica è in grado di inserire notevolmente nuove frasi nel lessico Google Libri. Inoltre, testi scientifici costituiscono una parte sempre più sostanziale del corpus nel corso del 1900. Inoltre, dal confronto di due versioni delle serie di dati Fiction inglese, Pechenick et al. trovato prove che il filtro è stato utilizzato insufficiente a produrre la prima versione. Tutti i dati necessari per l'attività è disponibile qui: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) esplora se la pubblicità diffusa su NSA sorveglianza / PRISM (vale a dire, le rivelazioni Snowden) nel mese di giugno 2013 è associato a una diminuzione brusca e improvvisa nel traffico di articoli di Wikipedia su argomenti che sollevano problemi di privacy. Se è così, questo cambiamento nel comportamento sarebbe coerente con un effetto raggelante derivante dalla sorveglianza di massa. L'approccio di Penney (2016) è talvolta chiamato un design interrotta serie temporale ed è correlato agli approcci nel capitolo su approssimare esperimenti dai dati osservativi (sezione 2.4.3).
Per scegliere l'argomento parole chiave, Penney cui la lista usata da US Department of Homeland Security per il monitoraggio e il monitoraggio dei social media. La lista DHS categorizza determinati termini di ricerca in una serie di questioni, vale a dire "preoccupazione per la salute", "infrastruttura di sicurezza," e "terrorismo". Per il gruppo di studio, Penney ha usato le quarantotto parole chiave correlate a "terrorismo" (vedi Tabella 8 Appendice). Ha poi aggregati di Wikipedia vista articoli conta su base mensile per i corrispondenti quarantotto articoli di Wikipedia su un periodo di 32 mesi, a partire dall'inizio di gennaio 2012 fino alla fine del mese di agosto 2014. Per rafforzare la sua tesi, ha anche creato diversi confronto gruppi di monitoraggio delle visualizzazioni di articoli su altri argomenti.
Ora, si sta andando a replicare ed estendere Penney (2016) . Tutti i dati grezzi che sarà necessario per questa attività è disponibile da Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Oppure si può ottenere dalla wikipediatrend pacchetto R (Meissner and Team 2016) . Quando si scrive-up tue risposte, si prega di notare che fonte di dati è stato utilizzato. (Nota: questa stessa attività appare anche nel Capitolo 6)
[ ] Efrati (2016) le relazioni, sulla base di informazioni riservate, che "totale condivisione" su Facebook è diminuita di circa il 5,5% anno su anno, mentre "condivisione trasmissione originale" è sceso del 21% anno su anno. Questa flessione è stata particolarmente acuta con gli utenti di Facebook di sotto dei 30 anni di età. Il rapporto ha attribuito il calo a due fattori. Uno è la crescita del numero di "amici" le persone hanno su Facebook. L'altro è che alcune attività di condivisione si è spostata di messaggistica e di concorrenti come Snapchat. Il rapporto ha anche rivelato le diverse tattiche Facebook aveva cercato di aumentare la condivisione, tra cui modifiche algoritmo News Feed che rendono i messaggi originali più prominente, così come promemoria periodici degli utenti post originali "In questo giorno" diversi anni fa. Quali implicazioni, se del caso, fa questi risultati hanno per i ricercatori che desiderano utilizzare Facebook come fonte di dati?
[ ] Tumasjan et al. (2010) ha riferito che percentuale di tweet che citano un partito politico corrisponde la percentuale di voti che ha ricevuto partito nelle elezioni parlamentari tedeschi nel 2009 (Figura 2.9). In altre parole, è emerso che si potrebbe usare Twitter per prevedere l'elezione. Al momento questo studio è stato pubblicato si è ritenuto estremamente eccitante perché sembrava suggerire un uso prezioso per una fonte comune di dati di grandi dimensioni.
Date le caratteristiche scadenti di dati di grandi dimensioni, tuttavia, si dovrebbe essere immediatamente scettici di questo risultato. Tedeschi su Twitter nel 2009 sono stati un bel gruppo non rappresentativo, e sostenitori di una parte possa twittare di politica più spesso. Quindi, sembra sorprendente che tutti i possibili pregiudizi che si possa immaginare sarebbe in qualche modo cancellare. Infatti, i risultati in Tumasjan et al. (2010) si è rivelata troppo bello per essere vero. Nel loro documento, Tumasjan et al. (2010) considerato sei partiti politici: democristiani (CDU), Christian socialdemocratici (CSU), SPD, liberali (FDP), la Sinistra (Die Linke), e il partito dei Verdi (Grüne). Tuttavia, il partito politico tedesco più citato su Twitter a quel tempo era il Partito Pirata (Piraten), un partito che combatte la regolamentazione del governo di Internet. Quando il Partito Pirata è stato incluso nell'analisi, Twitter menziona diventa un terribile fattore predittivo dei risultati elettorali (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Amatore metodi, ad esempio utilizzando l'analisi sentimento di distinguere tra positivo e negativo Successivamente, altri ricercatori di tutto il mondo hanno utilizzato menzioni delle parti-per migliorare la capacità dei dati di Twitter per prevedere una varietà di diversi tipi di elezioni (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Ecco come Huberty (2015) ha riassunto i risultati di questi tentativi di prevedere elezioni:
"Tutti i metodi di previsione noti basati sui social media non sono riusciti quando sottoposto alle esigenze del vero previsione elettorale lungimirante. Questi fallimenti sembrano essere causa di proprietà fondamentali dei social media, piuttosto che a difficoltà metodologiche e algoritmici. In breve, i social media non lo fanno, e probabilmente non sarà mai, offrire un imparziale un'immagine stabile, rappresentante degli elettori; e campioni della convenienza dei social media non hanno dati sufficienti per risolvere questi problemi post hoc ".
Leggere alcune delle ricerche che conducono Huberty (2015) a questa conclusione, e scrivere una nota di una pagina di un candidato politico che descrive se e come Twitter dovrebbe essere usato per prevedere elezioni.
[ ] Qual è la differenza tra un sociologo e storico? Secondo Goldthorpe (1991) , la differenza principale tra un sociologo e storico è il controllo sulla raccolta dati. Gli storici sono costretti ad usare le reliquie, mentre i sociologi possono adattare la loro raccolta di dati per scopi specifici. Leggi Goldthorpe (1991) . Come è la differenza tra la sociologia e la storia legata all'idea di Custommades e Readymades?
[ ] Basandosi sul precedente domanda, Goldthorpe (1991) ha attirato un certo numero di risposte critiche, tra cui uno da Nicky Hart (1994) che ha sfidato la devozione di Goldthorpe di adattare dati resi. Per chiarire i potenziali limitazioni di dati su misura, Hart ha descritto il progetto Worker Affluent, una vasta indagine per misurare il rapporto tra classe sociale e il voto che è stato condotto da Goldthorpe e colleghi a metà degli anni 1960. Come ci si potrebbe aspettare da uno studioso che ha favorito progettato dati su dati trovati, il lavoratore a progetto Affluent ha raccolto dati che sono stati adattati per affrontare una teoria recentemente proposto per il futuro della classe sociale in un'epoca di crescente standard di vita. Ma, Goldthorpe e colleghi hanno in qualche modo "dimenticato" per raccogliere informazioni sul comportamento di voto delle donne. Ecco come Nicky Hart (1994) riassume l'intero episodio:
". . . si [è] difficile evitare la conclusione che le donne sono stati omessi perché questo 'su misura' insieme di dati è stato limitato da una logica paradigmatico che escludeva dell'esperienza femminile. Guidato da una visione teorica della coscienza di classe e di azione come preoccupazioni maschili. . . , Goldthorpe ei suoi colleghi hanno costruito una serie di prove empiriche che essa alimentata propri assunti teorici, invece di esporli a un test valido di adeguatezza ".
Hart continuò:
"I risultati empirici del progetto Worker Affluent dirci di più sui valori maschilisti della sociologia metà del secolo che informano i processi di stratificazione, la politica e la vita materiale".
Si può pensare ad altri esempi in cui la raccolta dei dati su misura ha i pregiudizi del collettore di dati integrato in esso? Come si confronta per confondimento algoritmica? Quali implicazioni potrebbe avere questo per quando i ricercatori dovrebbero usare Readymades e quando dovrebbero usare Custommades?
[ ] In questo capitolo, ho contrapposto dati raccolti dai ricercatori per ricercatori con atti amministrativi creati da aziende e governi. Alcuni lo chiamano questi documenti amministrativi "trovate dei dati", che sono in contrasto con "i dati progettati." E 'vero che i documenti amministrativi sono trovati dai ricercatori, ma sono anche altamente progettati. Ad esempio, moderni tech spendono enormi quantità di tempo e risorse per raccogliere e curare i loro dati. Così, questi registri amministrativi sono entrambi trovati e studiati, dipende solo dalla vostra prospettiva (Figura 2.10).
Fornire un esempio di sorgente di dati in cui visto sia come trovato e progettato è utile quando si utilizza tale origine dati per la ricerca.
[ ] In un saggio riflessivo, Christian Sandvig e Eszter Hargittai (2015) descrivono due tipi di ricerca digitale, dove il sistema digitale è "strumento" o "oggetto di studio". Un esempio del primo tipo di studio è dove Bengtsson e colleghi (2011) utilizzato i dati di telefonia mobile per monitorare la migrazione, dopo il terremoto di Haiti nel 2010. Un esempio del secondo tipo è dove Jensen (2007) studi come l'introduzione di telefoni cellulari in tutto il Kerala, India influenzato il funzionamento del mercato per il pesce. Trovo che questo sia utile perché chiarisce che gli studi che utilizzano fonti di dati digitali possono avere obiettivi molto diverse, anche se non stanno usando lo stesso tipo di sorgente di dati. Al fine di chiarire ulteriormente questa distinzione, descrivere quattro studi che hai visto: due che utilizzano un sistema digitale come strumento e due che utilizzano un sistema digitale come oggetto di studio. È possibile utilizzare gli esempi di questo capitolo se si desidera.