clau:
[ , ] Confusió algorítmic hi havia un problema amb Google Flu Trends. Llegir l'article de Lazer et al. (2014) , i escriure un breu correu electrònic, és clar per a un enginyer de Google que explica el problema i oferir una idea de com solucionar el problema.
[ ] Bollen, Mao, and Zeng (2011) afirma que les dades de Twitter es poden utilitzar per predir el mercat de valors. Aquesta troballa va conduir a la creació d'un fons de cobertura-Derwent Capital Markets-invertir en el mercat de valors basats en dades recollides de Twitter (Jordan 2010) . Quines proves li agradaria veure abans de posar els seus diners en aquest fons?
[ ] Mentre que alguns defensors de la salut pública provenen dels cigarrets electrònics com una ajuda eficaç per deixar de fumar, altres adverteixen sobre els riscos potencials, com els alts nivells de nicotina. Imagini que un investigador decideix estudiar l'opinió pública cap als cigarrets electrònics mitjançant la recopilació de missatges de Twitter relacionats amb els cigarrets electrònics i la realització d'anàlisi dels sentiments.
[ ] Al novembre de 2009, Twitter ha canviat la pregunta al quadre de tweet de "Què fas?" A "Què està passant?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) van analitzar els 41,7 milions d'perfils d'usuari, 1,47 milions de relacions socials, temes de moda 4262, i 106 milions de tweets entre el 6 juny i el 31 de juny de 2009. Sobre la base d'aquesta anàlisi, van concloure que Twitter serveix més com un nou mitjà d'intercanvi d'informació que una xarxa social.
[ ] "Retweets" sovint s'utilitzen per mesurar la influència i l'extensió de la influència a Twitter. Inicialment, els usuaris havien de copiar i enganxar el tweet que els agradava, etiquetar l'autor original amb el seu / la seva mànec, i entreu manualment "RT" abans que el tweet per indicar que és un retweet. Després, en 2009 Twitter ha afegit un botó de "Retweet". Al juny de 2016, Twitter va fer possible que els usuaris retweet seus tweets propis (https://twitter.com/twitter/status/742749353689780224). Creu que aquests canvis han d'afectar a com s'utilitza "retweets" en la seva investigació? Per què o per què no?
[ , , ] Michel et al. (2011) van construir un corpus que emergeix dels esforços de Google per digitalitzar llibres. L'ús de la primera versió del corpus, que va ser publicat el 2009 i contenia més de 5 milions de llibres digitalitzats, els autors van analitzar la paraula freqüència d'ús per investigar els canvis lingüístics i tendències culturals. Aviat el Google Books Corpus va esdevenir una font de dades molt popular per als investigadors, i una versió 2 de la base de dades va ser llançat en 2012.
No obstant això, Pechenick, Danforth, and Dodds (2015) va advertir que els investigadors necessiten per caracteritzar completament el procés de presa de mostres del corpus abans d'usar-la per treure conclusions generals. El principal problema és que el corpus és-biblioteca com, que conté un de cada llibre. Com a resultat, un individu, prolífic autor és capaç d'inserir notablement noves frases en el lèxic de Google Books. D'altra banda, els textos científics constitueixen una part cada vegada més substantiva del corpus llarg dels anys 1900. A més, mitjançant la comparació de dues versions dels conjunts de dades de ficció en anglès, Pechenick et al. evidència trobada que el filtrat insuficient s'utilitza en la producció de la primera versió. Totes les dades necessàries per a l'activitat està disponible aquí: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) explora si la gran publicitat sobre la NSA vigilància / PRISM (és a dir, les revelacions de Snowden) al juny de 2013 s'associa amb una disminució forta i sobtat en el trànsit als articles de Viquipèdia sobre temes que plantegen preocupacions sobre la privacitat. Si és així, aquest canvi de comportament seria consistent amb un efecte paralitzant resultats de la vigilància de masses. L'enfocament de Penney (2016) de vegades es diu un disseny de sèries de temps interromput i es relaciona amb els enfocaments en el capítol sobre l'aproximació dels experiments de les dades d'observació (Secció 2.4.3).
Per triar les paraules clau del tema, Penney es va referir a la llista utilitzada pel Departament de Seguretat Nacional dels Estats Units per al seguiment i monitoratge dels mitjans socials. La llista DHS categoritza certs termes de cerca en una sèrie de qüestions, és a dir, "problema de salut", "seguretat de la infraestructura", i "terrorisme". Per al grup d'estudi, Penney va utilitzar les quaranta-vuit paraules clau relacionades amb "terrorisme" (vegeu la Taula 8 Apèndix). A continuació, afegeix Wikipedia Veure article recomptes sobre una base mensual per als corresponents quaranta-vuit articles de Wikipedia més d'un període de trenta de dos mesos, des de l'inici de gener de 2012 fins a finals d'agost de 2014. Per reforçar el seu argument, també va crear la comparació de diversos grups mitjançant el seguiment de punts de vista d'articles sobre altres temes.
Ara, se'n va a replicar i ampliar Penney (2016) . Totes les dades en brut que es necessita per a aquesta activitat està disponible de Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). O es pot obtenir de la wikipediatrend paquet de R (Meissner and Team 2016) . Quan s'escriu en marxa les seves respostes, tingui en compte quina font de dades que va utilitzar. (Nota: Aquesta mateixa activitat també apareix en el capítol 6)
[ ] Efrati (2016) informes, basats en la informació confidencial, que "total compartir" a Facebook havia disminuït en un any al voltant de 5,5% respecte a l'any mentre que "l'intercanvi d'emissió original" es va reduir un 21% respecte a l'any anterior. Aquesta disminució va ser particularment aguda entre els usuaris de Facebook menors de 30 anys d'edat. L'informe va atribuir el descens a dos factors. Un d'ells és el creixement en el nombre de "amics" que té la gent a Facebook. L'altra és que alguna activitat de compartir s'ha desplaçat a la missatgeria i per competidors com snapchat. L'informe també revela les diverses tàctiques Facebook havia tractat d'impulsar l'intercanvi, incloent ajustos d'algorisme de notícies externes que fan que els missatges originals més prominent, així com recordatoris periòdics dels usuaris missatges originals "En aquest dia" fa diversos anys. Quines implicacions, si és necessària, aquests resultats tenen per als investigadors que desitgen utilitzar Facebook com a font de dades?
[ ] Tumasjan et al. (2010) van reportar que la proporció dels tweets que citen un partit polític coincidia amb la proporció de vots que va rebre en el partit de l'elecció del Parlament alemany el 2009 (Figura 2.9). En altres paraules, semblava que es podia utilitzar Twitter per predir l'elecció. En el moment d'aquest estudi va ser publicat, es va considerar molt emocionant, ja que semblava suggerir un ús valuós d'una font comuna de dades grans.
Donades les males característiques de grans volums de dades, però, ha de ser immediatament escèptic d'aquest resultat. Alemanys a Twitter en 2009 van ser un grup bastant no representativa, i els partidaris d'una de les parts podrien tweet sobre la política amb més freqüència. Per tant, sembla sorprenent que tots els possibles biaixos que es puguin imaginar alguna manera anular. De fet, els resultats en Tumasjan et al. (2010) va resultar ser massa bo per ser veritat. En el seu article, Tumasjan et al. (2010) van considerar sis partits polítics: democristians (CDU), Christian socialdemòcrates (CSU), SPD, els liberals (FDP), L'Esquerra (Die Linke), i el Partit Verd (Grüne). No obstant això, el més esmentat partit polític alemany a Twitter en aquest moment era el Partit Pirata (Piraten), un partit que lluita contra la regulació governamental de la Internet. Quan el Partit Pirata es va incloure en l'anàlisi, mencions a Twitter converteixi en una terrible predictor de resultats de les eleccions (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Mètodes tals elegants Posteriorment, altres investigadors de tot el món han utilitzat com l'ús d'anàlisi dels sentiments de distingir entre positiu i negatiu mencions dels partits per tal de millorar la capacitat de dades de Twitter per predir una varietat de diferents tipus d'eleccions (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Així és com Huberty (2015) va resumir els resultats d'aquests intents de predir les eleccions:
"Tots els mètodes de pronòstic coneguts a força de mitjans de comunicació social han fracassat quan se sotmet a les exigències de la veritable predicció electoral a futur. Aquests fracassos semblen ser causa de les propietats fonamentals dels mitjans de comunicació social, en lloc de a les dificultats metodològiques o algorítmics. En resum, les xarxes socials no ho fan, i probablement mai, oferir una imatge estable, sense prejudicis, representant dels electors; i les mostres de la conveniència dels mitjans de comunicació social no tenen dades suficients per solucionar aquests problemes post hoc ".
Llegiu algunes de les investigacions que porten Huberty (2015) a aquesta conclusió, i escriure una nota d'una pàgina a un candidat polític que descriu si i com Twitter s'ha d'utilitzar per pronosticar les eleccions.
[ ] Quina és la diferència entre un sociòleg i historiador? D'acord amb Goldthorpe (1991) , la principal diferència entre un sociòleg i historiador és el control sobre la recol·lecció de dades. Els historiadors es veuen obligats a utilitzar relíquies del temps que els sociòlegs poden personalitzar el seu recull de dades per a fins específics. Llegir Goldthorpe (1991) . Com és la diferència entre la sociologia i la història relacionada amb la idea de Custommades i readymades?
[ ] A partir de la pregunta anterior, Goldthorpe (1991) va dibuixar un seguit de respostes crítiques, incloent un Nicky Hart (1994) que va desafiar la devoció de Goldthorpe per adaptar les dades fetes. Per aclarir les limitacions potencials de les dades a mida, Hart va descriure el Projecte de Treballadors afluent, una gran enquesta per mesurar la relació entre la classe social i de votació que es va dur a terme per Goldthorpe i els seus col·legues a mitjans dels anys 1960. Com era d'esperar d'un erudit que va estar a favor de dades a través de les dades que es troben dissenyat, el Projecte de Treballadors afluent recull dades que van ser dissenyats per tractar una teoria proposada recentment pel futur de la classe social en una època d'augment dels nivells de vida. Però, Goldthorpe i els seus col·legues d'alguna manera "van oblidar" per recollir informació sobre el comportament del vot de les dones. Així és com Nicky Hart (1994) resumeix tot l'episodi:
". . . que [és] difícil evitar la conclusió que es van ometre les dones a causa d'aquest "fet a mida" conjunt de dades va ser confinat per una lògica paradigmàtica que excloïa l'experiència femenina. Impulsat per una visió teòrica de la consciència de classe i l'acció com preocupacions masculines. . . , Goldthorpe i els seus col·legues van construir un conjunt de proves empíriques que alimenten i nodreixen els seus propis supòsits teòrics en lloc d'exposar-los a una prova vàlida d'adequació ".
Hart va continuar:
"Els resultats empírics del Projecte de Treballadors afluent ens diuen més sobre els valors masclistes de la sociologia de mitjan segle del que informen els processos d'estratificació, la política i la vida material."
Pot pensar en altres exemples en què la recopilació de dades a mida, té els biaixos del col·lector de dades construït en ell? Com es compara això amb la confusió algorítmic? Quines implicacions podria tenir això per quan els investigadors han d'utilitzar readymades i quan han d'utilitzar Custommades?
[ ] En aquest capítol, contrast dades recollides pels investigadors per a investigadors amb els registres administratius creats per les empreses i els governs. Algunes persones diuen a aquests registres administratius "van trobar dades", que contrasten amb les "dades de disseny." És cert que els registres administratius són trobats pels investigadors, però també són altament dissenyats. Per exemple, les empreses de tecnologia modernes gasten enormes quantitats de temps i recursos per recollir i conservar les seves dades. Per tant, aquests registres administratius i tots dos es troben dissenyats, només depèn de la seva perspectiva (Figura 2.10).
Proporcionar un exemple de font de dades, on veient-tant com es troba dissenyat i és útil en utilitzar aquesta font de dades per a la investigació.
[ ] En un assaig reflexiu, Christian Sandvig i Eszter Hargittai (2015) descriuen dos tipus d'investigació digital, on el sistema digital és "instrument" o "objecte d'estudi". Un exemple del primer tipus d'estudi és on Bengtsson i els seus col·legues (2011) van utilitzar dades de telèfons mòbils per fer un seguiment de la migració després del terratrèmol a Haití el 2010. Un exemple del segon tipus és on Jensen (2007) estudia com la introducció dels telèfons mòbils a través de Kerala, Índia impactat el funcionament del mercat de peix. Em sembla útil, ja que aclareix que els estudis que utilitzen fonts de dades digitals poden tenir diferents objectius, fins i tot si estan usant el mateix tipus de font de dades. Per tal d'aclarir encara més aquesta distinció, descriuen quatre estudis que has vist: dos que utilitzen un sistema digital com a instrument i dos que utilitzen un sistema digital com un objecte d'estudi. Feu servir exemples d'aquest capítol si ho desitja.