Key:
[ , ] Confusión Algorithmic foi un problema con Google Flu Trends. Lea o artigo de Lazer et al. (2014) , e escribir un correo electrónico curto, claro para un enxeñeiro de Google explicando o problema e ofrecer unha idea de como resolver o problema.
[ ] Bollen, Mao, and Zeng (2011) afirma que os datos de Twitter pode ser usado para prever o mercado de accións. Este descubrimento levou á creación dun hedge fund-Derwent Capital Markets a investir no mercado de accións con base en datos recollidos a partir de Twitter (Jordan 2010) . Que probas quere ver antes de poñer o seu diñeiro nese fondo?
[ ] Aínda que algúns defensores da saúde pública granizo e-tabaco como unha axuda eficaz para deixar de fumar, outros alertan sobre os riscos potenciais, tales como os altos niveis de nicotina. Imaxina que un investigador decide estudar a opinión pública para os correos tabaco a través da recollida de artigos en Twitter relacionadas co e-tabaco e realización de análise de sentimento.
[ ] En novembro de 2009, Twitter cambiou a pregunta no cadro de tweet desde "O que está facendo?" Para "O que está pasando?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) analizou 41,7 millóns de perfís de usuario, 1,47 millóns de relacións sociais, 4262 trending topics, e 106 millóns de tweets entre 06 de xuño e 31 de xuño de 2009. Con base nesta análise, eles concluíron que Twitter serve máis como un novo medio de intercambio de información que un rede social.
[ ] "Retweets" son moitas veces utilizados para medir a influencia e propagación de influencia en Twitter. Inicialmente, os usuarios tiñan que copiar e pegar o tweet lles gustou, marque o autor orixinal co seu / súa correa e escriba a man "RT" antes do tweet para indicar que é un retweet. Entón, en 2009 Twitter engadiu un botón "retuitar". En xuño de 2016, Twitter fixo posible para os usuarios a retuitar seus propios tweets (https://twitter.com/twitter/status/742749353689780224). Pensas que estas modificacións deben afectar a forma como usa "retweets" na súa procura? Por que ou por que non?
[ , , ] Michel et al. (2011) elaborou un corpo emerxente de esforzo de Google para dixitalizar libros. Usando a primeira versión do corpus, que se publicou en 2009 e contiña máis de 5 millóns de libros dixitalizados, os autores analizaron a frecuencia do uso da palabra para investigar cambios lingüísticas e tendencias culturais. Logo o Books Corpus Google converteuse nunha fonte de datos popular para os investigadores, e unha segunda versión da base de datos foi lanzado en 2012.
Con todo, Pechenick, Danforth, and Dodds (2015) advertiu de que os investigadores teñen caracterizar completamente o proceso de mostraxe do corpus antes de usalo para deseñar conclusións xerais. A cuestión principal é que o corpus é unha biblioteca semellante, que contén un de cada libro. Como resultado, un individuo, prolífico autor é capaz de inserir visiblemente novas frases no léxico de Google Libros. Ademais, textos científicos constitúen unha parte cada vez máis substanciais do corpus ao longo dos anos 1900. Ademais, comparando dúas versións dos conxuntos de datos científica inglés, Pechenick et al. evidencia atopada que o filtrado insuficiente foi usada na produción da primeira versión. Todos os datos necesarios para a actividade está dispoñible aquí: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) explora a ampla publicidade sobre NSA vixilancia / Prism (é dicir, as revelacións Snowden) en xuño de 2013 está asociada a unha diminución acentuada e repentina no tráfico para os artigos da Wikipedia sobre temas que suscitan problemas coa privacidade. Se é así, este cambio de comportamento sería consistente con un efecto de arrefriamento no ámbito da vixilancia masiva. O enfoque da Penney (2016) é chamado ás veces un proxecto de serie temporal interrompida e está relacionado coas formulacións no capítulo sobre a aproximación experimentos a partir de datos observacionais (Sección 2.4.3).
Para seleccionar as palabras clave tema, Penney se refire á lista usada polo Departamento de Seguridade Interna dos Estados Unidos para seguimento e seguimento de medios de comunicación social. A lista DHS categoriza certos termos de busca nunha serie de cuestións, ou sexa, "problema de saúde", "Seguridade Infraestrutura" e "terrorismo". Para o grupo de estudo, Penney utilizadas as corenta e oito palabras clave relacionadas con "terrorismo" (ver Táboa 8 apéndice). El entón agregadas Wikipedia artigo contas de visualizacións nunha base mensual para os correspondentes corenta e oito artigos da Wikipedia nun período de 32 meses, a partir do inicio de xaneiro de 2012 para o final de agosto de 2014. Para reforzar o seu argumento, el tamén creou varias comparación grupos de seguimento de visualizacións sobre outros temas.
Agora, está indo para replicar e ampliar Penney (2016) . Todos os datos en bruto que vai ter para esta actividade está dispoñible a partir Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Ou pode obterse a partir do wikipediatrend paquete R (Meissner and Team 2016) . Cando escribe emerxentes súas respostas, observe que fonte de datos que usou. (Nota: Esta mesma actividade tamén aparece no capítulo 6)
[ ] Efrati (2016) informes, en base a información confidencial, que "compartir total", en Facebook había declinado por ano preto de 5,5% sobre o ano mentres que o "compartir de transmisión orixinal" caeu 21% ano sobre ano. Este descenso foi particularmente agudo cos usuarios de Facebook con menos de 30 anos de idade. O informe atribuíu a caída a dous factores. Un deles é o crecemento do número de "amigos" que as persoas teñen en Facebook. A outra é que algunha actividade compartir trasladouse mensaxes e para competidores como Snapchat. O informe tamén revela as varias tácticas Facebook intentara aumentar o reparto, incluíndo axustes de algoritmo do Fonte de noticias que fan as mensaxes orixinais máis destacado, así como recordatorios periódicos dos usuarios mensaxes orixinais "Neste día" hai varios anos. Que implicacións, en todo, que estas descubertas teñen para os investigadores que queiran utilizar o Facebook como fonte de datos?
[ ] Tumasjan et al. (2010) informaron de que proporción de tweets que citan un partido político combinaba coa proporción de votos que o partido recibiu na elección parlamentaria alemán en 2009 (Figura 2.9). Noutras palabras, parecía que podería usar Twitter para prever a elección. No momento que este estudo foi publicado foi considerado moi excitante, porque parecía suxerir un uso valioso para unha fonte común de datos grandes.
Dadas as características malas de big data, con todo, ten que ser inmediatamente escéptico en relación a este resultado. Alemáns en Twitter en 2009 foron un grupo bastante non representativa e simpatizantes dun partido pode tweet sobre política con máis frecuencia. Así, parece sorprendente que todas as posibles vieses que poida imaxinar, de algunha maneira anular. De feito, os resultados en Tumasjan et al. (2010) resultou ser bo de máis para ser verdade. No seu artigo, Tumasjan et al. (2010) considerou seis partidos políticos: democristiáns (CDU), socialdemócratas cristiáns (CSU), SPD, liberais (FDP), A Esquerda (Die Linke), e do Partido Verde (Grüne). Con todo, o partido político alemán máis citada en Twitter naquel momento era o Partido Pirata (Piraten), un partido que loita contra os regulación gobernamental de internet. Cando o Partido Pirata foi incluído na análise, Twitter menciona tórnase un preditor terrible dos resultados das eleccións (Figura 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Posteriormente, outros investigadores de todo o mundo teñen usado métodos, tales extravagantes como o uso de análise de sentimento de distinguir entre positivo e negativo menciona das partes a fin de mellorar a capacidade de datos de Twitter para prever unha variedade de diferentes tipos de eleccións (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Vexa como Huberty (2015) resumiu os resultados desas tentativas de prever eleccións:
"Todos os métodos de predición coñecidos baseados en medios sociais fallaron cando sometidos ás esixencias da verdadeira previsión electoral volta para o futuro. Estes fallos parecen ser debido ás propiedades fundamentais dos medios de comunicación social, e non a dificultades metodolóxicas ou algorítmicos. En suma, os medios sociais non, e probablemente nunca será, ofrecen unha imaxe estable, imparcial, representante do electorado; e mostras de barrio de medios sociais carecen de datos suficientes para resolver estes problemas post hoc ".
Ler algunhas das investigacións que levan Huberty (2015) a esa conclusión, e escribir un memorando de unha páxina para un candidato político que describe e como Twitter debe ser usado para prever eleccións.
[ ] Cal é a diferenza entre un sociólogo e historiador? Segundo Goldthorpe (1991) , a principal diferenza entre un sociólogo e historiador é o control sobre a obtención de datos. Os historiadores son forzados a usar reliquias mentres sociólogos pode adaptar a súa recollida de datos para fins específicos. Ler Goldthorpe (1991) . Como é a diferenza entre a socioloxía e historia relacionada coa idea de Custommades e Readymades?
[ ] Baseado na pregunta anterior, Goldthorpe (1991) atraeu un número de respostas críticas, incluíndo un de Nicky Hart (1994) que desafiou a devoción de Goldthorpe para adecuar os datos feitos. Para aclarar as posibles limitacións dos datos a medida, Hart describiu o Proxecto Traballador Affluent, unha gran investigación para medir a relación entre clase social e de votación que foi conducido por Goldthorpe e compañeiros a mediados da década de 1960. Como se podería esperar dun estudioso que favoreceu deseñado datos sobre datos atopados, o Proxecto Traballador Affluent recollidos datos que foron adaptadas para tratar dunha proposta recentemente teoría sobre o futuro da clase social nunha era de crecente nivel de vida. Pero Goldthorpe e compañeiros de algunha maneira "esqueceu" para recoller información sobre o comportamento de voto das mulleres. Vexa como Nicky Hart (1994) resume todo o episodio:
". . . ela [é] difícil evitar a conclusión de que as mulleres foron omitidos por esta 'a medida' conxunto de datos foi confinado por unha lóxica paradigmática que excluía experiencia feminina. Impulsado por unha visión teórica da conciencia de clase e acción, como preocupacións do sexo masculino. . . , Goldthorpe e os seus colegas construíron unha serie de probas empíricas que alimentada seus propios presupostos teóricos máis que expo-los a unha proba válida de adecuación ".
Hart continuou:
"Os resultados empíricos do Proxecto Traballador Affluent nos dicir máis sobre os valores machistas da socioloxía de mediados do século que informar os procesos de estratificación, política e vida material."
Podes pensar en outros exemplos en que a recollida de datos a medida ten os prexuízos do colector de datos construído para el? Como iso se compara a confusión algorítmica? Que implicacións que pode ter para cando os investigadores deben usar Readymades e cando eles deben usar Custommades?
[ ] Neste capítulo, eu contrastou datos recollidos por investigadores para investigadores con rexistros administrativos creados por empresas e gobernos. Algunhas persoas chaman eses rexistros administrativos "atopou datos", que contrastan cos "datos deseñados." É certo que os rexistros administrativos se atopan por investigadores, pero eles tamén son altamente deseñados. Por exemplo, modernas empresas de tecnoloxía gastan enormes cantidades de tempo e recursos para recoller e curador dos seus datos. Así, estes rexistros administrativos atópanse ambas e deseñado, só depende da súa perspectiva (Figura 2.10).
Proporcionar un exemplo de fonte de datos, onde velo tanto como atopar e deseñado é útil cando se utiliza esta fonte de datos para a investigación.
[ ] Nun ensaio pensativo, Christian Sandvig e Eszter Hargittai (2015) describen dous tipos de investigación dixital, no que o sistema dixital é "instrumento" ou "obxecto de estudo". Un exemplo do primeiro tipo de estudo é onde Bengtsson e compañeiros (2011) utilizaron datos de teléfonos móbiles para rastrexar migración tras o terremoto en Haití en 2010. Un exemplo do segundo tipo é onde Jensen (2007) estuda como a introdución de teléfonos móbiles en todo Kerala, India impactaram o funcionamento do mercado de peixe. Coido que útil porque aclara que os estudos que utilizan fontes de datos dixitais poden ter obxectivos moi diferentes, aínda que eles están usando o mesmo tipo de fonte de datos. Co fin de aclarar mellor esta distinción, describen catro estudos que xa viu: dous que usan un sistema dixital como un instrumento e dous que usan un sistema dixital como un obxecto de estudo. Podes usar exemplos deste capítulo, se queres.