键:
[ , ]算法混杂是与谷歌流感趋势的一个问题。通过阅读本文Lazer et al. (2014) ,并写一个简短,清晰的电子邮件,在谷歌解释这个问题,并提供了如何解决问题的想法的工程师。
[ ] Bollen, Mao, and Zeng (2011)声称,从Twitter的数据可以用来预测股市。这一发现导致了创作的对冲基金-德温特资本市场,在股市的基础上从Twitter收集到的数据进行投资(Jordan 2010)你想什么证据把你的钱在基金前看?
[ ]虽然一些公共健康倡导者冰雹电子香烟作为一种有效的辅助戒烟,别人警告潜在的风险,如尼古丁高的水平。试想一下,一个研究人员决定通过收集电子烟有关的Twitter消息和进行情感分析研究对电子香烟的舆论。
[ 在2009年11月,微博改变了问题的鸣叫箱从“你在做什么?”“什么事?”(https://blog.twitter.com/2009/whats-happening)。
[ ] Kwak et al. (2010)分析了4170万的用户配置文件,1.47十亿的社会关系,4262的热门话题,而1.06亿六月六日至六月31日期间鸣叫,2009年在此基础上分析,他们得出结论,微博提供更多的信息共享不是一种新的媒介社交网络。
[ ]“转推”常常被用来测量影响和扩散的Twitter上的影响力。最初,用户必须复制和粘贴他们喜欢的鸣叫,标签与他/她把手原作者,并手动鸣叫之前输入“RT”,以表明它是一个转推。然后,在2009年的Twitter增加了一个“转推”按钮。在2016年6月,微博使我们能够为用户转推自己的推特(https://twitter.com/twitter/status/742749353689780224)。你认为这些变化应该影响你如何在您的研究用“锐推”?为什么或者为什么不?
[ , , [ Michel et al. (2011)构建的语料库从谷歌的努力,图书数字化显现。使用语料,这是2009年出版的,含有超过500万册数字化图书的第一个版本中,作者分析了词使用频率的调查语言的变化和文化潮流。不久,谷歌图书语料库成为研究者流行的数据源,数据库的第二个版本是在2012年发布。
然而, Pechenick, Danforth, and Dodds (2015)警告说,研究人员需要用它绘制宽泛的结论之前,充分体现语料库的采样过程。的主要问题是,胼是库状,含有每本书中的一个。这样一来,一个人,多产的作家能够显着插入新的短语到谷歌图书词汇。此外,科学的文字构成主体的整个20世纪日益实质性的部分。此外,通过比较英语小说数据集,Pechenick等人的两个版本。发现的证据表明,过滤不足是在生产的第一个版本使用。所有需要的活动数据,请访问:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016)探讨了关于是否在2013年6月NSA / PRISM监视(即斯诺登启示)的广泛宣传与交通维基百科的文章急剧和突然下降上增加隐私顾虑主题有关。如果是的话,这种行为变化将与群众监督产生的寒蝉效应是一致的。的方法Penney (2016)有时被称为中断时间序列设计,并从有关观测数据(第2.4.3节)逼近实验相关办法的节。
要选择主题关键字,彭尼称,用于跟踪和监视社交媒体用于国土安全的美国农业部名单。国土安全部列表归类某些搜索字词的一系列问题,即“健康关怀”,“基础设施安全”和“恐怖主义”。对于研究组,彭尼用48关键字与“恐怖主义”(见表8附录)。然后,他对聚集在一个32个月期对应48 Wikipedia文章按月维基百科的文章观看次数,从2012年1月开始到2014年八月底要加强他的论点,他还创造了几个比较通过在其他议题跟踪文章的观点组。
现在,你要复制和扩展Penney (2016) 。所有这一切,你将需要为这项活动的原始数据可以从维基百科(https://dumps.wikimedia.org/other/pagecounts-raw/)。或者,你可以从R包wikipediatrend得到它(Meissner and Team 2016) 。当你写你的回复,请注意,您使用的数据源。 (注:此相同的活动也出现在第6章)
[ ] Efrati (2016)报道,基于保密的信息,即“完全共享”在Facebook上通过了约5.5%,较去年同期下降,而“原创播共享”的下降了超过21年全年%。这种下降是30岁以下的Facebook用户尤为严重。该报告归因下降有两个原因。一个是在“朋友”的人在Facebook数量的增长。另一种是,一些共享的活动已经转移到信息和竞争对手如SnapChat。该报告还揭示了一些战术的Facebook曾试图提振共享,包括新闻饲料的算法调整,使原来的职位后更加突出,以及原帖用户“在这一天”几年前的定期提醒。确实这些发现谁想要使用Facebook作为数据源的研究有什么影响,如果有的话?
[ ] Tumasjan et al. (2010)报道鸣叫提一个政党的这一比例相匹配,在德国议会选举中获得了2009年党的票(图2.9)的比例。换句话说,就出现了,你可以使用Twitter来预测选举。在此研究结果发表的时候它被认为是非常令人兴奋的,因为它似乎暗示大数据的常见来源的宝贵使用。
由于大数据的不良特征,但是,你应该马上怀疑这个结果。在2009年的Twitter德国人是相当不具有代表性组,一方的支持者可能会更经常地鸣叫政治。因此,似乎令人惊讶的是所有你能想象的可能出现的偏差会以某种方式抵消。事实上,结果在Tumasjan et al. (2010)原来是好得令人难以置信。在他们的论文, Tumasjan et al. (2010)认 为六条政治党派:基督教民主党(CDU),基督教社会民主党(CSU),社民党,自由党(FDP),左(左翼党)和绿党(Grüne)。然而,在Twitter上提及最多的德国政党在当时的海盗党(Piraten),即战斗政府互联网监管的一方。当海盗党被列入分析,微博中提到变成选举结果(图2.9)的一个可怕的预测(Jungherr, Jürgens, and Schoen 2012)
接着,在世界各地的其他研究人员已经使用发烧友方法,如使用情绪分析正与负之间区分提到的方式,以提高Twitter数据来预测的各种不同类型的选举的能力(Gayo-Avello 2013; Jungherr 2015, Ch. 7.) 。以下是如何Huberty (2015)总结这些尝试来预测选举结果:
“基于社交媒体的所有已知的预测方法在经受真正的前瞻性预测选举的需求,都失败了。这些失败似乎是由于社会媒体的基本性质,而不是对方法或算法的困难。总之,社会化媒体不这样做,可能永远也不会,提供一个稳定,公正,代表选民的图片;和社交媒体的便利样本缺乏足够的数据来解决这些问题事后“。
阅读一些领导研究的Huberty (2015)这一结论,并写一页纸的备忘录,描述是否以及如何Twitter的应该被用来预测选举政治候选人。
[ ]是什么社会学家和历史学家之间的区别?据Goldthorpe (1991)社会学家和历史学家之间的主要区别在于对数据采集控制 。历史学家被迫使用文物而社会学家可以根据自己的数据收集于特定的目的。阅读Goldthorpe (1991) 。社会学和历史之间的差异是如何与Custommades和现成品的想法?
[ ]在前面的问题的基础上, Goldthorpe (1991)吸引了一些关键的响应,其中包括一个来自尼基·哈特(1994)的质疑Goldthorpe的奉献量身定制的数据。为了澄清量身定做数据的潜在限制,赫德描述的富裕工作者项目,一项大型调查,测量,是由Goldthorpe和他的同事在60年代中期进行的社会阶层和投票之间的关系。正如人们可能会从谁的最惠国待遇,设计了找到的数据资料的学者预计,富裕阶层工人收集项目被定制,以解决有关社会阶层的未来最近提出的理论在生活水平日益提高的时代的数据。但是,Goldthorpe和他的同事莫名其妙地“忘记”收集关于妇女的投票行为的信息。这里的尼基怎么哈特(1994)总结了整个事件:
“。 。 。它[是]难以避免,妇女省略,因为这种“量身定制的”数据集是由女性排除经验范式的逻辑局限的结论。由阶级意识和行动男性成见的理论视野驱动。 。 。 ,Goldthorpe和他的同事们建造一组喂食和培养自己的理论假设,而不是将它们暴露于充足的有效测试的经验证明的。“
哈特继续说:
“富裕阶层工人项目的实证研究结果告诉我们更多关于本世纪中期社会学的男权值比他们通知分层,政治和物质生活的过程。”
你能想到这里量身定做的数据采集有内置的数据采集器的偏见其他的例子吗?请问这个比较算法混淆?这样做有什么影响时,研究人员应该使用现成品,当他们应该使用Custommades?
[ 在本章中,我通过对比研究人员的研究人员与企业和政府创建行政记录收集的数据。有些人把这些行政记录“中的数据,”他们与对比“设计的数据。”该管理记录是由研究人员发现,这是事实,但他们也精心设计的。例如,现代高科技公司花费大量的时间和资源来收集和策划他们的数据。因此,这些行政记录都是发现和设计的,它只是取决于你的观点(图2.10)。
在那里看到它既可作为发现和使用而设计的研究数据源时,是有帮助的提供数据源的一个例子。
[ 在一个有思想的文章,基督教桑维和Eszter Hargittai (2015)描述了两种类型的数字的研究,其中数字系统是“仪器”或“研究对象”。第一类研究的一个例子是本特松和他的同事(2011)用手机的数据在2010年海地地震后的跟踪移民第二类的一个例子是詹森(2007)研究了如何在整个喀拉拉邦手机的推出,影响印度市场对鱼的运作。我觉得这是有用的,因为它明确了使用数字化的数据源的研究可以有,即使他们使用的是同一种数据源有很大的不同目标。为了进一步澄清这个区别,描述了四项研究,你已经看到:两台使用数字系统作为一种工具和两个使用数字系统为研究对象。如果你愿意,你可以使用示例本章。