Bit By Bit - 观察行为

这种翻译是由一个计算机创建。 ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

活动

键：

难度：容易，中硬，很难
需要数学（ $需要数学$ ）
需要编码（）
数据采集（）
我最喜欢的（）

[ ， ]算法混杂是与谷歌流感趋势的一个问题。通过阅读本文Lazer et al. (2014) ，并写一个简短，清晰的电子邮件，在谷歌解释这个问题，并提供了如何解决问题的想法的工程师。
[ ] Bollen, Mao, and Zeng (2011)声称，从Twitter的数据可以用来预测股市。这一发现导致了创作的对冲基金-德温特资本市场，在股市的基础上从Twitter收集到的数据进行投资(Jordan 2010)你想什么证据把你的钱在基金前看？
[ ]虽然一些公共健康倡导者冰雹电子香烟作为一种有效的辅助戒烟，别人警告潜在的风险，如尼古丁高的水平。试想一下，一个研究人员决定通过收集电子烟有关的Twitter消息和进行情感分析研究对电子香烟的舆论。
1. 什么是你最担心的是在这项研究的三种可能的偏见？
2. Clark et al. (2016)跑了这样的研究。首先，他们收集了85万微博，通过2014年12月使用从2012年1月电子烟相关的关键词经仔细检查，他们意识到，许多这些微博被自动的（即不是由人类生产）和许多自动鸣叫基本上商业广告。他们开发了一个人体检测算法自动鸣叫有机鸣叫分开。使用这种检测人的算法，他们发现，鸣叫的80％实现了自动化。这是否发现你的答案更改为（a）部分？
3. 当他们比较了有机和自动鸣叫的情绪，他们发现，自动鸣叫比有机鸣叫（6.17与5.84）更加积极。这是否发现改变你的答案（二）？
[ 在2009年11月，微博改变了问题的鸣叫箱从“你在做什么？”“什么事？”（https://blog.twitter.com/2009/whats-happening）。
1. 您如何看待提示的变化将影响谁鸣叫和/或它们鸣叫什么？
2. 命名一项研究计划，而您宁愿提示“你在做什么？”解释原因。
3. 命名一项研究计划，而您希望提示“发生了什么事？”解释原因。
[ ] Kwak et al. (2010)分析了4170万的用户配置文件，1.47十亿的社会关系，4262的热门话题，而1.06亿六月六日至六月31日期间鸣叫，2009年在此基础上分析，他们得出结论，微博提供更多的信息共享不是一种新的媒介社交网络。
1. 鉴于郭某等人的调查结果，你会与Twitter的数据做什么样的研究？你会不会用微博数据做什么样的研究？为什么？
2. 2010年，微博加入了世卫组织按照服务让量身定做的建议给用户。三个建议是在主页上显示的时间。建议通常是由一个人的画“的朋友 - 的 - 朋友”，和交往也显示了建议。用户可以刷新看到一组新的建议或访问一个页面，建议较长的列表。你觉得这个新功能将改变你的答案部分）？为什么或者为什么不？
3. Su, Sharma, and Goel (2016)评估了世卫组织按照服务的影响，并发现同时在普及频谱用户的建议中获益，最流行的用户获利大大高于平均水平。这是否发现改变你的答案B部分）？为什么或者为什么不？
[ ]“转推”常常被用来测量影响和扩散的Twitter上的影响力。最初，用户必须复制和粘贴他们喜欢的鸣叫，标签与他/她把手原作者，并手动鸣叫之前输入“RT”，以表明它是一个转推。然后，在2009年的Twitter增加了一个“转推”按钮。在2016年6月，微博使我们能够为用户转推自己的推特（https://twitter.com/twitter/status/742749353689780224）。你认为这些变化应该影响你如何在您的研究用“锐推”？为什么或者为什么不？
[ ，， [ Michel et al. (2011)构建的语料库从谷歌的努力，图书数字化显现。使用语料，这是2009年出版的，含有超过500万册数字化图书的第一个版本中，作者分析了词使用频率的调查语言的变化和文化潮流。不久，谷歌图书语料库成为研究者流行的数据源，数据库的第二个版本是在2012年发布。

然而， Pechenick, Danforth, and Dodds (2015)警告说，研究人员需要用它绘制宽泛的结论之前，充分体现语料库的采样过程。的主要问题是，胼是库状，含有每本书中的一个。这样一来，一个人，多产的作家能够显着插入新的短语到谷歌图书词汇。此外，科学的文字构成主体的整个20世纪日益实质性的部分。此外，通过比较英语小说数据集，Pechenick等人的两个版本。发现的证据表明，过滤不足是在生产的第一个版本使用。所有需要的活动数据，请访问：http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. 在米歇尔等人最初的论文(2011) ，他们用英语数据集的版本1，绘制的岁月“1880”的使用频率，“1912”和“1973年的”，并得出结论说：“我们是忘记我们过去的每一年更快“（图3A，米歇尔等人）。复制，用1）的主体，英语数据集（同图3A，Michel等人的第1版相同的情节）。
2. 现在，复制与第1版，英文小说集同积。
3. 现在，复制与语料库，英语数据集的第二版相同的情节。
4. 最后，复制与第二版，英文小说集同积。
5. 描述这四个地块之间的异同。你与米歇尔等人的原始的观察到的趋势演绎同意吗？（提示：c）和d）应该是相同的，如图16中Pechenick等人）中。
6. 既然你已经使用不同的谷歌图书语料库复制这一发现，选择米歇尔等人的原始的论文介绍了另一个语言改变或文化现象。你跟他们解释同意在Pechenick等人提出的限制光？为了让你的论点更强，试图复制使用不同版本的数据如上设置相同的图形。
[ ，，， ] Penney (2016)探讨了关于是否在2013年6月NSA / PRISM监视（即斯诺登启示）的广泛宣传与交通维基百科的文章急剧和突然下降上增加隐私顾虑主题有关。如果是的话，这种行为变化将与群众监督产生的寒蝉效应是一致的。的方法Penney (2016)有时被称为中断时间序列设计，并从有关观测数据（第2.4.3节）逼近实验相关办法的节。

要选择主题关键字，彭尼称，用于跟踪和监视社交媒体用于国土安全的美国农业部名单。国土安全部列表归类某些搜索字词的一系列问题，即“健康关怀”，“基础设施安全”和“恐怖主义”。对于研究组，彭尼用48关键字与“恐怖主义”（见表8附录）。然后，他对聚集在一个32个月期对应48 Wikipedia文章按月维基百科的文章观看次数，从2012年1月开始到2014年八月底要加强他的论点，他还创造了几个比较通过在其他议题跟踪文章的观点组。

现在，你要复制和扩展Penney (2016) 。所有这一切，你将需要为这项活动的原始数据可以从维基百科（https://dumps.wikimedia.org/other/pagecounts-raw/）。或者，你可以从R包wikipediatrend得到它(Meissner and Team 2016) 。当你写你的回复，请注意，您使用的数据源。（注：此相同的活动也出现在第6章）
1. 读Penney (2016)和复制图2，显示为“恐怖主义”有关的网页之前和斯诺登启示后，页面浏览量。解释的结果。
2. 接下来，复制图4A，该研究组（“恐怖主义”有关的文章）用在“美国国土安全部和其他机构”，从国土安全部的列表进行分类的关键字比较组进行比较（见附录表10）。解释的结果。
3. B部分），您比较研究组，以一个比较组。彭尼也相比其他两个比较团体：“基础设施安全”相关的文章（见附表11）和维基百科的流行页（附录表12）。拿出一个替代比较组，测试，如果从B部分的调查结果）是你的选择比较组的敏感。其中选择比较小组的最有意义？为什么？
4. 作者指出，与“恐怖主义”的关键字被用来选择维基百科的文章，因为美国政府援引恐怖主义作为其在线监控的做法的一个关键理由。由于这些48“恐怖主义”相关的关键字检查， Penney (2016)也进行了MTurk一个调查，询问受访者在政府的麻烦，隐私敏感，及避免各方面的关键字率（见附表7,8）。复制上MTurk调查，并比较结果。
5. 根据D部分的结果），你的文章的阅读，你跟作者的研究组选择的主题关键字同意吗？为什么或者为什么不？如果没有，你会建议呢？
[ ] Efrati (2016)报道，基于保密的信息，即“完全共享”在Facebook上通过了约5.5％，较去年同期下降，而“原创播共享”的下降了超过21年全年％。这种下降是30岁以下的Facebook用户尤为严重。该报告归因下降有两个原因。一个是在“朋友”的人在Facebook数量的增长。另一种是，一些共享的活动已经转移到信息和竞争对手如SnapChat。该报告还揭示了一些战术的Facebook曾试图提振共享，包括新闻饲料的算法调整，使原来的职位后更加突出，以及原帖用户“在这一天”几年前的定期提醒。确实这些发现谁想要使用Facebook作为数据源的研究有什么影响，如果有的话？
[ ] Tumasjan et al. (2010)报道鸣叫提一个政党的这一比例相匹配，在德国议会选举中获得了2009年党的票（图2.9）的比例。换句话说，就出现了，你可以使用Twitter来预测选举。在此研究结果发表的时候它被认为是非常令人兴奋的，因为它似乎暗示大数据的常见来源的宝贵使用。

由于大数据的不良特征，但是，你应该马上怀疑这个结果。在2009年的Twitter德国人是相当不具有代表性组，一方的支持者可能会更经常地鸣叫政治。因此，似乎令人惊讶的是所有你能想象的可能出现的偏差会以某种方式抵消。事实上，结果在Tumasjan et al. (2010)原来是好得令人难以置信。在他们的论文， Tumasjan et al. (2010)认为六条政治党派：基督教民主党（CDU），基督教社会民主党（CSU），社民党，自由党（FDP），左（左翼党）和绿党（Grüne）。然而，在Twitter上提及最多的德国政党在当时的海盗党（Piraten），即战斗政府互联网监管的一方。当海盗党被列入分析，微博中提到变成选举结果（图2.9）的一个可怕的预测(Jungherr, Jürgens, and Schoen 2012)

图2.9：提到Twitter的出现，预测2009年德国大选的结果(Tumasjan et al. 2010)但这个结果原来依赖于某些武断和不合理的选择(Jungherr, Jürgens, and Schoen 2012)

接着，在世界各地的其他研究人员已经使用发烧友方法，如使用情绪分析正与负之间区分提到的方式，以提高Twitter数据来预测的各种不同类型的选举的能力(Gayo-Avello 2013; Jungherr 2015, Ch. 7.) 。以下是如何Huberty (2015)总结这些尝试来预测选举结果：

“基于社交媒体的所有已知的预测方法在经受真正的前瞻性预测选举的需求，都失败了。这些失败似乎是由于社会媒体的基本性质，而不是对方法或算法的困难。总之，社会化媒体不这样做，可能永远也不会，提供一个稳定，公正，代表选民的图片;和社交媒体的便利样本缺乏足够的数据来解决这些问题事后“。

阅读一些领导研究的Huberty (2015)这一结论，并写一页纸的备忘录，描述是否以及如何Twitter的应该被用来预测选举政治候选人。
[ ]是什么社会学家和历史学家之间的区别？据Goldthorpe (1991)社会学家和历史学家之间的主要区别在于对数据采集控制 。历史学家被迫使用文物而社会学家可以根据自己的数据收集于特定的目的。阅读Goldthorpe (1991) 。社会学和历史之间的差异是如何与Custommades和现成品的想法？
[ ]在前面的问题的基础上， Goldthorpe (1991)吸引了一些关键的响应，其中包括一个来自尼基·哈特(1994)的质疑Goldthorpe的奉献量身定制的数据。为了澄清量身定做数据的潜在限制，赫德描述的富裕工作者项目，一项大型调查，测量，是由Goldthorpe和他的同事在60年代中期进行的社会阶层和投票之间的关系。正如人们可能会从谁的最惠国待遇，设计了找到的数据资料的学者预计，富裕阶层工人收集项目被定制，以解决有关社会阶层的未来最近提出的理论在生活水平日益提高的时代的数据。但是，Goldthorpe和他的同事莫名其妙地“忘记”收集关于妇女的投票行为的信息。这里的尼基怎么哈特(1994)总结了整个事件：

“。。。它[是]难以避免，妇女省略，因为这种“量身定制的”数据集是由女性排除经验范式的逻辑局限的结论。由阶级意识和行动男性成见的理论视野驱动。。。，Goldthorpe和他的同事们建造一组喂食和培养自己的理论假设，而不是将它们暴露于充足的有效测试的经验证明的。“

哈特继续说：

“富裕阶层工人项目的实证研究结果告诉我们更多关于本世纪中期社会学的男权值比他们通知分层，政治和物质生活的过程。”

你能想到这里量身定做的数据采集有内置的数据采集器的偏见其他的例子吗？请问这个比较算法混淆？这样做有什么影响时，研究人员应该使用现成品，当他们应该使用Custommades？
[ 在本章中，我通过对比研究人员的研究人员与企业和政府创建行政记录收集的数据。有些人把这些行政记录“中的数据，”他们与对比“设计的数据。”该管理记录是由研究人员发现，这是事实，但他们也精心设计的。例如，现代高科技公司花费大量的时间和资源来收集和策划他们的数据。因此，这些行政记录都是发现和设计的，它只是取决于你的观点（图2.10）。

图2.10：图片既是鸭，兔;你所看到的取决于你的观点。政府和企业行政记录都被发现和设计;你所看到的取决于你的观点。例如，通过蜂窝电话公司收集到的呼叫数据记录可从研究者的角度发现数据。但是，这些相同的记录，旨在有人在电话公司的计费部门工作的数据透视图。资料来源：维基共享资源

在那里看到它既可作为发现和使用而设计的研究数据源时，是有帮助的提供数据源的一个例子。
[ 在一个有思想的文章，基督教桑维和Eszter Hargittai (2015)描述了两种类型的数字的研究，其中数字系统是“仪器”或“研究对象”。第一类研究的一个例子是本特松和他的同事(2011)用手机的数据在2010年海地地震后的跟踪移民第二类的一个例子是詹森(2007)研究了如何在整个喀拉拉邦手机的推出，影响印度市场对鱼的运作。我觉得这是有用的，因为它明确了使用数字化的数据源的研究可以有，即使他们使用的是同一种数据源有很大的不同目标。为了进一步澄清这个区别，描述了四项研究，你已经看到：两台使用数字系统作为一种工具和两个使用数字系统为研究对象。如果你愿意，你可以使用示例本章。