研究人员刮掉中国社交媒体网站来研究审查。他们处理与潜特质推论不完备。
除了 前面两个例子中使用的大数据,研究人员还可以自行收集的观测数据,正如奇妙加里王,潘珍妮弗和罗伯特莫莉'所示(2013)的审查研究了中国政府。
在中国的社会化媒体的帖子是由被认为是包括数万人的庞大国家机器审查。研究人员和市民,然而,有这些审查如何决定哪些内容应该从社交媒体中删除意义不大。中国学者居然有冲突的期望哪些类型的职位最有可能被删除。有些人认为,审查重点是国家的关键,而其他人则认为,他们专注于鼓励集体行为的帖子,例如抗议的帖子。搞清楚这些期望这是正确的有研究人员是如何理解中国,从事审查其他独裁政府的影响。因此,王和他的同事想比较陆续出版后又被删除了该发表永不删帖的帖子。
收集这些职位涉及爬行超过1000名中国社交媒体网站,每一个不同的页面布局,查找相关的帖子,然后重新审视这些帖子,看看哪些随后删除了惊人的工程壮举。除了与大型网页检索相关的正常工程问题,这个项目有它需要的是非常快的,因为许多审查职位取下来,在不到24小时内更大的挑战。换句话说,一个缓慢的爬行会想念很多被审查的职位。此外,爬虫不得不做这一切的数据采集,同时逃避检测免得社交媒体网站阻止访问或以其他方式响应学习改变自己的政策。
一旦这个庞大的工程任务完成后,国王和同事们讨论那些预先指定的基于灵敏度他们的预期水平85个不同主题获得1100万的职位。例如,高灵敏度的话题是艾未未,持不同政见的艺术家;中间敏感性的话题是升值以及中国货币贬值和低灵敏度的话题是世界杯。这11个百万的发帖约200万已被审查,但对高度敏感的话题职位审查仅略往往比对中,低敏感性的话题帖子。换句话说,中国的审查即将作为可能的审查提到艾未未作为提到世界杯后一个职位。这些发现不匹配的简单想法,即政府审查的敏感话题的所有帖子。
这个简单的主题送检率计算可能会产生误导,但是。例如,政府可能会审查那些支持艾未未的,但离开这个是他的关键岗位的职位。为了更仔细的职位之间进行区分,研究人员需要测量每个帖子的情绪 。因此,要想想一个办法是,每个岗位每个岗位的一个重要潜在功能的感悟。不幸的是,尽管有许多工作,使用预先存在的字典情绪检测全自动化的方法仍然没有在许多情况下非常好(回想2001年创造9月11日,从第2.3.2.6情绪时间表的问题)。因此,王和他的同事需要一种方式来标记他们的1100万社交媒体文章他们是否是1)国家的至关重要的,2)支持的状态,或3)关于事件无关的或实际的报告。这听起来像一个巨大的工作,但他们解决它使用的是厉害的一招;一个是数据的科学常见,但目前在社会科学中比较少见。
首先,在步骤通常 称为预处理 ,研究人员转换的社交媒体文章到文档长期矩阵 ,那里是每个文档一行,并且记录后是否包含特定单词的一列(例如,抗议,交通,等等)。接下来,一组研究助理的手标记后的样品的情绪。然后,国王和他的同事利用这一手标记的数据来估计机器学习模型,可以推断基于其特性后的感悟。最后,他们用这台机器学习模型来估计所有11个百万的发帖的情绪。因此,而不是手动读取和标签1100万个职位(这将是后勤不可能的),他们手动标记少数职位,然后用什么样的数据科学家称之为监督学习来估计所有的职位类别。完成这个分析后,国王和他的同事们能够得出这样的结论,多少有些出人意料的是,一个职位的几率被删除无关它是否是至关重要的国家或支持的状态。
最终,国王和他的同事发现,只有三类岗位定期审查:色情,审查的批评,那些有集体动作电位(即领先的大规模抗议活动的可能性)。通过观察那些没有删除的被删除和岗位的职位数量庞大,国王和他的同事们能够学习如何审查通过观察和计数只是工作。在随后的研究中,他们居然直接通过创建具有系统性不同的内容和衡量得到删帖介入到中国的社交媒体生态系统(King, Pan, and Roberts 2014) 。我们将了解更多关于在第4章进一步的实验方法,预示着这将贯穿全书出现的主题,这些潜在属性的推理问题,有时可有解决监督学习,变成是在社会研究很常见数字时代。你会看到图片类似图中的第3章(提出问题)和5 2.3(创建大规模协作);它是出现在多个章节的一些想法之一。
所有这三个例子,在纽约的出租车司机,学生友谊的形成,与中国政府,表明观测数据的相对简单的计算可以使研究人员能够测试理论预测社交媒体审查行为的工作行为。在某些情况下,大数据使您能够直接比较做计数(在纽约出租车的情况下)。在其他情况下,研究人员需要收集自己的观测数据(如在中国审查制度的情况下);处理通过合并数据一起(如网络演进的情况下)不完整;或进行某种形式的潜特质推论(如在中国审查制度的情况下)。正如我希望这些例子表明,研究者谁能够提出有趣的问题,大发展都是大有裨益。