前言

这本书始于2005年,位于哥伦比亚大学的地下室。当时,我是一名研究生,我正在进行一项最终成为我论文的在线实验。我将在第4章告诉你关于该实验的科学部分的所有内容,但现在我将告诉你一些不在我的论文或我的论文中的内容。从根本上改变了我对研究的看法。一天早上,当我进入地下室时,我发现一夜之间有大约100名来自巴西的人参加了我的实验。这种简单的经历对我产生了深远的影响。那时,我有朋友正在进行传统的实验室实验,我知道他们有多努力招募,监督和支付人们参与这些实验;如果他们可以在一天内运行10个人,这是一个很好的进展。然而,通过我的在线实验, 在我睡觉时有 100人参加。在你睡觉的时候做你的研究可能听起来好得令人难以置信,但事实并非如此。技术的变化 - 特别是从模拟时代到数字时代的过渡 - 意味着我们现在可以以新的方式收集和分析社会数据。这本书是关于以这些新方式进行社会研究的。

本书适用于想要做更多数据科学的社会科学家,想要做更多社会科学的数据科学家,以及任何对这两个领域的混合感兴趣的人。鉴于这本书的用途,不言而喻,这不仅适用于学生和教授。虽然,我目前在一所大学(普林斯顿大学)工作,但我也曾在政府(美国人口普查局)和科技行业(微软研究院)工作,所以我知道有很多令人兴奋的研究发生在大学。如果你想到你正在做什么作为社会研究,那么这本书适合你,无论你在哪里工作或你目前使用什么样的技术。

正如您可能已经注意到的那样,本书的基调与许多其他学术书籍的语气略有不同。那是故意的。这本书出自我自2007年以来在普林斯顿大学社会学系教授的计算社会科学研究生研讨会,我希望能够从研讨会中获得一些精力和兴奋。特别是,我希望这本书有三个特点:我希望它有用,面向未来,乐观。

有帮助 :我的目标是写一本对你有帮助的书。因此,我将以开放,非正式和示例驱动的方式撰写。那是因为我想传达的最重要的事情是思考社会研究的某种方式。而且,我的经验表明,传达这种思维方式的最佳方式是非正式的,并有很多例子。此外,在每章的最后,我有一个名为“接下来要读什么”的部分,它将帮助您过渡到我介绍的许多主题的更详细和技术性的读物。最后,我希望本书能帮助你们研究和评估他人的研究。

面向未来 :本书将帮助您使用当前存在的数字系统将来创建的数字系统进行社会研究。我在2004年开始做这种研究,从那以后我看到了许多变化,我相信在你的职业生涯中你也会看到很多变化。面对变化保持相关性的诀窍是抽象 。例如,这不会是一本教你如何使用今天存在的Twitter API的书;相反,它将教你如何从大数据源学习(第2章)。这本书不会为您提供在Amazon Mechanical Turk上运行实验的分步说明;相反,它将教你如何设计和解释依赖于数字时代基础设施的实验(第4章)。通过抽象的使用,我希望这将是一本关于及时主题的永恒的书。

乐观 :本书所涉及的两个社区 - 社会科学家和数据科学家 - 具有截然不同的背景和兴趣。除了我在书中谈到的这些与科学有关的差异之外,我还注意到这两个社区有不同的风格。数据科学家普遍兴奋;他们倾向于看到玻璃杯半满。另一方面,社会科学家通常更为关键;他们倾向于认为玻璃杯是半空的。在本书中,我将采用数据科学家的乐观基调。所以,当我举出例子时,我会告诉你我对这些例子的喜爱。并且,当我确实指出示例的问题时 - 我会这样做,因为没有研究是完美的 - 我将试图以积极和乐观的方式指出这些问题。我不会因为批评而变得批评 - 我会变得批评,以便我可以帮助你创造更好的研究。

我们还处于数字时代社会研究的早期阶段,但我看到了一些如此常见的误解,以至于我在前言中对它们进行解决是有意义的。从数据科学家那里,我看到了两个常见的误解。首先是认为更多数据会自动解决问题。然而,对于社会研究来说,这并不是我的经验。事实上,对于社会研究而言,更好的数据 - 而不是更多的数据 - 似乎更有帮助。我从数据科学家那里看到的第二个误解是认为社会科学只是围绕常识的一堆花哨的谈话。当然,作为社会科学家 - 更具体地说是社会学家 - 我不同意这一点。聪明的人长期以来一直在努力去理解人类行为,忽视从这种努力中积累的智慧似乎是不明智的。我希望本书能以一种易于理解的方式为您提供一些智慧。

从社会科学家那里,我也看到了两个常见的误解。首先,我看到有些人因为一些不好的论文而使用数字时代的工具来撇开社会研究的整个想法。如果您正在阅读本书,您可能已经阅读了大量使用社交媒体数据的文章,这些文章是平庸或错误的(或两者兼而有之)。我也有。然而,从这些例子中得出结论认为所有数字时代的社会研究都很糟糕将是一个严重的错误。事实上,您可能还阅读了大量使用调查数据的文章,这些文章是平庸或错误的,但您不会使用调查来撇开所有研究。那是因为你知道调查数据已经做了很多研究,在本书中我将向你展示,对数字时代的工具也做了很多研究。

我从社会科学家那里看到的第二个常见误解是将现在与未来混为一谈。当我们评估数字时代的社会研究 - 我将要描述的研究时 - 重要的是我们提出两个截然不同的问题:“这种研究方式现在如何运作?”和“这种风格的表现如何?”未来的研究工作?“研究人员接受了第一个问题的回答,但对于本书,我认为第二个问题更为重要。也就是说,尽管数字时代的社会研究还没有产生大规模的,改变范式的智力贡献,但数字时代研究的改进速度却非常迅速。正是这种变化率 - 超过目前的水平 - 使数字时代的研究对我来说如此令人兴奋。

即使最后一段似乎在未来某个未指定的时间为您提供潜在的财富,但我的目标不是在任何特定类型的研究中向您推销。我本人并不拥有Twitter,Facebook,谷歌,微软,苹果或任何其他科技公司的股份(尽管为了完全披露,我应该提到我曾在微软工作或从微软获得研究经费,谷歌和Facebook)。因此,在整本书中,我的目标是保持一个可信的叙述者,告诉你所有可能的令人兴奋的新东西,同时引导你远离我见过别人陷入的一些陷阱(偶尔陷入自己) 。

社会科学和数据科学的交叉有时被称为计算社会科学。有些人认为这是一个技术领域,但这不是传统意义上的技术书籍。例如,正文中没有方程式。我选择以这种方式写这本书,因为我想提供一个全面的数字时代的社会研究视图,包括大数据来源,调查,实验,大规模协作和道德。事实证明,不可能涵盖所有这些主题并提供有关每个主题的技术细节。相反,在每章末尾的“接下来要阅读的内容”部分中给出了更多技术资料的指示。换句话说,本书并非旨在教你如何进行任何具体的计算;相反,它旨在改变您对社会研究的看法。

如何在课程中使用本书

正如我之前所说,这本书部分来自于自2007年以来我在普林斯顿大学教授的计算社会科学研究生研讨会。既然你可能正在考虑使用这本书来教授一门课程,我想我可以帮助我解释它是如何从我的课程中发展出来的,以及我是如何想象它在其他课程中使用的。

几年来,我没有书就教我的课程;我只是分配了一些文章。虽然学生们能够从这些文章中学习,但仅仅文章并没有导致我希望创造的概念上的变化。所以我会花大部分时间在课堂上提供观点,背景和建议,以帮助学生看到全局。这本书是我试图以一种没有先决条件的方式写下所有的观点,背景和建议 - 无论是社会科学还是数据科学。

在一学期的课程中,我建议将本书与各种附加读物配对。例如,这样的课程可能需要花费两周时间进行实验,您可以将第4章与关于主题的读数配对,例如预处理信息在实验设计和分析中的作用;公司大规模A / B测试引发的统计和计算问题;专门针对机制的实验设计;与使用来自在线劳动力市场的参与者相关的实际,科学和道德问题,例如Amazon Mechanical Turk。它还可以与编程相关的阅读和活动配对。这些许多可能配对之间的适当选择取决于课程中的学生(例如,本科生,硕士生或博士生),他们的背景和目标。

一学期课程还可以包括每周问题集。每章都有各种难度标记的活动:简单( 简单 ),中( 中 ),很难( 硬 ),非常努力( 很难 )。另外,我用它所需的技能标记了每个问题:数学( 需要数学 ),编码( 需要编码 )和数据收集( 数据采集 )。最后,我标注了一些我个人最喜欢的活动( 我的最爱 )。我希望在这些多样化的活动中,你会发现一些适合你学生的活动。

为了帮助人们在课程中使用本书,我开始收集教学材料,如教学大纲,幻灯片,每章的推荐配对,以及一些活动的解决方案。您可以在http://www.bitbybitbook.com找到这些材料并为其做出贡献。