5.3.2 Foldit

Foldit是一款蛋白质折叠游戏,可让非专家以有趣的方式参与其中。

Netflix奖虽然令人回味和清晰,但并没有说明所有的公开招聘项目。例如,在Netflix奖中,大多数认真的参与者都有多年的统计和机器学习培训。但是,公开招募项目也可能涉及没有正式培训的参与者,正如蛋白折叠游戏Foldit所说明的那样。

蛋白质折叠是氨基酸链形成的过程。通过更好地了解这一过程,生物学家可以设计出具有特定形状的蛋白质,可用作药物。简化相当一点,蛋白质倾向于移动到它们的最低能量配置,这种配置平衡蛋白质内的各种推动和拉动(图5.7)。因此,如果研究人员想要预测蛋白质将折叠的形状,解决方案听起来很简单:只需尝试所有可能的配置,计算它们的能量,并预测蛋白质将折叠成最低能量配置。不幸的是,尝试所有可能的配置在计算上是不可能的,因为有数十亿和数十亿的潜在配置。即使拥有当今最强大的计算机 - 并且在可预见的未来 - 暴力也无法发挥作用。因此,生物学家已经开发出许多聪明的算法来有效地搜索能量最低的配置。但是,尽管进行了大量的科学和计算工作,但这些算法仍然远非完美。

图5.7:蛋白质折叠。图片由DrKjaergaard / Wikimedia Commons提供。

图5.7:蛋白质折叠。图片由“DrKjaergaard”/ Wikimedia Commons提供

华盛顿大学的David Baker和他的研究小组是致力于创造蛋白质折叠计算方法的科学家团体的一部分。在一个项目中,Baker及其同事开发了一个系统,允许志愿者在计算机上捐赠未使用的时间来帮助模拟蛋白质折叠。作为回报,志愿者可以观看屏幕保护程序,显示他们的计算机上发生的蛋白质折叠。其中一些志愿者写信给Baker及其同事说他们认为如果可以参与计算,他们可以提高计算机的性能。因此开始了Foldit (Hand 2010)

Foldit将蛋白质折叠过程转变为任何人都可以玩的游戏。从玩家的角度来看,Foldit似乎是一个谜题(图5.8)。玩家呈现出三维混乱的蛋白质结构,可以执行操作 - “调整”,“摆动”,“重建” - 改变其形状。通过执行这些操作,玩家可以改变蛋白质的形状,从而增加或减少他们的分数。关键的是,分数是根据当前配置的能量水平计算的;低能量配置导致更高的分数。换句话说,该分数有助于指导玩家搜索低能量配置。这个游戏是唯一可能的,因为就像预测Netflix Prize-protein折叠中的电影评级一样,这也是检查解决方案比生成它们更容易的情况。

图5.8:Foldit的游戏界面。经http://www.fold.it许可转载。

图5.8:Foldit的游戏界面。经http://www.fold.it许可转载。

Foldit优雅的设计使得对生物化学知之甚少的玩家能够与专家设计的最佳算法竞争。虽然大多数球员并不是特别擅长这项任务,但是有一些个人球员和小球员都很出色。事实上,在Foldit玩家与最先进算法之间的激烈竞争中,玩家为10种蛋白质中的5种创造了更好的解决方案(Cooper et al. 2010)

Foldit和Netflix奖在很多方面都有所不同,但它们都涉及开放式调用解决方案,这些解决方案比生成更容易检查。现在,我们将在另一个非常不同的背景下看到相同的结构:专利法。这个公开调用问题的最后一个例子表明,这种方法也可以用于不明显适合量化的设置中。