2.4.1.1出租车在纽约市

一位研究人员使用从出租车米的大数据研究纽约出租车司机的决策。这些数据是非常适合这项研究。

计算正确的事情的简单的电源的一个例子来自亨利·法伯的(2015)纽约市出租车司机的行为研究。虽然这组可能不健全固有有趣的是一个战略研究网站测试中劳动经济学两个相互竞争的理论。对于法伯的研究而言,大约有出租车司机的工作环境两个重要特征:1)他们的小时工资从一天到一天,部分基于如天气因素波动和2)他们的工作小时数可基于驾驶员的决定每天波动。这些特点导致对工作每小时工资和工作时间之间的关系一个有趣的问题。在新古典经济学模型预测认为,的士司机工作更上几天,他们有更高的计时工资。或者,从行为经济学模型预测完全相反。如果驱动程序设置一个特定的收益目标,比如说$ 100天工作,直到目标被满足,则驱动程序最终会天,他们赚取更多的工作时间少。例如,如果你是一个目标收入来源,你可能最终在一个好日子(每小时$ 25)和一个糟糕的一天(每小时$ 20)5.小时的工作4小时。那么,司机工作时间上具有较高的小时工资(由新古典模型预测)以上小时较低的小时工资日天(由行为经济学模型作为预测的)?

要回答这个问题,法伯获得从2009年采取的纽约市出租车每辆出租车之旅的数据- 2013年,是目前数据公开发布 。此数据这是由这个城市需要出租车电子仪表收集的使用,包括几件每次出行信息:开始时间,起始地点,结束时间,结束位置,票价和小费(如果提示用支付信用卡)。总之,法伯的数据包含在中约4000万班次采取了约900万人次的信息(换档大约是一天的一个驱动程序的工作)。事实上,有这么多的数据,该法伯只用它的一个随机抽样进行他的分析。使用该出租车计价器的数据,法伯发现,大多数司机的工作更多的日子,工资上涨,新古典主义的理论相一致。除了这个主要发现,法伯能够利用数据的大小,以便更好地理解异质性和动态。法伯发现,随着时间的推移更新的驱动程序逐渐学会工作高工资的日子更长时间(例如,他们学会做人为新古典模型预测)。而且,新的驱动程序谁更像目标者更有可能戒烟是一个出租车司机。这两个更细微的发现,这些发现有助于解释电流驱动器观察到的行为,只是可能的,因为数据集的大小。他们就不可能在早期研究中,超过一个短的时间周期(例如,废纸跳闸片从少数的出租车司机,以检测Camerer et al. (1997)

法伯的研究是接近最好的情况,使用大数据的研究。首先,由于城市所需的驱动程序使用数字电表的数据不是不具有代表性。而且,数据不完整的,因为这是由城市收集的数据是相当接近,如果他有选择法伯将收集到的数据(一个区别是,法伯会对工资总额,票价加tips-想数据但城市的数据只包括通过信用卡支付的小费)。以法伯的研究,关键是结合良好的数据一个很好的问题。单独的数据是不够的。