Een onderzoeker gebruikte big data van taximeters de besluitvorming van de taxichauffeurs in New York te studeren. Deze gegevens zijn zeer geschikt voor dit onderzoek.
Een voorbeeld van de eenvoudige kracht van het tellen van de juiste ding komt uit Henry Farber's (2015) studie van het gedrag van de New York City taxichauffeurs. Hoewel deze groep niet inherent interessant klinkt misschien is het een strategisch onderzoek plaats voor het testen van twee concurrerende theorieën in arbeidseconomie. In het kader van het onderzoek Farber, zijn er twee belangrijke kenmerken over de werkomgeving van taxichauffeurs: 1) hun uurloon schommelt van dag tot dag, mede op basis van factoren zoals het weer en 2) het aantal uren dat ze werken kan elke dag fluctueren op basis van de besluiten van de bestuurder. Deze kenmerken leiden tot een interessante vraag over de relatie tussen de uurlonen en gewerkte uren. Neoklassieke modellen in de economie voorspellen dat taxichauffeurs meer zou werken op dagen waarop zij hogere uurlonen. U kunt ook modellen uit behavioral economics voorspellen precies het tegenovergestelde. Als bestuurders stellen een bepaald inkomen target-zeggen $ 100 per dag en werken totdat die doelstelling gehaald wordt, dan drivers zou uiteindelijk minder uren werken op dagen dat ze meer verdienen. Bijvoorbeeld, als je een doel verdiener, kun je uiteindelijk werkt 4 uur op een goede dag ($ 25 per uur) en 5 uur op een slechte dag ($ 20 per uur). Dus, drivers werken meer uren op dagen met hogere lonen per uur (zoals voorspeld door de neoklassieke modellen) of meer uren op dagen met een lager uurloon (zoals voorspeld door gedrags economische modellen)?
Om deze vraag te beantwoorden Farber verkregen data op elke taxi trip door New York City taxi's vanaf 2009 - 2013, de gegevens die nu publiek beschikbaar . Deze gegevens die werd verzameld door elektronische meters die de stad vereist een taxi te gebruiken-bevat verschillende stukken van informatie voor elke reis: starttijd, start locatie, eindtijd, eindlocatie, braderie, en tip (als de tip werd betaald met een kredietkaart). In totaal Farber de gegevens opgenomen informatie over ongeveer 900 miljoen reizen gemaakt tijdens ongeveer 40 miljoen verschuivingen (een verschuiving is ongeveer een dag werk voor een bestuurder). In feite was er zo veel gegevens, dat Farber alleen gebruik gemaakt van een aselecte steekproef van het voor zijn analyse. Met behulp van deze taxi metergegevens, Farber bleek dat de meeste chauffeurs werken meer op dagen dat de lonen hoger zijn, in overeenstemming met de neoklassieke theorie. Naast deze belangrijke bevinding Farber kon de omvang van de gegevens te schakelen voor een beter begrip van heterogeniteit en dynamiek. Farber vond dat na verloop van tijd nieuwere drivers leren geleidelijk aan meer uren op hoge lonen dagen werken (bijvoorbeeld leren ze zich te gedragen als de neoklassieke modellen voorspelt). En, nieuwe bestuurders die zich meer als doel verdieners meer kans om te stoppen wordt een taxichauffeur. Beide subtielere bevindingen die helpen het waargenomen gedrag van recente stuurprogramma verklaren, slechts mogelijk door de grootte van de dataset. Ze zou onmogelijk zijn geweest om te detecteren in eerdere studies die krant reis sheets gebruikt uit een klein aantal taxichauffeurs gedurende een korte periode (bijvoorbeeld Camerer et al. (1997) ).
Farber studie was dicht bij een best-case voor een studie met behulp van big data. Ten eerste, de gegevens waren niet niet-representatief omdat de stad benodigde drivers om digitale meters gebruiken. En, de gegevens waren niet onvolledig omdat de gegevens die zijn verzameld door de stad was vrij dicht bij de gegevens die Farber zou zijn geïnd indien hij de keuze had (een verschil is dat Farber wilden gegevens over de totale loon-tarieven plus veiligheidstips- zou hebben maar de stad opgenomen gegevens alleen tips betaald met een creditcard). De sleutel tot het onderzoek Farber werd een combinatie van een goede vraag met goede gegevens. De gegevens alleen zijn niet genoeg.