2.4.1.1 Такситата в Ню Йорк

Изследовател използва големи данни от таксиметровите метра за изучаване на вземане на решения на таксиметровите шофьори в Ню Йорк. Тези данни бяха много подходящи за това изследване.

Един пример на проста силата на преброяване правилното нещо идва от Хенри Фарбър е (2015) проучване на поведението на New York City таксиметровите шофьори. Въпреки, че тази група може да не звучи по своята същност интересно е стратегически изследвания сайт за тестване на две конкуриращи се теории в икономиката на труда. За целите на научни изследвания Farber е, има две важни характеристики за работната среда на таксиметровите шофьори: 1) тяхната почасово заплащане се променя от ден за ден, базиран отчасти на фактори като времето и 2) броя на часовете, в които работят може да варира всеки ден въз основа на решенията на водача. Тези характеристики водят до един интересен въпрос за връзката между почасово заплащане и отработените часове. Неокласическата модели в областта на икономиката прогнозират, че таксиметровите шофьори ще работят още по дни, когато те имат по-високи надници на час. Алтернативно, модели от поведенческата икономика прогнозират точно обратното. Ако водачите, установени определен доход целева-кажем $ 100 на ден-и работа, докато тази цел е изпълнено, тогава водачите би в крайна сметка работи по-малко часове на ден, че те са спечелили повече. Например, ако сте били мишена работещ, може да свърши работа на 4 часа на ден ($ 25 на час) и 5 ​​часа по лош ден ($ 20 на час). Така че, не шофьори работят повече часове на ден с по-високи надници на час (както е предвидено от неокласическия модели) или повече часа на ден с по-ниски надници на час (както е предвидено от поведенчески икономически модели)?

За да отговорим на този въпрос Farber получени данни за всеки таксиметров пътуване, предприето от New York City кабини от 2009 - 2013, данни, които вече са на разположение на обществеността . Тези данни, които се събират от електронни електромери, че градът се нуждае таксита да използват-включва няколко парчета информация за всяко пътуване: начален час, започнете място, краен час, край място, билет, и на върха (ако върхът е платена с кредитна карта). Като цяло, данните Фербер, които се съдържат информация за около 900 милиона пътувания, предприети по време на приблизително 40 милиона смени (изместване е грубо работа за един ден в продължение на един водач). В действителност, има толкова много данни, че Farber използва само случайна извадка от него за своя анализ. Използвайки тези данни такси метър, Farber установено, че повечето шофьори работят повече в дните, когато заплатите са по-високи, в съответствие с неокласическата теория. В допълнение към тази основна констатация, Farber е в състояние да се възползва от размера на данните за по-добро разбиране на хетерогенност и динамика. Farber установено, че с течение на времето по-нови драйвери постепенно се научават да работят повече часове по високите дни за заплати (например, те се научават да се държат като неокласически модели предсказва). И, нови драйвери, които се държат по-скоро като целеви получаващите са по-склонни да се откажат да бъде таксиметров шофьор. И двете от тези по-фини констатации, които помагат да обясни наблюдаваното поведение на текущите драйвери, беше възможно само поради размера на набора от данни. Те би било невъзможно да се открие в по-ранни проучвания, които използват хартия пътуване листове от малък брой таксиметрови шофьори в рамките на кратък период от време (например, Camerer et al. (1997) ).

проучване Farber беше близо до най-добрия случай за проучване с големи данни. Първо, данните не са били по-представителна, защото градът е необходимо водачите да използват цифрови метра. И, данните не са били непълни, тъй като данните, които се събират от града е доста близо до данните, които Farber щеше да събира, ако имаше избор (една разлика е, че Farber би искал данни за общия размер на заплати-цени плюс Съвети- но данните на града са включени само съвети, платени с кредитна карта). Ключът към изследвания Farber бе комбиниране добър въпрос с добри данни. Самите данни не са достатъчни.