2.4.1.1 Taxis v New Yorku

Výzkumník používá velkých objemů dat z taxi metrů ke studiu rozhodování taxikáři v New Yorku. Tyto údaje se dobře hodí pro tento výzkum.

Jeden příklad jednoduchého moci počítat správnou věc pochází z Henry Farber je (2015) studium chování řidičů New York City Taxi. Ačkoli tato skupina nemusí znít ze své podstaty zajímavé, to je strategickým výzkumné pracoviště pro testování dvě konkurenční teorie v pracovních ekonomii. Pro účely Farber výzkumu společnosti, jsou tam dva důležité rysy o pracovním prostředí taxikářů: 1) jejich hodinová mzda kolísá ze dne na den, která se zakládá na faktorech, jako je počasí, a 2) počet odpracovaných hodin se může měnit každý den na základě rozhodnutí řidiče. Tyto vlastnosti vedou k zajímavé otázky o vztahu mezi hodinové mzdy a odpracovaných hodin. Neoklasicistní modely v ekonomii předpovídají, že taxikáři by více spolupracovat ve dnech, kdy mají vyšší hodinové mzdy. Alternativně modely z behaviorální ekonomie předpovědět přesný opak. Pokud řidiči nastavit konkrétní cíl příjmů, říkají $ 100 za den a pracovní dokud není splněna, že cíl, pak by řidiči skončit pracovní méně hodin ve dnech, které jsou vydělávat více. Například, pokud jste byli terčem činná, můžete skončit pracovat 4 hodiny na dobrý den (25 $ za hodinu) a 5 hodin na špatný den (20 $ za hodinu). Ano, řidiči pracují více hodin, ve dnech s vyššími hodinové mzdy (jak předpovídal neoklasicistní modelů), nebo více hodin ve dnech s nižší hodinové mzdy (jak předpovídal chování ekonomických modelů)?

Chcete-li odpovědět na tuto otázku Farber získat údaje o každém taxi výlet pořízená New York City kabin v letech 2009 - 2013, údaje, které jsou nyní veřejně dostupné . Tato data, která byla shromážděna elektronické elektroměry, že město vyžaduje taxi používat, zahrnuje několik informací pro každou cestu: Start Time jazyce umístění, koncový čas, místo konec, jízdné, a špičku (je-li špička byla vyplacena s kreditní karta). Celkově, Farber jsou údaje obsažené informace o zhruba 900 milionů cest odebraných během zhruba 40 milionů směn (posun je zhruba jeden den práce pro jednoho řidiče). Ve skutečnosti, tam bylo tolik dat, že Farber používá pouze náhodný vzorek něm pro své analýze. Při použití tohoto metr údaje taxi, Farber zjistil, že většina řidičů pracovat ve dnech, kdy jsou mzdy vyšší, v souladu s neoklasické teorie. Kromě této hlavní zjištění, Farber byl schopen využít velikost dat pro lepší pochopení heterogenity a dynamiky. Farber zjištěno, že v průběhu času novější ovladače se postupně učí pracovat více hodin na vysokých mzdových dnů (např naučí se chovat jako neoklasicistní modely předpovídá). A noví řidiči, kteří se chovají spíš jako cílové příjmy mají větší šanci přestat být taxikář. Oba tyto jemnějších nálezů, které pomáhají vysvětlit pozorované chování běžných řidičů, bylo možné jen díky velikosti datové sady. Že by nebylo možné detekovat v dřívějších studiích, které používaly papír výlet listy z malého počtu taxikářů během krátkého časového období (např Camerer et al. (1997) ).

Farber studijní byl blízko k nejlepším-case pro studium s využitím velkých objemů dat. Za prvé, údaje nebyly nereprezentativní, protože město požaduje, aby řidič použil digitální metrů. A tyto údaje nebyly neúplné, protože data, která byla shromážděna města byl dost blízko, aby údaje, které Farber by se shromažďují kdyby měl na výběr (jeden Rozdíl je v tom, že Farber by si přál údaje o celkových mezd-jízdné plus tips- ale data městské zahrnuty pouze tipy placené kreditní kartou). Klíčem k Farber výzkum byl kombinací je dobrá otázka s dobrými daty. Samotné údaje jsou nestačí.