2.4.1.1 Taxi ở thành phố New York

Một nhà nghiên cứu đã sử dụng dữ liệu lớn từ mét taxi để nghiên cứu đưa ra quyết định của trình điều khiển xe taxi ở New York. Những dữ liệu này được cũng phù hợp với nghiên cứu này.

Một ví dụ về sức mạnh đơn giản đếm đúng đến từ Henry Farber của (2015) nghiên cứu về hành vi của lái xe taxi thành phố New York. Mặc dù nhóm này có thể không âm thanh vốn đã thú vị đó là một trang web nghiên cứu chiến lược cho thử nghiệm hai lý thuyết cạnh tranh trong kinh tế lao động. Đối với các mục đích nghiên cứu Farber, có hai đặc điểm quan trọng về môi trường làm việc của lái xe taxi: 1) Tiền lương giờ của họ dao động từ ngày này qua ngày khác, một phần dựa vào các yếu tố như thời tiết và 2) số giờ làm việc có thể dao động mỗi ngày dựa vào quyết định của người lái xe. Những tính năng dẫn đến một câu hỏi thú vị về mối quan hệ giữa tiền lương theo giờ và số giờ làm việc. mô hình tân cổ điển về kinh tế dự đoán rằng trình điều khiển xe taxi sẽ làm việc nhiều hơn vào những ngày mà họ có tiền lương theo giờ cao hơn. Ngoài ra, các mô hình từ hành vi kinh tế dự đoán hoàn toàn ngược lại. Nếu trình điều khiển thiết lập một thu nhập đặc biệt mục tiêu, nói $ 100 mỗi ngày và làm việc cho đến khi mục tiêu được đáp ứng, sau đó lái xe sẽ kết thúc làm việc ít giờ hơn vào những ngày mà họ đang kiếm hơn. Ví dụ, nếu bạn là một người có thu nhập mục tiêu, bạn có thể kết thúc làm việc 4 giờ vào một ngày tốt ($ 25 mỗi giờ) và 5 giờ một ngày tồi tệ ($ 20 mỗi giờ). Vì vậy, đừng lái xe làm việc nhiều giờ hơn vào những ngày có mức lương cao hơn theo giờ (như dự đoán của các mô hình tân cổ điển) hoặc nhiều giờ vào các ngày với mức lương theo giờ thấp hơn (như dự đoán của mô hình kinh tế hành vi)?

Để trả lời câu hỏi này Farber thu được dữ liệu trên tất cả các chuyến đi taxi lấy bằng xe taxi thành phố New York từ 2009 - 2013, dữ liệu mà hiện nay công bố công khai . dữ liệu mà điều này đã được thu thập bởi các công tơ điện tử mà thành phố yêu cầu các xe taxi để sử dụng-bao gồm một số thông tin cho mỗi chuyến đi: thời gian bắt đầu, vị trí bắt đầu, thời gian kết thúc, điểm kết thúc, giá vé, và tip (nếu mũi đã được trả với một thẻ tín dụng). Trong tổng số, dữ liệu Farber của chứa thông tin về khoảng 900 triệu chuyến đi thực hiện trong khoảng 40 triệu ca (một sự thay đổi là khoảng một ngày làm việc của một người lái xe). Trong thực tế, đã có dữ liệu rất nhiều, Farber chỉ được sử dụng một mẫu ngẫu nhiên của nó để phân tích của ông. Sử dụng dữ liệu đo taxi này, Farber thấy rằng hầu hết các trình điều khiển làm việc hơn vào những ngày tiền lương cao hơn, phù hợp với lý thuyết tân cổ điển. Ngoài việc tìm kiếm chính này, Farber đã có thể tận dụng các kích thước của dữ liệu cho một sự hiểu biết tốt hơn về tính không đồng nhất và năng động. Farber thấy rằng qua thời gian điều khiển mới hơn dần dần học cách làm việc nhiều giờ vào các ngày lương cao (ví dụ, họ học cách cư xử như các mô hình tân cổ điển dự đoán). Và, trình điều khiển mới, những người hành xử như người có thu mục tiêu có nhiều khả năng bỏ được một người lái xe taxi. Cả hai của những phát hiện tinh tế hơn, giải thích các hành vi quan sát thấy các trình điều khiển hiện tại, chỉ có thể vì kích thước của tập dữ liệu. Họ sẽ không thể phát hiện trong các nghiên cứu trước đó được sử dụng tờ giấy đi từ một số lượng nhỏ các trình điều khiển xe taxi trên một khoảng thời gian ngắn (ví dụ, Camerer et al. (1997) ).

nghiên cứu Farber là gần một trường hợp nhất cho một nghiên cứu sử dụng dữ liệu lớn. Đầu tiên, các dữ liệu không phải là không đại diện vì thành phố yêu cầu trình điều khiển để sử dụng mét kỹ thuật số. Và, các dữ liệu không đầy đủ vì các dữ liệu đã được thu thập bởi thành phố là khá gần với dữ liệu mà Farber sẽ thu thập nếu anh có sự lựa chọn (một khác biệt là Farber sẽ có dữ liệu muốn trên tổng số tiền lương phải trả giá vé cộng với tips- nhưng dữ liệu thành phố chỉ bao gồm các mẹo trả bằng thẻ tín dụng). Chìa khóa để nghiên cứu Farber đã được kết hợp một câu hỏi tốt với dữ liệu tốt. Các dữ liệu một mình là không đủ.