Phần này được thiết kế để được sử dụng như một tài liệu tham khảo, chứ không phải là để được đọc như một câu chuyện.
Một loại quan sát mà không được bao gồm trong chương này là dân tộc học. Để biết thêm về dân tộc học trong không gian kỹ thuật số xem Boellstorff et al. (2012) , và để biết thêm về dân tộc học trong không gian kỹ thuật số và vật lý hỗn hợp thấy Lane (2016) .
Khi bạn đặt lại mục tiêu dữ liệu, có hai thủ đoạn tâm thần có thể giúp bạn hiểu được những vấn đề có thể mà bạn có thể gặp phải. Trước tiên, bạn có thể thử tưởng tượng các tập dữ liệu lý tưởng cho vấn đề của bạn và so sánh với các số liệu mà bạn đang sử dụng. Làm thế nào là họ tương tự và làm thế nào họ có khác nhau? Nếu bạn đã không thu thập dữ liệu của bạn mình, có thể sẽ là sự khác biệt giữa những gì bạn muốn và những gì bạn có. Tuy nhiên, bạn phải quyết định những khác biệt này là nhỏ hoặc lớn.
Thứ hai, hãy nhớ rằng một người nào đó tạo ra và thu thập dữ liệu của bạn đối với một số lý do. Bạn nên cố gắng tìm hiểu lý do của họ. Đây là loại kỹ thuật đảo ngược có thể giúp bạn xác định các vấn đề có thể và những thành kiến trong dữ liệu thêm thắt của bạn.
Không có định nghĩa thống nhất duy nhất của "dữ liệu lớn", nhưng rất nhiều định nghĩa dường như tập trung vào 3 Vs: (ví dụ, khối lượng, chủng loại và vận tốc Japec et al. (2015) ). Thay vì tập trung vào các đặc tính của dữ liệu, định nghĩa của tôi tập trung nhiều hơn về lý do tại sao các dữ liệu đã được tạo ra.
đưa tôi về dữ liệu hành chính của chính phủ bên trong các thể loại của dữ liệu lớn là một chút bất thường. Những người khác đã làm cho trường hợp này, bao gồm Legewie (2015) , Connelly et al. (2016) , và Einav and Levin (2014) . Để biết thêm về giá trị của dữ liệu hành chính của chính phủ cho nghiên cứu, xem Card et al. (2010) , Taskforce (2012) , và Grusky, Smeeding, and Snipp (2015) .
Đối với một cái nhìn của nghiên cứu hành chính từ bên trong hệ thống thống kê của chính phủ, đặc biệt là US Census Bureau, xem Jarmin and O'Hara (2016) . Đối với một điều trị chiều dài cuốn sách nghiên cứu hồ sơ hành chính tại kê Thụy Điển, xem Wallgren and Wallgren (2007) .
Trong chương này, tôi một thời gian ngắn so với một cuộc điều tra truyền thống như các khảo sát chung xã hội (GSS) với một nguồn dữ liệu truyền thông xã hội như Twitter. Để so sánh kỹ lưỡng và cẩn thận giữa các cuộc điều tra truyền thống và dữ liệu truyền thông xã hội, xem Schober et al. (2016) .
Những 10 đặc điểm của dữ liệu lớn đã được mô tả trong một loạt các cách khác nhau bởi nhiều tác giả khác nhau. Viết rằng ảnh hưởng suy nghĩ của tôi về những vấn đề này bao gồm: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , và Goldstone and Lupyan (2016) .
Trong suốt chương này, tôi đã sử dụng các dấu vết kỹ thuật số hạn, mà tôi nghĩ là tương đối trung lập. Một thuật ngữ phổ biến cho các dấu vết kỹ thuật số là dấu chân kỹ thuật số (Golder and Macy 2014) , nhưng như Hal Abelson, Ken Ledeen, và Harry Lewis (2008) chỉ ra, một thuật ngữ thích hợp hơn có lẽ là dấu vân tay kỹ thuật số. Khi bạn tạo ra dấu vết, bạn nhận thức được những gì đang xảy ra và dấu chân của bạn có thể không thường được truy nguồn từ cá nhân bạn. Điều này cũng không đúng với dấu vết kỹ thuật số của bạn. Trong thực tế, bạn đang để lại dấu vết tất cả các thời gian về mà bạn có rất ít kiến thức. Và, mặc dù những dấu vết không có tên của bạn vào chúng, họ có thể thường được liên kết lại với bạn. Nói cách khác, họ đều giống như dấu vân tay: không nhìn thấy và nhận diện cá nhân.
lớn
Để biết thêm về lý do tại sao các tập dữ liệu lớn, làm các bài kiểm tra thống kê có vấn đề, xem Lin, Lucas, and Shmueli (2013) và McFarland and McFarland (2015) . Những vấn đề này sẽ dẫn các nhà nghiên cứu tập trung vào ý nghĩa thiết thực hơn là có ý nghĩa thống kê.
Luôn luôn
Khi xem xét luôn trên dữ liệu, điều quan trọng là phải xem xét liệu bạn đang so sánh những người cùng chính xác theo thời gian hoặc cho dù bạn đang so sánh một số nhóm đang thay đổi của nhân dân; xem ví dụ, Diaz et al. (2016) .
Không có phản ứng
Một cuốn sách kinh điển về các biện pháp không phản ứng là Webb et al. (1966) . Các ví dụ trong cuốn sách trước ngày đại kỹ thuật số, nhưng họ vẫn đang chiếu sáng. Đối với ví dụ của những thay đổi hành vi của họ, vì sự hiện diện của giám sát khối lượng, xem Penney (2016) và Brayne (2014) .
chưa hoàn thiện
Để biết thêm về kỷ lục liên kết, xem Dunn (1946) và Fellegi and Sunter (1969) (lịch sử) và Larsen and Winkler (2014) (hiện đại). Tương tự như tiếp cận cũng đã được phát triển trong khoa học máy tính thuộc các tên tuổi như chống trùng lắp dữ liệu, nhận dạng dụ, tên phù hợp, phát hiện trùng lặp, và phát hiện trùng lặp kỷ lục (Elmagarmid, Ipeirotis, and Verykios 2007) . Ngoài ra còn có sự riêng tư bảo tồn các cách tiếp cận để ghi lại mối liên kết mà không đòi hỏi việc truyền tải thông tin nhận dạng cá nhân (Schnell 2013) . Facebook cũng đã phát triển một tiến tới liên kết hồ sơ của họ để hành vi biểu quyết; này đã được thực hiện để đánh giá một thí nghiệm mà tôi sẽ nói với bạn về trong chương 4 (Bond et al. 2012; Jones et al. 2013) .
Để biết thêm về giá trị xây dựng, xem Shadish, Cook, and Campbell (2001) , Chương 3.
Không thể tiếp cận
Để biết thêm về các AOL đăng nhập tìm kiếm thất bại, xem Ohm (2010) . Tôi cung cấp lời khuyên về việc hợp tác với các công ty và chính phủ trong Chương 4 khi tôi mô tả thí nghiệm. Một số tác giả đã bày tỏ mối quan tâm về nghiên cứu dựa trên dữ liệu không thể tiếp cận, xem Huberman (2012) và boyd and Crawford (2012) .
Một cách tốt để các nhà nghiên cứu trường đại học để có được quyền truy cập dữ liệu là làm việc tại một công ty thực tập hoặc đi thăm nhà nghiên cứu. Ngoài việc cho phép truy cập dữ liệu, quá trình này cũng sẽ giúp các nhà nghiên cứu tìm hiểu thêm về cách thức dữ liệu được tạo ra, đó là quan trọng để phân tích.
Không đại diện
Non-đại diện là một vấn đề lớn đối với các nhà nghiên cứu và chính phủ muốn để lập báo cáo về toàn bộ dân số. Điều này là ít quan tâm cho các công ty thường được tập trung vào người dùng của họ. Để biết thêm về cách kê Hà Lan xem xét các vấn đề của không đại diện của dữ liệu kinh doanh lớn, xem Buelens et al. (2014) .
Trong chương 3, tôi sẽ mô tả lấy mẫu và dự toán chi tiết hơn. Thậm chí, nếu dữ liệu là không đại diện, trong điều kiện nhất định, họ có thể được trọng để sản xuất ước tính tốt.
Drifting
Hệ thống trôi là rất khó để nhìn thấy từ bên ngoài. Tuy nhiên, các dự án MovieLens (thảo luận trong Chương 4) đã được chạy trong hơn 15 năm bởi một nhóm nghiên cứu học thuật. Do đó, họ đã ghi nhận và chia sẻ thông tin về cách mà hệ thống đã tiến hóa theo thời gian và làm thế nào điều này có thể ảnh hưởng đến phân tích (Harper and Konstan 2015) .
Một số học giả đã tập trung vào trôi dạt trong Twitter: Liu, Kliman-Silver, and Mislove (2014) và Tufekci (2014) .
thuật toán xấu hổ
đầu tiên tôi nghe thấy thuật ngữ "thuật toán xấu hổ" được sử dụng bởi Jon Kleinberg trong một cuộc nói chuyện. Ý tưởng chính đằng sau performativity là một số lý thuyết khoa học xã hội là "động cơ không camera" (Mackenzie 2008) . Đó là, họ thực sự định hình thế giới chứ không chỉ nắm bắt nó.
Dơ bẩn
Cơ quan thống kê của chính phủ gọi dữ liệu làm sạch, chỉnh sửa dữ liệu thống kê. De Waal, Puts, and Daas (2014) mô tả kỹ thuật chỉnh sửa dữ liệu thống kê được phát triển cho các dữ liệu khảo sát và kiểm tra những mức độ mà họ đang áp dụng đối với các nguồn dữ liệu lớn, và Puts, Daas, and Waal (2015) trình bày một số ý tưởng tương tự cho một đối tượng chung chung hơn.
Đối với một số ví dụ về các nghiên cứu tập trung vào các thư rác trong Twitter, Clark et al. (2016) và Chu et al. (2012) . Cuối cùng, Subrahmanian et al. (2016) mô tả các kết quả của DARPA Twitter Bot Challenge.
nhạy cảm
Ohm (2015) đánh giá nghiên cứu trước đây về các ý tưởng của các thông tin nhạy cảm và cung cấp một thử nghiệm đa yếu tố. Bốn yếu tố ông đề xuất là: xác suất của hại; xác suất của hại; sự hiện diện của một mối quan hệ bí mật; và liệu có nguy cơ phản ánh mối quan tâm số đông.
Nghiên cứu của taxi ở New York Farber đã dựa trên một nghiên cứu trước đó của Camerer et al. (1997) được sử dụng ba mẫu tiện khác nhau của chuyến đi giấy dạng tờ giấy được sử dụng bởi trình điều khiển để ghi lại thời gian bắt đầu chuyến đi, thời gian kết thúc, và giá vé. nghiên cứu trước đây cho thấy trình điều khiển dường như là người có thu mục tiêu: họ làm việc ít hơn vào ngày mà tiền lương của họ đã cao hơn.
Kossinets and Watts (2009) đã được tập trung vào nguồn gốc của homophily trong các mạng xã hội. Xem Wimmer and Lewis (2010) cho một cách tiếp cận khác nhau đối với cùng một vấn đề trong đó sử dụng dữ liệu từ Facebook.
Trong công việc tiếp theo, vua và các đồng nghiệp đã tiếp tục khám phá kiểm duyệt trực tuyến ở Trung Quốc (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . Đối với một cách tiếp cận có liên quan đến đo kiểm duyệt trực tuyến ở Trung Quốc, xem Bamman, O'Connor, and Smith (2012) . Để biết thêm về phương pháp thống kê như một trong những sử dụng trong King, Pan, and Roberts (2013) để ước lượng tình cảm của 11 triệu bài viết, xem Hopkins and King (2010) . Để biết thêm về học có giám sát, xem James et al. (2013) (ít kỹ thuật) và Hastie, Tibshirani, and Friedman (2009) (kỹ thuật).
Dự báo là một phần quan trọng trong công nghiệp khoa học dữ liệu (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Một loại dự báo mà thường được thực hiện bởi các nhà nghiên cứu xã hội là dự báo nhân khẩu học, ví dụ Raftery et al. (2012) .
Google Trends cúm không phải là dự án đầu tiên để sử dụng dữ liệu tìm kiếm để nowcast nhiễm cúm. Trong thực tế, các nhà nghiên cứu tại Hoa Kỳ (Polgreen et al. 2008; Ginsberg et al. 2009) và Thụy Điển (Hulth, Rydevik, and Linde 2009) đã phát hiện ra rằng thuật ngữ tìm kiếm nhất định (ví dụ, "cúm") dự đoán giám sát y tế công cộng quốc gia dữ liệu trước khi nó được phát hành. Sau đó nhiều người, nhiều dự án khác đã cố gắng sử dụng dữ liệu dấu vết kỹ thuật số để phát hiện giám sát dịch bệnh, xem Althouse et al. (2015) để được xem xét.
Ngoài việc sử dụng dữ liệu dấu vết kỹ thuật số để dự đoán kết quả sức khỏe, có cũng đã được một số lượng lớn các công việc sử dụng dữ liệu Twitter để dự đoán kết quả bầu cử; cho nhận xét thấy Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), và Huberty (2015) .
Sử dụng dữ liệu tìm kiếm để dự đoán tỷ lệ cúm và sử dụng dữ liệu Twitter để dự đoán cuộc bầu cử là hai ví dụ của việc sử dụng một số loại dấu vết kỹ thuật số để dự đoán một số loại sự kiện trên thế giới. Có một số lượng lớn các nghiên cứu có cấu trúc chung này. Bảng 2.5 bao gồm một vài ví dụ khác.
dấu vết kỹ thuật số | kết quả | Trích dẫn |
---|---|---|
doanh thu phòng vé của phim ở Mỹ | Asur and Huberman (2010) | |
nhật ký tìm kiếm | Doanh số của phim ảnh, âm nhạc, sách, trò chơi video ở Mỹ | Goel et al. (2010) |
Dow Jones Industrial Average (thị trường chứng khoán Mỹ) | Bollen, Mao, and Zeng (2011) |
Tạp chí Khoa học Chính trị PS đã có một hội nghị chuyên đề về dữ liệu lớn, suy luận nhân quả, và lý thuyết chính thức, và Clark and Golder (2015) tóm tắt từng đóng góp. Kỷ tạp chí của Viện hàn lâm Khoa học của Hoa Kỳ đã có một hội nghị chuyên đề về suy luận nhân quả và dữ liệu lớn, và Shiffrin (2016) tóm tắt từng đóng góp.
Trong điều kiện thí nghiệm tự nhiên, Dunning (2012) cung cấp một điều trị chiều dài cuốn sách tuyệt vời. Để biết thêm về cách sử dụng thảo xổ số Việt Nam như là một thử nghiệm tự nhiên, xem Berinsky and Chatfield (2015) . Đối với phương pháp tiếp cận máy học mà cố gắng để tự động phát hiện các thí nghiệm tự nhiên bên trong của các nguồn dữ liệu lớn, xem Jensen et al. (2008) và Sharma, Hofman, and Watts (2015) .
Trong điều kiện phù hợp, cho một đánh giá lạc quan, xem Stuart (2010) , và cho một đánh giá bi quan nhìn thấy Sekhon (2009) . Để biết thêm về phù hợp như một loại cắt tỉa, xem Ho et al. (2007) . Đối với sách cung cấp phương pháp điều trị tuyệt vời của khớp, xem Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , và Imbens and Rubin (2015) .