2.3.1.2 Luôn-on

Luôn luôn-trên dữ liệu lớn cho phép nghiên cứu các sự kiện bất ngờ và đo lường thời gian thực.

Nhiều hệ thống dữ liệu lớn luôn-on; họ đang liên tục thu thập dữ liệu. đặc trưng luôn-on này cung cấp các nhà nghiên cứu với dữ liệu theo chiều dọc (ví dụ, dữ liệu theo thời gian). Luôn luôn-on có hai ý nghĩa quan trọng cho việc nghiên cứu.

Đầu tiên, luôn luôn-trên dữ liệu thu thập cho phép các nhà nghiên cứu để nghiên cứu các sự kiện bất ngờ trong những cách đó là không thể trước đó. Ví dụ, các nhà nghiên cứu quan tâm đến việc nghiên cứu các cuộc biểu tình Chiếm Gezi ở Thổ Nhĩ Kỳ trong mùa hè năm 2013 sẽ chủ yếu tập trung vào hành vi của những người biểu tình trong sự kiện. Ceren Budak và Duncan Watts (2015) đã có thể làm được nhiều hơn bằng cách sử dụng tính chất luôn luôn-on Twitter để nghiên cứu Twitter sử dụng biểu tình trước, trong và sau sự kiện. Và, họ đã có thể tạo ra một nhóm so sánh không tham gia (hoặc người tham gia không tweet về các cuộc biểu tình) trước, trong và sau sự kiện (Hình 2.1). Trong tổng số bảng cũ bài của họ bao gồm các tweets của 30.000 người trong vòng hai năm. Bằng cách kết hợp các dữ liệu thường được sử dụng từ các cuộc biểu tình với các thông tin khác này, Budak và Watts đã có thể học hỏi nhiều hơn nữa: họ đã có thể tính toán theo cái loại người có nhiều khả năng tham gia vào các cuộc biểu tình Gezi và để ước tính sự thay đổi trong thái độ của người tham gia và không tham gia, cả trong ngắn hạn (so sánh trước Gezi để trong Gezi) và trong dài hạn (so sánh trước Gezi để viết-Gezi).

Hình 2.1: Thiết kế được sử dụng bởi Budak và Watts (2015) nghiên cứu các cuộc biểu tình Chiếm Gezi ở Thổ Nhĩ Kỳ vào mùa hè năm 2013. Bằng cách sử dụng tính chất luôn luôn-trên Twitter, các nhà nghiên cứu đã tạo ra cái mà họ gọi là một bảng điều khiển cũ của bài viết đó bao gồm khoảng 30.000 người trong vòng hai năm. Ngược lại các nghiên cứu điển hình mà tập trung vào những người tham gia trong các cuộc biểu tình, các bảng ex-post thêm 1) dữ liệu từ những người tham gia trước và sau sự kiện này và 2) dữ liệu từ phi tham gia trước, trong và sau sự kiện. cấu trúc dữ liệu được làm giàu này cho phép Budak và Watts để ước tính những gì loại người có nhiều khả năng tham gia vào các cuộc biểu tình Gezi và để ước tính sự thay đổi trong thái độ của người tham gia và không tham gia, cả trong ngắn hạn (so sánh trước Gezi để trong Gezi) và trong dài hạn (so sánh trước Gezi để viết-Gezi).

Hình 2.1: Thiết kế được sử dụng bởi Budak and Watts (2015) nghiên cứu các cuộc biểu tình Chiếm Gezi ở Thổ Nhĩ Kỳ vào mùa hè năm 2013. Bằng cách sử dụng tính chất luôn luôn-trên Twitter, các nhà nghiên cứu đã tạo ra cái mà họ gọi là một bảng điều khiển cũ của bài viết đó bao gồm khoảng 30.000 người trong vòng hai năm. Ngược lại các nghiên cứu điển hình mà tập trung vào những người tham gia trong các cuộc biểu tình, các bảng ex-post thêm 1) dữ liệu từ những người tham gia trước và sau sự kiện này và 2) dữ liệu từ phi tham gia trước, trong và sau sự kiện. cấu trúc dữ liệu được làm giàu này cho phép Budak và Watts để ước tính những gì loại người có nhiều khả năng tham gia vào các cuộc biểu tình Gezi và để ước tính sự thay đổi trong thái độ của người tham gia và không tham gia, cả trong ngắn hạn (so sánh trước Gezi để trong Gezi) và trong dài hạn (so sánh trước Gezi để viết-Gezi).

Đúng là một số trong những ước tính có thể đã được thực hiện mà không luôn luôn-về nguồn thu thập dữ liệu (ví dụ như, ước tính dài hạn của sự thay đổi thái độ), mặc dù bộ sưu tập dữ liệu đó cho 30.000 người có thể đã được khá đắt. Và, thậm chí đưa ra một ngân sách hạn chế, tôi không thể nghĩ ra bất kỳ phương pháp khác mà về cơ bản cho phép các nhà nghiên cứu để đi du lịch trở lại trong thời gian và quan sát trực tiếp hành vi của những người tham gia trong quá khứ. Việc thay thế gần nhất sẽ được thu thập báo cáo hồi hành vi, nhưng các báo cáo này sẽ được các chi tiết hạn chế và chính xác vấn đề. Bảng 2.1 cung cấp ví dụ khác về nghiên cứu sử dụng một luôn luôn-trên nguồn dữ liệu để nghiên cứu một sự kiện bất ngờ.

Bảng 2.1: Các nghiên cứu về sự kiện bất ngờ sử dụng luôn trên nguồn dữ liệu lớn.
sự kiện bất ngờ Luôn luôn-trên dữ liệu nguồn Trích dẫn
Phong trào Chiếm Gezi ở Thổ Nhĩ Kỳ Twitter Budak and Watts (2015)
cuộc biểu tình Umbrella tại Hồng Kông Weibo Zhang (2016)
Vụ nổ súng của cảnh sát tại thành phố New York Stop-and-sự nhảy nhót báo cáo Legewie (2016)
Người tham gia ISIS Twitter Magdy, Darwish, and Weber (2016)
September 11, cuộc tấn công năm 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
September 11, cuộc tấn công năm 2001 thông điệp pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Thứ hai, luôn luôn-trên dữ liệu thu thập cho phép các nhà nghiên cứu để sản xuất các phép đo thời gian thực, có thể là quan trọng trong các môi trường mà các nhà hoạch định chính sách muốn không chỉ học hỏi từ hành vi hiện tại mà còn đáp ứng với nó. Ví dụ, dữ liệu truyền thông xã hội có thể được sử dụng để hướng dẫn ứng phó với thiên tai (Castillo 2016) .

Trong kết luận, luôn luôn-trên dữ liệu hệ thống cho phép các nhà nghiên cứu để nghiên cứu các sự kiện bất ngờ và cung cấp thông tin thời gian thực để các nhà hoạch định chính sách. Tôi không, tuy nhiên, đề nghị rằng luôn luôn-trên dữ liệu hệ thống cho phép các nhà nghiên cứu để theo dõi những thay đổi trong thời gian dài của thời gian. Đó là bởi vì nhiều hệ thống dữ liệu lớn được thay đổi liên tục, một quá trình được gọi là trôi dạt (mục 2.3.2.4).