Không có vấn đề làm thế nào "lớn" của bạn "dữ liệu lớn" nó có lẽ không có những thông tin mà bạn muốn.
Hầu hết các nguồn dữ liệu lớn chưa đầy đủ, trong ý nghĩa rằng họ không có những thông tin mà bạn sẽ muốn cho nghiên cứu của bạn. Đây là một tính năng phổ biến của dữ liệu đã được tạo cho các mục đích khác hơn là nghiên cứu. Nhiều nhà khoa học xã hội đã có kinh nghiệm đối phó với những bất toàn, chẳng hạn như một cuộc khảo sát hiện có mà không hỏi những câu hỏi mà bạn muốn. Thật không may, những vấn đề về sự bất toàn có xu hướng cực đoan hơn trong dữ liệu lớn. Theo kinh nghiệm của tôi, dữ liệu lớn có xu hướng bị mất tích ba loại thông tin hữu ích cho các nghiên cứu xã hội: nhân khẩu học, hành vi trên các nền tảng khác, và dữ liệu để vận hành cấu trúc lý thuyết.
Cả ba hình thức bất toàn được minh họa trong một nghiên cứu của Gueorgi Kossinets và Duncan Watts (2006) về sự tiến hóa của các mạng xã hội tại một trường đại học. Kossinets và Watts bắt đầu với các bản ghi email từ các trường đại học, trong đó có thông tin chính xác về những người đã gửi email tới những ai vào thời gian nào (các nhà nghiên cứu không có quyền truy cập vào các nội dung của email). Những hồ sơ email âm thanh như một bộ dữ liệu tuyệt vời, nhưng, họ-mặc dù kích thước và chi tiết về cơ bản, không đầy đủ. Ví dụ, các bản ghi email không bao gồm dữ liệu về các đặc điểm nhân khẩu học của các sinh viên, như giới tính và tuổi tác. Hơn nữa, các bản ghi email không bao gồm thông tin về các thông tin liên lạc thông qua phương tiện truyền thông khác, chẳng hạn như các cuộc gọi điện thoại, tin nhắn văn bản, hoặc các cuộc trò chuyện mặt đối mặt. Cuối cùng, các bản ghi email không trực tiếp bao gồm thông tin về các mối quan hệ, các cấu trúc lý thuyết trong nhiều lý thuyết hiện có. Sau đó trong chương này, khi tôi nói về các chiến lược nghiên cứu, bạn sẽ thấy cách Kossinets và Watts giải quyết những vấn đề này.
Trong số ba loại bất toàn, vấn đề của dữ liệu không đầy đủ để vận hành cấu trúc lý thuyết là khó khăn nhất để giải quyết, và trong kinh nghiệm của tôi, nó thường vô tình bị bỏ qua bởi các nhà khoa học dữ liệu. Khoảng, cấu trúc lý thuyết là những ý tưởng trừu tượng mà các nhà khoa học xã hội nghiên cứu, nhưng không may, những cấu trúc có thể không luôn luôn được rõ ràng xác định và đo lường. Ví dụ, hãy tưởng tượng đang cố gắng để thực nghiệm kiểm tra các tuyên bố rõ ràng đơn giản rằng những người thông minh hơn kiếm được nhiều tiền hơn. Để kiểm tra yêu cầu này, bạn sẽ cần để đo "tình báo". Nhưng, thông minh là gì? Ví dụ, Gardner (2011) lập luận rằng thực sự có tám hình thức khác nhau của trí thông minh. Và, có những thủ tục mà có thể đo chính xác bất kỳ các hình thức thông minh? Mặc dù có một lượng lớn công việc của nhà tâm lý học, những câu hỏi này vẫn chưa có câu trả lời rõ ràng. Vì vậy, ngay cả một tương đối đơn giản yêu-những người thông minh hơn kiếm được nhiều tiền có thể được khó khăn để đánh giá thực nghiệm vì nó có thể được khó khăn để thực thi cấu trúc lý thuyết trong dữ liệu. Ví dụ khác về cấu trúc lý thuyết quan trọng nhưng khó để vận hành bao gồm "chỉ tiêu", "vốn xã hội" và "dân chủ". Các nhà khoa học xã hội gọi trận đấu giữa cấu trúc lý thuyết và dữ liệu cấu trúc hiệu lực (Cronbach and Meehl 1955) . Và, như danh sách các cấu trúc cho thấy, xây dựng giá trị là một vấn đề mà các nhà khoa học xã hội đã phải vật lộn với một thời gian rất dài, thậm chí khi họ đang làm việc với các dữ liệu đã được thu thập cho mục đích nghiên cứu. Khi làm việc với các dữ liệu thu thập cho mục đích khác hơn là nghiên cứu, các vấn đề về tính hợp lệ xây dựng thậm chí còn nhiều thách thức (Lazer 2015) .
Khi bạn đang đọc một bài nghiên cứu, một cách nhanh chóng và hữu ích để đánh giá mối quan tâm về tính hợp lệ xây dựng là để có những tuyên bố chính trong giấy, mà thường được biểu diễn theo cấu trúc, và tái hiện nó trong điều kiện của các dữ liệu được sử dụng. Ví dụ, hãy xem xét hai nghiên cứu giả thuyết rằng yêu cầu bồi thường cho thấy những người thông minh hơn kiếm được nhiều tiền hơn:
Trong cả hai trường hợp, các nhà nghiên cứu có thể khẳng định rằng họ đã chỉ ra rằng những người thông minh hơn kiếm được nhiều tiền hơn. Tuy nhiên, trong nghiên cứu đầu tiên của cấu trúc lý thuyết cũng được vận hành bởi các dữ liệu, và trong lần thứ hai họ không. Hơn nữa, như ví dụ này minh họa, nhiều dữ liệu không tự động giải quyết các vấn đề có giá trị xây dựng. Bạn nên nghi ngờ các kết quả của nghiên cứu 2 dù nó liên quan đến một triệu tweet, một tỷ tweet, hoặc một tỷ tweet. Đối với các nhà nghiên cứu không quen với ý tưởng có giá trị xây dựng, Bảng 2.2 cung cấp một số ví dụ về các nghiên cứu đã vận hành cấu trúc lý thuyết sử dụng dữ liệu dấu vết kỹ thuật số.
dấu vết kỹ thuật số | xây dựng lý thuyết | Trích dẫn |
---|---|---|
bản ghi email từ một trường đại học (meta-data chỉ) | Các mối quan hệ xã hội | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
phương tiện truyền thông xã hội viết trên Weibo | sự tham gia của công dân | Zhang (2016) |
bản ghi email từ một công ty (meta-data và văn bản đầy đủ) | phù hợp với văn hóa trong một tổ chức | Goldberg et al. (2015) |
Mặc dù vấn đề của dữ liệu không đầy đủ cho việc vận hành cấu trúc lý thuyết là khá khó khăn để giải quyết, có ba giải pháp chung cho các vấn đề của thông tin cá nhân đầy đủ và thông tin đầy đủ về hành vi trên các nền tảng khác. Đầu tiên là để thực sự thu thập các dữ liệu bạn cần; Tôi sẽ cho bạn biết về một ví dụ về điều đó trong Chương 3 khi tôi nói với bạn về cuộc điều tra. Thật không may, loại này thu thập dữ liệu không phải là luôn luôn có thể. Các giải pháp chính thứ hai là để làm những gì các nhà khoa học dữ liệu gọi suy luận sử dụng thuộc tính và những gì các nhà khoa học xã hội gọi khoản tính. Trong phương pháp này, các nhà nghiên cứu sử dụng các thông tin mà họ có trên một số người để suy ra các thuộc tính của người khác. Người thứ ba có thể giải pháp được sử dụng bởi Kossinets và Watts-là kết hợp nhiều nguồn dữ liệu. Quá trình này đôi khi được gọi sáp nhập hoặc hồ sơ liên kết. Ẩn dụ ưa thích của tôi cho quá trình này đã được đề xuất trong đoạn đầu tiên của bài báo đầu tiên từng được viết về kỷ lục liên kết (Dunn 1946) :
"Mỗi người trên thế giới tạo ra một Book of Life. Sách này bắt đầu với sinh và kết thúc bằng cái chết. trang của nó được tạo thành hồ sơ các sự kiện chính trong cuộc sống. Ghi liên kết là tên được đặt cho quá trình lắp ráp các trang của cuốn sách này vào một lượng. "
Đoạn văn này được viết vào năm 1946, và vào thời điểm đó, người ta đã nghĩ rằng Sách của cuộc sống có thể bao gồm các sự kiện cuộc sống lớn như khai sinh, kết hôn, ly hôn, và tử vong. Tuy nhiên, bây giờ mà rất nhiều thông tin về người được ghi lại, sách sự sống có thể là một bức chân dung cực kỳ chi tiết, nếu những trang khác nhau (ví dụ, dấu vết kỹ thuật số của chúng tôi), có thể được liên kết với nhau. Sách sống này có thể là một nguồn lực lớn cho các nhà nghiên cứu. Nhưng, Sách của cuộc sống cũng có thể được gọi là một cơ sở dữ liệu của đống đổ nát (Ohm 2010) , mà có thể được sử dụng cho tất cả các loại mục đích phi đạo đức, như được mô tả chi tiết dưới đây khi nói về tính chất nhạy cảm của thông tin thu thập từ các nguồn dữ liệu lớn bên dưới và trong Chương 6 (đạo đức).