Amplified yêu cầu sử dụng một mô hình dự đoán để kết hợp dữ liệu khảo sát từ một vài người với một nguồn dữ liệu lớn từ nhiều người.
Một cách khác để kết hợp khảo sát và các nguồn dữ liệu lớn là một quá trình mà tôi sẽ gọi là yêu cầu khuếch đại . Trong yêu cầu được khuếch đại, nhà nghiên cứu sử dụng mô hình dự báo để kết hợp một lượng nhỏ dữ liệu khảo sát với nguồn dữ liệu lớn để tạo ước tính ở mức độ chi tiết hoặc chi tiết sẽ không thể thực hiện với nguồn dữ liệu riêng lẻ. Một ví dụ quan trọng về yêu cầu khuếch đại xuất phát từ công việc của Joshua Blumenstock, người muốn thu thập dữ liệu có thể giúp hướng dẫn phát triển ở các nước nghèo. Trong quá khứ, các nhà nghiên cứu thu thập loại dữ liệu này thường phải thực hiện một trong hai cách tiếp cận: khảo sát mẫu hoặc các cuộc tổng điều tra. Khảo sát mẫu, nơi các nhà nghiên cứu phỏng vấn một số ít người, có thể linh hoạt, kịp thời và tương đối rẻ. Tuy nhiên, các cuộc khảo sát này, vì chúng dựa trên mẫu, thường bị giới hạn ở độ phân giải của chúng. Với một cuộc khảo sát mẫu, thường khó có thể đưa ra các ước tính về các vùng địa lý cụ thể hoặc cho các nhóm nhân khẩu học cụ thể. Censuses, mặt khác, cố gắng để phỏng vấn tất cả mọi người, và do đó họ có thể được sử dụng để sản xuất ước tính cho các khu vực địa lý nhỏ hoặc các nhóm nhân khẩu học. Nhưng các cuộc tổng điều tra thường đắt tiền, hẹp tập trung (chúng chỉ bao gồm một số ít câu hỏi), và không kịp thời (chúng xảy ra theo một lịch trình cố định, chẳng hạn cứ 10 năm một lần) (Kish 1979) . Thay vì bị mắc kẹt với các cuộc điều tra mẫu hoặc các cuộc tổng điều tra, hãy tưởng tượng xem các nhà nghiên cứu có thể kết hợp các đặc tính tốt nhất của cả hai hay không. Hãy tưởng tượng nếu các nhà nghiên cứu có thể hỏi mọi câu hỏi với mọi người mỗi ngày. Rõ ràng, điều tra phổ biến, luôn luôn là một loại hình khoa học xã hội. Nhưng có vẻ như chúng ta có thể bắt đầu ước tính điều này bằng cách kết hợp các câu hỏi khảo sát từ một số ít người có dấu vết kỹ thuật số từ nhiều người.
Nghiên cứu của Blumenstock bắt đầu khi ông hợp tác với nhà cung cấp điện thoại di động lớn nhất ở Rwanda, và công ty cung cấp các hồ sơ giao dịch ẩn danh từ khoảng 1,5 triệu khách hàng trong giai đoạn 2005 và 2009. Các hồ sơ này chứa thông tin về từng cuộc gọi và tin nhắn, chẳng hạn như thời gian bắt đầu, thời gian và vị trí địa lý gần đúng của người gọi và người nhận. Trước khi tôi nói về các vấn đề thống kê, nó là giá trị chỉ ra rằng bước đầu tiên này có thể là một trong những khó khăn nhất đối với nhiều nhà nghiên cứu. Như tôi đã mô tả ở chương 2, hầu hết các nguồn dữ liệu lớn đều không thể tiếp cận được với các nhà nghiên cứu. Đặc biệt, siêu dữ liệu điện thoại đặc biệt không thể truy cập được bởi vì về cơ bản không thể ẩn danh và nó gần như chắc chắn chứa thông tin mà người tham gia sẽ xem xét nhạy cảm (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Trong trường hợp đặc biệt này, các nhà nghiên cứu cẩn thận bảo vệ dữ liệu và công việc của họ được giám sát bởi một bên thứ ba (tức là IRB của họ). Tôi sẽ quay trở lại những vấn đề đạo đức này chi tiết hơn trong chương 6.
Blumenstock quan tâm đến việc đo lường sự giàu có và hạnh phúc. Nhưng những đặc điểm này không trực tiếp trong hồ sơ cuộc gọi. Nói cách khác, các bản ghi cuộc gọi này không đầy đủ cho nghiên cứu này - một đặc điểm chung của các nguồn dữ liệu lớn đã được thảo luận chi tiết trong chương 2. Tuy nhiên, dường như các bản ghi cuộc gọi có thể có một số thông tin có thể gián tiếp cung cấp thông tin về sự giàu có và hạnh phúc. Với khả năng này, Blumenstock hỏi liệu có thể đào tạo một mô hình học máy để dự đoán một người nào đó sẽ phản ứng với một cuộc khảo sát dựa trên hồ sơ cuộc gọi của họ hay không. Nếu điều này là có thể, thì Blumenstock có thể sử dụng mô hình này để dự đoán phản hồi khảo sát của tất cả 1,5 triệu khách hàng.
Để xây dựng và đào tạo một mô hình như vậy, Blumenstock và trợ lý nghiên cứu từ Viện Khoa học và Công nghệ Kigali gọi là một mẫu ngẫu nhiên của khoảng một ngàn khách hàng. Các nhà nghiên cứu giải thích các mục tiêu của dự án cho những người tham gia, yêu cầu họ đồng ý liên kết các câu trả lời khảo sát với các hồ sơ cuộc gọi, và hỏi họ một loạt câu hỏi để đo lường sự giàu có và hạnh phúc của họ, chẳng hạn như “Bạn có sở hữu một radio? ”và“ Bạn có sở hữu một chiếc xe đạp không? ”(xem hình 3.14 cho một danh sách một phần). Tất cả những người tham gia khảo sát đều được bồi thường về tài chính.
Tiếp theo, Blumenstock sử dụng một quy trình hai bước phổ biến trong học máy: kỹ thuật tính năng tiếp theo là học tập có giám sát. Đầu tiên, trong bước kỹ thuật tính năng , cho tất cả mọi người đã được phỏng vấn, Blumenstock đã chuyển đổi các bản ghi cuộc gọi thành một tập hợp các đặc điểm về mỗi người; các nhà khoa học dữ liệu có thể gọi những đặc điểm này là “các tính năng” và các nhà khoa học xã hội sẽ gọi chúng là “biến”. Ví dụ, đối với mỗi người, Blumenstock tính tổng số ngày có hoạt động, số người khác biệt mà một người đã tiếp xúc, số tiền đã chi cho thời gian phát sóng, v.v. Về cơ bản, kỹ thuật tính năng tốt đòi hỏi kiến thức về thiết lập nghiên cứu. Ví dụ: nếu điều quan trọng là phân biệt giữa các cuộc gọi trong nước và quốc tế (chúng tôi có thể mong đợi những người gọi quốc tế trở nên giàu có hơn), thì điều này phải được thực hiện ở bước kỹ thuật tính năng. Một nhà nghiên cứu với ít hiểu biết về Rwanda có thể không bao gồm tính năng này, và sau đó hiệu suất dự đoán của mô hình sẽ bị ảnh hưởng.
Tiếp theo, trong bước học được giám sát , Blumenstock đã xây dựng một mô hình để dự đoán phản ứng khảo sát cho từng người dựa trên các tính năng của họ. Trong trường hợp này, Blumenstock đã sử dụng hồi quy logistic, nhưng ông ta có thể đã sử dụng nhiều phương pháp học tập thống kê hoặc máy móc khác.
Vậy nó hoạt động tốt như thế nào? Blumenstock có thể dự đoán câu trả lời cho các câu hỏi khảo sát như “Bạn có sở hữu một đài phát thanh không?” Và “Bạn có sở hữu một chiếc xe đạp không?” Bằng cách sử dụng các tính năng có nguồn gốc từ các bản ghi cuộc gọi? Để đánh giá hiệu suất của mô hình dự đoán của mình, Blumenstock đã sử dụng xác nhận chéo , một kỹ thuật thường được sử dụng trong khoa học dữ liệu nhưng hiếm khi trong khoa học xã hội. Mục tiêu của xác nhận chéo là cung cấp đánh giá hợp lý về hiệu suất dự đoán của mô hình bằng cách đào tạo và thử nghiệm nó trên các tập con dữ liệu khác nhau. Đặc biệt, Blumenstock chia dữ liệu của mình thành 10 phần 100 người. Sau đó, ông đã sử dụng chín trong số các khối để đào tạo mô hình của mình, và hiệu suất dự đoán của mô hình được đào tạo đã được đánh giá trên phần còn lại. Ông đã lặp lại quy trình này 10 lần - với mỗi đoạn dữ liệu nhận được một lượt là dữ liệu xác thực — và tính trung bình kết quả.
Độ chính xác của dự đoán cao đối với một số đặc điểm (hình 3.14); ví dụ, Blumenstock có thể dự đoán với độ chính xác 97,6% nếu ai đó sở hữu một đài phát thanh. Điều này nghe có vẻ ấn tượng, nhưng nó luôn luôn là quan trọng để so sánh một phương pháp dự đoán phức tạp chống lại một thay thế đơn giản. Trong trường hợp này, một lựa chọn đơn giản là dự đoán rằng mọi người sẽ đưa ra câu trả lời phổ biến nhất. Ví dụ, 97,3% số người được hỏi sở hữu một đài phát thanh vì vậy nếu Blumenstock dự đoán rằng mọi người sẽ báo cáo việc sở hữu một đài phát thanh, anh ta sẽ có độ chính xác 97,3%, tương tự như hiệu suất của quy trình phức tạp hơn (độ chính xác 97,6%) . Nói cách khác, tất cả các dữ liệu và mô hình ưa thích tăng độ chính xác của dự đoán từ 97,3% lên 97,6%. Tuy nhiên, đối với các câu hỏi khác, chẳng hạn như “Bạn sở hữu một chiếc xe đạp?”, Các dự đoán được cải thiện từ 54,4% lên 67,6%. Nói chung, hình 3.15 cho thấy rằng đối với một số đặc điểm Blumenstock không cải thiện nhiều hơn là chỉ đưa ra dự đoán cơ bản đơn giản, nhưng đối với các đặc điểm khác thì có một số cải tiến. Nhìn vào những kết quả này, tuy nhiên, bạn có thể không nghĩ rằng phương pháp này đặc biệt hứa hẹn.
Tuy nhiên, chỉ một năm sau đó, Blumenstock và hai đồng nghiệp - Gabriel Cadamuro và Robert On — đã xuất bản một bài báo về Khoa học với kết quả tốt hơn đáng kể (Blumenstock, Cadamuro, and On 2015) . Có hai lý do kỹ thuật chính cho cải tiến này: (1) họ sử dụng các phương pháp phức tạp hơn (ví dụ, phương pháp mới để mô tả kỹ thuật và mô hình phức tạp hơn để dự đoán phản hồi từ các tính năng) và (2) thay vì cố gắng phỏng đoán phản hồi cho cá nhân câu hỏi khảo sát (ví dụ: “Bạn có sở hữu đài phát thanh không?”), họ đã cố gắng suy ra chỉ số tổng hợp tổng hợp. Những cải tiến kỹ thuật này có nghĩa là họ có thể làm một công việc hợp lý để sử dụng hồ sơ cuộc gọi để dự đoán sự giàu có cho những người trong mẫu của họ.
Tuy nhiên, dự đoán sự giàu có của người trong mẫu, không phải là mục tiêu cuối cùng của nghiên cứu. Hãy nhớ rằng mục tiêu cuối cùng là kết hợp một số tính năng tốt nhất của các cuộc khảo sát mẫu và các cuộc tổng điều tra để đưa ra các ước tính chính xác, có độ phân giải cao về đói nghèo ở các nước đang phát triển. Để đánh giá khả năng đạt được mục tiêu này, Blumenstock và các đồng nghiệp đã sử dụng mô hình của họ và dữ liệu của họ để dự đoán sự giàu có của tất cả 1,5 triệu người trong hồ sơ cuộc gọi. Và họ đã sử dụng thông tin không gian địa lý được nhúng trong các bản ghi cuộc gọi (nhớ lại rằng dữ liệu bao gồm vị trí của tháp di động gần nhất cho mỗi cuộc gọi) để ước tính nơi cư trú gần đúng của mỗi người (hình 3.17). Đưa hai ước tính này lại với nhau, Blumenstock và các đồng nghiệp đã đưa ra ước tính phân bố địa lý của sự giàu có của người đăng ký ở mức chi tiết không gian cực kỳ tốt. Ví dụ, họ có thể ước tính sự giàu có trung bình trong mỗi tế bào 2.148 của Rwanda (đơn vị hành chính nhỏ nhất trong cả nước).
Các ước tính này phù hợp với mức độ đói nghèo thực tế ở những vùng này như thế nào? Trước khi tôi trả lời câu hỏi đó, tôi muốn nhấn mạnh thực tế rằng có rất nhiều lý do để hoài nghi. Ví dụ, khả năng dự đoán ở cấp độ cá nhân khá ồn ào (hình 3.17). Và, có lẽ quan trọng hơn, những người có điện thoại di động có thể có hệ thống khác với những người không có điện thoại di động. Do đó, Blumenstock và các đồng nghiệp có thể bị các loại lỗi bảo hiểm thiên vị khảo sát văn học năm 1936 mà tôi đã mô tả trước đó.
Để có được ý thức về chất lượng của các ước tính của họ, Blumenstock và các đồng nghiệp cần phải so sánh chúng với một thứ khác. May mắn thay, cùng thời gian với nghiên cứu của họ, một nhóm các nhà nghiên cứu khác đang điều hành một cuộc khảo sát xã hội truyền thống hơn ở Rwanda. Cuộc khảo sát khác này — là một phần của chương trình Khảo sát Nhân khẩu học và Sức khỏe được tôn trọng rộng rãi — có ngân sách lớn và sử dụng các phương pháp truyền thống, chất lượng cao. Do đó, các ước tính từ Khảo sát Nhân khẩu học và Y tế có thể được coi là hợp lý để ước tính tiêu chuẩn vàng. Khi hai ước tính được so sánh, chúng khá giống nhau (hình 3.17). Nói cách khác, bằng cách kết hợp một lượng nhỏ dữ liệu khảo sát với các bản ghi cuộc gọi, Blumenstock và các đồng nghiệp đã có thể đưa ra các ước tính tương đương với các ước tính từ các phương pháp tiêu chuẩn vàng.
Một người hoài nghi có thể thấy những kết quả này là một sự thất vọng. Xét cho cùng, một cách để xem chúng là nói rằng bằng cách sử dụng dữ liệu lớn và học máy, Blumenstock và các đồng nghiệp đã có thể đưa ra các ước tính có thể được thực hiện một cách đáng tin cậy hơn bằng các phương pháp hiện có. Nhưng tôi không nghĩ đó là cách đúng đắn để suy nghĩ về nghiên cứu này vì hai lý do. Đầu tiên, các ước tính từ Blumenstock và các đồng nghiệp nhanh hơn khoảng 10 lần và rẻ hơn 50 lần (khi chi phí được đo bằng chi phí biến đổi). Như tôi đã đề cập trước đó trong chương này, các nhà nghiên cứu bỏ qua chi phí trước sự nguy hiểm của họ. Trong trường hợp này, ví dụ, giảm đáng kể chi phí có nghĩa là thay vì chạy mỗi vài năm - như là tiêu chuẩn cho Khảo sát Nhân khẩu học và Sức khỏe - loại khảo sát này có thể chạy mỗi tháng, điều này sẽ mang lại nhiều lợi ích cho các nhà nghiên cứu và chính sách các nhà sản xuất. Lý do thứ hai không để có cái nhìn hoài nghi là nghiên cứu này cung cấp một công thức cơ bản có thể được điều chỉnh cho nhiều tình huống nghiên cứu khác nhau. Công thức này chỉ có hai thành phần và hai bước. Các thành phần là (1) nguồn dữ liệu lớn nhưng mỏng (nghĩa là nó có nhiều người nhưng không phải thông tin bạn cần về mỗi người) và (2) khảo sát hẹp nhưng dày (nghĩa là chỉ có một vài người, nhưng nó có thông tin mà bạn cần về những người đó). Các thành phần này sau đó được kết hợp thành hai bước. Thứ nhất, đối với những người ở cả hai nguồn dữ liệu, hãy xây dựng một mô hình học máy sử dụng nguồn dữ liệu lớn để dự đoán các câu trả lời khảo sát. Tiếp theo, sử dụng mô hình đó để ám sát câu trả lời khảo sát của mọi người trong nguồn dữ liệu lớn. Vì vậy, nếu có một số câu hỏi mà bạn muốn hỏi nhiều người, hãy tìm một nguồn dữ liệu lớn từ những người có thể được sử dụng để dự đoán câu trả lời của họ, ngay cả khi bạn không quan tâm đến nguồn dữ liệu lớn . Đó là, Blumenstock và các đồng nghiệp vốn đã không quan tâm đến hồ sơ cuộc gọi; họ chỉ quan tâm đến hồ sơ cuộc gọi vì họ có thể được sử dụng để dự đoán câu trả lời khảo sát mà họ quan tâm. Đặc điểm này — chỉ quan tâm gián tiếp đến nguồn dữ liệu lớn — làm cho khuếch đại yêu cầu khác với yêu cầu nhúng, mà tôi đã mô tả trước đó.
Tóm lại, phương pháp tiếp cận khuếch đại yêu cầu khuếch đại của Blumenstock đã kết hợp dữ liệu khảo sát với một nguồn dữ liệu lớn để đưa ra các ước tính tương đương với các ước tính từ một cuộc khảo sát tiêu chuẩn vàng. Ví dụ cụ thể này cũng làm rõ một số sự cân bằng giữa các phương pháp khảo sát truyền thống và hỏi hỏi. Các ước tính yêu cầu được khuếch đại nhanh hơn, rẻ hơn đáng kể và chi tiết hơn. Nhưng, mặt khác, vẫn chưa có một cơ sở lý thuyết mạnh mẽ cho loại yêu cầu khuếch đại này. Ví dụ đơn này không hiển thị khi phương pháp này sẽ hoạt động và khi nào thì không, và các nhà nghiên cứu sử dụng cách tiếp cận này cần đặc biệt quan tâm về các thành kiến có thể xảy ra do ai được bao gồm - và những người không được bao gồm trong nguồn dữ liệu lớn của họ. Hơn nữa, phương pháp tiếp cận được yêu cầu khuếch đại chưa có cách tốt để định lượng sự không chắc chắn xung quanh các ước tính của nó. May mắn thay, yêu cầu khuếch đại có kết nối sâu với ba khu vực lớn trong thống kê - ước tính diện tích nhỏ (Rao and Molina 2015) , imputation (Rubin 2004) , và phân tầng sau dựa trên mô hình (chính nó liên quan chặt chẽ với ông P., phương pháp tôi đã mô tả trước đó trong chương này (Little 1993) . Bởi vì những kết nối sâu sắc này, tôi hy vọng rằng nhiều nền tảng phương pháp của yêu cầu khuếch đại sẽ sớm được cải thiện.
Cuối cùng, so sánh các nỗ lực đầu tiên và thứ hai của Blumenstock cũng minh họa một bài học quan trọng về nghiên cứu xã hội thời đại kỹ thuật số: bắt đầu không phải là kết thúc. Đó là, nhiều lần, cách tiếp cận đầu tiên sẽ không phải là tốt nhất, nhưng nếu các nhà nghiên cứu tiếp tục làm việc, mọi thứ có thể trở nên tốt hơn. Nói chung, khi đánh giá các phương pháp tiếp cận mới đối với nghiên cứu xã hội trong thời đại kỹ thuật số, điều quan trọng là phải thực hiện hai đánh giá riêng biệt: (1) Hiện tại công việc này hiệu quả như thế nào? và (2) Việc này sẽ hoạt động tốt như thế nào trong tương lai khi cảnh quan dữ liệu thay đổi và khi các nhà nghiên cứu dành nhiều sự chú ý hơn cho vấn đề này? Mặc dù các nhà nghiên cứu được đào tạo để thực hiện loại đánh giá đầu tiên, thứ hai thường quan trọng hơn.