Một loại quan sát không được bao gồm trong chương này là dân tộc học. Để biết thêm về dân tộc học trong không gian kỹ thuật số, xem Boellstorff et al. (2012) , và để biết thêm về dân tộc học trong không gian kỹ thuật số và thể chất hỗn hợp, xem Lane (2016) .
Không có định nghĩa đồng thuận duy nhất về “dữ liệu lớn”, nhưng nhiều định nghĩa dường như tập trung vào “3 Vs”: khối lượng, giống và tốc độ (ví dụ, Japec et al. (2015) ). Xem De Mauro et al. (2015) để xem xét các định nghĩa.
Việc đưa dữ liệu quản trị của chính phủ vào danh mục dữ liệu lớn là một chút bất thường, mặc dù những người khác cũng đã đưa ra trường hợp này, bao gồm Legewie (2015) , Connelly et al. (2016) , và Einav and Levin (2014) . Để biết thêm về giá trị của dữ liệu quản trị của chính phủ cho nghiên cứu, xem Card et al. (2010) , Adminstrative Data Taskforce (2012) , và Grusky, Smeeding, and Snipp (2015) .
Đối với một cái nhìn của nghiên cứu hành chính từ bên trong hệ thống thống kê của chính phủ, đặc biệt là Cục điều tra dân số Hoa Kỳ, xem Jarmin and O'Hara (2016) . Đối với một cuốn sách dài điều trị của các hồ sơ hành chính nghiên cứu tại Thống kê Thụy Điển, xem Wallgren and Wallgren (2007) .
Trong chương này, tôi đã so sánh ngắn gọn một cuộc khảo sát truyền thống như Khảo sát Xã hội Chung (GSS) với một nguồn dữ liệu truyền thông xã hội như Twitter. Để có sự so sánh toàn diện và cẩn thận giữa các cuộc khảo sát truyền thống và dữ liệu truyền thông xã hội, xem Schober et al. (2016) .
10 đặc điểm của dữ liệu lớn đã được mô tả theo nhiều cách khác nhau bởi nhiều tác giả khác nhau. Viết mà ảnh hưởng đến suy nghĩ của tôi về những vấn đề này bao gồm Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , và Goldstone and Lupyan (2016) .
Trong suốt chương này, tôi đã sử dụng thuật ngữ dấu vết kỹ thuật số , mà tôi nghĩ là tương đối trung lập. Một thuật ngữ phổ biến khác cho dấu vết kỹ thuật số là dấu chân kỹ thuật số (Golder and Macy 2014) , nhưng như Hal Abelson, Ken Ledeen và Harry Lewis (2008) chỉ ra, một thuật ngữ thích hợp hơn có lẽ là dấu vân tay kỹ thuật số . Khi bạn tạo dấu chân, bạn nhận thức được những gì đang xảy ra và dấu chân của bạn thường không thể được truy nguồn từ cá nhân bạn. Điều này cũng không đúng cho các dấu vết kỹ thuật số của bạn. Trong thực tế, bạn đang để lại dấu vết tất cả các thời gian mà bạn có rất ít kiến thức. Và, mặc dù những dấu vết này không có tên của bạn trên chúng, chúng thường có thể được liên kết lại với bạn. Nói cách khác, chúng giống như dấu vân tay: vô hình và nhận dạng cá nhân.
Để biết thêm về lý do tại sao các tập dữ liệu lớn làm cho các bài kiểm tra thống kê có vấn đề, xem M. Lin, Lucas, and Shmueli (2013) và McFarland and McFarland (2015) . Những vấn đề này sẽ dẫn các nhà nghiên cứu tập trung vào ý nghĩa thực tiễn hơn là ý nghĩa thống kê.
Để biết thêm về cách Raj Chetty và các đồng nghiệp có được quyền truy cập vào hồ sơ thuế, hãy xem Mervis (2014) .
Các tập dữ liệu lớn cũng có thể tạo ra các vấn đề tính toán thường vượt quá khả năng của một máy tính. Do đó, các nhà nghiên cứu tính toán trên các tập dữ liệu lớn thường lan truyền công việc qua nhiều máy tính, một quá trình đôi khi được gọi là lập trình song song . Để giới thiệu về lập trình song song, cụ thể là một ngôn ngữ được gọi là Hadoop, xem Vo and Silvia (2016) .
Khi xem xét dữ liệu luôn bật, điều quan trọng là phải cân nhắc xem bạn có đang so sánh chính xác những người giống nhau theo thời gian hoặc cho dù bạn đang so sánh một số nhóm người đang thay đổi hay không; xem ví dụ, Diaz et al. (2016) .
Một cuốn sách kinh điển về các biện pháp phi phản ứng là Webb et al. (1966) . Các ví dụ trong cuốn sách đó trước thời đại kỹ thuật số, nhưng chúng vẫn đang chiếu sáng. Ví dụ về những người thay đổi hành vi của họ vì sự hiện diện của giám sát quần chúng, xem Penney (2016) và Brayne (2014) .
Phản ứng có liên quan chặt chẽ với những gì các nhà nghiên cứu gọi là các hiệu ứng nhu cầu (Orne 1962; Zizzo 2010) và hiệu ứng Hawthorne (Adair 1984; Levitt and List 2011) .
Để biết thêm về liên kết ghi lại, xem Dunn (1946) và Fellegi and Sunter (1969) (lịch sử) và Larsen and Winkler (2014) (hiện đại). Các phương pháp tương tự cũng được phát triển trong khoa học máy tính dưới các tên như dữ liệu trùng lặp, nhận dạng cá thể, trùng khớp tên, phát hiện trùng lặp và phát hiện bản ghi trùng lặp (Elmagarmid, Ipeirotis, and Verykios 2007) . Ngoài ra còn có các cách tiếp cận bảo mật riêng tư để ghi lại liên kết không yêu cầu truyền thông tin nhận dạng cá nhân (Schnell 2013) . Facebook cũng đã phát triển một quy trình liên kết hồ sơ của họ với hành vi bỏ phiếu; điều này đã được thực hiện để đánh giá một thử nghiệm mà tôi sẽ cho bạn biết trong chương 4 (Bond et al. 2012; Jones et al. 2013) .
Để biết thêm về hiệu lực xây dựng, xem chương 3 của Shadish, Cook, and Campbell (2001) .
Để biết thêm thông tin về nhật ký tìm kiếm AOL, hãy xem Ohm (2010) . Tôi đưa ra lời khuyên về việc hợp tác với các công ty và chính phủ trong chương 4 khi tôi mô tả các thí nghiệm. Một số tác giả đã bày tỏ lo ngại về nghiên cứu dựa trên dữ liệu không thể tiếp cận, xem Huberman (2012) và boyd and Crawford (2012) .
Một cách tốt để các nhà nghiên cứu trường đại học để có được quyền truy cập dữ liệu là làm việc tại một công ty thực tập hoặc đi thăm nhà nghiên cứu. Ngoài việc cho phép truy cập dữ liệu, quá trình này cũng sẽ giúp các nhà nghiên cứu tìm hiểu thêm về cách thức dữ liệu được tạo ra, đó là quan trọng để phân tích.
Về mặt tiếp cận dữ liệu của chính phủ, Mervis (2014) thảo luận về cách Raj Chetty và các đồng nghiệp có được quyền truy cập vào hồ sơ thuế được sử dụng trong nghiên cứu của họ về tính di động xã hội.
Để biết thêm về lịch sử “biểu đạt” như một khái niệm, xem Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , và Kruskal and Mosteller (1980) .
Tóm tắt của tôi về công việc của Snow và công việc của Doll and Hill ngắn gọn. Để biết thêm về công trình của Snow về bệnh tả, xem Freedman (1991) . Để biết thêm thông tin về Nghiên cứu Bác sĩ Anh, hãy xem Doll et al. (2004) và Keating (2014) .
Nhiều nhà nghiên cứu sẽ ngạc nhiên khi biết rằng mặc dù Doll và Hill đã thu thập dữ liệu từ các bác sĩ nữ và từ các bác sĩ dưới 35 tuổi, họ cố tình không sử dụng dữ liệu này trong phân tích đầu tiên của họ. Như họ đã lập luận: “Vì ung thư phổi tương đối hiếm ở phụ nữ và nam giới dưới 35 tuổi, các số liệu hữu ích có thể không đạt được ở những nhóm này trong một vài năm tới. Trong báo cáo sơ bộ này, chúng tôi đã giới hạn sự chú ý của chúng tôi cho những người đàn ông từ 35 tuổi trở lên. ” Rothman, Gallacher, and Hatch (2013) , có danh hiệu khiêu khích“ Tại sao phải thể hiện tính đại diện, ”đưa ra một lập luận chung hơn cho giá trị của cố ý tạo dữ liệu phi đại diện.
Không đại diện là một vấn đề lớn đối với các nhà nghiên cứu và chính phủ muốn đưa ra tuyên bố về toàn bộ dân số. Điều này ít quan tâm đối với các công ty, thường tập trung vào người dùng của họ. Để biết thêm về cách Thống kê Hà Lan xem xét vấn đề không đại diện cho dữ liệu lớn của doanh nghiệp, xem Buelens et al. (2014) .
Ví dụ về các nhà nghiên cứu bày tỏ lo ngại về bản chất không đại diện của các nguồn dữ liệu lớn, xem boyd and Crawford (2012) , K. Lewis (2015b) và Hargittai (2015) .
Để so sánh chi tiết hơn về các mục tiêu khảo sát xã hội và nghiên cứu dịch tễ học, xem Keiding and Louis (2016) .
Để biết thêm về các nỗ lực sử dụng Twitter để đưa ra các khái quát chung về các cử tri, đặc biệt là trường hợp từ cuộc bầu cử năm 2009 của Đức, xem Jungherr (2013) và Jungherr (2015) . Tiếp theo là công trình của Tumasjan et al. (2010) các nhà nghiên cứu trên khắp thế giới đã sử dụng các phương pháp fancier - như sử dụng phân tích tình cảm để phân biệt giữa các đề cập tích cực và tiêu cực của các bên - để cải thiện khả năng dữ liệu Twitter dự đoán nhiều loại bầu cử khác nhau (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . Dưới đây là cách Huberty (2015) tóm tắt kết quả của những nỗ lực này để dự đoán cuộc bầu cử:
“Tất cả các phương pháp dự báo đã biết dựa trên phương tiện truyền thông xã hội đã thất bại khi phải tuân theo các yêu cầu dự báo bầu cử thực sự đang hướng tới phía trước. Những thất bại này xuất hiện là do tính chất cơ bản của truyền thông xã hội, chứ không phải là những khó khăn về phương pháp luận hay thuật toán. Trong ngắn hạn, phương tiện truyền thông xã hội không, và có lẽ sẽ không bao giờ, cung cấp một hình ảnh đại diện ổn định, không thiên vị, đại diện của cử tri; và các mẫu tiện ích của phương tiện truyền thông xã hội thiếu dữ liệu để khắc phục những vấn đề này sau giờ học. ”
Trong chương 3, tôi sẽ mô tả lấy mẫu và ước tính chi tiết hơn nhiều. Ngay cả khi dữ liệu không đại diện, trong những điều kiện nhất định, chúng có thể được cân nhắc để tạo ra các ước tính tốt.
Hệ thống trôi dạt là rất khó nhìn từ bên ngoài. Tuy nhiên, dự án MovieLens (được thảo luận thêm trong chương 4) đã được một nhóm nghiên cứu học thuật hơn 15 năm hoạt động. Do đó, họ đã có thể ghi chép và chia sẻ thông tin về cách thức mà hệ thống đã phát triển theo thời gian và điều này có thể ảnh hưởng đến phân tích như thế nào (Harper and Konstan 2015) .
Một số học giả đã tập trung vào sự trôi dạt trong Twitter: Liu, Kliman-Silver, and Mislove (2014) và Tufekci (2014) .
Một cách tiếp cận để đối phó với dân số trôi dạt là tạo ra một bảng điều khiển của người sử dụng, cho phép các nhà nghiên cứu để nghiên cứu cùng một người theo thời gian, xem Diaz et al. (2016) .
Lần đầu tiên tôi nghe cụm từ “thuật toán nhầm lẫn” được Jon Kleinberg sử dụng trong một cuộc nói chuyện, nhưng tiếc là tôi không nhớ khi nào hoặc ở đâu cuộc nói chuyện được đưa ra. Lần đầu tiên tôi thấy thuật ngữ in là ở Anderson et al. (2015) , đó là một cuộc thảo luận thú vị về cách các thuật toán được sử dụng bởi các trang web hẹn hò có thể làm phức tạp khả năng của các nhà nghiên cứu sử dụng dữ liệu từ các trang web này để nghiên cứu các sở thích xã hội. Mối quan tâm này được đưa ra bởi K. Lewis (2015a) để đáp ứng với Anderson et al. (2014) .
Ngoài Facebook, Twitter cũng đề xuất mọi người cho người dùng theo dõi dựa trên ý tưởng đóng cửa ba bên; xem Su, Sharma, and Goel (2016) . Vì vậy, mức đóng cửa ba bên trong Twitter là sự kết hợp của một số khuynh hướng của con người đối với việc đóng ba bộ và một số khuynh hướng thuật toán để thúc đẩy việc đóng ba bộ.
Để biết thêm về diễn xuất - đặc biệt là ý tưởng rằng một số lý thuyết khoa học xã hội là "động cơ không phải máy ảnh" (nghĩa là, chúng định hình thế giới thay vì chỉ mô tả nó) —xem Mackenzie (2008) .
Các cơ quan thống kê của chính phủ gọi dữ liệu làm sạch chỉnh sửa dữ liệu thống kê . De Waal, Puts, and Daas (2014) mô tả các kỹ thuật chỉnh sửa dữ liệu thống kê được phát triển cho dữ liệu khảo sát và kiểm tra mức độ áp dụng cho các nguồn dữ liệu lớn, và Puts, Daas, and Waal (2015) trình bày một số ý tưởng tương tự một đối tượng chung hơn.
Để biết tổng quan về bot xã hội, xem Ferrara et al. (2016) . Đối với một số ví dụ về các nghiên cứu tập trung vào việc tìm kiếm thư rác trong Twitter, xem Clark et al. (2016) và Chu et al. (2012) . Cuối cùng, Subrahmanian et al. (2016) mô tả kết quả của Thử thách Bot Twitter của DARPA, một sự hợp tác hàng loạt được thiết kế để so sánh các phương pháp phát hiện bot trên Twitter.
Ohm (2015) đánh giá nghiên cứu trước đây về ý tưởng về thông tin nhạy cảm và cung cấp thử nghiệm đa yếu tố. Bốn yếu tố ông đề xuất là tầm quan trọng của tác hại, xác suất gây hại, sự hiện diện của một mối quan hệ bí mật và liệu rủi ro có phản ánh mối quan tâm chính trị hay không.
Nghiên cứu của Farber về taxi ở New York dựa trên một nghiên cứu trước đó của Camerer et al. (1997) đã sử dụng ba mẫu giấy tờ thuận tiện khác nhau của tờ giấy. Nghiên cứu trước đó cho thấy rằng các trình điều khiển dường như là mục tiêu của người có thu nhập: họ làm việc ít hơn vào những ngày mà tiền lương của họ cao hơn.
Trong công việc tiếp theo, King và các đồng nghiệp đã khám phá thêm về kiểm duyệt trực tuyến tại Trung Quốc (King, Pan, and Roberts 2014, [@king_how_2016] ) . Đối với một phương pháp liên quan để đo lường kiểm duyệt trực tuyến ở Trung Quốc, hãy xem Bamman, O'Connor, and Smith (2012) . Để biết thêm về các phương pháp thống kê như phương pháp được sử dụng trong King, Pan, and Roberts (2013) để ước tính tình cảm của 11 triệu bài đăng, hãy xem Hopkins and King (2010) . Để biết thêm về học tập có giám sát, xem James et al. (2013) (ít kỹ thuật) và Hastie, Tibshirani, and Friedman (2009) (kỹ thuật hơn).
Dự báo là một phần lớn của khoa học dữ liệu công nghiệp (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . Một loại dự báo thường được thực hiện bởi các nhà nghiên cứu xã hội là dự báo nhân khẩu học; xem, ví dụ, Raftery et al. (2012) .
Google Xu hướng dịch cúm không phải là dự án đầu tiên sử dụng dữ liệu tìm kiếm cho tỷ lệ hiện nhiễm cúm hiện nay. Trên thực tế, các nhà nghiên cứu ở Hoa Kỳ (Polgreen et al. 2008; Ginsberg et al. 2009) và Thụy Điển (Hulth, Rydevik, and Linde 2009) đã phát hiện ra rằng các từ tìm kiếm nhất định (ví dụ, “cúm”) dữ liệu trước khi nó được phát hành. Sau đó nhiều, nhiều dự án khác đã cố gắng sử dụng dữ liệu theo dõi kỹ thuật số để phát hiện theo dõi bệnh; xem Althouse et al. (2015) để xem xét.
Ngoài việc sử dụng dữ liệu theo dõi kỹ thuật số để dự đoán kết quả sức khỏe, cũng có một lượng lớn công việc sử dụng dữ liệu Twitter để dự đoán kết quả bầu cử; cho các bài đánh giá, xem Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (chương 7) và Huberty (2015) . Hiện nay các chỉ số kinh tế, chẳng hạn như tổng sản phẩm quốc nội (GDP), cũng phổ biến ở các ngân hàng trung ương, xem Bańbura et al. (2013) . Bảng 2.8 bao gồm một vài ví dụ về các nghiên cứu sử dụng một số loại dấu vết kỹ thuật số để dự đoán một số loại sự kiện trên thế giới.
Theo dõi kỹ thuật số | Kết quả | Trích dẫn |
---|---|---|
Doanh thu phòng vé của phim tại Mỹ | Asur and Huberman (2010) | |
Nhật ký tìm kiếm | Bán phim, nhạc, sách và trò chơi điện tử ở Hoa Kỳ | Goel et al. (2010) |
Chỉ số công nghiệp Dow Jones (TTCK Hoa Kỳ) | Bollen, Mao, and Zeng (2011) | |
Phương tiện truyền thông xã hội và nhật ký tìm kiếm | Khảo sát ý kiến của nhà đầu tư và thị trường chứng khoán ở Hoa Kỳ, Vương quốc Anh, Canada và Trung Quốc | Mao et al. (2015) |
Nhật ký tìm kiếm | Tỷ lệ sốt xuất huyết ở Singapore và Bangkok | Althouse, Ng, and Cummings (2011) |
Cuối cùng, Jon Kleinberg và các đồng nghiệp (2015) đã chỉ ra rằng các vấn đề dự báo rơi vào hai loại khác nhau, và các nhà khoa học xã hội có xu hướng tập trung vào một và bỏ qua khác. Hãy tưởng tượng một nhà hoạch định chính sách, tôi sẽ gọi cô ấy là Anna, người đang phải đối mặt với hạn hán và phải quyết định liệu có nên thuê một pháp sư để làm một điệu nhảy mưa để tăng cơ hội mưa. Một nhà hoạch định chính sách khác, tôi sẽ gọi cô ấy là Betty, phải quyết định xem có nên mang ô để làm việc để tránh bị ướt trên đường về nhà không. Cả Anna và Betty đều có thể đưa ra quyết định tốt hơn nếu họ hiểu được thời tiết, nhưng họ cần phải biết nhiều thứ khác nhau. Anna cần phải hiểu liệu điệu múa mưa có gây mưa hay không. Betty, mặt khác, không cần phải hiểu gì về nhân quả; cô ấy chỉ cần một dự báo chính xác. Các nhà nghiên cứu xã hội thường tập trung vào những vấn đề như vấn đề mà Anna và Anna phải đối mặt, đó là những vấn đề về chính sách “khiêu vũ mưa” - bởi vì họ liên quan đến các câu hỏi về quan hệ nhân quả. Những câu hỏi như Betty - mà Kleinberg và các đồng nghiệp gọi là các vấn đề chính sách “giống như ô dù” có thể khá quan trọng, nhưng đã nhận được sự chú ý ít hơn nhiều từ các nhà nghiên cứu xã hội.
Tạp chí Khoa học Chính trị PS đã có một hội nghị chuyên đề về dữ liệu lớn, suy luận nhân quả, và lý thuyết chính thức, và Clark and Golder (2015) tóm tắt từng đóng góp. Tạp chí Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia Hoa Kỳ đã có một hội nghị chuyên đề về suy luận nhân quả và dữ liệu lớn, và Shiffrin (2016) tóm tắt từng đóng góp. Đối với các phương pháp tiếp cận học máy mà cố gắng tự động khám phá các thí nghiệm tự nhiên bên trong các nguồn dữ liệu lớn, xem Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , và Sharma, Hofman, and Watts (2016) .
Xét về các thí nghiệm tự nhiên, Dunning (2012) cung cấp một điều trị giới thiệu, cuốn sách dài với nhiều ví dụ. Đối với một cái nhìn hoài nghi về các thí nghiệm tự nhiên, xem Rosenzweig and Wolpin (2000) (kinh tế) hoặc Sekhon and Titiunik (2012) (khoa học chính trị). Deaton (2010) và Heckman and Urzúa (2010) cho rằng việc tập trung vào các thí nghiệm tự nhiên có thể khiến các nhà nghiên cứu tập trung vào việc ước lượng các hiệu ứng nhân quả không quan trọng; Imbens (2010) đếm các đối số này với một cái nhìn lạc quan hơn về giá trị của các thí nghiệm tự nhiên.
Khi mô tả cách một nhà nghiên cứu có thể đi từ ước lượng hiệu quả của việc được soạn thảo đến hiệu quả phục vụ, tôi đã mô tả một kỹ thuật được gọi là các biến công cụ . Imbens and Rubin (2015) , trong các chương 23 và 24 của họ, giới thiệu và sử dụng dự thảo xổ số làm ví dụ. Ảnh hưởng của dịch vụ quân sự đối với người khiếu nại đôi khi được gọi là hiệu quả nhân quả trung bình của người khiếu nại (CAcE) và đôi khi hiệu quả điều trị trung bình tại địa phương (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , và Bollen (2012) đưa ra đánh giá về việc sử dụng các biến công cụ trong khoa học chính trị, kinh tế và xã hội học, và Sovey and Green (2011) cung cấp “danh sách kiểm tra của người đọc” đánh giá các nghiên cứu sử dụng các biến công cụ.
Nó chỉ ra rằng xổ số dự thảo năm 1970 đã không, trên thực tế đúng ngẫu nhiên; có những sai lệch nhỏ so với sự ngẫu nhiên thuần túy (Fienberg 1971) . Berinsky and Chatfield (2015) lập luận rằng độ lệch nhỏ này không quan trọng đáng kể và thảo luận về tầm quan trọng của việc ngẫu nhiên được tiến hành đúng cách.
Về mặt kết hợp, xem Stuart (2010) cho một đánh giá lạc quan, và Sekhon (2009) cho một đánh giá bi quan. Để biết thêm về kết hợp như một loại cắt tỉa, xem Ho et al. (2007) . Tìm một trận đấu hoàn hảo duy nhất cho mỗi người thường khó khăn, và điều này giới thiệu một số phức tạp. Đầu tiên, khi không có kết quả khớp chính xác, các nhà nghiên cứu cần quyết định cách đo khoảng cách giữa hai đơn vị và nếu khoảng cách nhất định đủ gần. Sự phức tạp thứ hai phát sinh nếu các nhà nghiên cứu muốn sử dụng nhiều kết quả phù hợp cho từng trường hợp trong nhóm điều trị, vì điều này có thể dẫn đến các ước tính chính xác hơn. Cả hai vấn đề này, cũng như những vấn đề khác, được mô tả chi tiết trong chương 18 của Imbens and Rubin (2015) . Xem thêm Phần II của ( ??? ) .
Xem Dehejia and Wahba (1999) cho một ví dụ trong đó các phương pháp kết hợp có thể đưa ra các ước tính tương tự như các ước tính từ một thử nghiệm ngẫu nhiên có đối chứng. Tuy nhiên, xem Arceneaux, Gerber, and Green (2006) và Arceneaux, Gerber, and Green (2010) cho các ví dụ mà các phương pháp đối sánh không thể tái tạo một điểm chuẩn thử nghiệm.
Rosenbaum (2015) và Hernán and Robins (2016) đưa ra lời khuyên khác cho việc khám phá các so sánh hữu ích trong các nguồn dữ liệu lớn.