Hợp tác hàng loạt pha trộn ý tưởng từ khoa học công dân, crowdsourcing, và trí tuệ tập thể. Khoa học công dân thường có nghĩa là liên quan đến "công dân" (tức là, những người không chuyên khoa) trong quá trình khoa học; để biết thêm, xem Crain, Cooper, and Dickinson (2014) và Bonney et al. (2014) . Crowdsourcing thường có nghĩa là lấy một vấn đề thường được giải quyết trong một tổ chức và thay vào đó gia công nó cho một đám đông; để biết thêm, xem Howe (2009) . Trí thông minh tập thể thường có nghĩa là các nhóm cá nhân hành động chung theo những cách có vẻ thông minh; để biết thêm, xem Malone and Bernstein (2015) . Nielsen (2012) là một cuốn sách giới thiệu về sức mạnh của sự hợp tác hàng loạt cho nghiên cứu khoa học.
Có rất nhiều loại hợp tác đại chúng không phù hợp với ba loại mà tôi đã đề xuất, và tôi nghĩ ba trong số đó xứng đáng được chú ý đặc biệt bởi vì chúng có thể hữu ích trong nghiên cứu xã hội. Một ví dụ là thị trường dự đoán, nơi người tham gia mua và giao dịch hợp đồng có thể quy đổi dựa trên kết quả xảy ra trên thế giới. Các thị trường dự đoán thường được các công ty và chính phủ sử dụng để dự báo và họ cũng đã được các nhà nghiên cứu xã hội sử dụng để dự đoán khả năng tái tạo của các nghiên cứu được công bố về tâm lý học (Dreber et al. 2015) . Để biết tổng quan về các thị trường dự đoán, xem Wolfers and Zitzewitz (2004) và Arrow et al. (2008) .
Một ví dụ thứ hai không phù hợp với đề án phân loại của tôi là dự án PolyMath, nơi các nhà nghiên cứu đã cộng tác sử dụng các blog và wiki để chứng minh các định lý toán học mới. Dự án PolyMath là một số cách tương tự như Giải thưởng Netflix, nhưng trong dự án này, người tham gia tích cực hơn được xây dựng trên các giải pháp từng phần của người khác. Để biết thêm về dự án PolyMath, xem Gowers and Nielsen (2009) , Cranshaw and Kittur (2011) , Nielsen (2012) , và Kloumann et al. (2016) .
Ví dụ thứ ba không phù hợp với chương trình phân loại của tôi là các huy động phụ thuộc vào thời gian như Thách thức mạng của Cơ quan dự án nghiên cứu nâng cao (DARPA) của Cơ quan dự án nghiên cứu nâng cao (nghĩa là Thách thức bóng đỏ). Để biết thêm về những lần huy động nhạy cảm với thời gian này, hãy xem Pickard et al. (2011) , Tang et al. (2011) , và Rutherford et al. (2013) .
Thuật ngữ "tính toán con người" được thực hiện bởi các nhà khoa học máy tính và hiểu bối cảnh đằng sau nghiên cứu này sẽ cải thiện khả năng của bạn để chọn ra các vấn đề có thể phù hợp với nó. Đối với một số nhiệm vụ, máy tính cực kỳ mạnh mẽ, với khả năng vượt xa những con người thậm chí là chuyên gia. Ví dụ, trong cờ vua, máy tính có thể đánh bại ngay cả những vị tướng giỏi nhất. Nhưng — và điều này ít được các nhà khoa học xã hội đánh giá cao - cho các nhiệm vụ khác, máy tính thực sự tồi tệ hơn nhiều so với con người. Nói cách khác, ngay bây giờ, bạn thậm chí còn tốt hơn cả máy tính tinh vi nhất ở một số nhiệm vụ liên quan đến việc xử lý hình ảnh, video, âm thanh và văn bản. Các nhà khoa học máy tính làm việc trên những nhiệm vụ khó khăn cho máy tính này do đó nhận ra rằng họ có thể bao gồm con người trong quá trình tính toán của họ. Đây là cách Luis von Ahn (2005) mô tả tính toán con người khi ông lần đầu tiên đặt ra thuật ngữ trong luận án của mình: “một mô hình để tận dụng sức mạnh xử lý con người để giải quyết các vấn đề mà máy tính chưa thể giải quyết được.” ý nghĩa chung nhất của thuật ngữ, xem Law and Ahn (2011) .
Theo định nghĩa được đề xuất trong Ahn (2005) Foldit — mà tôi đã mô tả trong phần về các cuộc gọi mở — có thể được coi là một dự án tính toán của con người. Tuy nhiên, tôi chọn phân loại Foldit là một cuộc gọi mở vì nó yêu cầu các kỹ năng chuyên môn (mặc dù không nhất thiết phải được đào tạo chính quy) và nó có giải pháp tốt nhất đã đóng góp, thay vì sử dụng chiến lược kết hợp áp dụng.
Thuật ngữ "tách-áp dụng-kết hợp" được sử dụng bởi Wickham (2011) để mô tả một chiến lược cho tính toán thống kê, nhưng nó hoàn toàn nắm bắt được quá trình của nhiều dự án tính toán của con người. Chiến lược kết hợp phân chia áp dụng tương tự như khung công tác MapReduce được phát triển tại Google; để biết thêm về MapReduce, xem Dean and Ghemawat (2004) và Dean and Ghemawat (2008) . Để biết thêm về kiến trúc điện toán phân tán khác, xem Vo and Silvia (2016) . Chương 3 của Law and Ahn (2011) đã thảo luận về các dự án với các bước kết hợp phức tạp hơn các bước trong chương này.
Trong các dự án tính toán con người mà tôi đã thảo luận trong chương này, những người tham gia đã nhận thức được những gì đang xảy ra. Một số dự án khác, tuy nhiên, tìm cách nắm bắt "công việc" đã xảy ra (tương tự như eBird) và không có nhận thức của người tham gia. Xem, ví dụ, trò chơi ESP (Ahn and Dabbish 2004) và reCAPTCHA (Ahn et al. 2008) . Tuy nhiên, cả hai dự án này cũng nâng cao các câu hỏi đạo đức bởi vì những người tham gia không biết cách sử dụng dữ liệu của họ (Zittrain 2008; Lung 2012) .
Lấy cảm hứng từ trò chơi ESP, nhiều nhà nghiên cứu đã cố gắng phát triển các "trò chơi khác với mục đích" (Ahn and Dabbish 2008) (ví dụ: "trò chơi tính toán dựa trên con người" (Pe-Than, Goh, and Lee 2015) ) được sử dụng để giải quyết một loạt các vấn đề khác. Những "trò chơi với mục đích" có điểm gì chung là họ cố gắng thực hiện các nhiệm vụ liên quan đến tính toán của con người một cách thú vị. Vì vậy, trong khi trò chơi ESP chia sẻ cùng một cấu trúc chia kết hợp áp dụng với Galaxy Zoo, nó khác với cách người tham gia được thúc đẩy - vui vẻ so với mong muốn giúp khoa học. Để biết thêm về các trò chơi với mục đích, hãy xem Ahn and Dabbish (2008) .
Mô tả của tôi về Galaxy Zoo thu hút Nielsen (2012) , Adams (2012) , Clery (2011) và Hand (2010) , và trình bày của tôi về các mục tiêu nghiên cứu của Galaxy Zoo đã được đơn giản hóa. Để biết thêm về lịch sử phân loại thiên hà trong thiên văn học và cách Sở thú Galaxy tiếp tục truyền thống này, xem Masters (2012) và Marshall, Lintott, and Fletcher (2015) . Xây dựng trên Galaxy Zoo, các nhà nghiên cứu hoàn thành Galaxy Zoo 2 thu thập hơn 60 triệu phân loại hình thái phức tạp hơn từ các tình nguyện viên (Masters et al. 2011) . Hơn nữa, chúng phân nhánh thành các vấn đề bên ngoài hình thái thiên hà, bao gồm khám phá bề mặt của Mặt trăng, tìm kiếm các hành tinh và sao chép các tài liệu cũ. Hiện tại, tất cả các dự án của họ được thu thập tại trang web Zooniverse (Cox et al. 2015) . Một trong những dự án — Snapshot Serengeti — cung cấp bằng chứng cho thấy các dự án phân loại hình ảnh của Sở thú Galaxy cũng có thể được thực hiện cho nghiên cứu môi trường (Swanson et al. 2016) .
Đối với các nhà nghiên cứu có kế hoạch sử dụng thị trường lao động microtask (ví dụ Amazon Mechanical Turk) cho dự án tính toán con người, Chandler, Paolacci, and Mueller (2013) và J. Wang, Ipeirotis, and Provost (2015) đưa ra lời khuyên tốt về thiết kế nhiệm vụ và các vấn đề liên quan khác. Porter, Verdery, and Gaddis (2016) đưa ra các ví dụ và lời khuyên tập trung cụ thể vào việc sử dụng thị trường lao động vi mô cho những gì họ gọi là “tăng cường dữ liệu”. Đường giữa tăng cường dữ liệu và thu thập dữ liệu hơi bị mờ. Để biết thêm về cách thu thập và sử dụng nhãn cho việc học có giám sát cho văn bản, hãy xem Grimmer and Stewart (2013) .
Các nhà nghiên cứu quan tâm đến việc tạo ra cái mà tôi gọi là hệ thống tính toán của con người được hỗ trợ bởi máy tính (ví dụ, các hệ thống sử dụng nhãn người để đào tạo mô hình học máy) có thể quan tâm đến Shamir et al. (2014) (ví dụ sử dụng âm thanh) và Cheng and Bernstein (2015) . Ngoài ra, các mô hình học máy trong các dự án này có thể được trưng cầu với các cuộc gọi mở, theo đó các nhà nghiên cứu cạnh tranh để tạo ra các mô hình học máy với hiệu suất tiên đoán lớn nhất. Ví dụ, nhóm Galaxy Zoo đã thực hiện một cuộc gọi mở và tìm ra một cách tiếp cận mới vượt trội hơn phương pháp được phát triển ở Banerji et al. (2010) ; xem Dieleman, Willett, and Dambre (2015) để biết chi tiết.
Cuộc gọi mở không phải là mới. Trong thực tế, một trong những cuộc gọi mở nổi tiếng nhất có niên đại từ năm 1714 khi Quốc hội Anh tạo ra Giải thưởng Kinh độ cho bất kỳ ai có thể phát triển một cách để xác định kinh độ của một con tàu trên biển. Vấn đề nảy sinh trong nhiều nhà khoa học vĩ đại nhất trong ngày, bao gồm Isaac Newton, và giải pháp chiến thắng cuối cùng đã được John Harrison, một nhà sản xuất đồng hồ từ nông thôn tiếp cận vấn đề khác với các nhà khoa học tập trung vào giải pháp mà bằng cách nào đó liên quan đến thiên văn học. ; để biết thêm thông tin, xem Sobel (1996) . Như ví dụ này minh họa, một lý do mà các cuộc gọi mở được cho là hoạt động rất tốt là họ cung cấp quyền truy cập cho những người có quan điểm và kỹ năng khác nhau (Boudreau and Lakhani 2013) . Xem Hong and Page (2004) và Page (2008) để biết thêm về giá trị đa dạng trong giải quyết vấn đề.
Mỗi trường hợp cuộc gọi mở trong chương yêu cầu một chút giải thích thêm về lý do tại sao nó thuộc về thể loại này. Thứ nhất, một cách mà tôi phân biệt giữa tính toán con người và dự án cuộc gọi mở là liệu đầu ra là trung bình của tất cả các giải pháp (tính toán con người) hay giải pháp tốt nhất (gọi mở). Giải thưởng Netflix hơi phức tạp về vấn đề này vì giải pháp tốt nhất hóa ra là một giải pháp phức tạp của các giải pháp riêng lẻ, một giải pháp được gọi là giải pháp tổng hợp (Bell, Koren, and Volinsky 2010; Feuerverger, He, and Khatri 2012) . Tuy nhiên, theo quan điểm của Netflix, tất cả những gì họ phải làm là chọn giải pháp tốt nhất. Để biết thêm về giải Netflix, xem Bennett and Lanning (2007) , Thompson (2008) , Bell, Koren, and Volinsky (2010) , và Feuerverger, He, and Khatri (2012) .
Thứ hai, bởi một số định nghĩa về tính toán của con người (ví dụ, Ahn (2005) ), Foldit nên được coi là một dự án tính toán của con người. Tuy nhiên, tôi chọn phân loại nó như là một cuộc gọi mở vì nó yêu cầu các kỹ năng chuyên môn (mặc dù không nhất thiết phải đào tạo chuyên ngành) và nó có giải pháp tốt nhất, thay vì sử dụng chiến lược kết hợp áp dụng. Để biết thêm về Foldit, Cooper et al. (2010) , Khatib et al. (2011) , Andersen et al. (2012) ; mô tả của tôi về Foldit dựa trên các mô tả trong Bohannon (2009) , Hand (2010) và Nielsen (2012) .
Cuối cùng, người ta có thể cho rằng Peer-to-Patent là một ví dụ về việc thu thập dữ liệu phân tán. Tôi chọn để bao gồm nó như là một cuộc gọi mở vì nó có cấu trúc giống như cuộc thi và chỉ những đóng góp tốt nhất được sử dụng, trong khi với thu thập dữ liệu phân tán, ý tưởng đóng góp tốt và xấu ít rõ ràng hơn. Để biết thêm về Peer-to-Patent, xem Noveck (2006) , Ledford (2007) , Noveck (2009) , và Bestor and Hamp (2010) .
Xét về việc sử dụng các cuộc gọi mở trong nghiên cứu xã hội, kết quả tương tự như của Glaeser et al. (2016) , được báo cáo trong chương 10 của Mayer-Schönberger and Cukier (2013) theo đó Thành phố New York có thể sử dụng mô hình dự đoán để tạo ra lợi ích lớn trong năng suất của các thanh tra nhà ở. Ở thành phố New York, các mô hình dự báo này được xây dựng bởi các nhân viên thành phố, nhưng trong các trường hợp khác, người ta có thể tưởng tượng rằng chúng có thể được tạo ra hoặc cải tiến với các cuộc gọi mở (ví dụ, Glaeser et al. (2016) ). Tuy nhiên, một mối quan tâm lớn với các mô hình dự báo được sử dụng để phân bổ tài nguyên là các mô hình này có tiềm năng để củng cố các thành kiến hiện có. Nhiều nhà nghiên cứu đã biết "rác thải, rác thải", và với các mô hình tiên đoán nó có thể là "thiên vị, thiên vị." Xem Barocas and Selbst (2016) và O'Neil (2016) để biết thêm về sự nguy hiểm của các mô hình dự báo được xây dựng với dữ liệu đào tạo thiên vị.
Một vấn đề có thể ngăn cản các chính phủ sử dụng các cuộc thi mở là điều này yêu cầu phát hành dữ liệu, điều này có thể dẫn đến vi phạm quyền riêng tư. Để biết thêm về quyền riêng tư và phát hành dữ liệu trong các cuộc gọi mở, xem Narayanan, Huey, and Felten (2016) và thảo luận trong chương 6.
Để biết thêm về sự khác biệt và tương đồng giữa dự đoán và giải thích, xem Breiman (2001) , Shmueli (2010) , Watts (2014) , và Kleinberg et al. (2015) . Để biết thêm về vai trò của dự đoán trong nghiên cứu xã hội, xem Athey (2017) , Cederman and Weidmann (2017) , Hofman, Sharma, and Watts (2017) , ( ??? ) , và Yarkoni and Westfall (2017) .
Để xem xét các dự án cuộc gọi mở trong sinh học, bao gồm tư vấn thiết kế, xem Saez-Rodriguez et al. (2016) .
Mô tả của tôi về eBird thu hút các mô tả trong Bhattacharjee (2005) , Robbins (2013) , và Sullivan et al. (2014) . Để biết thêm về cách các nhà nghiên cứu sử dụng các mô hình thống kê để phân tích dữ liệu eBird, hãy xem Fink et al. (2010) và Hurlbert and Liang (2012) . Để biết thêm về ước tính kỹ năng của những người tham gia eBird, hãy xem Kelling, Johnston, et al. (2015) . Để biết thêm thông tin về lịch sử của khoa học công dân trong lĩnh vực nghiên cứu chim, xem Greenwood (2007) .
Để biết thêm thông tin về dự án tạp chí Malawi, xem Watkins and Swidler (2009) và Kaler, Watkins, and Angotti (2015) . Để biết thêm về một dự án liên quan ở Nam Phi, xem Angotti and Sennott (2015) . Để biết thêm ví dụ về nghiên cứu sử dụng dữ liệu từ Dự án tạp chí Malawi, xem Kaler (2004) và Angotti et al. (2014) .
Cách tiếp cận của tôi để cung cấp lời khuyên thiết kế là quy nạp, dựa trên các ví dụ về các dự án cộng tác đại chúng thành công và thất bại mà tôi đã nghe nói đến. Cũng có một loạt các nỗ lực nghiên cứu để áp dụng nhiều lý thuyết tâm lý xã hội tổng quát hơn để thiết kế các cộng đồng trực tuyến có liên quan đến thiết kế các dự án cộng tác đại chúng, xem ví dụ, Kraut et al. (2012) .
Về động cơ thúc đẩy người tham gia, thực sự là khá khó khăn để tìm ra chính xác lý do tại sao mọi người tham gia vào các dự án hợp tác hàng loạt (Cooper et al. 2010; Nov, Arazy, and Anderson 2011; Tuite et al. 2011; Raddick et al. 2013; Preist, Massung, and Coyle 2014) . Nếu bạn có kế hoạch thúc đẩy người tham gia thanh toán trên thị trường lao động microtask (ví dụ, Amazon Mechanical Turk), Kittur et al. (2013) đưa ra một số lời khuyên.
Về việc cho phép bất ngờ, để biết thêm ví dụ về những khám phá bất ngờ sắp ra mắt của các dự án Zooiverse, xem Marshall, Lintott, and Fletcher (2015) .
Về đạo đức, một số giới thiệu chung tốt cho các vấn đề liên quan là Gilbert (2015) , Salehi et al. (2015) , Schmidt (2013) , Williamson (2016) , Resnik, Elliott, and Miller (2015) và Zittrain (2008) . Đối với các vấn đề liên quan cụ thể đến các vấn đề pháp lý với nhân viên đám đông, xem Felstiner (2011) . O'Connor (2013) giải quyết các câu hỏi về giám sát đạo đức của nghiên cứu khi vai trò của các nhà nghiên cứu và người tham gia bị mờ. Đối với các vấn đề liên quan đến chia sẻ dữ liệu trong khi bảo vệ người tham gia trong các dự án khoa học công dân, xem Bowser et al. (2014) . Cả Purdam (2014) và Windt and Humphreys (2016) đều có một số thảo luận về các vấn đề đạo đức trong việc thu thập dữ liệu phân tán. Cuối cùng, hầu hết các dự án đều ghi nhận những đóng góp nhưng không cung cấp tín dụng quyền tác giả cho người tham gia. Trong Foldit, người chơi thường được liệt kê là tác giả (Cooper et al. 2010; Khatib et al. 2011) . Trong các dự án cuộc gọi mở khác, người đóng góp chiến thắng thường có thể viết một bài báo mô tả các giải pháp của họ (ví dụ: Bell, Koren, and Volinsky (2010) và Dieleman, Willett, and Dambre (2015) ).