Galaxy Zoo kết hợp những nỗ lực của nhiều tình nguyện viên không chuyên gia để phân loại một triệu thiên hà.
Vườn thú Galaxy phát triển từ một vấn đề mà Kevin Schawinski, một sinh viên tốt nghiệp Thiên văn học tại Đại học Oxford năm 2007. Đơn giản hóa một chút, Schawinski quan tâm đến các thiên hà, và các thiên hà có thể được phân loại theo hình thái học - hình elip hoặc xoắn ốc - và bởi màu của chúng — màu xanh hoặc đỏ. Vào thời điểm đó, sự khôn ngoan thông thường giữa các nhà thiên văn học là các thiên hà xoắn ốc, như Dải Ngân hà của chúng ta, có màu xanh dương (biểu thị tuổi trẻ) và các thiên hà elip màu đỏ (biểu thị tuổi già). Schawinski nghi ngờ sự khôn ngoan thông thường này. Ông nghi ngờ rằng trong khi mô hình này có thể là sự thật nói chung, có thể có một số lượng lớn ngoại lệ, và bằng cách nghiên cứu rất nhiều các thiên hà bất thường này - những thiên hà không phù hợp với mô hình dự kiến - ông có thể tìm hiểu điều gì đó về quá trình các thiên hà được hình thành.
Vì vậy, những gì Schawinski cần để lật đổ sự khôn ngoan thông thường là một tập hợp lớn các thiên hà được phân loại hình thái; nghĩa là các thiên hà đã được phân loại là xoắn ốc hoặc hình elip. Tuy nhiên, vấn đề là các phương pháp thuật toán hiện có để phân loại chưa đủ tốt để sử dụng cho nghiên cứu khoa học; nói cách khác, phân loại các thiên hà là, vào thời điểm đó, một vấn đề khó khăn đối với máy tính. Do đó, điều cần thiết là một số lượng lớn các thiên hà được phân loại nhân loại . Schawinski thực hiện vấn đề phân loại này với sự nhiệt tình của một sinh viên tốt nghiệp. Trong một phiên chạy marathon trong bảy ngày 12 giờ, ông đã có thể phân loại 50.000 thiên hà. Trong khi 50.000 thiên hà có vẻ như rất nhiều, nó thực sự chỉ chiếm khoảng 5% trong số gần một triệu thiên hà đã được chụp ảnh trong cuộc khảo sát Sloan Digital Sky Survey. Schawinski nhận ra rằng anh cần một cách tiếp cận mở rộng hơn.
May mắn thay, nó quay ra rằng nhiệm vụ của các thiên hà phân loại không yêu cầu đào tạo tiên tiến trong thiên văn học; bạn có thể dạy cho một ai đó để làm điều đó khá nhanh chóng. Nói cách khác, mặc dù phân loại thiên hà là một nhiệm vụ rất khó khăn cho các máy tính, nó là khá dễ dàng đối với con người. Vì vậy, trong khi đang ngồi trong một quán rượu ở Oxford, Schawinski và đồng thiên văn Chris Lintott mơ lập một trang web nơi mà các tình nguyện viên sẽ phân loại các hình ảnh của các thiên hà. Một vài tháng sau đó, Galaxy Zoo được sinh ra.
Tại trang web của Galaxy Zoo, các tình nguyện viên sẽ trải qua một vài phút huấn luyện; ví dụ, tìm hiểu sự khác biệt giữa thiên hà xoắn ốc và hình elip (hình 5.2). Sau khóa đào tạo này, mỗi tình nguyện viên phải vượt qua một bài kiểm tra tương đối dễ dàng - phân loại chính xác 11 trong số 15 thiên hà với các phân loại đã biết - và sau đó sẽ bắt đầu phân loại thực sự các thiên hà chưa biết thông qua một giao diện dựa trên web đơn giản (hình 5.3). Việc chuyển đổi từ tình nguyện viên sang nhà thiên văn học sẽ diễn ra trong chưa đầy 10 phút và chỉ yêu cầu vượt qua mức thấp nhất của rào cản, một bài kiểm tra đơn giản.
Galaxy Zoo đã thu hút các tình nguyện viên đầu tiên của mình sau khi dự án được giới thiệu trong một bài báo, và trong khoảng 6 tháng, dự án đã phát triển hơn 100.000 nhà khoa học công dân, những người tham gia vì họ rất thích công việc và họ muốn giúp thúc đẩy thiên văn học. Cùng với nhau, 100.000 tình nguyện viên này đã đóng góp tổng cộng hơn 40 triệu phân loại, với phần lớn các phân loại đến từ một nhóm người tham gia tương đối nhỏ (Lintott et al. 2008) .
Các nhà nghiên cứu có kinh nghiệm tuyển dụng trợ lý nghiên cứu đại học có thể ngay lập tức hoài nghi về chất lượng dữ liệu. Trong khi chủ nghĩa hoài nghi này là hợp lý, Galaxy Zoo cho thấy rằng khi những đóng góp tình nguyện được làm sạch một cách chính xác, bị thất bại và tổng hợp, họ có thể tạo ra kết quả chất lượng cao (Lintott et al. 2008) . Một thủ thuật quan trọng để có được đám đông để tạo ra dữ liệu chất lượng chuyên nghiệp là dư thừa , đó là, có cùng một nhiệm vụ được thực hiện bởi nhiều người khác nhau. Trong Vườn thú Galaxy, có khoảng 40 phân loại trên mỗi thiên hà; các nhà nghiên cứu sử dụng trợ lý nghiên cứu đại học không bao giờ đủ khả năng cấp độ dự phòng này và do đó sẽ cần phải quan tâm nhiều hơn đến chất lượng của mỗi phân loại cá nhân. Những gì các tình nguyện viên thiếu trong đào tạo, họ tạo ra với sự thừa.
Ngay cả với nhiều phân loại trên mỗi thiên hà, tuy nhiên, kết hợp các bộ phân loại tình nguyện để tạo ra một phân loại đồng thuận là khó khăn. Vì những thách thức rất giống nhau nảy sinh trong hầu hết các dự án tính toán của con người, nên xem xét ngắn gọn ba bước mà các nhà nghiên cứu Galaxy Zoo đã sử dụng để tạo ra sự phân loại đồng thuận của họ. Đầu tiên, các nhà nghiên cứu "làm sạch" dữ liệu bằng cách loại bỏ các phân loại không có thật. Ví dụ, những người liên tục phân loại cùng một thiên hà - điều gì đó sẽ xảy ra nếu họ cố gắng thao túng kết quả - tất cả các phân loại của họ bị loại bỏ. Việc dọn dẹp tương tự và loại bỏ tương tự này đã loại bỏ khoảng 4% của tất cả các phân loại.
Thứ hai, sau khi làm sạch, các nhà nghiên cứu cần phải loại bỏ các thành kiến có hệ thống trong phân loại. Thông qua một loạt các nghiên cứu phát hiện thiên vị được nhúng trong dự án gốc - ví dụ, cho thấy một số tình nguyện viên thiên hà đơn sắc thay vì màu sắc - các nhà nghiên cứu đã khám phá ra một số thành kiến có hệ thống, chẳng hạn như một thiên vị hệ thống để phân loại các thiên hà xoắn ốc xa xôi thành các thiên hà elip (Bamford et al. 2009) . Điều chỉnh cho những thành kiến có hệ thống này là cực kỳ quan trọng bởi vì dự phòng không tự động loại bỏ sai lệch hệ thống; nó chỉ giúp loại bỏ lỗi ngẫu nhiên.
Cuối cùng, sau khi debiasing, các nhà nghiên cứu cần một phương pháp để kết hợp các phân loại cá nhân để tạo ra một phân loại đồng thuận. Cách đơn giản nhất để kết hợp các phân loại cho mỗi thiên hà sẽ là chọn phân loại phổ biến nhất. Tuy nhiên, cách tiếp cận này sẽ cho mỗi tình nguyện viên có trọng lượng ngang nhau, và các nhà nghiên cứu nghi ngờ rằng một số tình nguyện viên đã phân loại tốt hơn những người khác. Do đó, các nhà nghiên cứu đã phát triển một quy trình trọng số lặp đi lặp lại phức tạp hơn đã cố gắng phát hiện các bộ phân loại tốt nhất và cung cấp cho chúng nhiều trọng lượng hơn.
Do đó, sau một quy trình gồm ba bước - làm sạch, suy giảm và cân nặng — nhóm nghiên cứu Galaxy Zoo đã chuyển đổi 40 triệu phân loại tình nguyện thành một tập hợp các phân loại hình thái đồng thuận. Khi các phân loại Galaxy Zoo được so sánh với ba nỗ lực quy mô nhỏ hơn trước đây của các nhà thiên văn học chuyên nghiệp, bao gồm cả việc phân loại bởi Schawinski đã giúp truyền cảm hứng cho Galaxy Zoo, đã có một thỏa thuận mạnh mẽ. Vì vậy, các tình nguyện viên, tổng hợp, đã có thể cung cấp phân loại chất lượng cao và ở quy mô mà các nhà nghiên cứu không thể phù hợp (Lintott et al. 2008) . Trên thực tế, bằng cách phân loại nhân loại cho một số lượng lớn các thiên hà, Schawinski, Lintott và những người khác đã có thể chỉ ra rằng chỉ có khoảng 80% các thiên hà theo mô hình dự kiến - xoắn ốc màu xanh và hình elip màu đỏ - và nhiều bài báo đã được viết về khám phá này (Fortson et al. 2011) .
Với nền tảng này, bây giờ bạn có thể thấy cách Galaxy Zoo theo công thức kết hợp áp dụng, công thức tương tự được sử dụng cho hầu hết các dự án tính toán của con người. Đầu tiên, một vấn đề lớn được chia thành nhiều phần. Trong trường hợp này, vấn đề phân loại một triệu thiên hà được chia thành một triệu vấn đề phân loại một thiên hà. Tiếp theo, một thao tác được áp dụng cho từng đoạn độc lập. Trong trường hợp này, các tình nguyện viên phân loại từng thiên hà theo dạng xoắn ốc hoặc hình elip. Cuối cùng, kết quả được kết hợp để tạo ra một kết quả đồng thuận. Trong trường hợp này, bước kết hợp bao gồm việc làm sạch, debiasing và trọng số để tạo ra một phân loại đồng thuận cho mỗi thiên hà. Mặc dù hầu hết các dự án sử dụng công thức chung này, mỗi bước cần phải được tùy chỉnh cho vấn đề cụ thể được giải quyết. Ví dụ, trong dự án tính toán của con người được mô tả dưới đây, công thức tương tự sẽ được theo sau, nhưng các bước áp dụng và kết hợp sẽ khá khác nhau.
Đối với đội Galaxy Zoo, dự án đầu tiên này chỉ là khởi đầu. Rất nhanh chóng họ nhận ra rằng mặc dù họ có thể phân loại gần một triệu thiên hà, quy mô này không đủ để làm việc với các cuộc khảo sát bầu trời số mới hơn, có thể tạo ra hình ảnh khoảng 10 tỷ thiên hà (Kuminski et al. 2014) . Để xử lý sự gia tăng từ 1 triệu đến 10 tỷ - một yếu tố là 10.000 — Sở thú Galaxy sẽ cần tuyển thêm khoảng 10.000 lần người tham gia. Mặc dù số lượng tình nguyện viên trên Internet là lớn, nó không phải là vô hạn. Do đó, các nhà nghiên cứu nhận ra rằng nếu họ sẽ xử lý số lượng ngày càng tăng của dữ liệu, một cách tiếp cận mới, thậm chí mở rộng hơn, là cần thiết.
Do đó, Manda Banerji — làm việc với Schawinski, Lintott, và các thành viên khác của nhóm Galaxy Zoo (2010) bắt đầu dạy các máy tính để phân loại các thiên hà. Cụ thể hơn, bằng cách sử dụng phân loại của con người được tạo ra bởi Galaxy Zoo, Banerji đã xây dựng một mô hình học máy có thể dự đoán phân loại của con người về thiên hà dựa trên đặc điểm của hình ảnh. Nếu mô hình này có thể tái tạo các phân loại của con người với độ chính xác cao, thì nó có thể được các nhà nghiên cứu Galaxy Zoo sử dụng để phân loại một số thiên hà vô hạn về cơ bản.
Cốt lõi của phương pháp tiếp cận Banerji và đồng nghiệp thực sự khá giống với các kỹ thuật thường được sử dụng trong nghiên cứu xã hội, mặc dù sự tương đồng đó có thể không rõ ràng ngay từ cái nhìn đầu tiên. Đầu tiên, Banerji và các đồng nghiệp đã chuyển đổi từng hình ảnh thành một tập hợp các tính năng số tổng kết các đặc tính của nó. Ví dụ, đối với hình ảnh của các thiên hà, có thể có ba tính năng: lượng màu xanh trong hình ảnh, phương sai về độ sáng của pixel và tỷ lệ pixel không phải màu trắng. Việc lựa chọn các tính năng chính xác là một phần quan trọng của vấn đề và thường đòi hỏi chuyên môn về lĩnh vực chủ đề. Bước đầu tiên này, thường được gọi là tính năng kỹ thuật , kết quả trong một ma trận dữ liệu với một hàng cho mỗi hình ảnh và sau đó ba cột mô tả hình ảnh đó. Với ma trận dữ liệu và đầu ra mong muốn (ví dụ, hình ảnh được phân loại bởi một con người như một thiên hà elip), nhà nghiên cứu tạo ra một mô hình thống kê hoặc máy học - ví dụ, hồi quy logistic - dự đoán phân loại con người dựa trên các tính năng của hình ảnh. Cuối cùng, nhà nghiên cứu sử dụng các tham số trong mô hình thống kê này để tạo ra phân loại ước tính của các thiên hà mới (hình 5.4). Trong học máy, cách tiếp cận này — sử dụng các ví dụ được dán nhãn để tạo ra một mô hình mà sau đó có thể gắn nhãn dữ liệu mới - được gọi là học được giám sát .
Các tính năng trong mô hình học máy của Banerji và đồng nghiệp phức tạp hơn so với ví dụ đồ chơi của tôi — ví dụ, cô ấy sử dụng các tính năng như “de Vaucouleurs fit axial ratio” - và mô hình của cô không phải là hồi quy logistic, nó là một mạng thần kinh nhân tạo. Sử dụng các tính năng của cô ấy, mô hình của cô ấy và sự phân loại Galaxy Zoo đồng thuận, cô ấy có thể tạo ra trọng số cho từng tính năng và sau đó sử dụng các trọng số này để đưa ra dự đoán về phân loại các thiên hà. Ví dụ, phân tích của cô phát hiện ra rằng những hình ảnh có tỷ lệ dọc trục de de Vaucouleurs thấp có nhiều khả năng là các thiên hà xoắn ốc hơn. Với những trọng số này, cô đã có thể dự đoán được phân loại của con người về một thiên hà có độ chính xác hợp lý.
Công việc của Banerji và các đồng nghiệp đã biến Galaxy Zoo thành thứ mà tôi gọi là hệ thống tính toán con người được hỗ trợ bởi máy tính . Cách tốt nhất để suy nghĩ về các hệ thống lai này là thay vì để con người giải quyết vấn đề, họ có con người xây dựng một tập dữ liệu có thể được sử dụng để đào tạo một máy tính để giải quyết vấn đề. Đôi khi, đào tạo một máy tính để giải quyết vấn đề có thể đòi hỏi rất nhiều ví dụ, và cách duy nhất để tạo ra một số lượng đầy đủ các ví dụ là một sự hợp tác hàng loạt. Ưu điểm của cách tiếp cận hỗ trợ máy tính này là nó cho phép bạn xử lý một lượng dữ liệu vô hạn về cơ bản chỉ bằng một số lượng nỗ lực của con người. Ví dụ, một nhà nghiên cứu với hàng triệu thiên hà được phân loại có thể xây dựng một mô hình dự đoán mà sau đó có thể được sử dụng để phân loại một tỷ hoặc thậm chí một nghìn tỷ thiên hà. Nếu có số lượng lớn các thiên hà, thì loại lai ghép máy tính này thực sự là giải pháp duy nhất có thể. Tuy nhiên, khả năng mở rộng vô hạn này không phải là miễn phí. Xây dựng mô hình học máy có thể tái tạo chính xác các phân loại của con người là một vấn đề khó khăn, nhưng may mắn thay đã có những cuốn sách tuyệt vời dành riêng cho chủ đề này (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo là một minh họa tốt về việc có bao nhiêu dự án tính toán của con người phát triển. Đầu tiên, một nhà nghiên cứu cố gắng tự mình thực hiện dự án hoặc với một nhóm nhỏ các trợ lý nghiên cứu (ví dụ, nỗ lực phân loại ban đầu của Schawinski). Nếu cách tiếp cận này không có quy mô tốt, nhà nghiên cứu có thể chuyển sang dự án tính toán của con người với nhiều người tham gia. Nhưng, đối với một khối lượng dữ liệu nhất định, nỗ lực thuần khiết của con người sẽ không đủ. Tại thời điểm đó, các nhà nghiên cứu cần xây dựng một hệ thống tính toán con người được hỗ trợ bởi máy tính, trong đó phân loại con người được sử dụng để đào tạo một mô hình học máy mà sau đó có thể được áp dụng cho số lượng dữ liệu gần như không giới hạn.