Cuốn sách này bắt đầu vào năm 2005 trong một tầng hầm tại Đại học Columbia. Vào thời điểm đó, tôi là một sinh viên tốt nghiệp, và tôi đang chạy một thử nghiệm trực tuyến mà cuối cùng sẽ trở thành luận án của tôi. Tôi sẽ kể cho bạn tất cả về các phần khoa học của thí nghiệm đó trong chương 4, nhưng bây giờ tôi sẽ nói với bạn về một điều gì đó không có trong luận án của tôi hay trong bất kỳ bài báo nào của tôi. Và đó là cái gì đó về cơ bản đã thay đổi cách tôi nghĩ về nghiên cứu. Một buổi sáng, khi tôi vào văn phòng tầng hầm, tôi phát hiện ra rằng có khoảng 100 người từ Brazil đã tham gia vào thí nghiệm của tôi. Trải nghiệm đơn giản này có ảnh hưởng sâu sắc đến tôi. Vào thời điểm đó, tôi có những người bạn đang chạy thử nghiệm trong phòng thí nghiệm truyền thống, và tôi biết họ phải làm việc chăm chỉ như thế nào để tuyển dụng, giám sát và trả tiền để tham gia vào những thí nghiệm này; nếu họ có thể chạy 10 người trong một ngày, đó là tiến bộ tốt. Tuy nhiên, với thử nghiệm trực tuyến của tôi, 100 người đã tham gia trong khi tôi đang ngủ . Làm nghiên cứu của bạn trong khi bạn đang ngủ có thể âm thanh quá tốt là đúng, nhưng nó không phải là. Những thay đổi về công nghệ - đặc biệt là sự chuyển đổi từ độ tuổi tương tự sang thời đại kỹ thuật số — có nghĩa là giờ đây chúng tôi có thể thu thập và phân tích dữ liệu xã hội theo những cách mới. Cuốn sách này là về nghiên cứu xã hội theo những cách mới này.
Cuốn sách này dành cho các nhà khoa học xã hội, những người muốn làm nhiều hơn về khoa học dữ liệu, các nhà khoa học dữ liệu muốn làm nhiều khoa học xã hội hơn và bất kỳ ai quan tâm đến lai của hai lĩnh vực này. Với cuốn sách này là ai, nó nên đi mà không nói rằng nó không chỉ dành cho sinh viên và giáo sư. Mặc dù, tôi hiện đang làm việc tại một trường đại học (Princeton), tôi cũng làm việc trong chính phủ (tại Cục điều tra dân số Hoa Kỳ) và trong ngành công nghệ cao (tại Microsoft Research), vì vậy tôi biết rằng có rất nhiều nghiên cứu thú vị xảy ra bên ngoài các trường đại học. Nếu bạn nghĩ về những gì bạn đang làm như nghiên cứu xã hội, thì cuốn sách này là dành cho bạn, bất kể bạn làm việc ở đâu hay loại kỹ thuật nào bạn hiện đang sử dụng.
Như bạn có thể đã nhận thấy, tông màu của cuốn sách này hơi khác so với nhiều cuốn sách học thuật khác. Đó là cố ý. Cuốn sách này xuất phát từ một hội thảo sau đại học về khoa học xã hội tính toán mà tôi đã dạy tại Princeton tại Khoa Xã hội học từ năm 2007, và tôi muốn nó nắm bắt được một số năng lượng và hứng khởi từ hội thảo đó. Đặc biệt, tôi muốn cuốn sách này có ba đặc điểm: Tôi muốn nó có ích, định hướng tương lai và lạc quan.
Hữu ích : Mục tiêu của tôi là viết một cuốn sách hữu ích cho bạn. Do đó, tôi sẽ viết theo phong cách cởi mở, không chính thức và được ví dụ. Đó là bởi vì điều quan trọng nhất mà tôi muốn truyền đạt là một cách suy nghĩ nhất định về nghiên cứu xã hội. Và, kinh nghiệm của tôi cho thấy cách tốt nhất để truyền đạt cách suy nghĩ này là không chính thức và với rất nhiều ví dụ. Ngoài ra, ở cuối mỗi chương, tôi có một phần được gọi là "Những gì để đọc tiếp theo" sẽ giúp bạn chuyển sang các bài đọc chi tiết và kỹ thuật hơn về nhiều chủ đề mà tôi giới thiệu. Cuối cùng, tôi hy vọng cuốn sách này sẽ giúp bạn vừa nghiên cứu vừa đánh giá nghiên cứu của người khác.
Định hướng tương lai : Cuốn sách này sẽ giúp bạn thực hiện nghiên cứu xã hội bằng cách sử dụng các hệ thống kỹ thuật số tồn tại ngày nay và những hệ thống sẽ được tạo ra trong tương lai. Tôi bắt đầu thực hiện loại nghiên cứu này vào năm 2004, và kể từ đó tôi đã thấy nhiều thay đổi, và tôi chắc chắn rằng trong quá trình sự nghiệp của bạn, bạn sẽ thấy nhiều thay đổi. Bí quyết để giữ liên quan khi đối mặt với thay đổi là trừu tượng . Ví dụ, đây sẽ không phải là một cuốn sách hướng dẫn bạn chính xác cách sử dụng API Twitter như hiện nay; thay vào đó, nó sẽ dạy bạn cách học từ các nguồn dữ liệu lớn (chương 2). Đây sẽ không phải là một cuốn sách cung cấp cho bạn hướng dẫn từng bước để chạy thử nghiệm trên Amazon Mechanical Turk; thay vào đó, nó sẽ hướng dẫn bạn cách thiết kế và diễn giải các thí nghiệm dựa trên cơ sở hạ tầng về tuổi kỹ thuật số (chương 4). Thông qua việc sử dụng trừu tượng, tôi hy vọng đây sẽ là một cuốn sách vượt thời gian về một chủ đề kịp thời.
Lạc quan : Hai cộng đồng mà cuốn sách này tham gia — các nhà khoa học xã hội và các nhà khoa học dữ liệu - có những nguồn gốc và sở thích rất khác nhau. Ngoài những khác biệt liên quan đến khoa học, mà tôi nói đến trong cuốn sách, tôi cũng nhận thấy rằng hai cộng đồng này có những phong cách khác nhau. Các nhà khoa học dữ liệu nói chung vui mừng; họ có xu hướng nhìn thấy kính đầy một nửa. Mặt khác, các nhà khoa học xã hội thường quan trọng hơn; họ có xu hướng nhìn thấy ly như một nửa trống rỗng. Trong cuốn sách này, tôi sẽ áp dụng giai điệu lạc quan của một nhà khoa học dữ liệu. Vì vậy, khi tôi trình bày các ví dụ, tôi sẽ cho bạn biết những gì tôi thích về những ví dụ này. Và, khi tôi chỉ ra các vấn đề với các ví dụ - và tôi sẽ làm điều đó bởi vì không có nghiên cứu nào hoàn hảo - tôi sẽ cố gắng chỉ ra những vấn đề này theo cách tích cực và lạc quan. Tôi sẽ không quan trọng vì lợi ích của việc phê bình - tôi sẽ rất quan trọng để tôi có thể giúp bạn tạo ra nghiên cứu tốt hơn.
Chúng tôi vẫn còn trong những ngày đầu của nghiên cứu xã hội trong thời đại kỹ thuật số, nhưng tôi đã nhìn thấy một số hiểu lầm phổ biến đến mức tôi có thể giải quyết chúng ở đây, trong lời nói đầu. Từ các nhà khoa học dữ liệu, tôi đã nhìn thấy hai hiểu lầm phổ biến. Đầu tiên là suy nghĩ rằng nhiều dữ liệu tự động giải quyết vấn đề. Tuy nhiên, đối với nghiên cứu xã hội, đó không phải là kinh nghiệm của tôi. Thực tế, đối với nghiên cứu xã hội, dữ liệu tốt hơn - trái ngược với nhiều dữ liệu hơn - dường như hữu ích hơn. Sự hiểu lầm thứ hai mà tôi đã thấy từ các nhà khoa học dữ liệu đang nghĩ rằng khoa học xã hội chỉ là một loạt các cuộc nói chuyện ưa thích quấn quanh ý thức chung. Tất nhiên, là một nhà khoa học xã hội - cụ thể hơn là một nhà xã hội học - tôi không đồng ý với điều đó. Người thông minh đã làm việc chăm chỉ để hiểu hành vi của con người trong một thời gian dài, và dường như không khôn ngoan để bỏ qua sự khôn ngoan đã tích lũy từ nỗ lực này. Hy vọng của tôi là cuốn sách này sẽ cung cấp cho bạn một số sự khôn ngoan theo cách dễ hiểu.
Từ các nhà khoa học xã hội, tôi cũng đã thấy hai sự hiểu lầm phổ biến. Đầu tiên, tôi đã thấy một số người viết ra toàn bộ ý tưởng nghiên cứu xã hội bằng cách sử dụng các công cụ của thời đại kỹ thuật số vì một vài giấy tờ xấu. Nếu bạn đang đọc cuốn sách này, có lẽ bạn đã đọc một loạt các bài báo sử dụng dữ liệu truyền thông xã hội theo những cách bị cấm hoặc sai (hoặc cả hai). Tôi cũng có. Tuy nhiên, nó sẽ là một sai lầm nghiêm trọng để kết luận từ những ví dụ này mà tất cả các nghiên cứu xã hội kỹ thuật số thời đại là xấu. Trong thực tế, bạn có lẽ cũng đã đọc một loạt các giấy tờ sử dụng dữ liệu khảo sát theo những cách bị cấm hoặc sai, nhưng bạn không viết ra tất cả các nghiên cứu sử dụng các cuộc khảo sát. Đó là bởi vì bạn biết rằng có một nghiên cứu tuyệt vời được thực hiện với dữ liệu khảo sát, và trong cuốn sách này tôi sẽ cho bạn thấy rằng cũng có những nghiên cứu tuyệt vời được thực hiện với các công cụ của thời đại kỹ thuật số.
Sự hiểu lầm phổ biến thứ hai mà tôi đã thấy từ các nhà khoa học xã hội là làm lẫn lộn hiện tại với tương lai. Khi chúng tôi đánh giá nghiên cứu xã hội trong thời đại kỹ thuật số — nghiên cứu mà tôi sẽ mô tả - điều quan trọng là chúng tôi đặt hai câu hỏi riêng biệt: “Phong cách nghiên cứu này hoạt động tốt như thế nào?” Và “Phong cách này sẽ tốt đến mức nào công việc nghiên cứu trong tương lai? ”Các nhà nghiên cứu được huấn luyện để trả lời câu hỏi đầu tiên, nhưng đối với cuốn sách này tôi nghĩ câu hỏi thứ hai quan trọng hơn. Đó là, mặc dù nghiên cứu xã hội trong thời đại kỹ thuật số vẫn chưa tạo ra những đóng góp trí tuệ lớn, thay đổi theo mô hình, tỷ lệ cải thiện nghiên cứu về thời đại số là vô cùng nhanh chóng. Đó là tốc độ thay đổi này — cao hơn mức hiện tại — điều đó làm cho nghiên cứu độ tuổi kỹ thuật số trở nên thú vị đối với tôi.
Mặc dù đoạn cuối cùng có vẻ như cung cấp cho bạn tiềm năng giàu có vào một số thời điểm không xác định trong tương lai, mục tiêu của tôi không phải là để bán cho bạn về bất kỳ loại nghiên cứu cụ thể nào. Cá nhân tôi không sở hữu cổ phần trong Twitter, Facebook, Google, Microsoft, Apple hay bất kỳ công ty công nghệ nào khác (mặc dù, để tiết lộ đầy đủ, tôi nên đề cập đến việc tôi đã làm việc hoặc nhận tài trợ nghiên cứu từ Microsoft, Google và Facebook). Trong suốt cuốn sách, vì vậy, mục tiêu của tôi là duy trì một người kể chuyện đáng tin cậy, kể cho bạn nghe về tất cả những điều thú vị mới có thể, trong khi hướng dẫn bạn tránh xa một vài cái bẫy mà tôi thấy những người khác rơi vào (và đôi khi rơi vào bản thân mình) .
Giao điểm của khoa học xã hội và khoa học dữ liệu đôi khi được gọi là khoa học xã hội tính toán. Một số coi đây là một lĩnh vực kỹ thuật, nhưng đây sẽ không phải là một cuốn sách kỹ thuật theo nghĩa truyền thống. Ví dụ, không có phương trình trong văn bản chính. Tôi đã chọn viết cuốn sách theo cách này bởi vì tôi muốn cung cấp một cái nhìn toàn diện về nghiên cứu xã hội trong thời đại kỹ thuật số, bao gồm các nguồn dữ liệu lớn, khảo sát, thí nghiệm, hợp tác hàng loạt và đạo đức. Hóa ra là không thể bao quát tất cả các chủ đề này và cung cấp chi tiết kỹ thuật về từng chủ đề. Thay vào đó, các con trỏ đến các tài liệu kỹ thuật khác được đưa ra trong phần “Những gì cần đọc tiếp theo” ở cuối mỗi chương. Nói cách khác, cuốn sách này không được thiết kế để dạy bạn cách thực hiện bất kỳ phép tính cụ thể nào; thay vào đó, nó được thiết kế để thay đổi cách bạn nghĩ về nghiên cứu xã hội.
Cách sử dụng cuốn sách này trong khóa học
Như tôi đã nói trước đó, cuốn sách này nổi lên một phần từ một hội thảo sau đại học về khoa học xã hội tính toán mà tôi đã giảng dạy từ năm 2007 tại Princeton. Vì bạn có thể đang nghĩ đến việc sử dụng cuốn sách này để dạy một khóa học, tôi nghĩ rằng tôi có thể giải thích cách nó phát triển ra khỏi khóa học của tôi và tôi tưởng tượng nó được sử dụng như thế nào trong các khóa học khác.
Trong nhiều năm, tôi đã dạy khóa học của tôi mà không có một cuốn sách; Tôi chỉ cần chỉ định một tập hợp các bài báo. Trong khi các sinh viên có thể học được từ những bài báo này, thì các bài báo đó không dẫn đến những thay đổi mang tính khái niệm mà tôi đã hy vọng tạo ra. Vì vậy, tôi sẽ dành phần lớn thời gian trong lớp cung cấp phối cảnh, bối cảnh và lời khuyên để giúp các sinh viên nhìn thấy bức tranh lớn. Cuốn sách này là nỗ lực của tôi để viết ra tất cả những quan điểm, ngữ cảnh và lời khuyên đó theo cách không có điều kiện tiên quyết - về khoa học xã hội hoặc khoa học dữ liệu.
Trong một khóa học kéo dài một học kỳ, tôi khuyên bạn nên ghép nối cuốn sách này với nhiều bài đọc bổ sung. Ví dụ, một khóa học như vậy có thể dành hai tuần cho các thí nghiệm và bạn có thể ghép nối chương 4 với các bài đọc về các chủ đề như vai trò của thông tin tiền xử lý trong thiết kế và phân tích các thí nghiệm; các vấn đề thống kê và tính toán được đưa ra bởi các thử nghiệm A / B quy mô lớn tại các công ty; thiết kế các thí nghiệm đặc biệt tập trung vào các cơ chế; và các vấn đề thực tế, khoa học và đạo đức liên quan đến việc sử dụng những người tham gia từ thị trường lao động trực tuyến, chẳng hạn như Amazon Mechanical Turk. Nó cũng có thể được ghép nối với các bài đọc và các hoạt động liên quan đến lập trình. Sự lựa chọn thích hợp giữa nhiều cặp đôi có thể phụ thuộc vào các sinh viên trong khóa học của bạn (ví dụ, đại học, thạc sĩ, hoặc tiến sĩ), nguồn gốc của họ, và mục tiêu của họ.
Một khóa học dài hạn học kỳ cũng có thể bao gồm các bộ vấn đề hàng tuần. Mỗi chương có nhiều hoạt động được dán nhãn theo mức độ khó: dễ ( ), Trung bình ( ), cứng ( ) và rất khó ( ). Ngoài ra, tôi đã dán nhãn từng vấn đề bằng các kỹ năng mà nó đòi hỏi: toán học ( ), mã hóa ( ) và thu thập dữ liệu ( ). Cuối cùng, tôi đã gắn nhãn một vài hoạt động là mục yêu thích cá nhân của tôi ( ). Tôi hy vọng rằng trong bộ sưu tập đa dạng các hoạt động này, bạn sẽ tìm thấy một số hoạt động phù hợp cho sinh viên của mình.
Để giúp mọi người sử dụng cuốn sách này trong các khóa học, tôi đã bắt đầu một bộ sưu tập các tài liệu giảng dạy như giáo trình, trang trình bày, cặp đôi được đề xuất cho mỗi chương và giải pháp cho một số hoạt động. Bạn có thể tìm thấy những tài liệu này — và đóng góp cho chúng — tại http://www.bitbybitbook.com.