Đối với tôi, cuốn sách này bắt đầu vào năm 2005, khi tôi đang làm việc trên luận án của tôi. Tôi đã chạy một thử nghiệm trực tuyến, mà tôi sẽ cho bạn biết tất cả về trong Chương 4, nhưng bây giờ tôi sẽ nói với bạn điều gì đó mà không có trong bất kỳ báo cáo khoa học. Và, đó là một cái gì đó về cơ bản đã thay đổi như thế nào tôi nghĩ về nghiên cứu. Một buổi sáng, khi tôi kiểm tra các máy chủ web, tôi phát hiện ra rằng qua đêm khoảng 100 người đến từ Brazil đã tham gia vào thử nghiệm của tôi. Kinh nghiệm này đã có một tác động sâu sắc đến tôi. Tại thời điểm đó, tôi có những người bạn đang chạy thử nghiệm trong phòng thí nghiệm truyền thống, và tôi biết bao khó khăn mà họ phải làm việc để tuyển dụng, giám sát, và trả tiền cho người tham gia thí nghiệm của họ; nếu họ có thể chạy 10 người trong một ngày duy nhất, đó là tiến triển tốt. Nhưng, với thí nghiệm trực tuyến của tôi, 100 người tham gia, trong khi tôi đang ngủ. Làm nghiên cứu của bạn trong khi bạn đang ngủ nghe có vẻ quá tốt là đúng, nhưng nó không phải là. Những thay đổi trong công nghệ đặc biệt là quá trình chuyển đổi từ độ tuổi tương tự với tuổi trung bình kỹ thuật số mà bây giờ chúng tôi có thể thu thập và phân tích dữ liệu xã hội theo những cách mới. Cuốn sách này là về làm nghiên cứu xã hội theo những cách mới.
Cuốn sách này là dành cho hai cộng đồng khác nhau. Nó là dành cho các nhà khoa học xã hội mà muốn làm khoa học nhiều dữ liệu hơn, và nó là dành cho các nhà khoa học dữ liệu mà muốn làm khoa học xã hội hơn. Tôi dành nhiều thời gian ở cả hai cộng đồng, và cuốn sách này là nỗ lực của tôi để mang lại những ý tưởng của họ với nhau theo một cách nào tránh những khuyết tật và biệt ngữ của một trong hai. Với cộng đồng rằng cuốn sách này là cho, nó phải đi mà không nói rằng cuốn sách này không chỉ dành cho sinh viên và giáo sư. Tôi đã làm việc một số người trong chính phủ (tại US Census Bureau) và trong các ngành công nghiệp công nghệ cao (tại Microsoft Research), và tôi biết rằng có rất nhiều nghiên cứu thú vị xảy ra bên ngoài của các trường đại học. Vì vậy, nếu bạn nghĩ về những gì bạn đang làm là nghiên cứu xã hội, sau đó cuốn sách này là dành cho bạn, không có vấn đề nơi bạn làm việc hoặc những loại kỹ thuật mà bạn đang sử dụng.
Chúng tôi vẫn đang trong những ngày đầu của nghiên cứu xã hội trong thời đại kỹ thuật số, và tôi đã nhìn thấy một số hiểu lầm rất cơ bản và rất phổ biến mà nó làm cho ý nghĩa nhất đối với tôi để giải quyết chúng ở đây, trong lời nói đầu. Từ các nhà khoa học dữ liệu, tôi đã nhìn thấy hai hiểu lầm phổ biến. Việc đầu tiên là suy nghĩ rằng nhiều dữ liệu hơn sẽ tự động giải quyết vấn đề. Nhưng, đối với nghiên cứu xã hội đã không được kinh nghiệm của tôi. Trong thực tế, nghiên cứu xã hội mới của các loại dữ liệu, như trái ngược với nhiều dữ liệu cùng, có vẻ là hữu ích nhất. Cái sai lầm thứ hai mà tôi đã nhìn thấy từ các nhà khoa học dữ liệu đang nghĩ rằng khoa học xã hội chỉ là một bó của fancy-talk quấn quanh cảm giác thông thường. Tất nhiên, như một xã hội khoa học biệt hơn nữa là một nhà xã hội học, tôi không đồng ý với điều đó; Tôi nghĩ rằng khoa học xã hội có rất nhiều để cung cấp. Những người thông minh đã làm việc chăm chỉ để hiểu hành vi con người trong một thời gian dài, và có vẻ như không khôn ngoan khi bỏ qua sự khôn ngoan mà đã tích lũy được từ nỗ lực này. Tôi hy vọng rằng cuốn sách này sẽ cung cấp cho bạn một số của trí tuệ mà trong một cách đó là dễ hiểu.
Từ các nhà khoa học xã hội, tôi cũng đã nhìn thấy hai hiểu lầm phổ biến. Trước tiên, tôi đã nhìn thấy một số người viết-off toàn bộ ý tưởng của nghiên cứu xã hội bằng cách sử dụng các công cụ của thời đại kỹ thuật số dựa trên một vài giấy tờ xấu. Nếu bạn đang đọc cuốn sách này, bạn có thể đã đọc một loạt các giấy tờ sử dụng dữ liệu truyền thông xã hội trong những cách đó là tầm thường hay sai (hoặc cả hai). Tôi cũng có. Tuy nhiên, nó sẽ là một sai lầm nghiêm trọng để kết luận từ những ví dụ mà tất cả các đại kỹ thuật số nghiên cứu xã hội là xấu. Trong thực tế, bạn đã có thể cũng đọc một loạt các giấy tờ sử dụng số liệu điều tra theo những cách tầm thường hay sai, nhưng bạn không viết tắt tất cả các nghiên cứu sử dụng các cuộc điều tra. Đó là bởi vì bạn biết rằng có nghiên cứu lớn thực hiện với số liệu điều tra, và trong cuốn sách này, tôi sẽ cho bạn thấy rằng đó cũng là nghiên cứu lớn thực hiện với các công cụ của thời đại kỹ thuật số.
Những hiểu lầm phổ biến thứ hai mà tôi đã nhìn thấy từ các nhà khoa học xã hội là để gây nhầm lẫn hiện tại với tương lai. Khi đánh giá nghiên cứu xã hội trong thời đại-kỹ thuật số nghiên cứu mà tôi sẽ mô tả trong cuốn sách này-điều quan trọng là phải hỏi hai câu hỏi phân biệt:
Mặc dù các nhà nghiên cứu đang được đào tạo để trả lời câu hỏi đầu tiên, cuốn sách này, tôi nghĩ rằng câu hỏi thứ hai là quan trọng hơn. Đó là, mặc dù nghiên cứu xã hội trong thời đại kỹ thuật số đã chưa sản xuất lớn, mô hình thay đổi đóng góp trí tuệ, tỷ lệ cải thiện nghiên cứu đại kỹ thuật số là vô cùng nhanh chóng. Đây là tỷ lệ này thay đổi, nhiều hơn so với hiện nay, mà làm cho nghiên cứu đại kỹ thuật số rất thú vị đối với tôi.
Mặc dù đó là đoạn cuối cùng dường như cung cấp cho bạn sự giàu tiềm năng tại một số thời gian không xác định trong tương lai, mục tiêu của tôi trong cuốn sách này không phải là để bán cho bạn trên bất kỳ loại hình cụ thể của nghiên cứu. Tôi làm không phải cá nhân sở hữu cổ phần trong Twitter, Facebook, Google, Microsoft, Apple hay bất kỳ công ty công nghệ khác (mặc dù, vì lợi ích của việc tiết lộ đầy đủ, tôi đã làm việc tại hoặc nhận được tài trợ nghiên cứu từ Microsoft, Google và Facebook). Nếu bạn hài lòng với những nghiên cứu mà bạn đã làm: tuyệt vời, tiếp tục làm những gì bạn đang làm. Nhưng, nếu bạn có một cảm giác rằng thời đại kỹ thuật số có nghĩa là những điều mới mẻ và khác biệt là có thể, sau đó tôi muốn cho bạn thấy những khả năng. Như vậy, trong suốt cuốn sách mục tiêu của tôi là để vẫn là một người kể chuyện đáng tin cậy, nói cho bạn về tất cả các công cụ mới thú vị đó là có thể, đồng thời hướng dẫn bạn đi từ một vài cạm bẫy mà tôi đã nhìn thấy người khác rơi vào. Tôi hy vọng rằng điều này sẽ giúp cải thiện nghiên cứu của bạn và giúp bạn đánh giá tốt hơn các nghiên cứu của người khác.
Như bạn có thể thấy đã có, những giai điệu của cuốn sách này là một chút khác nhau từ một số cuốn sách hàn lâm khác. Đó là cố ý. Cuốn sách này nổi lên từ một hội thảo tốt mà tôi đã giảng dạy tại Princeton tại Khoa Xã hội học, và tôi muốn cuốn sách này để chụp một số năng lượng và hứng thú từ buổi hội thảo đó. Đặc biệt, tôi muốn cuốn sách này có ba đặc điểm: hữu ích, lạc quan, và định hướng tương lai.
Hữu ích: Mục tiêu của tôi là viết một cuốn sách đó là hữu ích cho bạn. Vì vậy, tôi sẽ viết trong một phong cách cởi mở và thân mật. Đó là bởi vì điều quan trọng nhất mà tôi muốn truyền tải là một cách nào đó để suy nghĩ về nghiên cứu xã hội. Và kinh nghiệm của tôi từ giảng dạy cho thấy rằng cách tốt nhất để truyền đạt cách nghĩ này là không chính thức và có rất nhiều ví dụ.
Lạc quan: các nhà khoa học của hai cộng đồng rằng cuốn sách này tham gia vào xã hội và dữ liệu khoa học-có phong cách rất khác nhau. các nhà khoa học dữ liệu nói chung là vui mừng; họ có xu hướng để xem kính như một nửa đầy đủ. các nhà khoa học xã hội, mặt khác, nói chung là quan trọng hơn; họ có xu hướng để xem kính như là một nửa sản phẩm nào. Trong cuốn sách này, tôi sẽ chấp nhận những giai điệu lạc quan của một nhà khoa học dữ liệu, mặc dù đào tạo của tôi là một nhà khoa học xã hội. Vì vậy, khi tôi trình bày các ví dụ, tôi sẽ cho bạn biết những gì tôi thích về những ví dụ. Và, khi tôi làm chỉ ra vấn đề với các ví dụ, và tôi sẽ làm điều này vì không có nghiên cứu là hoàn hảo-Em sẽ cố gắng để chỉ ra những vấn đề này một cách tích cực và lạc quan. Tôi sẽ không quan trọng đối với lợi ích của việc quan trọng. Tôi sẽ rất quan trọng để tôi có thể giúp bạn tạo ra các nghiên cứu đẹp hơn.
Định hướng tương lai: Tôi hy vọng rằng cuốn sách này sẽ giúp bạn làm nghiên cứu xã hội bằng cách sử dụng các hệ thống kỹ thuật số mà tồn tại ngày hôm nay và các hệ thống kỹ thuật số sẽ được tạo ra trong tương lai. Tôi bắt đầu làm loại nghiên cứu này vào năm 2003, và kể từ đó tôi đã nhìn thấy rất nhiều thay đổi. Tôi nhớ rằng khi tôi còn ở những người học cao học rất vui mừng về việc sử dụng MySpace cho nghiên cứu xã hội. Và, khi tôi dạy lớp đầu tiên của tôi về những gì tôi sau đó được gọi là "nghiên cứu xã hội dựa trên web", mọi người đều rất vui mừng về thế giới ảo như Secondlife. Tôi chắc chắn rằng trong tương lai nhiều về những gì mọi người đang nói về ngày hôm nay sẽ có vẻ ngớ ngẩn và lỗi thời. Bí quyết để ở có liên quan khi đối mặt với sự thay đổi nhanh chóng này là trừu tượng. Do đó, điều này sẽ không thể là một cuốn sách dạy bạn biết chính xác làm thế nào để sử dụng API Twitter; thay vào đó, nó sẽ là một cuốn sách dạy bạn làm thế nào để học hỏi từ những dấu vết kỹ thuật số (Chương 2). Đây không phải là có được một cuốn sách cung cấp cho bạn bước theo các bước hướng dẫn để chạy thử nghiệm trên Amazon Mechanical Turk; thay vào đó, nó sẽ dạy bạn làm thế nào để thiết kế và giải thích thí nghiệm dựa trên cơ sở hạ tầng đại kỹ thuật số (Chương 4). Thông qua việc sử dụng các khái niệm trừu tượng, tôi hy vọng điều này sẽ là một cuốn sách vô tận về một chủ đề kịp thời.
Tôi nghĩ rằng đây là thời điểm thú vị nhất từng được một nhà nghiên cứu xã hội, và tôi sẽ cố gắng để truyền tải sự phấn khích mà trong một cách đó là chính xác. Đó là, đó là thời gian để di chuyển ngoài nói chung chung mơ hồ về sức mạnh kỳ diệu của dữ liệu mới. Đó là thời gian để có được cụ thể.