[ , ] Sự nhầm lẫn về thuật toán là một vấn đề với Google Xu hướng dịch cúm. Đọc bài báo của Lazer et al. (2014) và viết một email ngắn, rõ ràng cho một kỹ sư tại Google giải thích vấn đề và đưa ra ý tưởng về cách khắc phục.
[ ] Bollen, Mao, and Zeng (2011) tuyên bố rằng dữ liệu từ Twitter có thể được sử dụng để dự đoán thị trường chứng khoán. Phát hiện này dẫn đến việc tạo ra một quỹ phòng hộ — Derwent Capital Markets — để đầu tư vào thị trường chứng khoán dựa trên dữ liệu thu thập được từ Twitter (Jordan 2010) . Bạn muốn xem bằng chứng nào trước khi đưa tiền vào quỹ đó?
[ ] Trong khi một số người ủng hộ y tế công cộng coi thuốc lá điện tử là một trợ giúp hiệu quả cho cai thuốc lá, những người khác cảnh báo về những rủi ro tiềm ẩn, chẳng hạn như mức nicotin cao. Hãy tưởng tượng rằng một nhà nghiên cứu quyết định nghiên cứu ý kiến công chúng về thuốc lá điện tử bằng cách thu thập các bài đăng trên Twitter có liên quan đến thuốc lá điện tử và tiến hành phân tích tình cảm.
[ ] Vào tháng 11 năm 2009, Twitter đã thay đổi câu hỏi trong hộp tweet từ “Bạn đang làm gì?” Thành “Chuyện gì đang xảy ra?” (Https://blog.twitter.com/2009/whats-happening).
[ "Retweets" thường được sử dụng để đo lường ảnh hưởng và sự lây lan của ảnh hưởng trên Twitter. Ban đầu, người dùng phải sao chép và dán các tweet mà họ thích, gắn thẻ tác giả gốc với / xử lý của mình và gõ "RT" theo cách thủ công trước tweet để cho biết rằng đó là tweet lại. Sau đó, trong năm 2009, Twitter đã thêm một nút “tweet lại”. Vào tháng 6 năm 2016, Twitter đã giúp người dùng có thể tweet lại tweet của riêng họ (https://twitter.com/twitter/status/742749353689780224). Bạn có nghĩ rằng những thay đổi này sẽ ảnh hưởng đến cách bạn sử dụng "retweets" trong nghiên cứu của bạn? Tại sao hay tại sao không?
[ , , , ] Trong một bài báo được thảo luận rộng rãi, Michel và các đồng nghiệp (2011) phân tích nội dung của hơn năm triệu cuốn sách được số hoá nhằm xác định xu hướng văn hóa lâu dài. Dữ liệu mà họ đã sử dụng hiện đã được phát hành dưới dạng tập dữ liệu của Google NGrams và vì vậy chúng tôi có thể sử dụng dữ liệu để nhân rộng và mở rộng một số công việc của họ.
Trong một trong nhiều kết quả trong bài báo, Michel và các đồng nghiệp đã lập luận rằng chúng ta đang quên nhanh hơn và nhanh hơn. Trong một năm cụ thể, nói “1883”, họ tính tỷ lệ 1 gram được xuất bản trong mỗi năm từ năm 1875 đến năm 1975 là “1883”. Họ lý luận rằng tỷ lệ này là thước đo lãi suất trong các sự kiện đã xảy ra trong năm đó. Trong hình 3a, họ vẽ các quỹ đạo sử dụng trong ba năm: 1883, 1910 và 1950. Ba năm này có chung một mô hình: ít sử dụng trước năm đó, sau đó tăng đột biến, rồi phân rã. Tiếp theo, để xác định tỷ lệ phân rã cho mỗi năm, Michel và các đồng nghiệp đã tính toán “chu kỳ bán rã” của mỗi năm trong tất cả các năm từ năm 1875 đến 1975. Trong hình 3a (inset), họ chỉ ra rằng chu kỳ bán rã của mỗi năm đang giảm, và họ lập luận rằng điều này có nghĩa là chúng ta đang quên quá khứ nhanh hơn và nhanh hơn. Họ đã sử dụng Phiên bản 1 của kho văn bản tiếng Anh, nhưng sau đó Google đã phát hành phiên bản thứ hai của kho văn bản. Vui lòng đọc tất cả các phần của câu hỏi trước khi bạn bắt đầu viết mã.
Hoạt động này sẽ cung cấp cho bạn thực hành viết mã có thể tái sử dụng, diễn giải kết quả và trao đổi dữ liệu (chẳng hạn như làm việc với các tệp khó xử và xử lý dữ liệu bị thiếu). Hoạt động này cũng sẽ giúp bạn bắt đầu và chạy với một tập dữ liệu phong phú và thú vị.
Nhận dữ liệu thô từ trang web của Trình xem Sách NGram của Google Sách. Đặc biệt, bạn nên sử dụng phiên bản 2 của kho văn bản tiếng Anh, được phát hành vào ngày 1 tháng 7 năm 2012. Không nén, tệp này là 1.4GB.
Tái tạo phần chính của hình 3a của Michel et al. (2011) . Để tạo lại hình này, bạn sẽ cần hai tệp: tệp bạn đã tải xuống một phần (a) và tệp "tổng số", mà bạn có thể sử dụng để chuyển đổi số liệu thô thành tỷ lệ. Lưu ý rằng tổng số tập tin có cấu trúc có thể làm cho nó khó đọc một chút. Phiên bản 2 của dữ liệu NGram có tạo ra kết quả tương tự với các kết quả được trình bày trong Michel et al. (2011) , dựa trên dữ liệu phiên bản 1?
Bây giờ hãy kiểm tra đồ thị của bạn với đồ thị được tạo bởi Trình xem NGram.
Tái tạo hình 3a (hình chính), nhưng thay đổi \(y\) -axis thành số đếm đề cập thô (không phải tỷ lệ đề cập).
Sự khác biệt giữa (b) và (d) có dẫn bạn đánh giá lại bất kỳ kết quả nào của Michel et al. (2011). Tại sao hay tại sao không?
Bây giờ, bằng cách sử dụng tỷ lệ các đề cập, nhân rộng inset của hình 3a. Tức là, mỗi năm từ năm 1875 đến 1975, tính nửa đời của năm đó. Chu kỳ bán rã được xác định là số năm trôi qua trước khi tỷ lệ đề cập đạt đến một nửa giá trị đỉnh của nó. Lưu ý rằng Michel et al. (2011) làm điều gì đó phức tạp hơn để ước tính chu kỳ bán rã — xem phần III.6 của Thông tin Hỗ trợ Trực tuyến — nhưng họ cho rằng cả hai cách tiếp cận đều cho ra kết quả tương tự. Phiên bản 2 của dữ liệu NGram có tạo ra kết quả tương tự với các kết quả được trình bày trong Michel et al. (2011) , dựa trên dữ liệu phiên bản 1? (Gợi ý: Đừng ngạc nhiên nếu nó không.)
Đã có những năm xa hơn như những năm bị lãng quên đặc biệt nhanh chóng hay đặc biệt chậm? Tóm tắt một cách ngắn gọn về các lý do có thể cho mẫu đó và giải thích cách bạn xác định các ngoại lệ.
Bây giờ nhân rộng kết quả này cho phiên bản 2 của dữ liệu NGrams bằng tiếng Trung, tiếng Pháp, tiếng Đức, tiếng Do Thái, tiếng Ý, tiếng Nga và tiếng Tây Ban Nha.
So sánh trên tất cả các ngôn ngữ, có bất kỳ năm nào ngoại lệ, chẳng hạn như những năm bị lãng quên đặc biệt nhanh chóng hay đặc biệt chậm? Tóm tắt ngắn gọn về những lý do có thể có cho mẫu đó.
[ , , , Penney (2016) đã khám phá liệu công khai rộng rãi về giám sát NSA / PRISM (ví dụ, các tiết lộ của Snowden) vào tháng 6 năm 2013 có liên quan đến sự sụt giảm đột ngột về lưu lượng truy cập đến các bài viết trên Wikipedia về các chủ đề nâng cao mối quan tâm về quyền riêng tư hay không. Nếu vậy, thay đổi hành vi này sẽ phù hợp với hiệu ứng lạnh do giám sát khối lượng. Phương pháp của Penney (2016) đôi khi được gọi là thiết kế chuỗi thời gian gián đoạn và nó liên quan đến các phương pháp được mô tả trong phần 2.4.3.
Để chọn các từ khóa chủ đề, Penney đã đề cập đến danh sách được sử dụng bởi Bộ An ninh Nội địa Hoa Kỳ để theo dõi và giám sát phương tiện truyền thông xã hội. Danh sách DHS phân loại các thuật ngữ tìm kiếm nhất định thành một loạt các vấn đề, ví dụ: “Mối quan tâm về sức khỏe”, “Bảo mật cơ sở hạ tầng” và “Khủng bố.” Đối với nhóm nghiên cứu, Penney đã sử dụng 48 từ khóa liên quan đến “Khủng bố” (xem phụ lục 8) ). Sau đó, ông tổng hợp số lượt xem bài viết trên Wikipedia hàng tháng cho 48 bài viết Wikipedia tương ứng trong khoảng thời gian 32 tháng, từ đầu tháng 1 năm 2012 đến cuối tháng 8 năm 2014. Để tăng cường luận cứ của mình, ông cũng đã tạo một số nhóm so sánh bằng cách theo dõi lượt xem bài viết về các chủ đề khác.
Bây giờ, bạn sẽ nhân rộng và mở rộng Penney (2016) . Tất cả dữ liệu thô mà bạn cần cho hoạt động này có sẵn trên Wikipedia. Hoặc bạn có thể lấy nó từ gói wikipediatrend (Meissner and R Core Team 2016) . Khi bạn viết câu trả lời, hãy lưu ý nguồn dữ liệu bạn đã sử dụng. (Lưu ý rằng hoạt động tương tự này cũng xuất hiện trong chương 6.) Hoạt động này sẽ cho bạn thực hành trong việc trao đổi dữ liệu và suy nghĩ về các thí nghiệm tự nhiên trong các nguồn dữ liệu lớn. Nó cũng sẽ giúp bạn và chạy với một nguồn dữ liệu tiềm năng thú vị cho các dự án trong tương lai.
[ ] Efrati (2016) báo cáo, dựa trên thông tin bí mật, rằng "tổng chia sẻ" trên Facebook đã giảm khoảng 5,5% so với năm trước trong khi "chia sẻ phát sóng ban đầu" đã giảm 21% so với năm trước. Sự sụt giảm này đặc biệt nghiêm trọng với người dùng Facebook dưới 30 tuổi. Báo cáo cho rằng sự suy giảm đến hai yếu tố. Một là sự tăng trưởng về số lượng "bạn bè" mọi người có trên Facebook. Khác là một số hoạt động chia sẻ đã chuyển sang nhắn tin và đối thủ cạnh tranh như Snapchat. Báo cáo cũng tiết lộ một số chiến thuật mà Facebook đã cố gắng để tăng cường chia sẻ, bao gồm các thuật toán thuật toán News Feed làm cho bài viết gốc nổi bật hơn, cũng như nhắc nhở định kỳ các bài viết gốc với tính năng “Ngày này”. Điều gì ngụ ý, nếu có, những phát hiện này có cho các nhà nghiên cứu muốn sử dụng Facebook như một nguồn dữ liệu?
[ Sự khác biệt giữa một nhà xã hội học và một sử gia là gì? Theo Goldthorpe (1991) , sự khác biệt chính là kiểm soát việc thu thập dữ liệu. Các nhà sử học buộc phải sử dụng các di tích, trong khi các nhà xã hội học có thể điều chỉnh việc thu thập dữ liệu của họ cho các mục đích cụ thể. Đọc Goldthorpe (1991) . Làm thế nào là sự khác biệt giữa xã hội học và lịch sử liên quan đến ý tưởng về custommades và readymades?
[ ] Điều này được xây dựng trên quesiton trước. Goldthorpe (1991) đã thu hút một số phản ứng quan trọng, trong đó có một câu trả lời từ Nicky Hart (1994) đã thách thức lòng sùng kính của Goldthorpe để điều chỉnh dữ liệu. Để làm rõ những hạn chế tiềm tàng của dữ liệu được thiết kế riêng, Hart mô tả Dự án làm việc giàu có, một cuộc khảo sát lớn để đo lường mối quan hệ giữa tầng lớp xã hội và bỏ phiếu được thực hiện bởi Goldthorpe và các đồng nghiệp vào giữa những năm 1960. Như người ta có thể mong đợi từ một học giả ủng hộ dữ liệu được thiết kế trên dữ liệu tìm thấy, Dự án Nhân viên giàu có đã thu thập dữ liệu được thiết kế để giải quyết một lý thuyết được đề xuất gần đây về tương lai của tầng lớp xã hội trong thời đại tăng mức sống. Tuy nhiên, Goldthorpe và các đồng nghiệp bằng cách nào đó "quên" để thu thập thông tin về hành vi bỏ phiếu của phụ nữ. Đây là cách Nicky Hart (1994) tóm tắt toàn bộ tập phim:
“… Thật khó để tránh kết luận rằng phụ nữ bị bỏ qua vì bộ dữ liệu 'thợ may' này đã bị hạn chế bởi một logic mô phỏng mà loại bỏ kinh nghiệm của phụ nữ. Được thúc đẩy bởi một tầm nhìn lý thuyết về ý thức lớp và hành động như mối bận tâm của nam giới…, Goldthorpe và các đồng nghiệp của ông đã xây dựng một bộ chứng minh thực nghiệm cho ăn và nuôi dưỡng các giả định lý thuyết của riêng họ thay vì phơi bày chúng với một thử nghiệm hợp lý về tính thỏa đáng. ”
Hart tiếp tục:
“Những phát hiện thực nghiệm của Dự án Công nhân giàu có cho chúng ta biết thêm về các giá trị nam tính của xã hội học giữa thế kỷ hơn là họ thông báo cho các quá trình phân tầng, chính trị và đời sống vật chất.”
Bạn có thể nghĩ về các ví dụ khác, nơi thu thập dữ liệu được thiết kế riêng có các thành kiến của bộ thu thập dữ liệu được tích hợp trong đó không? Làm thế nào điều này so sánh với nhiễu thuật toán? Điều gì có thể có tác động này khi các nhà nghiên cứu nên sử dụng readymades và khi họ nên sử dụng custommades?
[ Trong chương này, tôi đã đối chiếu dữ liệu thu thập bởi các nhà nghiên cứu cho các nhà nghiên cứu với hồ sơ hành chính được tạo ra bởi các công ty và chính phủ. Một số người gọi những hồ sơ hành chính này là “dữ liệu tìm thấy”, chúng tương phản với “dữ liệu được thiết kế”. Đúng là các nhà nghiên cứu tìm thấy hồ sơ hành chính, nhưng chúng cũng được thiết kế cao. Ví dụ, các công ty công nghệ hiện đại làm việc rất chăm chỉ để thu thập và quản lý dữ liệu của họ. Vì vậy, các hồ sơ hành chính này đều được tìm thấy và thiết kế, nó chỉ phụ thuộc vào quan điểm của bạn (hình 2.12).
Cung cấp một ví dụ về nguồn dữ liệu khi nhìn thấy cả hai như được tìm thấy và được thiết kế là hữu ích khi sử dụng nguồn dữ liệu đó cho nghiên cứu.
[ ] Trong một bài luận chu đáo, Christian Sandvig và Eszter Hargittai (2015) chia nghiên cứu kỹ thuật số thành hai loại rộng tùy thuộc vào hệ thống kỹ thuật số là "công cụ" hay "đối tượng nghiên cứu". một công cụ - là nghiên cứu của Bengtsson và cộng sự (2011) về việc sử dụng dữ liệu di động để theo dõi di cư sau trận động đất ở Haiti vào năm 2010. Ví dụ về loại thứ hai - nơi hệ thống là đối tượng nghiên cứu - được nghiên cứu bởi Jensen (2007) về cách giới thiệu điện thoại di động trên khắp Kerala, Ấn Độ đã tác động đến hoạt động của thị trường cá. Tôi thấy sự khác biệt này hữu ích bởi vì nó làm rõ rằng các nghiên cứu sử dụng các nguồn dữ liệu số có thể có các mục tiêu khá khác nhau ngay cả khi chúng đang sử dụng cùng một loại nguồn dữ liệu. Để làm rõ hơn sự khác biệt này, mô tả bốn nghiên cứu mà bạn đã thấy: hai nghiên cứu sử dụng hệ thống kỹ thuật số làm công cụ và hai nghiên cứu sử dụng hệ thống kỹ thuật số làm đối tượng nghiên cứu. Bạn có thể sử dụng các ví dụ từ chương này nếu bạn muốn.