Chìa khóa:
[ , ] Nhiễu Thuật toán là một vấn đề với Google Trends cúm. Đọc các bài báo của Lazer et al. (2014) , và viết thư, email rõ ràng ngắn để một kỹ sư tại Google giải thích vấn đề và đưa ra một ý tưởng về làm thế nào để khắc phục vấn đề.
[ ] Bollen, Mao, and Zeng (2011) tuyên bố rằng dữ liệu từ Twitter có thể được sử dụng để dự đoán thị trường chứng khoán. Phát hiện này đã dẫn đến việc tạo ra một hàng rào quỹ Derwent Capital Markets-đầu tư vào thị trường chứng khoán dựa trên dữ liệu thu thập được từ Twitter (Jordan 2010) . bằng chứng gì bạn sẽ muốn xem trước khi đặt tiền của bạn trong quỹ đó?
[ ] Trong khi một số người ủng hộ y tế công cộng mưa đá e-thuốc lá như một trợ giúp hiệu quả cho việc bỏ hút thuốc, những người khác cảnh báo về những rủi ro tiềm tàng, chẳng hạn như các-mức cao của nicotine. Hãy tưởng tượng rằng một nhà nghiên cứu quyết định nghiên cứu ý kiến công chúng đối với e-thuốc lá bằng cách thu thập e-thuốc lá liên quan đến bài viết Twitter và tiến hành phân tích tâm lý.
[ ] Trong tháng 11 năm 2009, Twitter đã thay đổi câu hỏi vào hộp tweet từ "bạn đang làm gì?" Để "Chuyện gì xảy ra?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) đã phân tích 41,7 triệu hồ sơ người dùng, 1,47 tỷ quan hệ xã hội, 4262 chủ đề xu hướng, và 106 triệu tweet giữa ngày 06 tháng sáu và tháng 31, năm 2009. Dựa trên phân tích này, họ kết luận rằng Twitter phục vụ hơn như là một phương tiện mới chia sẻ thông tin hơn một mạng xã hội.
[ ] "Tweet" thường được sử dụng để đo lường ảnh hưởng và lan rộng ảnh hưởng trên Twitter. Ban đầu, người dùng có thể sao chép và dán các tweet họ thích, thẻ tác giả ban đầu với / xử lý của mình, và tự tay gõ "RT" trước khi các tweet để chỉ ra rằng đó là một retweet. Sau đó, trong năm 2009 Twitter thêm một nút "retweet". Vào tháng Sáu năm 2016, Twitter đã làm cho nó có thể cho người sử dụng để retweet tweet của mình (https://twitter.com/twitter/status/742749353689780224). Bạn có nghĩ rằng những thay đổi này sẽ ảnh hưởng đến cách bạn sử dụng "retweets" trong nghiên cứu của bạn? Tại sao hoặc tại sao không?
[ , , ] Michel et al. (2011) xây dựng một văn thể nổi lên từ nỗ lực của Google để số hóa sách. Sử dụng phiên bản đầu tiên của corpus, được xuất bản năm 2009 và chứa hơn 5 triệu cuốn sách được số hóa, các tác giả đã phân tích tần số sử dụng từ để điều tra thay đổi ngôn ngữ và xu hướng văn hóa. Ngay sau đó các Sách Corpus Google đã trở thành một nguồn dữ liệu phổ biến cho các nhà nghiên cứu, và một phiên bản thứ 2 của cơ sở dữ liệu đã được phát hành vào năm 2012.
Tuy nhiên, Pechenick, Danforth, and Dodds (2015) cảnh báo rằng các nhà nghiên cứu cần phải mô tả đầy đủ các quy trình lấy mẫu của corpus trước khi sử dụng nó để rút ra kết luận rộng. Vấn đề chính là corpus là thư viện giống như, có chứa một trong mỗi cuốn sách. Kết quả là, một cá nhân, tác giả nhiều tác phẩm có khả năng đáng chú ý chèn cụm từ mới vào từ vựng Google Books. Hơn nữa, văn bản khoa học tạo thành một phần ngày càng thực chất của corpus suốt những năm 1900. Ngoài ra, bằng cách so sánh hai phiên bản của bộ dữ liệu Fiction tiếng Anh, Pechenick et al. tìm thấy bằng chứng cho thấy không đủ lọc được sử dụng trong sản xuất các phiên bản đầu tiên. Tất cả các dữ liệu cần thiết cho hoạt động có sẵn ở đây: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) khám phá xem việc công khai rộng rãi về sự giám sát / PRISM NSA (tức là, những tiết lộ Snowden) trong tháng 6 năm 2013 có liên quan với sự sụt giảm mạnh và đột ngột trong giao thông đến các bài viết Wikipedia về các chủ đề nâng cao mối quan tâm riêng tư. Nếu vậy, sự thay đổi này trong hành vi này là phù hợp với một hiệu ứng làm lạnh kết quả khám xét hàng loạt. Cách tiếp cận của Penney (2016) đôi khi được gọi là một thiết kế chuỗi thời gian bị gián đoạn và có liên quan đến phương pháp tiếp cận trong chương về xấp xỉ thí nghiệm từ dữ liệu quan sát (Mục 2.4.3).
Để chọn các từ khóa chủ đề, Penney gọi vào danh sách sử dụng bởi Bộ Nội An Hoa Kỳ để theo dõi và giám sát phương tiện truyền thông xã hội. Danh sách DHS phân loại điều kiện tìm kiếm nhất định vào một loạt các vấn đề, tức là "Sức khỏe quan tâm", "an ninh cơ sở hạ tầng," và "khủng bố". Đối với nhóm nghiên cứu, Penney đã sử dụng bốn mươi tám từ khóa liên quan đến "khủng bố" (xem Bảng 8 Ruột thừa). Sau đó, ông tổng hợp Wikipedia đếm bài viết xem trên một cơ sở hàng tháng cho tương ứng bốn mươi tám bài viết Wikipedia trong khoảng thời gian ba mươi hai tháng, từ đầu tháng Giêng năm 2012 đến cuối tháng Tám năm 2014. Để củng cố lập luận của mình, ông cũng tạo ra một số so sánh nhóm bằng cách theo dõi lần xem bài viết về các chủ đề khác.
Bây giờ, bạn đang đi để tái tạo và mở rộng Penney (2016) . Tất cả các dữ liệu thô mà bạn sẽ cần cho các hoạt động này là có sẵn từ Wikipedia (https://dumps.wikimedia.org/other/pagecounts-raw/). Hoặc bạn có thể lấy nó từ wikipediatrend gói R (Meissner and Team 2016) . Khi bạn viết lên những phản ứng của bạn, xin vui lòng lưu ý là nguồn dữ liệu mà bạn sử dụng. (Lưu ý: Hoạt động này tương tự cũng xuất hiện trong chương 6)
[ ] Efrati (2016) báo cáo, dựa trên các thông tin bí mật, rằng "tổng chia sẻ" trên Facebook đã giảm khoảng 5,5% so với năm trước trong khi "ban đầu chia sẻ phát sóng" đã giảm 21% so với năm ngoái. Sự suy giảm này là đặc biệt nghiêm trọng với người dùng Facebook dưới 30 tuổi. Bản báo cáo cho rằng sự suy giảm hai yếu tố. Một là sự tăng trưởng về số lượng các "bạn bè" người có trên Facebook. Người kia là một số hoạt động chia sẻ đã chuyển sang nhắn tin và để đối thủ cạnh tranh như Snapchat. Báo cáo cũng cho thấy nhiều chiến thuật Facebook đã cố gắng thúc đẩy việc chia sẻ, bao gồm tinh chỉnh thuật toán News Feed mà làm cho bài viết gốc nổi bật hơn, cũng như nhắc nhở định kỳ của các bài viết sử dụng ban đầu "Vào ngày này" cách đây vài năm. Điều gì tác động, nếu có, không những phát hiện này có cho các nhà nghiên cứu, những người muốn sử dụng Facebook như một nguồn dữ liệu?
[ ] Tumasjan et al. (2010) báo cáo rằng tỷ lệ tweets nhắc đến một đảng chính trị phù hợp với tỷ lệ số phiếu mà bên nhận được trong cuộc bầu cử quốc hội Đức trong năm 2009 (Hình 2.9). Nói cách khác, nó xuất hiện rằng bạn có thể sử dụng Twitter để dự đoán cuộc bầu cử. Đồng thời nghiên cứu này đã được công bố nó đã được coi là cực kỳ thú vị bởi vì nó dường như cho thấy việc sử dụng có giá trị cho một nguồn chung của dữ liệu lớn.
Với các tính năng xấu của dữ liệu lớn, tuy nhiên, bạn nên ngay lập tức được hoài nghi về kết quả này. Đức trên Twitter trong năm 2009 là một nhóm khá không đại diện, và ủng hộ của một bên có thể tweet về chính trị thường xuyên hơn. Như vậy, có vẻ như đáng ngạc nhiên rằng tất cả những định kiến có thể mà bạn có thể tưởng tượng sẽ triệt tiêu đi. Trong thực tế, các kết quả trong Tumasjan et al. (2010) hóa ra là quá tốt là đúng. Trong bài báo của mình, Tumasjan et al. (2010) được coi là sáu bên về chính trị: Christian Dân chủ (CDU), Christian đảng Dân chủ Xã hội (CSU), SPD, đảng Tự do (FDP), The Left (Die Linke), và Đảng Xanh (Grüne). Tuy nhiên, các đảng chính trị của Đức được đề cập nhiều nhất trên Twitter tại thời điểm đó là Đảng Pirate (Piraten), một bên là chiến đấu quy định chính phủ của Internet. Khi Đảng Pirate đã được đưa vào phân tích, Twitter đề cập đến trở thành một yếu tố dự báo khủng khiếp của kết quả bầu cử (Hình 2.9) (Jungherr, Jürgens, and Schoen 2012) .
Sau đó, các nhà nghiên cứu khác trên thế giới đã sử dụng phương pháp chẳng hạn fancier như sử dụng phân tích tình cảm để phân biệt giữa tích cực và tiêu cực đề cập đến trong các bên, nhằm nâng cao khả năng của dữ liệu Twitter để dự đoán nhiều loại khác nhau của các cuộc bầu cử (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Dưới đây là cách Huberty (2015) tóm tắt các kết quả của những nỗ lực để dự đoán cuộc bầu cử:
"Tất cả các phương pháp dự báo tiếng dựa trên phương tiện truyền thông xã hội đã thất bại khi phải chịu những đòi hỏi của thực dự báo bầu cử hướng tới tương lai. Những thất bại này xuất hiện là do tính chất cơ bản của phương tiện truyền thông xã hội, chứ không phải là những khó khăn về phương pháp hay thuật toán. Tóm lại, phương tiện truyền thông xã hội không, và có lẽ sẽ không bao giờ, cung cấp một, không thiên vị, hình ảnh đại diện ổn định của cử tri; và mẫu tiện truyền thông xã hội không có đủ dữ liệu để sửa chữa những vấn đề này gửi hoc. "
Đọc một số các nghiên cứu dẫn Huberty (2015) kết luận rằng, và viết một bản ghi nhớ một trang cho một ứng viên chính trị mô tả và làm thế nào Twitter nên được sử dụng để dự báo các cuộc bầu cử.
[ ] Sự khác biệt giữa một nhà xã hội học và sử học là gì? Theo Goldthorpe (1991) , sự khác biệt chính giữa một nhà xã hội học và sử học là kiểm soát thu thập dữ liệu. Các sử gia đang buộc phải sử dụng các di tích trong khi nhà xã hội học có thể thiết kế bộ sưu tập dữ liệu của họ với mục đích cụ thể. Đọc Goldthorpe (1991) . Làm thế nào là sự khác biệt giữa xã hội học và lịch sử liên quan đến ý tưởng của Custommades và readymades?
[ ] Dựa trên câu hỏi trước, Goldthorpe (1991) đã thu hút một số câu trả lời quan trọng, trong đó có một từ Nicky Hart (1994) rằng thách thức sùng kính Goldthorpe để chỉnh dữ liệu được thực hiện. Để làm rõ những hạn chế tiềm năng của dữ liệu thích hợp thực hiện, Hart mô tả các dự án nhân giàu có, một cuộc khảo sát lớn để đo lường mối quan hệ giữa các tầng lớp xã hội và bỏ phiếu đã được tiến hành bởi Goldthorpe và đồng nghiệp vào giữa năm 1960. Như người ta có thể mong đợi từ một học giả người ủng hộ việc thiết kế dữ liệu trên các dữ liệu được tìm thấy, các dự án công nhân giàu có thu thập dữ liệu đã được thiết kế để giải quyết một lý thuyết gần đây đề xuất về tương lai của tầng lớp xã hội trong thời đại ngày càng tăng mức sống. Nhưng, Goldthorpe và đồng nghiệp bằng cách nào đó "quên" để thu thập thông tin về các hành vi biểu quyết của phụ nữ. Dưới đây là cách Nicky Hart (1994) tóm tắt toàn tập:
". . . nó [là] rất khó để tránh kết luận rằng phụ nữ đã được bỏ qua vì đây 'may đo' bộ dữ liệu đã được hạn chế bởi một logic kiểu mẫu mà loại trừ kinh nghiệm nữ. Được dẫn dắt bởi một tầm nhìn lý thuyết của ý thức giai cấp và hành động như những trăn trở của nam giới. . . , Goldthorpe và các đồng nghiệp của ông đã xây dựng một tập hợp các bằng chứng thực nghiệm mà cho ăn và nuôi dưỡng những giả định lý thuyết của riêng họ thay vì phơi bày chúng một bài kiểm tra hợp lệ đầy đủ. "
Hart tiếp tục:
"Các kết quả thực nghiệm của Dự án Công nhân giàu có cho chúng tôi biết thêm về các giá trị masculinist của xã hội học giữa thế kỷ so với họ thông báo cho các quá trình phân tầng, chính trị và đời sống vật chất."
Bạn có thể nghĩ rằng những ví dụ khác, nơi thu thập dữ liệu thích hợp thực hiện có những thành kiến của các nhà sưu tập dữ liệu được xây dựng vào nó? Làm thế nào thực hiện điều này so sánh với nhiễu thuật toán? Điều gì tác động này có thể có đối với các nhà nghiên cứu khi cần sử dụng readymades và khi họ nên sử dụng Custommades?
[ ] Trong chương này, tôi phản dữ liệu được thu thập bởi các nhà nghiên cứu cho các nhà nghiên cứu hồ sơ hành chính được tạo ra bởi các công ty và chính phủ. Một số người gọi đó là các hồ sơ hành chính "được tìm thấy dữ liệu", mà họ tương phản với "dữ liệu thiết kế." Đúng là hồ sơ hành chính được tìm thấy bởi các nhà nghiên cứu, nhưng họ cũng được thiết kế cao. Ví dụ, các công ty công nghệ hiện đại dành một lượng lớn thời gian và nguồn lực để thu thập trữ và tổ chức dữ liệu của họ. Như vậy, những hồ sơ hành chính đều được tìm thấy và được thiết kế, nó chỉ phụ thuộc vào quan điểm của bạn (Hình 2.10).
Cung cấp một ví dụ về nguồn dữ liệu mà nó nhìn thấy cả hai như được tìm thấy và được thiết kế là hữu ích khi sử dụng mà nguồn dữ liệu cho nghiên cứu.
[ ] Trong một bài luận chu đáo, Christian Sandvig và Eszter Hargittai (2015) mô tả hai loại nghiên cứu kỹ thuật số, nơi mà các hệ thống kỹ thuật số là "cụ" hay "đối tượng nghiên cứu." Một ví dụ về các loại đầu tiên của nghiên cứu là nơi Bengtsson và các đồng nghiệp (2011) đã sử dụng dữ liệu điện thoại di động để theo dõi di chuyển sau trận động đất ở Haiti vào năm 2010. Một ví dụ về loại thứ hai là nơi Jensen (2007) nghiên cứu cách thức giới thiệu điện thoại di động trên toàn Kerala, Ấn Độ ảnh hưởng đến hoạt động của thị trường cho cá. Tôi tìm thấy điều này rất hữu ích vì nó làm rõ rằng các nghiên cứu sử dụng các nguồn dữ liệu kỹ thuật số có thể có những mục tiêu khá khác nhau ngay cả khi họ đang sử dụng cùng một loại nguồn dữ liệu. Để tiếp tục làm rõ sự khác biệt này, mô tả bốn nghiên cứu mà bạn đã nhìn thấy: hai mà sử dụng một hệ thống kỹ thuật số như một nhạc cụ và hai là sử dụng một hệ thống kỹ thuật số như một đối tượng nghiên cứu. Bạn có thể sử dụng các ví dụ từ chương này nếu bạn muốn.