[ , ] การทำให้เกิดปัญหาเกี่ยวกับอัลกอริทึมเป็นปัญหาเกี่ยวกับ Google แนวโน้มไข้หวัดใหญ่ อ่านบทความโดย Lazer et al. (2014) และเขียนอีเมลสั้น ๆ ที่ชัดเจนแก่วิศวกรคนหนึ่งของ Google เพื่ออธิบายปัญหาและเสนอแนวคิดในการแก้ไขปัญหา
[ ] Bollen, Mao, and Zeng (2011) อ้างว่าข้อมูลจาก Twitter สามารถใช้ในการคาดการณ์ตลาดหุ้นได้ การค้นพบนี้นำไปสู่การสร้างกองทุนเฮดจ์ฟันด์ - Derwent Capital Markets- เพื่อลงทุนในตลาดหุ้นโดยอาศัยข้อมูลจาก Twitter (Jordan 2010) หลักฐานอะไรที่คุณอยากเห็นก่อนที่จะนำเงินเข้ากองทุน
[ ] ในขณะที่ผู้สนับสนุนด้านสาธารณสุขบางคนเห็นว่าบุหรี่อิเล็กทรอนิกส์เป็นตัวช่วยที่มีประสิทธิภาพสำหรับการเลิกสูบบุหรี่ แต่คนอื่น ๆ ก็เตือนเกี่ยวกับความเสี่ยงที่อาจเกิดขึ้นเช่นระดับนิโคตินสูง ลองจินตนาการว่านักวิจัยตัดสินใจที่จะศึกษาความคิดเห็นของประชาชนเกี่ยวกับบุหรี่อิเล็กทรอนิกส์โดยการเก็บรวบรวมบทความ Twitter ที่เกี่ยวข้องกับบุหรี่อิเล็กทรอนิกส์และดำเนินการวิเคราะห์ความเชื่อมั่น
[ ] ในเดือนพฤศจิกายนปี 2009 Twitter เปลี่ยนคำถามในช่องทวีตจาก "คุณทำอะไร?" เป็น "มีอะไรเกิดขึ้นบ้าง" (https://blog.twitter.com/2009/whats-happening)
[ ] "Retweets" มักใช้ในการวัดอิทธิพลและการแพร่กระจายของอิทธิพลใน Twitter ในขั้นแรกผู้ใช้ต้องคัดลอกและวางทวีตที่ตนชื่นชอบติดแท็กผู้เขียนต้นฉบับไว้กับที่จับและพิมพ์ "RT" ด้วยตนเองก่อนที่จะทวีตเพื่อระบุว่าเป็น retweet จากนั้นในปี 2009 Twitter เพิ่มปุ่ม "retweet" ในเดือนมิถุนายนปี 2016 Twitter ทำให้ผู้ใช้สามารถ retweet ทวีตของตัวเองได้ (https://twitter.com/twitter/status/742749353689780224) คุณคิดว่าการเปลี่ยนแปลงเหล่านี้จะส่งผลต่อการใช้งาน "retweets" ในการวิจัยของคุณหรือไม่? ทำไมหรือทำไมไม่?
[ , , , ] ในบทความที่มีการกล่าวถึงกันอย่างกว้างขวางมิเชลและเพื่อนร่วมงาน (2011) วิเคราะห์เนื้อหาของหนังสือดิจิทัลมากกว่าห้าล้านฉบับเพื่อระบุแนวโน้มทางวัฒนธรรมในระยะยาว ข้อมูลที่พวกเขาใช้ตอนนี้ได้รับการเผยแพร่เป็นชุดข้อมูล NG NGAMS ของ Google แล้วเราจึงสามารถใช้ข้อมูลเพื่อทำซ้ำและขยายงานของพวกเขาได้
ในผลการวิจัยฉบับหนึ่งในหลาย ๆ เรื่องมิเชลและเพื่อนร่วมงานแย้งว่าเราลืมได้เร็วและเร็วขึ้น สำหรับปีที่เฉพาะเจาะจงพูด "1883" พวกเขาคำนวณสัดส่วนของ 1-gram ที่ตีพิมพ์ในแต่ละปีระหว่าง 1875 และ 1975 ซึ่งเป็น "1883" พวกเขาให้เหตุผลว่าสัดส่วนนี้เป็นตัวชี้วัดความสนใจในเหตุการณ์ที่เกิดขึ้นในปีนั้น ในรูปที่ 3a พวกเขาวางแผนเส้นทางการใช้งานเป็นเวลา 3 ปี: 1883, 1910 และ 1950 ช่วงเวลาสามปีนี้มีรูปแบบทั่วไป: ใช้เพียงเล็กน้อยก่อนปีนั้นจากนั้นจะเกิดการสึกกร่อนแล้วสลายตัว ต่อมาเพื่อหาจำนวนอัตราการสลายตัวในแต่ละปีมิเชลและเพื่อนร่วมงานได้คำนวณ "ครึ่งชีวิต" ของแต่ละปีเป็นเวลาหลายปีระหว่างปี ค.ศ. 1875 ถึงปี ค.ศ. 1975 ในรูปที่ 3a (inset) พบว่าครึ่งชีวิตของแต่ละคน ปีลดลงและพวกเขาแย้งว่านั่นหมายความว่าเราลืมอดีตเร็วและเร็วขึ้น พวกเขาใช้ Version 1 ของ corpus ภาษาอังกฤษ แต่ต่อมา Google ได้เปิดตัว corpus รุ่นที่สองแล้ว โปรดอ่านส่วนทั้งหมดของคำถามก่อนที่คุณจะเริ่มเขียนโค้ด
กิจกรรมนี้จะช่วยให้คุณสามารถเขียนรหัสนำมาใช้ซ้ำการแปลผลลัพธ์และการโต้เถียงข้อมูล (เช่นการทำงานกับไฟล์ที่ไม่เหมาะสมและการจัดการข้อมูลที่ขาดหายไป) กิจกรรมนี้จะช่วยให้คุณได้รับและใช้งานชุดข้อมูลที่สมบูรณ์และน่าสนใจ
รับข้อมูลดิบจากเว็บไซต์ Google หนังสือ NGram Viewer โดยเฉพาะอย่างยิ่งคุณควรใช้เวอร์ชันภาษาอังกฤษ 2 ฉบับซึ่งได้รับการเผยแพร่เมื่อวันที่ 1 กรกฎาคม 2555 โดยไฟล์ที่มีขนาดไม่เกิน 1.4GB
สร้างส่วนหลักของรูปที่ 3a ของ Michel et al. (2011) ในการสร้างตัวเลขนี้คุณจะต้องมีไฟล์สองไฟล์: ไฟล์ที่คุณดาวน์โหลดในส่วน (a) และไฟล์ "Total Counts" ซึ่งคุณสามารถใช้เพื่อแปลงจำนวนดิบเป็นสัดส่วน โปรดทราบว่าไฟล์จำนวนรวมมีโครงสร้างที่อาจทำให้ยากต่อการอ่านข้อมูลเวอร์ชัน 2 ของข้อมูล NGram ให้ผลลัพธ์ที่คล้ายคลึงกันกับข้อมูลที่นำเสนอใน Michel et al. (2011) ซึ่งขึ้นอยู่กับข้อมูลเวอร์ชัน 1 หรือไม่?
ตอนนี้ให้ตรวจสอบกราฟของคุณเทียบกับกราฟที่สร้างขึ้นโดย NGram Viewer
สร้างรูปที่ 3a (รูปหลัก) แต่เปลี่ยน \(y\) -axis เป็นจำนวนที่กล่าวถึงเป็นดิบ (ไม่ใช่อัตราการกล่าวถึง)
ความแตกต่างระหว่าง (b) และ (d) ทำให้คุณประเมินผลการวิจัยของ Michel et al. (2011) ทำไมหรือทำไมไม่?
ตอนนี้โดยใช้สัดส่วนของการกล่าวถึงให้ทำซ้ำส่วนแทรกของรูปที่ 3a นั่นคือสำหรับแต่ละปีระหว่าง 1875 และ 1975 คำนวณครึ่งชีวิตของปีนั้น ครึ่งชีวิตหมายถึงจำนวนปีที่ผ่านมาก่อนที่สัดส่วนการกล่าวถึงครึ่งหนึ่งของค่าสูงสุด โปรดสังเกตว่า Michel et al. (2011) ทำบางสิ่งที่ซับซ้อนมากขึ้นในการประมาณครึ่งชีวิต - ดูหัวข้อ III.6 ของข้อมูลออนไลน์ที่สนับสนุน แต่พวกเขาอ้างว่าทั้งสองวิธีให้ผลลัพธ์ที่คล้ายคลึงกัน รุ่น 2 ของข้อมูล NGram ให้ผลลัพธ์ที่คล้ายคลึงกันกับข้อมูลที่นำเสนอใน Michel et al. (2011) ซึ่งขึ้นอยู่กับข้อมูลเวอร์ชัน 1 หรือไม่? (คำแนะนำ: อย่าแปลกใจถ้าไม่ได้)
ปีที่ผ่านมามีความผิดปกติเช่นปีที่ถูกลืมโดยเฉพาะอย่างยิ่งอย่างรวดเร็วหรือโดยเฉพาะอย่างยิ่งช้า? สมมติสั้น ๆ เกี่ยวกับสาเหตุที่เป็นไปได้สำหรับรูปแบบนั้นและอธิบายวิธีที่คุณระบุข้อผิดพลาด
ตอนนี้ทำซ้ำผลลัพธ์นี้สำหรับเวอร์ชัน 2 ของข้อมูล NGrams ในภาษาจีนฝรั่งเศสเยอรมันฮีบรูอิตาลีรัสเซียและสเปน
เปรียบเทียบในทุกภาษามีปีใดที่เป็นข้อผิดพลาดเช่นปีที่ถูกลืมโดยเฉพาะอย่างยิ่งได้อย่างรวดเร็วหรือโดยเฉพาะอย่างยิ่งช้า? สรุปสั้น ๆ เกี่ยวกับเหตุผลที่เป็นไปได้สำหรับรูปแบบนั้น
[ , , , ] Penney (2016) สำรวจว่าการเผยแพร่ข้อมูลอย่างกว้างขวางเกี่ยวกับการเฝ้าระวัง NSA / PRISM (เช่นการเปิดเผยของ Snowden) ในเดือนมิถุนายน 2013 มีส่วนเกี่ยวข้องกับการลดลงอย่างรวดเร็วและลดลงของการเข้าชมบทความ Wikipedia ในหัวข้อที่สร้างความกังวลเรื่องความเป็นส่วนตัว ถ้าเช่นนั้นการเปลี่ยนแปลงพฤติกรรมนี้จะสอดคล้องกับผลกระทบที่เกิดจากการเฝ้าระวังของมวลชน วิธีการของ Penney (2016) บางครั้งเรียกว่าการออกแบบ ชุดเวลาขัดจังหวะ และเกี่ยวข้องกับวิธีการที่อธิบายไว้ในส่วน 2.4.3
ในการเลือกคำหลักหัวข้อ Penney อ้างถึงรายการที่กระทรวงความมั่นคงแห่งมาตุภูมิใช้เพื่อติดตามและตรวจสอบสื่อสังคมออนไลน์ "ความห่วงใยด้านสุขภาพ" "Infrastructure Security" และ "Terrorism" สำหรับกลุ่มการศึกษา Penney ใช้คำค้นหา 48 คำที่เกี่ยวข้องกับ "Terrorism" (ดูตารางภาคผนวก 8) ) จากนั้นเขาได้รวบรวมจำนวนการดูบทความวิกิพีเดียเป็นรายเดือนสำหรับบทความวิกิพีเดีย 48 ฉบับที่มีความเกี่ยวข้องกันในช่วงระยะเวลา 32 เดือนตั้งแต่ต้นเดือนมกราคมถึงปลายเดือนสิงหาคมปี 2014 นอกจากนี้เขายังสร้างกลุ่มเปรียบเทียบหลายรายการด้วยการติดตาม บทความในหัวข้ออื่น ๆ
ตอนนี้คุณกำลังจะทำซ้ำและขยาย Penney (2016) ข้อมูลดิบทั้งหมดที่คุณต้องการสำหรับกิจกรรมนี้สามารถหาได้จากวิกิพีเดีย หรือคุณจะได้รับจาก wikipediatrend R-package (Meissner and R Core Team 2016) เมื่อคุณเขียนคำตอบของคุณโปรดทราบว่าคุณใช้แหล่งข้อมูลใด (โปรดทราบว่ากิจกรรมแบบเดียวกันนี้จะปรากฏในบทที่ 6) กิจกรรมนี้จะทำให้คุณได้รับการปฏิบัติในการถกเถียงข้อมูลและการคิดเกี่ยวกับการทดลองตามธรรมชาติในแหล่งข้อมูลขนาดใหญ่ นอกจากนี้คุณยังจะได้รับและทำงานกับแหล่งข้อมูลที่น่าสนใจที่อาจเกิดขึ้นสำหรับโครงการในอนาคต
[ Efrati (2016) รายงานจากข้อมูลที่เป็นความลับว่า "การแบ่งปันทั้งหมด" บน Facebook ได้ลดลงประมาณ 5.5% ในแต่ละปีในขณะที่ "การแชร์การแพร่ภาพครั้งแรก" ลดลง 21% เมื่อเทียบกับปีที่ผ่านมา การลดลงนี้เป็นเรื่องรุนแรงโดยเฉพาะกับผู้ใช้ Facebook ที่อายุต่ำกว่า 30 ปี รายงานระบุว่าการลดลงของสองปัจจัย หนึ่งคือการเติบโตของจำนวน "เพื่อน" ที่มีใน Facebook อีกประการหนึ่งคือกิจกรรมการแชร์บางส่วนได้เปลี่ยนไปใช้การรับส่งข้อความและคู่แข่งเช่น Snapchat รายงานยังเผยให้เห็นถึงกลยุทธ์ต่างๆที่เฟซบุ๊คพยายามเพิ่มการแบ่งปันรวมถึงการปรับแต่งอัลกอริธึมฟีดข้อมูลข่าวสารที่ทำให้บทความต้นฉบับมีความโดดเด่นมากขึ้นรวมถึงการแจ้งเตือนเป็นระยะ ๆ ของโพสต์ต้นฉบับด้วยคุณลักษณะ "ในวันนี้" ผลที่ตามมาหากมีการค้นพบนี้มีไว้สำหรับนักวิจัยที่ต้องการใช้ Facebook เป็นแหล่งข้อมูลหรือไม่?
[ ] นักสังคมวิทยาและนักประวัติศาสตร์แตกต่างกันอย่างไร? ตาม Goldthorpe (1991) ความแตกต่างหลักคือการควบคุมการรวบรวมข้อมูล ประวัติศาสตร์ถูกบังคับให้ใช้พระธาตุในขณะที่นักสังคมวิทยาสามารถปรับแต่งข้อมูลให้เป็นไปตามวัตถุประสงค์เฉพาะได้ อ่าน Goldthorpe (1991) ความแตกต่างระหว่างสังคมวิทยากับประวัติศาสตร์เกี่ยวกับความคิดของ custommades และ readymades?
[ ] นี้สร้างขึ้นเมื่อ quesiton ก่อนหน้านี้ Goldthorpe (1991) ได้รับการตอบสนองที่สำคัญหลายอย่างรวมถึงเรื่องหนึ่งจาก Nicky Hart (1994) ที่ท้าทายความทุ่มเทของ Goldthorpe ในการปรับแต่งข้อมูล ฮาร์ตอธิบายโครงการ Affluent Worker Project ซึ่งเป็นการสำรวจขนาดใหญ่เพื่อวัดความสัมพันธ์ระหว่างชนชั้นทางสังคมกับการลงคะแนนเสียงที่ดำเนินการโดย Goldthorpe และเพื่อนร่วมงานในช่วงกลางทศวรรษที่ 1960 เป็นหนึ่งอาจคาดหวังจากนักวิชาการที่ชอบข้อมูลที่ออกแบบมามากกว่าข้อมูลที่พบโครงการคนร่ำรวยเก็บข้อมูลที่ถูกปรับแต่งเพื่อรับมือกับทฤษฎีที่นำเสนอเมื่อเร็ว ๆ นี้เกี่ยวกับอนาคตของชนชั้นทางสังคมในยุคของการเพิ่มมาตรฐานการครองชีพ แต่ Goldthorpe และเพื่อนร่วมงานอย่างใด "ลืม" เพื่อรวบรวมข้อมูลเกี่ยวกับพฤติกรรมการลงคะแนนเสียงของผู้หญิง นี่เป็นวิธีที่ Nicky Hart (1994) สรุปเรื่องราวทั้งหมด:
"... มันเป็นการยากที่จะหลีกเลี่ยงข้อสรุปที่ว่าผู้หญิงถูกละไว้เพราะชุดข้อมูลที่" ตัดเอง "นี้ถูก จำกัด ด้วยเหตุผลทางฟิสิกส์ซึ่งไม่รวมถึงประสบการณ์ของผู้หญิง ได้รับแรงผลักดันจากวิสัยทัศน์ทางทฤษฎีเกี่ยวกับจิตสำนึกและการกระทำแบบบุรุษที่เป็นหมัน ... Goldthorpe และเพื่อนร่วมงานของเขาได้สร้างหลักฐานเชิงประจักษ์ซึ่งเลี้ยงดูและหล่อหลอมสมมติฐานทางทฤษฎีของตนเองแทนการเปิดเผยให้พวกเขาได้รับการทดสอบอย่างเพียงพอ "
ฮาร์ทยังคง:
"การค้นพบเชิงประจักษ์ของโครงการ Affluent Worker Project บอกให้เรารู้เพิ่มเติมเกี่ยวกับคุณค่าทางสังคมของสังคมวิทยาในช่วงกลางศตวรรษที่ผ่านมามากกว่าที่พวกเขาแจ้งถึงกระบวนการแบ่งแยกการเมืองและชีวิตทางวัตถุ"
คุณสามารถนึกถึงตัวอย่างอื่น ๆ ที่มีการรวบรวมข้อมูลแบบตัดบัญชีที่มีอคติของตัวเก็บรวบรวมข้อมูลหรือไม่? วิธีนี้เปรียบเทียบกับอัลกอริทึม confounding? สิ่งเหล่านี้มีผลต่อเมื่อนักวิจัยควรใช้ readymades และเมื่อควรใช้ custommades?
[ ] ในบทนี้ฉันได้เปรียบเทียบข้อมูลที่นักวิจัยรวบรวมไว้สำหรับนักวิจัยที่มีข้อมูลการบริหารที่สร้างขึ้นโดย บริษัท และรัฐบาล บางคนเรียกข้อมูลการจัดการเหล่านี้ว่า "ข้อมูลที่พบ" ซึ่งตรงกันข้ามกับ "ข้อมูลที่ได้รับการออกแบบ" โดยแท้แล้วการค้นคว้าวิจัยพบโดยนักวิจัย แต่ยังได้รับการออกแบบมาเป็นอย่างดี ตัวอย่างเช่น บริษัท ด้านเทคโนโลยีสมัยใหม่ทำงานอย่างหนักเพื่อรวบรวมและดูแลข้อมูลของตน ดังนั้นบันทึกการจัดการเหล่านี้จึงถูกค้นพบและออกแบบขึ้นอยู่กับมุมมองของคุณ (รูปที่ 2.12)
ให้ตัวอย่างของแหล่งข้อมูลที่มองเห็นทั้งที่พบและออกแบบมาเป็นประโยชน์เมื่อใช้แหล่งข้อมูลดังกล่าวเพื่อการวิจัย
[ ] ในการเขียนเรียงความที่ชาญฉลาด Christian Sandvig และ Eszter Hargittai (2015) แยกการวิจัยแบบดิจิตอลออกเป็นสองประเภทใหญ่ ๆ โดยขึ้นอยู่กับว่าระบบดิจิทัลเป็น "เครื่องมือ" หรือ "วัตถุในการศึกษา" ตัวอย่างของระบบชนิดแรก ๆ เครื่องมือ - คือการวิจัยของ Bengtsson และเพื่อนร่วมงาน (2011) เกี่ยวกับการใช้ข้อมูลโทรศัพท์มือถือเพื่อติดตามการอพยพหลังจากเกิดแผ่นดินไหวในเฮติในปี 2010 ตัวอย่างของชนิดที่สองซึ่งเป็นระบบการวิจัยคือการวิจัยของเซ่น (2007) เกี่ยวกับการแนะนำโทรศัพท์เคลื่อนที่ทั่ว Kerala ประเทศอินเดียมีผลต่อการทำงานของตลาดปลา ฉันพบว่าความแตกต่างดังกล่าวเป็นประโยชน์เนื่องจากชี้แจงว่าการศึกษาโดยใช้แหล่งข้อมูลดิจิทัลสามารถมีเป้าหมายที่แตกต่างกันได้แม้ว่าจะใช้แหล่งข้อมูลประเภทเดียวกันก็ตาม เพื่ออธิบายความแตกต่างนี้อธิบายถึงการศึกษาสี่ชิ้นที่คุณเคยเห็น ได้แก่ สองระบบที่ใช้ระบบดิจิทัลเป็นเครื่องมือและ 2 คนที่ใช้ระบบดิจิทัลเป็นวัตถุในการศึกษา คุณสามารถใช้ตัวอย่างจากบทนี้หากต้องการ