สำคัญ:
[ , ] รบกวนขั้นตอนปัญหากับ Google แนวโน้มไข้หวัดใหญ่ อ่านกระดาษโดย Lazer et al. (2014) และเขียนสั้นอีเมลที่ชัดเจนในการเป็นวิศวกรที่ Google อธิบายปัญหาและเสนอความคิดของวิธีการแก้ไขปัญหาที่
[ ] Bollen, Mao, and Zeng (2011) อ้างว่าข้อมูลจากทวิตเตอร์สามารถใช้ในการคาดการณ์การลงทุนในตลาดหุ้น การค้นพบนี้จะนำไปสู่การสร้างของกองทุนป้องกันความเสี่ยง Derwent ตลาดทุนต่อการลงทุนในตลาดหุ้นอยู่บนพื้นฐานของข้อมูลที่รวบรวมจากทวิตเตอร์ (Jordan 2010) หลักฐานอะไรที่คุณจะต้องการที่จะเห็นก่อนที่จะวางเงินของคุณในกองทุนที่?
[ ] ในขณะที่บางสนับสนุนสุขภาพของประชาชนลูกเห็บบุหรี่อิเล็กทรอนิกส์เป็นตัวช่วยที่มีประสิทธิภาพสำหรับการเลิกสูบบุหรี่, อื่น ๆ เตือนเกี่ยวกับความเสี่ยงที่อาจเกิดขึ้นเช่นระดับสูงของนิโคติน ลองจินตนาการว่านักวิจัยตัดสินใจที่จะศึกษาความคิดเห็นของประชาชนที่มีต่อบุหรี่อิเล็กทรอนิกส์โดยการเก็บรวบรวมบุหรี่อิเล็กทรอนิกส์ที่เกี่ยวข้องกับการโพสต์ทวิตเตอร์และการดำเนินการวิเคราะห์ความเชื่อมั่น
[ ] ในเดือนพฤศจิกายน 2009 ทวิตเตอร์เปลี่ยนคำถามในกล่องทวีตจาก "คุณกำลังทำอะไร?" กับ "สิ่งที่เกิดขึ้น?" (https://blog.twitter.com/2009/whats-happening)
[ ] Kwak et al. (2010) การวิเคราะห์ 41,700,000 โปรไฟล์ผู้ใช้ 1470000000 ความสัมพันธ์ทางสังคม 4262 หัวข้อได้รับความนิยมและ 106,000,000 ทวีตระหว่าง 6 มิถุนายนถึงวันที่ 31 มิถุนายน 2009 จากการวิเคราะห์นี้พวกเขาได้ข้อสรุปว่าทวิตเตอร์ทำหน้าที่เป็นสื่อกลางในการใหม่ของการใช้ข้อมูลร่วมกันกว่า เครือข่ายสังคม.
[ ] "รีทวีต" มักจะใช้ในการวัดอิทธิพลและการแพร่กระจายของอิทธิพลบนทวิตเตอร์ ในขั้นต้นผู้ใช้มีการคัดลอกและวางทวีตที่พวกเขาชอบแท็กผู้เขียนต้นฉบับด้วย / จับของตนด้วยตนเองและพิมพ์ "RT" ก่อนที่จะทวีตเพื่อแสดงให้เห็นว่ามันเป็น Retweet จากนั้นในปี 2009 ทวิตเตอร์เพิ่มปุ่ม "retweet" ในเดือนมิถุนายนปี 2016 ทวิตเตอร์ทำให้มันเป็นไปได้สำหรับผู้ใช้เพื่อ retweet ทวีตของตัวเอง (https://twitter.com/twitter/status/742749353689780224) คุณคิดว่าการเปลี่ยนแปลงเหล่านี้ควรมีผลต่อวิธีที่คุณใช้ "ทวีตตอบกลับ" ในการวิจัยของคุณหรือไม่ ทำไมหรือทำไมไม่?
[ , , ] Michel et al. (2011) สร้างคลังโผล่ออกมาจากความพยายามของ Google ในรูปแบบดิจิทัลหนังสือ ใช้รุ่นแรกของคอร์ปัสซึ่งได้รับการตีพิมพ์ในปี 2009 และมีมากกว่า 5 ล้านเล่มดิจิทัลผู้เขียนวิเคราะห์ความถี่การใช้คำในการตรวจสอบการเปลี่ยนแปลงทางภาษาและแนวโน้มทางวัฒนธรรม เร็ว ๆ นี้ Google หนังสือคอร์ปัสกลายเป็นแหล่งข้อมูลที่เป็นที่นิยมสำหรับนักวิจัยและรุ่นที่ 2 ของฐานข้อมูลที่ได้รับการปล่อยตัวในปี 2012
อย่างไรก็ตาม Pechenick, Danforth, and Dodds (2015) เตือนว่านักวิจัยต้องเต็มที่ลักษณะกระบวนการการสุ่มตัวอย่างจากคลังก่อนที่จะใช้สำหรับการวาดข้อสรุปในวงกว้าง ปัญหาหลักคือการที่คลังเป็นห้องสมุดเหมือนมีหนึ่งในหนังสือแต่ละเล่ม เป็นผลให้บุคคลที่ผู้เขียนอุดมสมบูรณ์สามารถที่จะเห็นได้ชัดแทรกวลีใหม่ในพจนานุกรมของ Google หนังสือ นอกจากนี้ตำราทางวิทยาศาสตร์ถือเป็นส่วนที่สำคัญมากขึ้นของการคอร์ปัสตลอดปี 1900 นอกจากนี้โดยการเปรียบเทียบสองรุ่นของชุดข้อมูลนิยายภาษาอังกฤษ Pechenick et al, หลักฐานที่พบว่าการกรองไม่เพียงพอที่ถูกนำมาใช้ในการผลิตรุ่นแรก ข้อมูลทั้งหมดที่จำเป็นสำหรับกิจกรรมที่สามารถใช้ได้ที่นี่: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) สำรวจว่าการประชาสัมพันธ์อย่างกว้างขวางเกี่ยวกับการเฝ้าระวัง NSA / PRISM (เช่นโองการ Snowden) ในเดือนมิถุนายน 2013 ที่เกี่ยวข้องกับการลดลงของความคมชัดและฉับพลันในการเข้าชมบทความวิกิพีเดียในหัวข้อที่เพิ่มความกังวลความเป็นส่วนตัว ถ้าเป็นเช่นนั้นการเปลี่ยนแปลงในพฤติกรรมที่จะสอดคล้องกับหนาวเหน็บผลที่เกิดจากการเฝ้าระวังมวล วิธีการของ Penney (2016) บางครั้งเรียกว่าการออกแบบอนุกรมเวลาขัดจังหวะและมีความเกี่ยวข้องกับแนวทางในบทที่เกี่ยวกับการใกล้เคียงกับการทดลองจากข้อมูลสังเกตการณ์ (มาตรา 2.4.3)
การเลือกคำหลักหัวข้อ Penney เรียกรายการที่ใช้โดยกระทรวงความมั่นคงสหรัฐสำหรับการติดตามและการตรวจสอบสื่อสังคม รายการ DHS แบ่งคำค้นหาบางอย่างลงในช่วงของปัญหาคือ "ห่วงใยสุขภาพ", "การรักษาความปลอดภัยโครงสร้างพื้นฐาน" และ "การก่อการร้ายก." สำหรับกลุ่มการศึกษา Penney ใช้สี่สิบแปดคำหลักที่เกี่ยวข้องกับ "การก่อการร้าย" (ดูตารางที่ 8 ภาคผนวก). จากนั้นเขาก็รวบรวมจำนวนการดูวิกิพีเดียบทความเกี่ยวกับการเป็นประจำทุกเดือนสำหรับการที่สอดคล้องกันสี่สิบแปดบทความวิกิพีเดียเป็นระยะเวลากว่าสามสิบสองเดือนจากจุดเริ่มต้นของเดือนมกราคม 2012 ถึงสิ้นเดือนสิงหาคม 2014 เพื่อเสริมสร้างข้อโต้แย้งของเขายังสร้างการเปรียบเทียบหลาย กลุ่มโดยการติดตามการดูบทความในหัวข้ออื่น ๆ
ตอนนี้คุณจะไปทำซ้ำและขยาย Penney (2016) ทุกข้อมูลดิบที่คุณจะต้องสำหรับกิจกรรมนี้สามารถใช้ได้จากวิกิพีเดีย (https://dumps.wikimedia.org/other/pagecounts-raw/) หรือคุณจะได้รับจากแพคเกจ wikipediatrend R (Meissner and Team 2016) เมื่อคุณเขียนขึ้นคำตอบของคุณโปรดทราบแหล่งที่มาของข้อมูลที่คุณใช้ (หมายเหตุ: กิจกรรมเดียวกันนี้ยังปรากฏอยู่ในบทที่ 6)
[ ] Efrati (2016) รายงานบนพื้นฐานของข้อมูลที่เป็นความลับว่า "ร่วมกันทั้งหมด" บน Facebook ได้ลดลงประมาณ 5.5% ในช่วงปีปีขณะที่ "การแบ่งปันเดิมออกอากาศ" เป็นลดลง 21% เทียบกับปีก่อน การลดลงนี้เป็นเฉียบพลันโดยเฉพาะอย่างยิ่งกับผู้ใช้ Facebook ภายใต้อายุ 30 ปี รายงานประกอบการลดลงของปัจจัยทั้งสอง หนึ่งคือการเจริญเติบโตในจำนวนของ "เพื่อน" ที่มีคนบน Facebook อื่น ๆ คือว่าบางกิจกรรมร่วมกันได้ขยับตัวไปส่งข้อความและกับคู่แข่งเช่น SnapChat นอกจากนี้รายงานยังเผยกลยุทธ์หลาย Facebook ได้พยายามที่จะเพิ่มการใช้งานร่วมกันรวมทั้งการปรับแต่งขั้นตอนวิธีการฟีดข่าวที่โพสต์ข้อความเดิมโดดเด่นมากขึ้นเช่นเดียวกับการแจ้งเตือนเป็นระยะของผู้ใช้โพสต์ต้นฉบับ "ในวันนี้" หลายปีที่ผ่านมา ความหมายอะไรถ้ามีการค้นพบนี้ไม่ได้สำหรับนักวิจัยที่ต้องการใช้ Facebook เป็นแหล่งข้อมูล?
[ ] Tumasjan et al. (2010) รายงานสัดส่วนของทวิตเตอร์กล่าวถึงพรรคการเมืองที่ตรงกับสัดส่วนของคะแนนที่พรรคได้รับในการเลือกตั้งรัฐสภาเยอรมันในปี 2009 (รูปที่ 2.9) ในคำอื่น ๆ ก็ปรากฏว่าคุณสามารถใช้ทวิตเตอร์ในการทำนายการเลือกตั้ง ในขณะที่การศึกษาครั้งนี้ได้รับการตีพิมพ์ก็ถือว่าน่าตื่นเต้นมากเพราะมันดูเหมือนจะแนะนำการใช้งานที่มีคุณค่าสำหรับเป็นแหล่งทั่วไปของข้อมูลขนาดใหญ่
ที่กำหนดคุณสมบัติที่ไม่ดีของข้อมูลขนาดใหญ่ แต่คุณทันทีควรจะสงสัยของผลนี้ เยอรมันบนทวิตเตอร์ในปี 2009 ค่อนข้างไม่ใช่กลุ่มตัวแทนและผู้สนับสนุนของพรรคหนึ่งอาจทวีตเกี่ยวกับการเมืองบ่อยขึ้น ดังนั้นจึงดูเหมือนว่าน่าแปลกใจว่าทุกคนที่มีอคติไปได้ว่าคุณสามารถจินตนาการอย่างใดจะยกเลิกการออก ในความเป็นจริงผลใน Tumasjan et al. (2010) เปิดออกมาจะดีเกินไปที่จะเป็นจริง ในกระดาษของพวกเขา Tumasjan et al. (2010) การพิจารณาหกพรรคการเมือง: คริสเตียนเดโมแคร (CDU) คริสเตียนเดโมแครสังคม (CSU) เมจิ Liberals (FDP) ซ้าย (Die Linke) และพรรคกรีน (Grüne) อย่างไรก็ตามที่กล่าวถึงมากที่สุดพรรคการเมืองเยอรมันบนทวิตเตอร์ในเวลานั้นคือพรรคโจรสลัด (Piraten) บุคคลที่ต่อสู้กฎระเบียบของรัฐบาลของอินเทอร์เน็ต เมื่อพรรคโจรสลัดถูกรวมอยู่ในการวิเคราะห์, ทวิตเตอร์กล่าวจะกลายเป็นปัจจัยบ่งชี้ที่น่ากลัวของผลการเลือกตั้ง (รูปที่ 2.9) (Jungherr, Jürgens, and Schoen 2012)
ต่อมานักวิจัยอื่น ๆ ทั่วโลกได้ใช้วิธีการดังกล่าวนักเล่นการใช้วิเคราะห์ความเชื่อมั่นที่จะแยกแยะระหว่างบวกและลบกล่าวถึงบุคคลในเพื่อที่จะปรับปรุงความสามารถของข้อมูลทวิตเตอร์ในการทำนายความหลากหลายของประเภทที่แตกต่างกันของการเลือกตั้ง (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) นี่คือวิธีที่ Huberty (2015) สรุปผลของความพยายามเหล่านี้ที่จะคาดการณ์การเลือกตั้ง:
"ทุกคนที่รู้จักวิธีการพยากรณ์ขึ้นอยู่กับสื่อสังคมได้ล้มเหลวเมื่ออยู่ภายใต้ความต้องการของจริงมองไปข้างหน้าคาดการณ์การเลือกตั้ง ความล้มเหลวเหล่านี้ดูเหมือนจะเป็นเนื่องจากคุณสมบัติพื้นฐานของสื่อทางสังคมมากกว่าที่จะยากลำบากระเบียบวิธีหรืออัลกอริทึม ในระยะสั้นสื่อสังคมไม่ได้และอาจจะไม่เคยจะมีเสถียรภาพที่เป็นกลาง, ภาพตัวแทนของเขตเลือกตั้ง; และตัวอย่างความสะดวกสบายของสื่อทางสังคมขาดข้อมูลที่เพียงพอที่จะแก้ไขปัญหาเหล่านี้โพสต์เฉพาะกิจ. "
อ่านบางส่วนของการวิจัยที่นำไปสู่ Huberty (2015) สรุปว่าและเขียนบันทึกหน้าหนึ่งไปยังผู้สมัครทางการเมืองอธิบายถ้าทวิตเตอร์และวิธีการที่ควรจะใช้ในการคาดการณ์การเลือกตั้ง
[ ] ความแตกต่างระหว่างนักสังคมวิทยาและนักประวัติศาสตร์คืออะไร? ตามที่ Goldthorpe (1991) ความแตกต่างที่สำคัญระหว่างนักสังคมวิทยาและนักประวัติศาสตร์คือการควบคุมการเก็บรวบรวมข้อมูล ประวัติศาสตร์ถูกบังคับให้ใช้พระธาตุในขณะที่นักสังคมวิทยาสามารถปรับแต่งการเก็บรวบรวมข้อมูลของพวกเขาเพื่อวัตถุประสงค์เฉพาะ อ่าน Goldthorpe (1991) วิธีการคือความแตกต่างระหว่างสังคมวิทยาและประวัติศาสตร์ที่เกี่ยวข้องกับความคิดของ Custommades และ Readymades หรือไม่
[ ] อาคารในคำถามก่อนหน้านี้ Goldthorpe (1991) เข้ามาเป็นจำนวนมากของการตอบสนองที่สำคัญรวมทั้งจากนิคกี้ฮาร์ท (1994) ที่ท้าทายความจงรักภักดี Goldthorpe ของการปรับแต่งข้อมูลทำ เพื่อชี้แจงข้อ จำกัด ที่มีศักยภาพของข้อมูล tailor-made ฮาร์ตอธิบายร่ำรวยคนทำงานโครงการการสำรวจขนาดใหญ่ในการวัดความสัมพันธ์ระหว่างระดับชั้นทางสังคมและออกเสียงลงคะแนนที่ได้ดำเนินการโดย Goldthorpe และเพื่อนร่วมงานในช่วงกลางปี 1960 ที่ ในฐานะที่เป็นหนึ่งอาจคาดหวังจากนักวิชาการที่ได้รับการสนับสนุนการออกแบบข้อมูลผ่านข้อมูลพบว่าโครงการคนทำงานร่ำรวยเก็บรวบรวมข้อมูลที่ถูกปรับแต่งให้อยู่เป็นทฤษฎีที่เสนอเมื่อเร็ว ๆ นี้เกี่ยวกับอนาคตของสังคมชั้นสูงในยุคของมาตรฐานการครองชีพที่เพิ่ม แต่ Goldthorpe และเพื่อนร่วมงานอย่างใด "ลืม" เพื่อรวบรวมข้อมูลเกี่ยวกับพฤติกรรมการลงคะแนนเสียงของผู้หญิง นี่คือวิธีที่นิคกี้ฮาร์ท (1994) สรุปเรื่องราวทั้งหมด:
" . . มัน [คือ] ยากที่จะหลีกเลี่ยงข้อสรุปว่าผู้หญิงถูกมองข้ามเพราะนี่ 'ตัดทำ' ชุดข้อมูลที่ถูกกักตัวไว้โดยตรรกะตัวอย่างที่ได้รับการยกเว้นประสบการณ์เพศหญิง ขับเคลื่อนโดยมีวิสัยทัศน์ทางทฤษฎีของระดับจิตสำนึกและการกระทำเป็นชายเพ้อพก . . , Goldthorpe และเพื่อนร่วมงานของเขาสร้างชุดของบทพิสูจน์เชิงประจักษ์ที่เลี้ยงและหล่อเลี้ยงทฤษฎีสมมติฐานของตัวเองแทนการเปิดเผยให้การทดสอบที่ถูกต้องความเพียงพอได้. "
ฮาร์ทยังคง:
"การค้นพบเชิงประจักษ์ของโครงการคนทำงานร่ำรวยบอกเราเพิ่มเติมเกี่ยวกับค่า masculinist สังคมวิทยาในช่วงกลางศตวรรษกว่าที่พวกเขาแจ้งให้กระบวนการของการแบ่งชั้นการเมืองและชีวิตของวัสดุ."
คุณสามารถคิดตัวอย่างอื่น ๆ ที่เก็บรวบรวมข้อมูล tailor-made มีอคติของตัวเก็บรวบรวมข้อมูลที่สร้างขึ้นในมันได้หรือไม่ นี้จะเปรียบเทียบกับอัลกอริทึมรบกวน? ผลกระทบสิ่งนี้อาจจะมีเมื่อนักวิจัยควรใช้ Readymades และเมื่อพวกเขาควรใช้ Custommades?
[ ] ในบทนี้ผมเปรียบเทียบข้อมูลที่เก็บรวบรวมโดยนักวิจัยสำหรับนักวิจัยที่มีผลในการบริหารที่สร้างขึ้นโดย บริษัท และรัฐบาล บางคนเรียกบันทึกการบริหารเหล่านี้ "พบข้อมูล" ซึ่งพวกเขาตรงกันข้ามกับ "ข้อมูลที่ได้รับการออกแบบ." มันเป็นความจริงที่บันทึกในการบริหารมีการค้นพบโดยนักวิจัย แต่พวกเขายังได้รับการออกแบบอย่างมาก ยกตัวอย่างเช่น บริษัท ที่มีเทคโนโลยีที่ทันสมัยใช้จ่ายจำนวนมหาศาลของเวลาและทรัพยากรในการเก็บรวบรวมและดูแลข้อมูลของพวกเขา ดังนั้นการบริหารจัดการระเบียนเหล่านี้มีทั้งการค้นพบและได้รับการออกแบบมันก็ขึ้นอยู่กับมุมมองของคุณ (รูปที่ 2.10)
ให้เป็นตัวอย่างของแหล่งข้อมูลที่ผู้เห็นมันเป็นทั้งการค้นพบและการออกแบบจะเป็นประโยชน์เมื่อใช้แหล่งข้อมูลสำหรับการวิจัย
[ ] ในเรียงความคิดคริสเตียน Sandvig และ Eszter Hargittai (2015) อธิบายสองชนิดของการวิจัยดิจิตอลที่ระบบดิจิตอลคือ "เครื่องมือ" หรือ "วัตถุของการศึกษา." ตัวอย่างของชนิดแรกของการศึกษาเป็นที่ที่ Bengtsson และเพื่อนร่วมงาน (2011) ข้อมูลที่ใช้โทรศัพท์มือถือเพื่อติดตามการโยกย้ายหลังเกิดแผ่นดินไหวในประเทศเฮติในปี 2010 เป็นตัวอย่างของประเภทที่สองคือที่เซ่น (2007) ศึกษาวิธีการแนะนำโทรศัพท์มือถือทั่ว Kerala อินเดียส่งผลกระทบต่อการทำงานของตลาดปลา ฉันพบนี้เป็นประโยชน์เพราะมันชัดเจนว่าการศึกษาโดยใช้แหล่งข้อมูลดิจิตอลสามารถมีเป้าหมายที่แตกต่างกันมากแม้ว่าพวกเขาจะใช้ชนิดเดียวกันของแหล่งข้อมูล เพื่อที่จะชี้แจงความแตกต่างนี้อธิบายสี่การศึกษาที่คุณเคยเห็นสองที่ใช้ระบบดิจิตอลเป็นเครื่องมือและสองที่ใช้ระบบดิจิตอลเป็นวัตถุของการศึกษา คุณสามารถใช้ตัวอย่างจากบทนี้ถ้าคุณต้องการ