กิจกรรม

สำคัญ:

  • ระดับความยาก: ง่าย ง่าย กลาง กลาง ยาก ยาก , ยากมาก ยากมาก
  • ต้องใช้คณิตศาสตร์ ( ต้องใช้คณิตศาสตร์ )
  • ต้องเขียนโค้ด ( ต้องเขียนโค้ด )
  • การเก็บรวบรวมข้อมูล ( การเก็บรวบรวมข้อมูล )
  • สิ่งที่ฉันชอบ ( ที่ชื่นชอบ )
  1. [ กลาง , ที่ชื่นชอบ ] รบกวนขั้นตอนปัญหากับ Google แนวโน้มไข้หวัดใหญ่ อ่านกระดาษโดย Lazer et al. (2014) และเขียนสั้นอีเมลที่ชัดเจนในการเป็นวิศวกรที่ Google อธิบายปัญหาและเสนอความคิดของวิธีการแก้ไขปัญหาที่

  2. [ กลาง ] Bollen, Mao, and Zeng (2011) อ้างว่าข้อมูลจากทวิตเตอร์สามารถใช้ในการคาดการณ์การลงทุนในตลาดหุ้น การค้นพบนี้จะนำไปสู่การสร้างของกองทุนป้องกันความเสี่ยง Derwent ตลาดทุนต่อการลงทุนในตลาดหุ้นอยู่บนพื้นฐานของข้อมูลที่รวบรวมจากทวิตเตอร์ (Jordan 2010) หลักฐานอะไรที่คุณจะต้องการที่จะเห็นก่อนที่จะวางเงินของคุณในกองทุนที่?

  3. [ ง่าย ] ในขณะที่บางสนับสนุนสุขภาพของประชาชนลูกเห็บบุหรี่อิเล็กทรอนิกส์เป็นตัวช่วยที่มีประสิทธิภาพสำหรับการเลิกสูบบุหรี่, อื่น ๆ เตือนเกี่ยวกับความเสี่ยงที่อาจเกิดขึ้นเช่นระดับสูงของนิโคติน ลองจินตนาการว่านักวิจัยตัดสินใจที่จะศึกษาความคิดเห็นของประชาชนที่มีต่อบุหรี่อิเล็กทรอนิกส์โดยการเก็บรวบรวมบุหรี่อิเล็กทรอนิกส์ที่เกี่ยวข้องกับการโพสต์ทวิตเตอร์และการดำเนินการวิเคราะห์ความเชื่อมั่น

    1. อะไรคือสามอคติไปได้ว่าคุณเป็นห่วงมากที่สุดเกี่ยวกับในการศึกษาครั้งนี้?
    2. Clark et al. (2016) วิ่งเพียงการศึกษาดังกล่าว ก่อนที่พวกเขาเก็บรวบรวม 850,000 ทวีตที่ใช้คำหลักบุหรี่อิเล็กทรอนิกส์ที่เกี่ยวข้องกับการจากมกราคม 2012 ถึงเดือนธันวาคม 2014 เมื่อตรวจสอบอย่างใกล้ชิดพวกเขาตระหนักว่าหลายทวีตเหล่านี้ได้โดยอัตโนมัติ (เช่นไม่ได้ผลิตโดยมนุษย์) และอีกหลายแห่งทวีตอัตโนมัติเหล่านี้เป็นหลัก โฆษณา พวกเขาพัฒนาวิธีการตรวจสอบความมั่นคงของมนุษย์ที่จะแยกทวีตโดยอัตโนมัติจากทวีตอินทรีย์ โดยใช้มนุษย์นี้ตรวจสอบขั้นตอนวิธีการที่พวกเขาพบว่า 80% ของทวิตเตอร์ถูกอัตโนมัติ การค้นพบนี้ไม่เปลี่ยนคำตอบของคุณเพื่อเป็นส่วนหนึ่ง (ก)?
    3. เมื่อพวกเขาเมื่อเทียบกับความเชื่อมั่นในทวีตอินทรีย์และอัตโนมัติที่พวกเขาพบว่าทวีตโดยอัตโนมัติเป็นบวกมากกว่าทวิตเตอร์อินทรีย์ (6.17 เทียบกับ 5.84) การค้นพบนี้ไม่เปลี่ยนคำตอบของคุณ (ข)?
  4. [ ง่าย ] ในเดือนพฤศจิกายน 2009 ทวิตเตอร์เปลี่ยนคำถามในกล่องทวีตจาก "คุณกำลังทำอะไร?" กับ "สิ่งที่เกิดขึ้น?" (https://blog.twitter.com/2009/whats-happening)

    1. คุณคิดว่าการเปลี่ยนแปลงจะแจ้งให้จะมีผลต่อคนที่ tweet และ / หรือสิ่งที่พวกเขา tweet?
    2. ชื่อโครงการวิจัยหนึ่งที่คุณจะชอบที่พรอมต์ "คุณกำลังทำอะไร?" อธิบายว่าทำไม
    3. ชื่อโครงการวิจัยหนึ่งที่คุณจะชอบที่พรอมต์ "เกิดอะไรขึ้น?" อธิบายว่าทำไม
  5. [ กลาง ] Kwak et al. (2010) การวิเคราะห์ 41,700,000 โปรไฟล์ผู้ใช้ 1470000000 ความสัมพันธ์ทางสังคม 4262 หัวข้อได้รับความนิยมและ 106,000,000 ทวีตระหว่าง 6 มิถุนายนถึงวันที่ 31 มิถุนายน 2009 จากการวิเคราะห์นี้พวกเขาได้ข้อสรุปว่าทวิตเตอร์ทำหน้าที่เป็นสื่อกลางในการใหม่ของการใช้ข้อมูลร่วมกันกว่า เครือข่ายสังคม.

    1. พิจารณา Kwak, et al ของการค้นพบสิ่งที่ประเภทของการวิจัยที่คุณจะทำอะไรกับข้อมูลทวิตเตอร์? อะไรประเภทของการวิจัยที่คุณจะไม่ทำอะไรกับข้อมูลทวิตเตอร์? ทำไม?
    2. ในปี 2010 ทวิตเตอร์เพิ่มใครในการปฏิบัติตามข้อเสนอแนะของการทำบริการที่เหมาะกับผู้ใช้งาน สามคำแนะนำที่จะแสดงในเวลาบนหน้าหลัก คำแนะนำมักจะถูกดึงออกมาจากหนึ่งของ "เพื่อนของเพื่อน" และรายชื่อร่วมกันนอกจากนี้ยังมีปรากฏในข้อเสนอแนะ ผู้ใช้สามารถฟื้นฟูเพื่อดูชุดใหม่ของคำแนะนำหรือเยี่ยมชมหน้าเว็บที่มีรายชื่อยาวของคำแนะนำ คุณคิดว่าคุณลักษณะใหม่นี้จะเปลี่ยนคำตอบของคุณเป็นส่วนหนึ่ง)? ทำไมหรือทำไมไม่?
    3. Su, Sharma, and Goel (2016) การประเมินผลกระทบของใครในการปฏิบัติตามการบริการและพบว่าในขณะที่ผู้ใช้ทั่วสเปกตรัมความนิยมได้รับประโยชน์จากข้อเสนอแนะของผู้ใช้ที่นิยมมากที่สุดได้ประโยชน์มากขึ้นกว่าค่าเฉลี่ย การค้นพบนี้ไม่เปลี่ยนคำตอบของคุณเพื่อเป็นส่วนหนึ่งข)? ทำไมหรือทำไมไม่?
  6. [ ง่าย ] "รีทว​​ีต" มักจะใช้ในการวัดอิทธิพลและการแพร่กระจายของอิทธิพลบนทวิตเตอร์ ในขั้นต้นผู้ใช้มีการคัดลอกและวางทวีตที่พวกเขาชอบแท็กผู้เขียนต้นฉบับด้วย / จับของตนด้วยตนเองและพิมพ์ "RT" ก่อนที่จะทวีตเพื่อแสดงให้เห็นว่ามันเป็น Retweet จากนั้นในปี 2009 ทวิตเตอร์เพิ่มปุ่ม "retweet" ในเดือนมิถุนายนปี 2016 ทวิตเตอร์ทำให้มันเป็นไปได้สำหรับผู้ใช้เพื่อ retweet ทวีตของตัวเอง (https://twitter.com/twitter/status/742749353689780224) คุณคิดว่าการเปลี่ยนแปลงเหล่านี้ควรมีผลต่อวิธีที่คุณใช้ "ทวีตตอบกลับ" ในการวิจัยของคุณหรือไม่ ทำไมหรือทำไมไม่?

  7. [ กลาง , การเก็บรวบรวมข้อมูล , ต้องเขียนโค้ด ] Michel et al. (2011) สร้างคลังโผล่ออกมาจากความพยายามของ Google ในรูปแบบดิจิทัลหนังสือ ใช้รุ่นแรกของคอร์ปัสซึ่งได้รับการตีพิมพ์ในปี 2009 และมีมากกว่า 5 ล้านเล่มดิจิทัลผู้เขียนวิเคราะห์ความถี่การใช้คำในการตรวจสอบการเปลี่ยนแปลงทางภาษาและแนวโน้มทางวัฒนธรรม เร็ว ๆ นี้ Google หนังสือคอร์ปัสกลายเป็นแหล่งข้อมูลที่เป็นที่นิยมสำหรับนักวิจัยและรุ่นที่ 2 ของฐานข้อมูลที่ได้รับการปล่อยตัวในปี 2012

    อย่างไรก็ตาม Pechenick, Danforth, and Dodds (2015) เตือนว่านักวิจัยต้องเต็มที่ลักษณะกระบวนการการสุ่มตัวอย่างจากคลังก่อนที่จะใช้สำหรับการวาดข้อสรุปในวงกว้าง ปัญหาหลักคือการที่คลังเป็นห้องสมุดเหมือนมีหนึ่งในหนังสือแต่ละเล่ม เป็นผลให้บุคคลที่ผู้เขียนอุดมสมบูรณ์สามารถที่จะเห็นได้ชัดแทรกวลีใหม่ในพจนานุกรมของ Google หนังสือ นอกจากนี้ตำราทางวิทยาศาสตร์ถือเป็นส่วนที่สำคัญมากขึ้นของการคอร์ปัสตลอดปี 1900 นอกจากนี้โดยการเปรียบเทียบสองรุ่นของชุดข้อมูลนิยายภาษาอังกฤษ Pechenick et al, หลักฐานที่พบว่าการกรองไม่เพียงพอที่ถูกนำมาใช้ในการผลิตรุ่นแรก ข้อมูลทั้งหมดที่จำเป็นสำหรับกิจกรรมที่สามารถใช้ได้ที่นี่: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. ในมิเชล et al. กระดาษเดิม (2011) พวกเขาใช้รุ่นที่ 1 ของชุดข้อมูลภาษาอังกฤษวางแผนความถี่ของการใช้งานของปี "1880" ที่ "1912" และ "1973" และสรุปว่า "เรามีความ ลืมอดีตที่ผ่านมาของเราได้เร็วขึ้นด้วยแต่ละปีที่ผ่าน "(รูป. 3A, มิเชล et al.) ทำซ้ำพล็อตเดียวกันโดยใช้ 1) รุ่นที่ 1 ของคลังชุดภาษาอังกฤษ (เช่นเดียวกับรูป. 3A, มิเชล et al.)
    2. ตอนนี้ทำซ้ำพล็อตเดียวกันกับรุ่นที่ 1, ชุดนิยายภาษาอังกฤษ
    3. ตอนนี้ทำซ้ำพล็อตเดียวกันกับรุ่นที่ 2 ของคลังชุดข้อมูลภาษาอังกฤษ
    4. สุดท้ายทำซ้ำพล็อตเดียวกันกับรุ่นที่ 2 ชุดนิยายภาษาอังกฤษ
    5. อธิบายถึงความแตกต่างและความคล้ายคลึงกันระหว่างทั้งสี่แปลง คุณเห็นด้วยกับการตีความเดิม Michel et al. ของแนวโน้มสังเกตหรือไม่ (คำแนะนำ: ค) และง) ควรจะเป็นเช่นเดียวกับรูปที่ 16 ใน Pechenick, et al.)
    6. ตอนนี้คุณมีการจำลองแบบนี้ค้นพบโดยใช้ Google หนังสือที่แตกต่างกัน corpora ให้เลือกอีกการเปลี่ยนแปลงทางภาษาหรือปรากฏการณ์ทางวัฒนธรรมนำเสนอใน Michel et al. กระดาษเดิม คุณเห็นด้วยกับการตีความของพวกเขาในแง่ของข้อ จำกัด ที่นำเสนอใน Pechenick et al.? ที่จะทำให้ข้อโต้แย้งของคุณแข็งแรงลองทำซ้ำกราฟเดียวกันโดยใช้รุ่นที่แตกต่างกันของข้อมูลที่กำหนดไว้ดังกล่าวข้างต้น
  8. [ ยากมาก , การเก็บรวบรวมข้อมูล , ต้องเขียนโค้ด , ที่ชื่นชอบ ] Penney (2016) สำรวจว่าการประชาสัมพันธ์อย่างกว้างขวางเกี่ยวกับการเฝ้าระวัง NSA / PRISM (เช่นโองการ Snowden) ในเดือนมิถุนายน 2013 ที่เกี่ยวข้องกับการลดลงของความคมชัดและฉับพลันในการเข้าชมบทความวิกิพีเดียในหัวข้อที่เพิ่มความกังวลความเป็นส่วนตัว ถ้าเป็นเช่นนั้นการเปลี่ยนแปลงในพฤติกรรมที่จะสอดคล้องกับหนาวเหน็บผลที่เกิดจากการเฝ้าระวังมวล วิธีการของ Penney (2016) บางครั้งเรียกว่าการออกแบบอนุกรมเวลาขัดจังหวะและมีความเกี่ยวข้องกับแนวทางในบทที่เกี่ยวกับการใกล้เคียงกับการทดลองจากข้อมูลสังเกตการณ์ (มาตรา 2.4.3)

    การเลือกคำหลักหัวข้อ Penney เรียกรายการที่ใช้โดยกระทรวงความมั่นคงสหรัฐสำหรับการติดตามและการตรวจสอบสื่อสังคม รายการ DHS แบ่งคำค้นหาบางอย่างลงในช่วงของปัญหาคือ "ห่วงใยสุขภาพ", "การรักษาความปลอดภัยโครงสร้างพื้นฐาน" และ "การก่อการร้ายก." สำหรับกลุ่มการศึกษา Penney ใช้สี่สิบแปดคำหลักที่เกี่ยวข้องกับ "การก่อการร้าย" (ดูตารางที่ 8 ภาคผนวก). จากนั้นเขาก็รวบรวมจำนวนการดูวิกิพีเดียบทความเกี่ยวกับการเป็นประจำทุกเดือนสำหรับการที่สอดคล้องกันสี่สิบแปดบทความวิกิพีเดียเป็นระยะเวลากว่าสามสิบสองเดือนจากจุดเริ่มต้นของเดือนมกราคม 2012 ถึงสิ้นเดือนสิงหาคม 2014 เพื่อเสริมสร้างข้อโต้แย้งของเขายังสร้างการเปรียบเทียบหลาย กลุ่มโดยการติดตามการดูบทความในหัวข้ออื่น ๆ

    ตอนนี้คุณจะไปทำซ้ำและขยาย Penney (2016) ทุกข้อมูลดิบที่คุณจะต้องสำหรับกิจกรรมนี้สามารถใช้ได้จากวิกิพีเดีย (https://dumps.wikimedia.org/other/pagecounts-raw/) หรือคุณจะได้รับจากแพคเกจ wikipediatrend R (Meissner and Team 2016) เมื่อคุณเขียนขึ้นคำตอบของคุณโปรดทราบแหล่งที่มาของข้อมูลที่คุณใช้ (หมายเหตุ: กิจกรรมเดียวกันนี้ยังปรากฏอยู่ในบทที่ 6)

    1. อ่าน Penney (2016) และทำซ้ำรูปที่ 2 ซึ่งแสดงให้เห็นมุมมองที่หน้าสำหรับ "การก่อการร้าย" ที่เกี่ยวข้องกับหน้าก่อนและหลังการเปิดเผย Snowden ตีความผลการวิจัย
    2. ถัดไปซ้ำรูป 4A ซึ่งเปรียบเทียบกลุ่มศึกษา ( "การก่อการร้าย" ที่เกี่ยวข้องกับบทความ) กับกลุ่มเปรียบเทียบโดยใช้คำหลักประเภทภายใต้ "DHS และหน่วยงานอื่น ๆ " จากรายการ DHS (ดูภาคผนวกตารางที่ 10) ตีความผลการวิจัย
    3. ในส่วนข) คุณเทียบกลุ่มศึกษาเปรียบเทียบกับกลุ่มหนึ่ง Penney ยังเทียบกับสองกลุ่มอื่น ๆ เปรียบเทียบ: "โครงสร้างพื้นฐานความปลอดภัย" บทความที่เกี่ยวข้องกับ (ภาคผนวกตารางที่ 11) และหน้าวิกิพีเดียที่นิยม (ภาคผนวกตารางที่ 12) เกิดขึ้นกับกลุ่มเปรียบเทียบทางเลือกและทดสอบว่าผลการวิจัยจากส่วนหนึ่งข) มีความไวต่อการเลือกของกลุ่มเปรียบเทียบ ซึ่งทางเลือกของกลุ่มเปรียบเทียบจะทำให้ความรู้สึกมากที่สุด? ทำไม?
    4. ผู้เขียนระบุว่าคำหลักที่เกี่ยวข้องกับ "การก่อการร้าย" ถูกนำมาใช้เพื่อเลือกบทความวิกิพีเดียเพราะรัฐบาลสหรัฐอ้างว่าการก่อการร้ายเป็นเหตุผลที่สำคัญสำหรับการปฏิบัติเฝ้าระวังออนไลน์ ขณะที่การตรวจสอบของ 48 "การก่อการร้าย" ที่เกี่ยวข้องกับคำหลักเหล่านี้ Penney (2016) นอกจากนี้ยังได้ทำการสำรวจใน MTurk ขอให้ผู้ตอบแบบสอบถามให้คะแนนแต่ละคำหลักในแง่ของปัญหาราชการ, ความเป็นส่วนตัวที่มีความไวและการหลีกเลี่ยง (ภาคผนวกตารางที่ 7 และ 8) ซ้ำการสำรวจใน MTurk และเปรียบเทียบผลลัพธ์ของคุณ
    5. บนพื้นฐานของผลในส่วน D) และการอ่านของคุณของบทความคุณเห็นด้วยกับทางเลือกของผู้เขียนหัวข้อคำหลักในกลุ่มการศึกษา? ทำไมหรือทำไมไม่? ถ้าไม่ได้สิ่งที่คุณจะแนะนำแทน?
  9. [ ง่าย ] Efrati (2016) รายงานบนพื้นฐานของข้อมูลที่เป็นความลับว่า "ร่วมกันทั้งหมด" บน Facebook ได้ลดลงประมาณ 5.5% ในช่วงปีปีขณะที่ "การแบ่งปันเดิมออกอากาศ" เป็นลดลง 21% เทียบกับปีก่อน การลดลงนี้เป็นเฉียบพลันโดยเฉพาะอย่างยิ่งกับผู้ใช้ Facebook ภายใต้อายุ 30 ปี รายงานประกอบการลดลงของปัจจัยทั้งสอง หนึ่งคือการเจริญเติบโตในจำนวนของ "เพื่อน" ที่มีคนบน Facebook อื่น ๆ คือว่าบางกิจกรรมร่วมกันได้ขยับตัวไปส่งข้อความและกับคู่แข่งเช่น SnapChat นอกจากนี้รายงานยังเผยกลยุทธ์หลาย Facebook ได้พยายามที่จะเพิ่มการใช้งานร่วมกันรวมทั้งการปรับแต่งขั้นตอนวิธีการฟีดข่าวที่โพสต์ข้อความเดิมโดดเด่นมากขึ้นเช่นเดียวกับการแจ้งเตือนเป็นระยะของผู้ใช้โพสต์ต้นฉบับ "ในวันนี้" หลายปีที่ผ่านมา ความหมายอะไรถ้ามีการค้นพบนี้ไม่ได้สำหรับนักวิจัยที่ต้องการใช้ Facebook เป็นแหล่งข้อมูล?

  10. [ กลาง ] Tumasjan et al. (2010) รายงานสัดส่วนของทวิตเตอร์กล่าวถึงพรรคการเมืองที่ตรงกับสัดส่วนของคะแนนที่พรรคได้รับในการเลือกตั้งรัฐสภาเยอรมันในปี 2009 (รูปที่ 2.9) ในคำอื่น ๆ ก็ปรากฏว่าคุณสามารถใช้ทวิตเตอร์ในการทำนายการเลือกตั้ง ในขณะที่การศึกษาครั้งนี้ได้รับการตีพิมพ์ก็ถือว่าน่าตื่นเต้นมากเพราะมันดูเหมือนจะแนะนำการใช้งานที่มีคุณค่าสำหรับเป็นแหล่งทั่วไปของข้อมูลขนาดใหญ่

    ที่กำหนดคุณสมบัติที่ไม่ดีของข้อมูลขนาดใหญ่ แต่คุณทันทีควรจะสงสัยของผลนี้ เยอรมันบนทวิตเตอร์ในปี 2009 ค่อนข้างไม่ใช่กลุ่มตัวแทนและผู้สนับสนุนของพรรคหนึ่งอาจทวีตเกี่ยวกับการเมืองบ่อยขึ้น ดังนั้นจึงดูเหมือนว่าน่าแปลกใจว่าทุกคนที่มีอคติไปได้ว่าคุณสามารถจินตนาการอย่างใดจะยกเลิกการออก ในความเป็นจริงผลใน Tumasjan et al. (2010) เปิดออกมาจะดีเกินไปที่จะเป็นจริง ในกระดาษของพวกเขา Tumasjan et al. (2010) การพิจารณาหกพรรคการเมือง: คริสเตียนเดโมแคร (CDU) คริสเตียนเดโมแครสังคม (CSU) เมจิ Liberals (FDP) ซ้าย (Die Linke) และพรรคกรีน (Grüne) อย่างไรก็ตามที่กล่าวถึงมากที่สุดพรรคการเมืองเยอรมันบนทวิตเตอร์ในเวลานั้นคือพรรคโจรสลัด (Piraten) บุคคลที่ต่อสู้กฎระเบียบของรัฐบาลของอินเทอร์เน็ต เมื่อพรรคโจรสลัดถูกรวมอยู่ในการวิเคราะห์, ทวิตเตอร์กล่าวจะกลายเป็นปัจจัยบ่งชี้ที่น่ากลัวของผลการเลือกตั้ง (รูปที่ 2.9) (Jungherr, Jürgens, and Schoen 2012)

    รูปที่ 2.9: ทวิตเตอร์กล่าวปรากฏในการทำนายผลการเลือกตั้งปี 2009 ที่เยอรมัน แต่ผลนี้จะออกมาขึ้นอยู่กับบางตัวเลือกโดยพลการและไม่ยุติธรรม (Jungherr, Jürgensและ Schoen 2012) (Tumasjan et al, 2010).

    รูปที่ 2.9: ทวิตเตอร์กล่าวปรากฏในการทำนายผลการเลือกตั้งปี 2009 ที่เยอรมัน (Tumasjan et al. 2010) แต่ผลนี้จะออกมาขึ้นอยู่กับบางตัวเลือกโดยพลการและไม่ยุติธรรม (Jungherr, Jürgens, and Schoen 2012)

    ต่อมานักวิจัยอื่น ๆ ทั่วโลกได้ใช้วิธีการดังกล่าวนักเล่นการใช้วิเคราะห์ความเชื่อมั่นที่จะแยกแยะระหว่างบวกและลบกล่าวถึงบุคคลในเพื่อที่จะปรับปรุงความสามารถของข้อมูลทวิตเตอร์ในการทำนายความหลากหลายของประเภทที่แตกต่างกันของการเลือกตั้ง (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) นี่คือวิธีที่ Huberty (2015) สรุปผลของความพยายามเหล่านี้ที่จะคาดการณ์การเลือกตั้ง:

    "ทุกคนที่รู้จักวิธีการพยากรณ์ขึ้นอยู่กับสื่อสังคมได้ล้มเหลวเมื่ออยู่ภายใต้ความต้องการของจริงมองไปข้างหน้าคาดการณ์การเลือกตั้ง ความล้มเหลวเหล่านี้ดูเหมือนจะเป็นเนื่องจากคุณสมบัติพื้นฐานของสื่อทางสังคมมากกว่าที่จะยากลำบากระเบียบวิธีหรืออัลกอริทึม ในระยะสั้นสื่อสังคมไม่ได้และอาจจะไม่เคยจะมีเสถียรภาพที่เป็นกลาง, ภาพตัวแทนของเขตเลือกตั้ง; และตัวอย่างความสะดวกสบายของสื่อทางสังคมขาดข้อมูลที่เพียงพอที่จะแก้ไขปัญหาเหล​​่านี้โพสต์เฉพาะกิจ. "

    อ่านบางส่วนของการวิจัยที่นำไปสู่ Huberty (2015) สรุปว่าและเขียนบันทึกหน้าหนึ่งไปยังผู้สมัครทางการเมืองอธิบายถ้าทวิตเตอร์และวิธีการที่ควรจะใช้ในการคาดการณ์การเลือกตั้ง

  11. [ กลาง ] ความแตกต่างระหว่างนักสังคมวิทยาและนักประวัติศาสตร์คืออะไร? ตามที่ Goldthorpe (1991) ความแตกต่างที่สำคัญระหว่างนักสังคมวิทยาและนักประวัติศาสตร์คือการควบคุมการเก็บรวบรวมข้อมูล ประวัติศาสตร์ถูกบังคับให้ใช้พระธาตุในขณะที่นักสังคมวิทยาสามารถปรับแต่งการเก็บรวบรวมข้อมูลของพวกเขาเพื่อวัตถุประสงค์เฉพาะ อ่าน Goldthorpe (1991) วิธีการคือความแตกต่างระหว่างสังคมวิทยาและประวัติศาสตร์ที่เกี่ยวข้องกับความคิดของ Custommades และ Readymades หรือไม่

  12. [ ยาก ] อาคารในคำถามก่อนหน้านี้ Goldthorpe (1991) เข้ามาเป็นจำนวนมากของการตอบสนองที่สำคัญรวมทั้งจากนิคกี้ฮาร์ท (1994) ที่ท้าทายความจงรักภักดี Goldthorpe ของการปรับแต่งข้อมูลทำ เพื่อชี้แจงข้อ จำกัด ที่มีศักยภาพของข้อมูล tailor-made ฮาร์ตอธิบายร่ำรวยคนทำงานโครงการการสำรวจขนาดใหญ่ในการวัดความสัมพันธ์ระหว่างระดับชั้นทางสังคมและออกเสียงลงคะแนนที่ได้ดำเนินการโดย Goldthorpe และเพื่อนร่วมงานในช่วงกลางปี​​ 1960 ที่ ในฐานะที่เป็นหนึ่งอาจคาดหวังจากนักวิชาการที่ได้รับการสนับสนุนการออกแบบข้อมูลผ่านข้อมูลพบว่าโครงการคนทำงานร่ำรวยเก็บรวบรวมข้อมูลที่ถูกปรับแต่งให้อยู่เป็นทฤษฎีที่เสนอเมื่อเร็ว ๆ นี้เกี่ยวกับอนาคตของสังคมชั้นสูงในยุคของมาตรฐานการครองชีพที่เพิ่ม แต่ Goldthorpe และเพื่อนร่วมงานอย่างใด "ลืม" เพื่อรวบรวมข้อมูลเกี่ยวกับพฤติกรรมการลงคะแนนเสียงของผู้หญิง นี่คือวิธีที่นิคกี้ฮาร์ท (1994) สรุปเรื่องราวทั้งหมด:

    " . . มัน [คือ] ยากที่จะหลีกเลี่ยงข้อสรุปว่าผู้หญิงถูกมองข้ามเพราะนี่ 'ตัดทำ' ชุดข้อมูลที่ถูกกักตัวไว้โดยตรรกะตัวอย่างที่ได้รับการยกเว้นประสบการณ์เพศหญิง ขับเคลื่อนโดยมีวิสัยทัศน์ทางทฤษฎีของระดับจิตสำนึกและการกระทำเป็นชายเพ้อพก . . , Goldthorpe และเพื่อนร่วมงานของเขาสร้างชุดของบทพิสูจน์เชิงประจักษ์ที่เลี้ยงและหล่อเลี้ยงทฤษฎีสมมติฐานของตัวเองแทนการเปิดเผยให้การทดสอบที่ถูกต้องความเพียงพอได้. "

    ฮาร์ทยังคง:

    "การค้นพบเชิงประจักษ์ของโครงการคนทำงานร่ำรวยบอกเราเพิ่มเติมเกี่ยวกับค่า masculinist สังคมวิทยาในช่วงกลางศตวรรษกว่าที่พวกเขาแจ้งให้กระบวนการของการแบ่งชั้นการเมืองและชีวิตของวัสดุ."

    คุณสามารถคิดตัวอย่างอื่น ๆ ที่เก็บรวบรวมข้อมูล tailor-made มีอคติของตัวเก็บรวบรวมข้อมูลที่สร้างขึ้นในมันได้หรือไม่ นี้จะเปรียบเทียบกับอัลกอริทึมรบกวน? ผลกระทบสิ่งนี้อาจจะมีเมื่อนักวิจัยควรใช้ Readymades และเมื่อพวกเขาควรใช้ Custommades?

  13. [ กลาง ] ในบทนี้ผมเปรียบเทียบข้อมูลที่เก็บรวบรวมโดยนักวิจัยสำหรับนักวิจัยที่มีผลในการบริหารที่สร้างขึ้นโดย บริษัท และรัฐบาล บางคนเรียกบันทึกการบริหารเหล่านี้ "พบข้อมูล" ซึ่งพวกเขาตรงกันข้ามกับ "ข้อมูลที่ได้รับการออกแบบ." มันเป็นความจริงที่บันทึกในการบริหารมีการค้นพบโดยนักวิจัย แต่พวกเขายังได้รับการออกแบบอย่างมาก ยกตัวอย่างเช่น บริษัท ที่มีเทคโนโลยีที่ทันสมัย​​ใช้จ่ายจำนวนมหาศาลของเวลาและทรัพยากรในการเก็บรวบรวมและดูแลข้อมูลของพวกเขา ดังนั้นการบริหารจัดการระเบียนเหล่านี้มีทั้งการค้นพบและได้รับการออกแบบมันก็ขึ้นอยู่กับมุมมองของคุณ (รูปที่ 2.10)

    รูปที่ 2.10: ภาพเป็นทั้งเป็ดและกระต่าย; สิ่งที่คุณเห็นขึ้นอยู่กับมุมมองของคุณ รัฐบาลและธุรกิจบันทึกการบริหารทั้งสองพบและได้รับการออกแบบ; สิ่งที่คุณเห็นขึ้นอยู่กับมุมมองของคุณ ยกตัวอย่างเช่นการบันทึกข้อมูลการโทรที่เก็บรวบรวมโดย บริษัท โทรศัพท์มือถือที่พบข้อมูลจากมุมมองของนักวิจัย แต่บันทึกเหล่านี้เหมือนกันที่แน่นอนได้รับการออกแบบมุมมองข้อมูลของคนที่ทำงานในฝ่ายการเรียกเก็บเงินของ บริษัท โทรศัพท์ ที่มา: วิกิพีเดีย

    รูปที่ 2.10: ภาพเป็นทั้งเป็ดและกระต่าย; สิ่งที่คุณเห็นขึ้นอยู่กับมุมมองของคุณ รัฐบาลและธุรกิจบันทึกการบริหารทั้งสองพบและได้รับการออกแบบ; สิ่งที่คุณเห็นขึ้นอยู่กับมุมมองของคุณ ยกตัวอย่างเช่นการบันทึกข้อมูลการโทรที่เก็บรวบรวมโดย บริษัท โทรศัพท์มือถือที่พบข้อมูลจากมุมมองของนักวิจัย แต่บันทึกเหล่านี้เหมือนกันที่แน่นอนได้รับการออกแบบมุมมองข้อมูลของคนที่ทำงานในฝ่ายการเรียกเก็บเงินของ บริษัท โทรศัพท์ ที่มา: วิกิพีเดีย

    ให้เป็นตัวอย่างของแหล่งข้อมูลที่ผู้เห็นมันเป็นทั้งการค้นพบและการออกแบบจะเป็นประโยชน์เมื่อใช้แหล่งข้อมูลสำหรับการวิจัย

  14. [ ง่าย ] ในเรียงความคิดคริสเตียน Sandvig และ Eszter Hargittai (2015) อธิบายสองชนิดของการวิจัยดิจิตอลที่ระบบดิจิตอลคือ "เครื่องมือ" หรือ "วัตถุของการศึกษา." ตัวอย่างของชนิดแรกของการศึกษาเป็นที่ที่ Bengtsson และเพื่อนร่วมงาน (2011) ข้อมูลที่ใช้โทรศัพท์มือถือเพื่อติดตามการโยกย้ายหลังเกิดแผ่นดินไหวในประเทศเฮติในปี 2010 เป็นตัวอย่างของประเภทที่สองคือที่เซ่น (2007) ศึกษาวิธีการแนะนำโทรศัพท์มือถือทั่ว Kerala อินเดียส่งผลกระทบต่อการทำงานของตลาดปลา ฉันพบนี้เป็นประโยชน์เพราะมันชัดเจนว่าการศึกษาโดยใช้แหล่งข้อมูลดิจิตอลสามารถมีเป้าหมายที่แตกต่างกันมากแม้ว่าพวกเขาจะใช้ชนิดเดียวกันของแหล่งข้อมูล เพื่อที่จะชี้แจงความแตกต่างนี้อธิบายสี่การศึกษาที่คุณเคยเห็นสองที่ใช้ระบบดิจิตอลเป็นเครื่องมือและสองที่ใช้ระบบดิจิตอลเป็นวัตถุของการศึกษา คุณสามารถใช้ตัวอย่างจากบทนี้ถ้าคุณต้องการ