คำนำ

หนังสือเล่มนี้เริ่มขึ้นในปี 2548 ในชั้นใต้ดินที่มหาวิทยาลัยโคลัมเบีย ในขณะนั้นฉันเป็นนักศึกษาปริญญาโทและฉันกำลังดำเนินการทดสอบออนไลน์ซึ่งท้ายที่สุดก็จะกลายเป็นวิทยานิพนธ์ของฉัน ฉันจะบอกคุณเกี่ยวกับส่วนที่เป็นวิทยาศาสตร์ของการทดลองนั้นในบทที่ 4 แต่ตอนนี้ฉันจะบอกคุณเกี่ยวกับบางอย่างที่ไม่ได้อยู่ในวิทยานิพนธ์หรือเอกสารใด ๆ ของฉัน และมันเป็นสิ่งที่เปลี่ยนแปลงพื้นฐานที่ฉันคิดเกี่ยวกับการวิจัย เช้าวันหนึ่งเมื่อฉันเข้ามาในห้องใต้ดินของฉันฉันพบว่ามีผู้เข้าร่วมการทดสอบของฉันประมาณ 100 คนจากบราซิล ประสบการณ์ที่เรียบง่ายนี้มีผลอย่างยิ่งต่อฉัน ในเวลานั้นฉันมีเพื่อนที่กำลังทดลองการทดลองในห้องทดลองแบบดั้งเดิมและฉันรู้ว่าพวกเขาต้องทำงานหนักแค่ไหนในการรับสมัครดูแลและจ่ายเงินให้ผู้คนเข้าร่วมการทดลองเหล่านี้ ถ้าพวกเขาสามารถวิ่งได้ 10 คนในหนึ่งวันนั่นเป็นความก้าวหน้าที่ดี อย่างไรก็ตามในการทดลองออนไลน์ 100 คนเข้าร่วม ในขณะที่ฉันกำลังนอนหลับอยู่ การทำวิจัยของคุณในขณะที่คุณนอนหลับอาจฟังดูดีเกินจริง แต่ก็ไม่ใช่ การเปลี่ยนแปลงด้านเทคโนโลยีโดยเฉพาะการเปลี่ยนจากยุคแอนะล็อกจนถึงยุคดิจิทัลหมายถึงตอนนี้เราสามารถรวบรวมและวิเคราะห์ข้อมูลทางสังคมในรูปแบบใหม่ได้ หนังสือเล่มนี้เกี่ยวกับการทำวิจัยทางสังคมในรูปแบบใหม่เหล่านี้

หนังสือเล่มนี้มีไว้สำหรับนักวิทยาศาสตร์ทางสังคมที่ต้องการทำวิทยาศาสตร์ข้อมูลมากขึ้นนักวิทยาศาสตร์ข้อมูลที่ต้องการทำวิทยาศาสตร์ทางสังคมมากขึ้นและทุกคนที่สนใจในไฮบริดของทั้งสองสาขา กำหนดให้หนังสือเล่มนี้เป็นหนังสือควรไปโดยไม่บอกว่าไม่ใช่เฉพาะสำหรับนักเรียนและอาจารย์เท่านั้น แม้ว่าฉันกำลังทำงานอยู่ที่มหาวิทยาลัย (Princeton) ฉันยังเคยทำงานในรัฐบาล (ที่ US Census Bureau) และในอุตสาหกรรมเทคโนโลยี (ที่ Microsoft Research) ดังนั้นฉันรู้ว่ามีงานวิจัยที่น่าตื่นเต้นมากมายที่เกิดขึ้นนอก มหาวิทยาลัย หากคุณคิดว่าสิ่งที่คุณกำลังทำวิจัยทางสังคมหนังสือเล่มนี้เหมาะสำหรับคุณไม่ว่าคุณจะทำงานที่ไหนหรือใช้เทคนิคแบบไหน

ดังที่คุณอาจสังเกตเห็นแล้วเสียงของหนังสือเล่มนี้แตกต่างจากหนังสือทางวิชาการอื่น ๆ เล็กน้อย นั่นเป็นเจตนา หนังสือเล่มนี้เกิดจากการสัมมนาระดับบัณฑิตศึกษาด้านสังคมศาสตร์ทางคอมพิวเตอร์ที่ฉันได้สอนไว้ที่ Princeton ในภาควิชาสังคมวิทยาตั้งแต่ปีพ. ศ. 2550 และฉันต้องการให้มีการรวบรวมพลังงานและความตื่นเต้นจากงานสัมมนาดังกล่าว โดยเฉพาะอย่างยิ่งฉันต้องการหนังสือเล่มนี้มีลักษณะสามอย่าง: ฉันต้องการให้เป็นประโยชน์ในอนาคตที่มุ่งเน้นและในแง่ดี

เป็นประโยชน์ : เป้าหมายของฉันคือการเขียนหนังสือที่เป็นประโยชน์สำหรับคุณ ดังนั้นฉันจะเขียนในรูปแบบเปิดไม่เป็นทางการและเป็นตัวอย่าง นั่นเป็นเพราะสิ่งที่สำคัญที่สุดที่ฉันต้องการจะถ่ายทอดคือความคิดบางอย่างเกี่ยวกับการวิจัยทางสังคม และประสบการณ์ของผมชี้ให้เห็นว่าวิธีที่ดีที่สุดในการถ่ายทอดความคิดแบบนี้เป็นทางการและมีตัวอย่างมากมาย นอกจากนี้ในตอนท้ายของแต่ละบทฉันมีส่วนที่เรียกว่า "อ่านอะไรต่อไป" ซึ่งจะช่วยให้คุณเปลี่ยนไปใช้การอ่านรายละเอียดและเทคนิคเพิ่มเติมเกี่ยวกับหัวข้อต่างๆที่ฉันแนะนำได้ ในตอนท้ายฉันหวังว่าหนังสือเล่มนี้จะช่วยให้คุณทั้งสองทำวิจัยและประเมินผลการวิจัยของผู้อื่น

มุ่งเน้นในอนาคต : หนังสือเล่มนี้จะช่วยให้คุณทำวิจัยทางสังคมโดยใช้ระบบดิจิทัลที่มีอยู่ในปัจจุบัน และ สิ่งที่จะเกิดขึ้นในอนาคต ฉันเริ่มทำวิจัยประเภทนี้ในปีพ. ศ. 2547 และตั้งแต่นั้นมาฉันก็ได้เห็นการเปลี่ยนแปลงมากมายและฉันแน่ใจว่าตลอดระยะเวลาในอาชีพของคุณคุณจะเห็นการเปลี่ยนแปลงมากมายเช่นกัน เคล็ดลับในการรักษาความเกี่ยวข้องในการเปลี่ยนแปลงคือ สิ่งที่ เป็น นามธรรม ตัวอย่างเช่นนี่ไม่ใช่หนังสือที่สอนให้คุณใช้ Twitter API อย่างที่เป็นอยู่ในปัจจุบัน แทนก็จะสอนวิธีการเรียนรู้จากแหล่งข้อมูลขนาดใหญ่ (บทที่ 2) นี่ไม่ใช่หนังสือที่ให้คำแนะนำแบบทีละขั้นตอนสำหรับการทดลองใช้งานใน Amazon Mechanical Turk; แทนก็จะสอนวิธีการออกแบบและตีความการทดลองที่อาศัยโครงสร้างพื้นฐานของยุคดิจิทัล (บทที่ 4) ด้วยการใช้สิ่งที่เป็นนามธรรมฉันหวังว่านี่จะเป็นหนังสือที่ไม่มีวันหมดอายุในหัวข้อที่ทันเวลา

ความคิดในแง่ดี : ทั้งสองชุมชนที่หนังสือเล่มนี้มีส่วนร่วมกับนักวิทยาศาสตร์ทางสังคมและนักวิทยาศาสตร์ข้อมูลมีภูมิหลังและความสนใจแตกต่างกันมาก นอกเหนือจากความแตกต่างทางวิทยาศาสตร์ที่กล่าวถึงในหนังสือเล่มนี้แล้วฉันยังสังเกตเห็นว่าทั้งสองชุมชนมีลักษณะที่แตกต่างกัน นักวิทยาศาสตร์ข้อมูลมักตื่นเต้น; พวกเขามักจะเห็นแก้วเป็นครึ่งหนึ่งเต็ม นักวิทยาศาสตร์ทางสังคมในทางกลับกันมักมีความสำคัญมากกว่า พวกเขามักจะเห็นแก้วว่างเปล่าครึ่งหนึ่ง ในหนังสือเล่มนี้ฉันจะใช้โทนเสียงในแง่ดีของนักวิทยาศาสตร์ข้อมูล ดังนั้นเมื่อฉันนำเสนอตัวอย่างฉันจะบอกคุณในสิ่งที่ฉันรักเกี่ยวกับตัวอย่างเหล่านี้ และเมื่อฉันชี้ประเด็นปัญหาด้วยตัวอย่าง - และฉันจะทำอย่างนั้นเพราะว่าไม่มีงานวิจัยใดที่สมบูรณ์แบบ - ฉันจะพยายามชี้ให้เห็นปัญหาเหล่านี้ในแบบที่เป็นบวกและมองโลกในแง่ดี ฉันจะไม่เป็นสิ่งสำคัญสำหรับการที่จะเป็นคนสำคัญ - ฉันจะเป็นคนสำคัญเพื่อที่ฉันจะสามารถช่วยให้คุณสร้างงานวิจัยที่ดีขึ้นได้

เรายังอยู่ในช่วงเริ่มต้นของการวิจัยทางสังคมในยุคดิจิทัล แต่ฉันได้เห็นความเข้าใจผิดบางอย่างที่มีอยู่ทั่วไปที่ทำให้รู้สึกสำหรับฉันในการพูดกับพวกเขาที่นี่ในบทนำ จากนักวิทยาศาสตร์ข้อมูลฉันเห็นความเข้าใจผิดสองแบบ ประการแรกคือคิดว่าข้อมูลจำนวนมากจะแก้ปัญหาได้โดยอัตโนมัติ อย่างไรก็ตามสำหรับการวิจัยทางสังคมที่ไม่ได้รับประสบการณ์ของผม ในความเป็นจริงสำหรับการวิจัยทางสังคมข้อมูลที่ดีกว่าข้อมูลอื่น ๆ ดูเหมือนจะเป็นประโยชน์มากขึ้น ความเข้าใจผิดประการที่สองที่ฉันได้รับจากนักวิทยาศาสตร์ข้อมูลคือการคิดว่าวิทยาศาสตร์ทางสังคมเป็นเพียงแค่การพูดคุยเกี่ยวกับแฟนซีที่ห่อหุ้มอยู่รอบ ๆ สามัญสำนึก แน่นอนว่าในฐานะนักวิทยาศาสตร์ทางสังคม - โดยเฉพาะอย่างยิ่งในฐานะนักสังคมวิทยา - ฉันไม่เห็นด้วยกับสิ่งนี้ คนฉลาดได้ทำงานอย่างหนักเพื่อทำความเข้าใจพฤติกรรมของมนุษย์มาเป็นเวลานานและดูเหมือนว่าไม่ฉลาดที่จะเพิกเฉยต่อภูมิปัญญาที่สะสมมาจากความพยายามนี้ ความหวังของฉันคือหนังสือเล่มนี้จะนำเสนอบางส่วนของภูมิปัญญาในแบบที่เข้าใจได้ง่าย

จากนักวิทยาศาสตร์ทางสังคมฉันเห็นความเข้าใจผิดสองแบบด้วยกัน ประการแรกฉันเห็นคนบางคนเขียนความคิดทั้งหมดเกี่ยวกับการวิจัยทางสังคมโดยใช้เครื่องมือในยุคดิจิทัลเนื่องจากเอกสารไม่ดีบางส่วน หากคุณกำลังอ่านหนังสือเล่มนี้คุณอาจเคยอ่านเอกสารที่ใช้ข้อมูลโซเชียลมีเดียในรูปแบบที่ดูซ้ำซากหรือผิด (หรือทั้งสองอย่าง) ฉันมีมากเกินไป อย่างไรก็ตามข้อผิดพลาดร้ายแรงที่จะสรุปได้จากตัวอย่างเหล่านี้คือการวิจัยทางสังคมยุคดิจิทัลทั้งหมดไม่ดี ในความเป็นจริงคุณอาจอ่านเอกสารที่ใช้ข้อมูลการสำรวจด้วยวิธีที่ซ้ำซากหรือไม่ถูกต้อง แต่คุณไม่ได้เขียนการวิจัยทั้งหมดโดยใช้แบบสำรวจ นั่นเป็นเพราะคุณรู้ว่ามีการวิจัยที่ยอดเยี่ยมทำด้วยข้อมูลการสำรวจและในหนังสือเล่มนี้ฉันจะแสดงให้คุณเห็นว่ายังมีงานวิจัยที่ยิ่งใหญ่ที่ทำด้วยเครื่องมือในยุคดิจิทัล

ความเข้าใจผิดครั้งที่สองที่ฉันได้เห็นจากนักวิทยาศาสตร์ทางสังคมคือการสับสนในปัจจุบันกับอนาคต เมื่อเราประเมินงานวิจัยทางสังคมในยุคดิจิทัลซึ่งเป็นงานวิจัยที่ฉันกำลังจะอธิบายสิ่งสำคัญคือเราจะถามคำถามสองข้อว่า "งานวิจัยแบบนี้ทำงานได้ดีแค่ไหน?" และ "วิธีนี้จะดีแค่ไหน งานวิจัยในอนาคตหรือไม่ "นักวิจัยได้รับการฝึกฝนเพื่อตอบคำถามแรก แต่สำหรับหนังสือเล่มนี้ผมคิดว่าคำถามที่สองมีความสำคัญมากขึ้น นั่นคือแม้ว่าการวิจัยทางสังคมในยุคดิจิทัลยังไม่ได้สร้างผลงานทางปัญญาที่มีการเปลี่ยนแปลงรูปแบบที่ใหญ่มาก แต่อัตราการปรับปรุงการวิจัยเกี่ยวกับยุคดิจิทัลจะเพิ่มขึ้นอย่างไม่น่าเชื่อ นี่เป็นอัตราการเปลี่ยนแปลงนี้มากกว่าระดับปัจจุบันซึ่งทำให้การวิจัยในยุคดิจิตอลน่าตื่นเต้นมากสำหรับฉัน

แม้ว่าวรรคสุดท้ายอาจดูเหมือนจะให้คุณได้รับความร่ำรวยในเวลาที่ไม่ระบุรายชื่อในอนาคตเป้าหมายของฉันคือไม่ต้องขายคุณในการวิจัยประเภทใด ฉันไม่ได้เป็นเจ้าของหุ้นใน Twitter, Facebook, Google, Microsoft, Apple หรือ บริษัท เทคโนโลยีรายอื่น ๆ (แม้ว่าเพื่อเปิดเผยข้อมูลทั้งหมดฉันควรกล่าวถึงสิ่งที่ฉันได้ทำงานหรือได้รับทุนวิจัยจาก Microsoft, Google และ Facebook) ในหนังสือเล่มนี้เป้าหมายของฉันคือการเป็นผู้บรรยายที่น่าเชื่อถือและบอกคุณเกี่ยวกับสิ่งใหม่ ๆ ที่น่าตื่นเต้นที่เป็นไปได้ในขณะเดียวกันก็นำทางคุณไปให้พ้นจากกับดักไม่กี่แห่งที่ฉันเคยเห็นคนอื่น ๆ ตกมา (และตกลงไปในบางครั้ง) .

การตัดกันทางสังคมศาสตร์และวิทยาศาสตร์ข้อมูลบางครั้งเรียกว่าการคำนวณทางสังคมศาสตร์ บางคนคิดว่านี่เป็นฟิลด์ทางเทคนิค แต่นี่ไม่ใช่หนังสือทางเทคนิคในแง่ดั้งเดิม ตัวอย่างเช่นไม่มีสมการในข้อความหลัก ฉันเลือกที่จะเขียนหนังสือด้วยวิธีนี้เพราะฉันต้องการให้มุมมองที่ครอบคลุมเกี่ยวกับการวิจัยทางสังคมในยุคดิจิทัลซึ่งรวมถึงแหล่งข้อมูลขนาดใหญ่การสำรวจการทดลองการร่วมมือร่วมกันและจริยธรรม ดูเหมือนว่าจะเป็นไปไม่ได้ที่จะครอบคลุมหัวข้อทั้งหมดเหล่านี้และให้รายละเอียดทางเทคนิคเกี่ยวกับหัวข้อเหล่านี้ คำแนะนำเพิ่มเติมเกี่ยวกับเนื้อหาทางเทคนิคจะมีอยู่ในส่วน "อ่านอะไรต่อไป" ในตอนท้ายของแต่ละบท กล่าวอีกนัยหนึ่งหนังสือเล่มนี้ไม่ได้ออกแบบมาเพื่อสอนวิธีการคำนวณใด ๆ ค่อนข้างถูกออกแบบมาเพื่อเปลี่ยนวิธีที่คุณคิดเกี่ยวกับการวิจัยทางสังคม

วิธีใช้หนังสือเล่มนี้ในหลักสูตร

ดังที่ได้กล่าวไปแล้วหนังสือเล่มนี้เกิดขึ้นจากงานสัมมนาด้านการคำนวณทางสังคมศาสตร์ที่ฉันได้รับการสอนตั้งแต่ปีพ. ศ. 2550 ที่ Princeton เนื่องจากคุณอาจจะคิดถึงการใช้หนังสือเล่มนี้ในการสอนหลักสูตรผมคิดว่าอาจเป็นประโยชน์สำหรับผมในการอธิบายว่ามันเกิดจากหลักสูตรของผมอย่างไรและผมคิดอย่างไรกับการใช้หลักสูตรอื่น ๆ

เป็นเวลาหลายปีผมสอนหลักสูตรของฉันโดยไม่มีหนังสือ; ฉันต้องการมอบหมายชุดบทความ ในขณะที่นักเรียนสามารถเรียนรู้จากบทความเหล่านี้ได้บทความฉบับเดียวไม่ได้นำไปสู่การเปลี่ยนแปลงแนวคิดที่ฉันหวังจะสร้างขึ้น ดังนั้นฉันจะใช้เวลาส่วนใหญ่ในชั้นเรียนเพื่อให้มุมมองบริบทและคำแนะนำเพื่อช่วยให้นักเรียนเห็นภาพใหญ่ หนังสือเล่มนี้คือความพยายามของฉันในการเขียนมุมมองบริบทและคำแนะนำทั้งหมดลงในแบบที่ไม่มีข้อกำหนดเบื้องต้นทั้งในด้านวิทยาศาสตร์สังคมหรือข้อมูลศาสตร์

ในหลักสูตรที่เป็นหลักสูตรในระยะยาวฉันขอแนะนำให้จับคู่หนังสือเล่มนี้กับการอ่านเพิ่มเติม ตัวอย่างเช่นหลักสูตรอาจใช้เวลาสองสัปดาห์ในการทดลองและคุณสามารถจับคู่บทที่ 4 กับการอ่านหัวข้อต่างๆเช่นบทบาทของข้อมูลก่อนการรักษาในการออกแบบและวิเคราะห์การทดลอง ปัญหาทางสถิติและการคำนวณที่เพิ่มขึ้นโดยการทดสอบ A / B ใน บริษัท ขนาดใหญ่ การออกแบบการทดลองเน้นเฉพาะกลไก และประเด็นทางปฏิบัติด้านวิทยาศาสตร์และจริยธรรมที่เกี่ยวข้องกับการใช้ผู้เข้าร่วมจากตลาดแรงงานออนไลน์เช่น Amazon Mechanical Turk นอกจากนี้ยังสามารถจับคู่กับการอ่านและกิจกรรมที่เกี่ยวข้องกับการเขียนโปรแกรม ทางเลือกที่เหมาะสมระหว่างการจับคู่ที่เป็นไปได้เหล่านี้ขึ้นอยู่กับนักเรียนในหลักสูตรของคุณ (เช่นระดับปริญญาตรีปริญญาโทหรือปริญญาเอก) ภูมิหลังและเป้าหมายของพวกเขา

หลักสูตรความยาวของภาคการศึกษาอาจรวมถึงชุดปัญหารายสัปดาห์ แต่ละบทมีกิจกรรมหลากหลายที่ระบุโดยระดับความยากง่าย: ง่าย ( ง่าย ), ปานกลาง ( กลาง ) ยาก ( ยาก ) และยากมาก ( ยากมาก ) นอกจากนี้ผมได้ระบุปัญหาแต่ละข้อโดยใช้ทักษะที่ต้องการ: คณิตศาสตร์ ( ต้องใช้คณิตศาสตร์ ), การเข้ารหัส ( ต้องเข้ารหัส ) และการรวบรวมข้อมูล ( การเก็บรวบรวมข้อมูล ) สุดท้ายฉันได้ระบุว่ามีกิจกรรมบางอย่างที่เป็นรายการโปรดส่วนตัวของฉัน ( ของโปรด ) ฉันหวังว่าภายในกิจกรรมหลากหลายนี้คุณจะพบบางส่วนที่เหมาะสมกับนักเรียนของคุณ

เพื่อช่วยให้ผู้คนใช้หนังสือเล่มนี้ในหลักสูตรฉันได้เริ่มต้นคอลเล็กชันของเนื้อหาการเรียนการสอนเช่น syllabuses สไลด์การจับคู่ที่แนะนำสำหรับแต่ละบทและการแก้ปัญหาบางอย่าง คุณสามารถค้นหาเนื้อหาเหล่านี้และร่วมให้ข้อมูลได้ที่ http://www.bitbybitbook.com