2.3.2 Always-on

ตลอดเวลาในข้อมูลขนาดใหญ่จะช่วยให้การศึกษาของเหตุการณ์ที่ไม่คาดคิดและการวัดเวลาจริง

หลายระบบข้อมูลขนาดใหญ่อยู่เสมอบน; พวกเขามีอย่างต่อเนื่องการเก็บรวบรวมข้อมูล ลักษณะนี้เสมอในการให้นักวิจัยที่มีข้อมูลระยะยาว (เช่นข้อมูลในช่วงเวลา) เป็นเสมอในการมีสองนัยสำคัญสำหรับการวิจัย

ครั้งแรกการเก็บรวบรวมข้อมูลตลอดเวลาช่วยให้นักวิจัยสามารถศึกษาเหตุการณ์ที่ไม่คาดฝันได้ด้วยวิธีที่จะไม่เป็นไปได้ ตัวอย่างเช่นนักวิจัยที่สนใจในการศึกษาการประท้วง Occupy Gezi ในประเทศตุรกีในช่วงฤดูร้อนปี 2013 จะเน้นที่พฤติกรรมของผู้ประท้วงในระหว่างการแข่งขัน Ceren Budak และ Duncan Watts (2015) สามารถทำสิ่งต่างๆได้มากขึ้นโดยใช้ธรรมชาติ Twitter ในการศึกษาผู้ประท้วงที่เคยใช้ Twitter ก่อนระหว่างและหลังเหตุการณ์ และพวกเขาก็สามารถที่จะสร้างกลุ่มเปรียบเทียบของผู้ที่ไม่ได้เข้าร่วมกิจกรรมก่อนระหว่างและหลังเหตุการณ์ (รูปที่ 2.2) โดยรวมแล้ว แผงโพสต์โพสต์ ของพวกเขารวมถึงทวีตของ 30,000 คนในช่วงสองปี Budak และ Watts สามารถเรียนรู้ได้มากขึ้น: พวกเขาสามารถประมาณว่าคนประเภทใดมีแนวโน้มที่จะเข้าร่วมประท้วง Gezi และประเมินการเปลี่ยนแปลงทัศนคติของ (เทียบกับก่อน Gezi ไปในช่วง Gezi) และในระยะยาว (เปรียบเทียบก่อน Gezi กับโพสต์ Gezi)

รูปที่ 2.2: Budak and Watts ใช้เพื่อศึกษาการประท้วง Occupy Gezi ในตุรกีในช่วงฤดูร้อนปี 2013 โดยใช้ลักษณะ Twitter ที่ใช้งานอยู่ตลอดเวลานักวิจัยสร้างสิ่งที่เรียกว่าแผงควบคุมอดีตซึ่งรวมถึง 30,000 คนมากกว่าสองปี ในทางตรงกันข้ามกับการศึกษาทั่วไปที่มุ่งเน้นไปที่ผู้เข้าร่วมประชุมในระหว่างการประท้วงแผงหลังการโพสต์จะเพิ่ม 1) ข้อมูลจากผู้เข้าร่วมก่อนและหลังเหตุการณ์และ 2) ข้อมูลจากผู้ที่ไม่ได้เป็นผู้เข้าร่วมก่อนระหว่างและหลังเหตุการณ์ โครงสร้างข้อมูลเสริมนี้ช่วยให้ Budak และ Watts สามารถประมาณว่าคนประเภทใดมีแนวโน้มที่จะเข้าร่วมการประท้วงของ Gezi และประเมินการเปลี่ยนแปลงทัศนคติของผู้เข้าร่วมและผู้ที่ไม่เข้าร่วมทั้งในระยะสั้น (เปรียบเทียบกับ Gezi ก่อน Gezi ) และในระยะยาว (เมื่อเทียบกับ Gezi ที่มีโพสต์ Gezi)

รูปที่ 2.2: Budak and Watts (2015) เพื่อศึกษาการประท้วง Occupy Gezi ในตุรกีในช่วงฤดูร้อนปี 2013 โดยใช้ลักษณะ Twitter ที่ใช้งานอยู่ตลอดเวลานักวิจัยสร้างสิ่งที่เรียกว่า แผงควบคุมอดีต ซึ่งรวมถึง 30,000 คนมากกว่าสองปี ในทางตรงกันข้ามกับการศึกษาทั่วไปที่มุ่งเน้นไปที่ผู้เข้าร่วมประชุมในระหว่างการประท้วงแผงหลังการโพสต์จะเพิ่ม 1) ข้อมูลจากผู้เข้าร่วมก่อนและหลังเหตุการณ์และ 2) ข้อมูลจากผู้ที่ไม่ได้เป็นผู้เข้าร่วมก่อนระหว่างและหลังเหตุการณ์ โครงสร้างข้อมูลเสริมนี้ช่วยให้ Budak และ Watts สามารถประมาณว่าคนประเภทใดมีแนวโน้มที่จะเข้าร่วมการประท้วงของ Gezi และประเมินการเปลี่ยนแปลงทัศนคติของผู้เข้าร่วมและผู้ที่ไม่เข้าร่วมทั้งในระยะสั้น (เปรียบเทียบกับ Gezi ก่อน Gezi ) และในระยะยาว (เมื่อเทียบกับ Gezi ที่มีโพสต์ Gezi)

คนขี้ระแวงอาจชี้ให้เห็นว่าการประมาณค่าเหล่านี้อาจเกิดขึ้นได้โดยไม่ต้องมีแหล่งข้อมูล (เช่นประมาณการระยะยาวของการเปลี่ยนแปลงทัศนคติ) และถูกต้องแม้ว่าจะมีการรวบรวมข้อมูลดังกล่าวสำหรับ 30,000 คนก็ตาม แพง แม้ว่าจะมีงบประมาณไม่ จำกัด แต่ฉันไม่สามารถคิดหาวิธีการอื่นใดที่เป็นหลักช่วยให้นักวิจัยสามารถ เดินทางย้อนเวลากลับไปได้ และสังเกตพฤติกรรมของผู้เข้าร่วมในอดีตได้โดยตรง ทางเลือกที่ใกล้เคียงที่สุดคือการเก็บรวบรวมรายงานย้อนหลังของพฤติกรรม แต่รายงานเหล่านี้จะมีขอบเขต จำกัด และความถูกต้องที่น่าสงสัย ตาราง 2.1 มีตัวอย่างอื่น ๆ ของการศึกษาที่ใช้แหล่งข้อมูลที่มีอยู่ตลอดเวลาเพื่อศึกษาเหตุการณ์ที่ไม่คาดคิด

ตารางที่ 2.1: การศึกษาเหตุการณ์ที่ไม่คาดคิดโดยใช้แหล่งข้อมูลขนาดใหญ่เสมอ
เหตุการณ์ที่ไม่คาดฝัน แหล่งข้อมูลที่เปิดตลอดเวลา การอ้างอิง
เคลื่อนไหว Occupy Gezi ในตุรกี พูดเบาและรวดเร็ว Budak and Watts (2015)
การประท้วงของร่มในฮ่องกง Weibo Zhang (2016)
การถ่ายทำของตำรวจในนครนิวยอร์ก รายงาน Stop-and-frisk Legewie (2016)
บุคคลที่เข้าร่วม ISIS พูดเบาและรวดเร็ว Magdy, Darwish, and Weber (2016)
โจมตี 11 กันยายน 2001 livejournal.com Cohn, Mehl, and Pennebaker (2004)
โจมตี 11 กันยายน 2001 ข้อความเพจเจอร์ Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

นอกเหนือจากการศึกษาเหตุการณ์ที่ไม่คาดฝันระบบข้อมูลขนาดใหญ่ตลอดเวลายังช่วยให้นักวิจัยสามารถสร้างการประมาณเวลาแบบเรียลไทม์ซึ่งอาจมีความสำคัญในการตั้งค่าที่ผู้กำหนดนโยบายในรัฐบาลหรืออุตสาหกรรมต้องการตอบสนองตามความตระหนักในสถานการณ์ ตัวอย่างเช่นข้อมูลโซเชียลมีเดียสามารถนำมาใช้เพื่อเป็นแนวทางในการรับมือกับเหตุฉุกเฉินจากภัยพิบัติทางธรรมชาติ (Castillo 2016) และสามารถใช้แหล่งข้อมูลขนาดใหญ่ต่างๆในการประมาณการทางเศรษฐกิจในเวลาจริงได้ (Choi and Varian 2012)

สรุปได้ว่าระบบข้อมูลตลอดเวลาช่วยให้นักวิจัยสามารถศึกษาเหตุการณ์ที่ไม่คาดฝันและให้ข้อมูลตามเวลาจริงแก่ผู้กำหนดนโยบายได้ อย่างไรก็ตามฉันไม่คิดว่าระบบข้อมูลที่มีอยู่ตลอดเวลาเหมาะสำหรับการติดตามการเปลี่ยนแปลงในช่วงเวลาที่ยาวนานมาก นั่นเป็นเพราะว่าระบบข้อมูลขนาดใหญ่จำนวนมากมีการเปลี่ยนแปลงตลอดเวลาซึ่งเป็นกระบวนการที่ผมจะเรียกว่า drift ในบทนี้ (ส่วน 2.3.7)