2.3.1.2 همیشه در

همیشه در داده های بزرگ را قادر می سازد مطالعه رویدادهای غیر منتظره و اندازه گیری زمان واقعی است.

بسیاری از سیستم های داده های بزرگ همیشه در؛ آنها به طور مداوم جمع آوری داده ها. این ویژگی همیشه در محققان با داده های طولی فراهم می کند (به عنوان مثال، داده های در طول زمان). بودن همیشه در دو پیامدهای مهمی برای پژوهش است.

نخست، همیشه در جمع آوری داده ها محققان را قادر به مطالعه حوادث غیر منتظره در راه است که ممکن بود قبلا. برای مثال، محققان علاقه مند به تحصیل اشغال تظاهرات گزی در ترکیه در تابستان سال 2013 به طور معمول بر رفتار معترضان در طول این رویداد تمرکز می کنند. ها Ceren بوداک و دانکن وات (2015) قادر به انجام بیشتر با استفاده از طبیعت همیشه در از توییتر به مطالعه توییتر با استفاده از معترضان قبل، در طی بعد از این رویداد بودند. و، آنها پس از این رویداد (شکل 2.1) قادر به ایجاد یک گروه مقایسه غیر شرکت (یا شرکت کنندگانی که مورد اعتراض صدای جیر جیر نمی شود) قبل، در طی بودند. در مجموع سابق ارسال پنل خود شامل توییت 30،000 نفر بیش از دو سال است. آنها قادر به برآورد آن دسته از مردم به احتمال زیاد برای شرکت در تظاهرات گزی و برآورد تغییرات در نگرش بودند: با افزایش داده استفاده می شود معمولا از تظاهرات با این اطلاعات دیگر، بوداک و وات قادر به یادگیری خیلی بیشتر بود شرکت کنندگان و غیر شرکت، هر دو در کوتاه مدت (مقایسه پیش گزی به طول گزی) و در بلند مدت (مقایسه پیش گزی به پست-گزی).

شکل 2.1: طراحی استفاده شده توسط بوداک و واتز (2015) به مطالعه اشغال تظاهرات گزی در ترکیه در تابستان سال 2013. با استفاده از طبیعت همیشه در توییتر، محققان ایجاد آنچه که آنها یک پنل سابق پست که در مورد شامل نام 30،000 نفر بیش از دو سال است. در مقابل مطالعه معمولی است که بر روی شرکت کنندگان در تظاهرات متمرکز، پانل سابق ارسال می افزاید: 1) داده ها را از شرکت کنندگان قبل و بعد از این رویداد و 2) داده ها را از غیر به شرکت کنندگان قبل، در طول و پس از این رویداد. این ساختار داده غنی فعال بوداک و وات برآورد آن دسته از مردم به احتمال زیاد برای شرکت در تظاهرات گزی و برآورد تغییر در نگرش شرکت کنندگان و غیر شرکت، هر دو در کوتاه مدت (مقایسه پیش گزی به طول شدند گزی) و در بلند مدت (مقایسه پیش گزی به پست-گزی).

شکل 2.1: طراحی استفاده شده توسط Budak and Watts (2015) به مطالعه اشغال تظاهرات گزی در ترکیه در تابستان سال 2013. با استفاده از طبیعت همیشه در توییتر، محققان ایجاد آنچه که آنها یک پنل سابق پست که در مورد شامل نام 30،000 نفر بیش از دو سال است. در مقابل مطالعه معمولی است که بر روی شرکت کنندگان در تظاهرات متمرکز، پانل سابق ارسال می افزاید: 1) داده ها را از شرکت کنندگان قبل و بعد از این رویداد و 2) داده ها را از غیر به شرکت کنندگان قبل، در طول و پس از این رویداد. این ساختار داده غنی فعال بوداک و وات برآورد آن دسته از مردم به احتمال زیاد برای شرکت در تظاهرات گزی و برآورد تغییر در نگرش شرکت کنندگان و غیر شرکت، هر دو در کوتاه مدت (مقایسه پیش گزی به طول شدند گزی) و در بلند مدت (مقایسه پیش گزی به پست-گزی).

درست است که برخی از این تخمین می توانست بدون ساخته شده است همیشه در منابع جمع آوری داده ها (به عنوان مثال، برآورد طولانی مدت از تغییر نگرش)، اگر چه مجموعه داده ها از جمله برای 30،000 مردم می خواهم که بسیار گران قیمت بوده است. و، حتی با توجه بودجه نامحدود، من نمی توانم از هر روش دیگر که اساسا اجازه می دهد تا محققان به سفر به عقب در زمان و به طور مستقیم مشاهده رفتار شرکت کنندگان در گذشته فکر می کنم. نزدیک ترین جایگزین خواهد بود به جمع آوری گزارش گذشته نگر از رفتار، اما این گزارش را از دانه دانه محدود و دقت سوال برانگیز باشد. جدول 2.1 نمونه های دیگر از مطالعات که همیشه در منبع داده به مطالعه یک رویداد غیر منتظره فراهم می کند.

جدول 2.1: مطالعات از رویدادهای غیر منتظره با استفاده از همیشه در منابع داده بزرگ است.
رویداد غیر منتظره همیشه در منبع داده نقل قول
جنبش اشغال گزی در ترکیه توییتر Budak and Watts (2015)
تظاهرات چتر در هنگ کنگ به Weibo Zhang (2016)
تیراندازی پلیس در شهر نیویورک توقف و تفتیش گزارش Legewie (2016)
فرد پیوستن ISIS توییتر Magdy, Darwish, and Weber (2016)
2001 سپتامبر 11 حمله livejournal.com Cohn, Mehl, and Pennebaker (2004)
2001 سپتامبر 11 حمله پیجر Back, Küfner, and Egloff (2010) ، Pury (2011) ، Back, Küfner, and Egloff (2011)

دوم، همیشه در جمع آوری داده ها محققان را قادر به تولید اندازه گیری زمان واقعی، که می تواند در تنظیمات که در آن سیاست گذاران خواهید نه فقط از رفتار موجود را یاد بگیرند بلکه به آن پاسخ مهم است. به عنوان مثال، داده های رسانه های اجتماعی می تواند مورد استفاده برای هدایت پاسخ به بلایای طبیعی (Castillo 2016) .

در نتیجه، همیشه در داده ها سیستم محققان برای مطالعه رویدادهای غیر منتظره و ارائه اطلاعات در زمان واقعی به سیاست گذاران را فعال کنید. من، با این حال، پیشنهاد می کنند که که همیشه در داده ها سیستم را قادر می سازد محققان برای ردیابی تغییرات در طول مدت زمان طولانی. علت این است که بسیاری از سیستم های داده های بزرگ همواره در حال تغییر، یک فرآیند به نام رانش (بخش 2.3.2.4).