مهم نیست که چقدر "بزرگ" "داده بزرگ" خود را از آن احتمالا اطلاعات شما می خواهید ندارد.
اکثر منابع داده های بزرگ ناقص است، به این معنا که آنها را به اطلاعات است که شما برای تحقیقات خود را می خواهید نیست. این یکی از ویژگی های مشترک از داده ها که برای مقاصد دیگر از تحقیقات ایجاد شده است. بسیاری از دانشمندان علوم اجتماعی در حال حاضر تجربه برخورد با ناتمامیت، مانند یک نظرسنجی موجود است که این سوال به شما می خواستم بپرسم نیست. متاسفانه، مشکلات ناتمامیت تمایل به در داده های بزرگ شدید تر است. در تجربه من، داده های بزرگ تمایل به از دست سه نوع اطلاعات برای تحقیقات اجتماعی مفید: جمعیت شناسی، رفتار سیستم عامل های دیگر، و داده های عملیاتی سازه های نظری.
هر سه این اشکال ناتمامیت در مطالعه انجام شده توسط Gueorgi Kossinets و دانکن وات نشان داده شده (2006) در مورد تکامل شبکه های اجتماعی در یک دانشگاه. Kossinets و وات با سیاهههای مربوط به ایمیل را از این دانشگاه، که اطلاعات دقیق در مورد کسی که ایمیل های ارسالی به آنها در چه زمانی ارسال (محققان دسترسی به محتوای ایمیل را ندارد) آغاز شده است. این پرونده ایمیل صدا مانند مجموعه داده های شگفت انگیز، اما، آنها با وجود اندازه و دانه دانه، اساسا ناقص است. به عنوان مثال، سیاهههای مربوط به ایمیل را انجام داده در مورد ویژگی های جمعیت شناختی از دانش آموزان، مانند سن و جنس را شامل نمی شود. علاوه بر این، سیاهههای مربوط ایمیل ها اطلاعات مربوط به ارتباط از طریق رسانه های دیگر، مانند تماس های تلفنی، پیام متنی، و یا مکالمات چهره به چهره را شامل نمی شود. در نهایت، سیاهههای مربوط ایمیل به طور مستقیم شامل اطلاعات در مورد روابط، سازه های نظری در بسیاری از تئوری های موجود است. بعدا در این فصل، زمانی که من در مورد استراتژی های پژوهش صحبت کنید، خواهید دید Kossinets و وات چگونه این مشکلات حل شده است.
از سه نوع ناتمامیت، مشکل اطلاعات ناقص برای عملیاتی سازه های نظری سخت ترین را حل کند، و در تجربه من، آن است که اغلب به طور تصادفی توسط دانشمندان داده نادیده گرفته است. تقریبا، سازه های نظری ایده های انتزاعی که دانشمندان علوم اجتماعی مطالعه هستند، اما، متاسفانه، این ساختارها همواره نمی توان به روشنی تعریف و اندازه گیری. به عنوان مثال، تصور کنید تلاش برای آزمون عملی را ظاهرا ساده است که مردم افراد هوشمند کسب پول بیشتر. به منظور آزمون این ادعا شما نیاز به اندازه گیری "هوش." اما، چه اطلاعاتی است؟ به عنوان مثال، Gardner (2011) استدلال که در واقع هشت اشکال مختلف هوش وجود دارد. و، روش وجود دارد که می تواند با دقت اندازه گیری هر یک از این اشکال از هوش هستند؟ با وجود مقدار زیادی از کار توسط روانشناسان، این پرسش هنوز پاسخ بدون ابهام ندارد. بنابراین، حتی نسبتا ساده را-افرادی که باهوش تر هستند کسب درآمد بیشتر پول می تواند سخت به ارزیابی تجربی چرا که می توان آن را سخت به عملیاتی سازه های نظری در داده ها. نمونه های دیگر از سازه های نظری که مهم است اما سخت به عملیاتی عبارتند از: "هنجارهای"، "سرمایه اجتماعی" و "دموکراسی است." دانشمندان علوم اجتماعی مسابقه بین سازه های نظری و اعتبار سازه اطلاعات تماس (Cronbach and Meehl 1955) . و، به عنوان این لیست سازه نشان می دهد، اعتبار سازه یک مشکل است که دانشمندان علوم اجتماعی با برای مدت زمان بسیار طولانی تلاش، حتی زمانی که آنها با داده هایی را که برای هدف پژوهش جمع آوری شد مشغول به کار بودند. در هنگام کار با داده های جمع آوری برای مقاصد دیگر از تحقیقات، مشکلات اعتبار سازه می باشد حتی بیشتر به چالش کشیدن (Lazer 2015) .
هنگامی که شما در حال خواندن یک مقاله پژوهشی، یک راه سریع و مفید برای ارزیابی نگرانی ها در مورد اعتبار سازه است را به ادعای اصلی در این مقاله، که معمولا از نظر ساختار بیان می شود، و دوباره بیان آن را در شرایط داده استفاده می شود. برای مثال، دو مطالعه فرضی که ادعا می کنند نشان می دهد که مردم و آگاهی بیشتر کسب پول بیشتر:
در هر دو مورد، محققان می توانند ادعا می کنند که آنها نشان داده است که هوشمندی مردم کسب پول بیشتر. اما، در مطالعه اول ساختارهای نظری به خوبی توسط داده عملیاتی، و در دوم آنها نیست. علاوه بر این، به عنوان این مثال نشان می دهد، اطلاعات بیشتری به صورت خودکار با اعتبار سازه را حل نمی کند. شما باید نتایج حاصل از مطالعه 2 شک دارم که آیا آن را درگیر یک میلیون توییت، یک میلیارد توییت، و یا یک تریلیون توییت. برای محققان با این ایده از اعتبار سازه آشنا نیست، جدول 2.2 چند نمونه از مطالعات که سازه های نظری با استفاده از اطلاعات ردیابی دیجیتال عملیاتی داشته باشند.
اثری دیجیتال | ساختار نظری | نقل قول |
---|---|---|
سیاهههای مربوط به ایمیل را از یک دانشگاه (متا داده تنها) | روابط اجتماعی | Kossinets and Watts (2006) ، Kossinets and Watts (2009) ، De Choudhury et al. (2010) |
پست رسانه های اجتماعی در Weibo | مشارکت مدنی | Zhang (2016) |
سیاهههای مربوط به ایمیل را از یک شرکت (متا داده و متن کامل) | مناسب فرهنگی در یک سازمان | Goldberg et al. (2015) |
اگر چه مشکل از اطلاعات ناقص برای سازه های نظری بهرهبرداری بسیار سخت را حل کند، سه راه حل های مشترک برای این مشکل از اطلاعات دموگرافیک ناقص و اطلاعات ناقص بر رفتار در سیستم عامل های دیگر وجود دارد. اول این است که در واقع اطلاعات شما نیاز به جمع آوری. من شما را در مورد یک مثال از این در فصل 3 بگو وقتی که من شما را در مورد بررسی است. متاسفانه، این نوع از جمع آوری داده ها همیشه ممکن نیست. راه حل اصلی دوم این است که چه دانشمندان داده پاسخ استنتاج کاربر صفت و دانشمندان علوم اجتماعی بستن پاسخ. در این روش، محققان با استفاده از اطلاعات است که آنها در برخی از مردم برای پی بردن به ویژگی های افراد دیگر است. سوم ممکن راه حل یک مورد استفاده توسط Kossinets و وات بود به ترکیب منابع اطلاعاتی متعدد. این فرآیند گاهی اوقات ادغام و یا ارتباط رکورد به نام. استعاره های مورد علاقه من برای این فرایند در پاراگراف اول مقاله اول تا به حال در ارتباط سابقه کتبی ارائه شد (Dunn 1946) :
"هر فرد در جهان یک کتاب زندگی ایجاد می کند. این کتاب با تولد شروع می شود و با مرگ به پایان می رسد. صفحات آن هستند تا از سوابق از حوادث اصل در زندگی ساخته شده است. ضبط ارتباط نام داده شده به فرایند مونتاژ صفحات این کتاب را به یک حجم است. "
این قطعه در سال 1946 نوشته شده بود، و در آن زمان، مردم فکر می کردند که کتاب زندگی می تواند شامل رویدادهای مهم زندگی مانند تولد، ازدواج، طلاق و مرگ است. با این حال، در حال حاضر که اطلاعات بسیار زیادی در مورد مردم ثبت شده است، کتاب زندگی می تواند یک پرتره فوق العاده دقیق، اگر این صفحات مختلف (به عنوان مثال، آثار دیجیتال ما)، می توان با هم محدود شده است. این کتاب زندگی می تواند یک منبع بزرگ برای پژوهشگران. اما، کتاب زندگی نیز می تواند به نام یک پایگاه داده از ویرانی (Ohm 2010) ، که می تواند برای انواع مقاصد غیر اخلاقی استفاده می شود، به عنوان زیر وقتی من در مورد ماهیت حساس از اطلاعات جمع آوری شده توسط منابع داده های بزرگ زیر صحبت توصیف و در فصل 6 (اخلاق).