مهم نیست که داده بزرگتان چقدر بزرگ است، احتمالا اطلاعاتی را که میخواهید ندارید.
بیشتر منابع داده بزرگ ناقص هستند، به این معنی که آنها اطلاعاتی را که برای تحقیق شما می خواهید، ندارند. این یک ویژگی مشترک از داده هایی است که برای اهداف غیر از تحقیق ایجاد شده اند. بسیاری از دانشمندان علوم اجتماعی پیش از این تجربه برخورد با ناقص را داشتند، مانند یک نظرسنجی موجود که پرسش مورد نظر را نپرسید. متاسفانه، مشکلات ناقص در داده های بزرگ بیشتر شدید هستند. در تجربه من، اطلاعات بزرگ تمایل به از بین رفتن سه نوع اطلاعات مفید برای تحقیقات اجتماعی دارد: اطلاعات جمعیتی در مورد شرکت کنندگان، رفتار در سیستم عامل های دیگر و داده ها برای ساختن ساختارهای نظری عملی است.
از سه نوع ناقص، مشکل داده های ناقص برای ساختن ساختارهای نظری، سخت ترین راه حل است. و در تجربه من، اغلب به طور تصادفی نادیده گرفته می شود. به طور خلاصه، ساختارهای نظری ، ایده های انتزاعی هستند که دانشمندان علوم اجتماعی، یک ساختار نظری را مطالعه و عملیاتی می کنند ، به این معنا است که پیشنهاد می کنند راهی برای جذب ساختگی با داده های قابل مشاهده داشته باشند. متأسفانه، این فرآیند ساده و پیچیده اغلب به نظر بسیار دشوار است. به عنوان مثال، بیایید تصور کنیم تلاش کنیم تجربی ادعای ظاهرا ساده را آزمایش کنیم که افرادی که بیشتر هوشمند هستند، پول بیشتری کسب می کنند. برای آزمایش این ادعا، شما باید "هوش" را اندازه گیری کنید. اما هوش چیست؟ Gardner (2011) استدلال کرد که هشت اشکال مختلف اطلاعات وجود دارد. و آیا روشی وجود دارد که می تواند هر یک از این اشکال اطلاعات دقیق را اندازه گیری کند؟ با وجود حجم زیادی از کار توسط روانشناسان، این سوالات هنوز هم پاسخ های واضحی ندارند.
بنابراین، حتی یک ادعای نسبتا ساده - افرادی که بیشتر هوشمند هستند پول بیشتری کسب می کنند، ممکن است دشوار باشد که به صورت تجربی ارزیابی شوند، زیرا ممکن است ساختارهای نظری در داده ها عملی شود. مثالهای دیگر از ساختارهای نظری که اهمیت دارند اما سخت برای عملی کردن عبارتند از "هنجارها"، "سرمایه اجتماعی" و "دموکراسی". دانشمندان علوم اجتماعی مسابقات بین ساختارهای نظری و اعتبار سازه (Cronbach and Meehl 1955) . همانطور که این فهرست کوتاهی از ساختارها نشان می دهد، اعتبار سازنده یک مشکل است که دانشمندان علوم اجتماعی برای مدت بسیار طولانی تلاش کرده اند. اما در تجربه من، مشکالت اعتبار ساختن حتی در هنگام کار با داده هایی که برای اهداف تحقیق ایجاد نشده اند حتی بیشتر است (Lazer 2015) .
هنگامی که شما یک نتیجه تحقیق را ارزیابی می کنید، یک روش سریع و مفید برای ارزیابی اعتبار سازنده، نتیجه گیری است که معمولا از نظر سازه ها بیان می شود و از نظر داده ها استفاده می شود. به عنوان مثال، دو مطالعه فرضی را در نظر بگیرید که ادعا می کنند نشان می دهد افرادی که بیشتر هوشمند هستند پول بیشتری کسب می کنند. در تحقیق اول، محقق متوجه شد که افرادی که نمره خوبی در تست ماتریس پیشرفته رابین دارند - یک آزمون مستقل از اطلاعات تحلیلی (Carpenter, Just, and Shell 1990) - درآمد بیشتری را در بازپرداخت مالیات خود دارند. در تحقیق دوم، محقق متوجه شد که افرادی که در توییتر از واژه های طولانی استفاده می کنند بیشتر احتمال دارد مارک های لوکس را ذکر کنند. در هر دو مورد، این محققان می توانند ادعا کنند که نشان داده اند افرادی که بیشتر هوشمند هستند پول بیشتری کسب می کنند. با این حال، در مطالعه اول ساختارهای نظری با داده ها به خوبی عملی می شوند، در حالی که در دومین آنها نیستند. علاوه بر این، به عنوان مثال در این مثال، اطلاعات بیشتر به طور خودکار مشکلات با اعتبار سازنده را حل نمی کند. شما باید نتایج مطالعه دوم را بخاطر داشته باشید که آیا آن را یک میلیون تویت، یک میلیارد تویت یا یک تریلیون توییت داشتید؟ برای محققانی که با ایده اعتبار سازه آشنا نیستند، جدول 2.2 نمونه هایی از مطالعاتی را ارائه می دهد که ساختارهای نظری را با استفاده از داده های ردیابی دیجیتالی عملیاتی کرده اند.
منبع اطلاعات | ساخت تئوری | منابع |
---|---|---|
نامه های الکترونیکی از یک دانشگاه (فقط متا داده) | روابط اجتماعی | Kossinets and Watts (2006) ، Kossinets and Watts (2009) ، De Choudhury et al. (2010) |
نوشته های رسانه های اجتماعی در Weibo | مشارکت مدنی | Zhang (2016) |
سیاهههای مربوط به ایمیل از یک شرکت (متا داده و متن کامل) | تناسب فرهنگی در یک سازمان | Srivastava et al. (2017) |
اگر چه مشکل داده های ناقص برای ساختن ساختارهای نظری بسیار مشکل است، اما راه های مشترک برای سایر انواع معمول ناقص وجود دارد: اطلاعات دموگرافیک ناقص و اطلاعات ناقص در مورد رفتار در سیستم عامل های دیگر. اولین راه حل این است که در واقع داده های مورد نیاز خود را جمع آوری کنید. من در مورد آن در فصل 3 به شما می گویم که در مورد نظرسنجی ها به شما می گویم. دومین راه حل اصلی این است که آنچه را که دانشمندان داده می کنند، به نتیجه گیری صفت کاربری اختصاص دهند، و دانشمندان علوم اجتماعی، تقصیر را اعمال می کنند . در این روش، محققان از اطلاعاتی استفاده می کنند که برخی از آنها برای مشخص کردن صفات دیگران استفاده می کنند. سومین راه حل ممکن برای ترکیب چندین منبع داده است. این فرآیند گاهی اوقات به نام پیوند پیوند است . استعاره مورد علاقه من برای این فرایند توسط Dunn (1946) در اولین پاراگراف نخستین مقاله که تاکنون روی پیوند پیوندی نوشته شده است نوشته شده است:
"هر شخص در جهان یک کتاب زندگی ایجاد می کند. این کتاب با تولد شروع می شود و به مرگ پایان می یابد. صفحات آن از سوابق رویدادهای اصلی زندگی تشکیل شده است. پیوند ضبط، نامی است که به فرآیند جمع آوری صفحات این کتاب به حجم داده شده است. "
هنگامی که دان (Dunn) آن قسمت را نوشت، تصور می کرد که کتاب زندگی می تواند رویدادهای مهم زندگی مانند تولد، ازدواج، طلاق و مرگ را شامل شود. با این حال، در حال حاضر که اطلاعات زیادی در مورد افراد ثبت شده است، کتاب زندگی می تواند یک پرتره فوق العاده دقیق، اگر آن صفحات مختلف (به عنوان مثال، علامت های دیجیتال ما می تواند با هم گره خورده است). این کتاب زندگی می تواند یک منبع عالی برای محققان باشد. اما، آن را نیز می توان به عنوان پایگاه داده خراب (Ohm 2010) می شود، که می تواند برای هر نوع هدف غیر اخلاقی مورد استفاده قرار گیرد، همانطور که در فصل 6 (اخلاق) توضیح خواهم داد.