داده های غیر ارزیابی برای تعمیمات خارج از نمونه بد است اما می توانند برای مقایسه درون نمونه بسیار مفید باشند.
بعضی از دانشمندان علوم اجتماعی با استفاده از داده هایی که از یک نمونه تصادفی احتمالی نمونه از یک جامعه به خوبی تعریف شده است، مانند همه بزرگسالان در یک کشور خاص، عادت می کنند. این نوع داده ها به عنوان داده های نمایشی نامیده می شود، زیرا نمونه "جمعیت" را نشان می دهد. بسیاری از محققان داده های نماینده را به ارمغان می آورند، و بعضی از داده های نمایه، مترادف با علم دقیق هستند، در حالی که داده های غیر نماینده مترادف لغزش است. در افراطی ترین، بعضی از شک و تردیدکنندگان معتقدند هیچ چیز از داده های غیرواقعی یاد نمی شود. اگر درست باشد، این به نظر می رسد به شدت محدود کردن آنچه که می تواند از منابع داده بزرگ یاد بگیرند، زیرا بسیاری از آنها غیر نماینده است. خوشبختانه، این شک و تردید تنها بخشی از حق است. اهداف تحقیقاتی خاصی وجود دارد که برای داده های غیرمعمولا واضح است که مناسب نیست، اما دیگران برای آن واقعا مفید هستند.
برای درک این تمایز، بیایید یک کلاسیک علمی: مطالعه ی جان برون در مورد شیوع بیماری وبا در سال 1853-54 در لندن. در آن زمان، بسیاری از پزشکان معتقد بودند که وبا از "هوا بد" ناشی می شود، اما برف معتقد بود که این بیماری عفونی بوده و شاید توسط آب آشامیدنی فاضلاب پخش شود. برای آزمایش این ایده، برف از چیزی که اکنون می توانیم به یک آزمایش طبیعی بپردازیم استفاده کرد. او مقادیر وبا از خانوارهای دو شرکت مختلف آب را مقایسه کرد: Lambeth و Southwark & Vauxhall. این شرکت ها به خانواده های مشابهی خدمت کرده اند، اما آنها به روش های مختلفی متفاوت بودند: در سال 1849 - چند سال پیش از شروع اپیدمی، لامبتس، نقطه ورود خود را از جریان اصلی تخلیه فاضلاب در لندن نقل مکان کرد، در حالی که Southwark و Vauxhall لوله ورودی خود را پایین دست از تخلیه فاضلاب هنگامی که برن در مقایسه با میزان مرگ و میر ناشی از وبا در خانوارهایی که دو شرکت داشتند، متوجه شد که مشتریان شرکت Southwark و Vauxhall که شرکت آب و فاضلاب را در اختیار مشتریان قرار داده بودند، 10 برابر احتمال مرگ و میر ناشی از وبا داشتند. این نتیجه شواهد علمی قوی برای بحث برف در مورد علت وبا را فراهم می کند، هرچند که بر اساس نمونه نمونه ای از افراد در لندن نیست.
با این وجود، داده های این دو شرکت برای پاسخ دادن به سؤال دیگری ایدهآل نیستند: شیوع بیماری وبا در لندن در طی شیوع چیست؟ برای این سوال دوم که مهم نیز هست، بهتر است که یک نماینده نمونه ای از مردم لندن داشته باشیم.
همانطور که کار برون نشان داده شده است، برخی از سوالات علمی وجود دارد که برای داده های غیر نماینده می تواند کاملا موثر باشد و دیگران برای آن مناسب نیستند. یک روش خام برای تشخیص این دو نوع سوالات این است که برخی از سوالات در مورد مقایسه درون نمونه هستند و برخی از آنها در مورد تعمیمات غیر نمونه هستند. این تمایز را می توان بیشتر با مطالعات کلاسیک دیگری در اپیدمیولوژی نشان داد: مطالعه پزشکان بریتانیا که نقش مهمی در نشان دادن این که سیگار کشیدن باعث ایجاد سرطان می شود، نشان داده شده است. در این مطالعه، ریچارد عروسک و آرد برادفورد هیل، چندین سال به حدود 25000 پزشک متولد شده اند و میزان مرگ و میر خود را براساس میزان مصرف سیگار در هنگام شروع مطالعه مقایسه کردند. عروسک و تیل (1954) یک رابطه قوی با قرار گرفتن در معرض-پاسخ پیدا کردند: بیشتر مردم دودی می کنند، بیشتر احتمال دارد که آنها از سرطان ریه بمیرند. البته، برآورد شیوع سرطان ریه در میان همه افراد بریتانیایی بر اساس این گروه از پزشکان مردانه، غیرممکن است، اما مقایسه درون نمونه هنوز نشان می دهد که سیگار کشیدن باعث بروز سرطان ریه می شود.
در حال حاضر که من تفاوت بین مقایسه درون نمونه و خارج از نمونه تعمیم نشان داده است، دو اخطار در نظم است. در ابتدا، به طور طبیعی سوالاتی در مورد این مسئله وجود دارد که رابطه ای که در یک نمونه از پزشکان بریتانیا پسر دارد نیز در نمونه ای از زنان، پزشکان بریتانیایی یا کارگران کارخانه زن بریتانیایی یا کارگران زن کارخانه آلمانی یا گروه های دیگر وجود دارد. این سوالات جالب و مهم هستند، اما آنها از سوالاتی در مورد میزان که ما میتوانیم از یک نمونه به جمعیت تعمیم دهیم متفاوت است. برای مثال، توجه کنید که احتمالا شما معتقدید که رابطه بین سیگار کشیدن و سرطان که در پزشکان بریتانیا یافت می شود، احتمالا در این گروه های دیگر مشابه خواهد بود. توانایی شما برای انجام این استخراج از این واقعیت نیست که پزشکان مرد بریتانیا یک نمونه تصادفی احتمالی از هر جمعیت هستند؛ در عوض، آن را از درک مکانیسم که سیگنال و سرطان ارتباط دارد، می آید. بنابراین، تعمیم یک نمونه به جمعیت که از آن کشیده شده است، به طور عمده یک مسئله آماری است، اما سوالات در مورد حمل و نقل از الگوی در یک گروه به گروه دیگر تا حد زیادی یک موضوع (Pearl and Bareinboim 2014; Pearl 2015) است (Pearl and Bareinboim 2014; Pearl 2015) .
در این نقطه، یک شک و تردید ممکن است اشاره کند که اکثر الگوهای اجتماعی احتمالا کمتر در بین گروه ها قابل حمل هستند نسبت به رابطه بین سیگار کشیدن و سرطان. و من موافقم به محض اینکه ما باید الگوها را قابل حمل کنیم، در نهایت یک سوال علمی است که باید براساس نظریه و شواهد تعیین شود. به طور خودکار فرض نمی شود که الگوها قابل حمل باشند، اما نباید تصور شود که آنها قابل حمل نخواهند بود. این سوالات تا حدودی انتزاعی در مورد حمل و نقل برای شما آشنا خواهد بود اگر شما از بحث درباره اینکه چگونه محققان می توانند در مورد رفتار انسان با مطالعه دانشجویان کارشناسی (Sears 1986, [@henrich_most_2010] ) . علی رغم این بحث ها، با این حال، غیر منطقی می توان گفت که محققان نمی توانند از مطالعه دانشجویان کارشناسی یاد بگیرند.
پیش بینی دوم این است که بیشتر محققان با داده های غیررسمی، به عنوان برف یا عروسک و هیل دقت نکرده اند. بنابراین، برای نشان دادن آنچه که می تواند نادرست باشد، زمانی که محققان سعی می کنند تعمیم نامشخصی را از داده های غیر نماینده ارائه دهند، من می خواهم به شما در مورد مطالعه انتخابات پارلمانی سال 2009 توسط آندرانیک تیماسان و همکاران (2010) بگویم. با تجزیه و تحلیل بیش از 100،000 توییت، آنها دریافتند که نسبت توییت با اشاره به یک حزب سیاسی، نسبت به رای دادن حزب در انتخابات پارلمان (شکل 2.3) بود. به عبارت دیگر، به نظر می رسد که اطلاعات توییتر، که اساسا رایگان بود، می تواند جایگزین نظرسنجی های عمومی نظرسنجی عمومی شود که به دلیل تاکید بر داده های نماینده، گران است.
با توجه به آنچه شما احتمالا در مورد توییتر می دانید، باید بلافاصله از این نتیجه تردید کنید. آلمانی ها در توییتر در سال 2009 نمونه ای تصادفی احتمالی رای دهندگان آلمانی نبودند و هواداران برخی از احزاب می توانند در مورد سیاست ها بیشتر از طرفداران احزاب دیگر صدای جیر جیر را بشنوند. به نظر می رسد شگفت آور این است که تمام احتمال های احتمالی که شما می توانید تصور کنید، به نحوی از بین می رود، به طوری که این داده ها به طور مستقیم از رای دهندگان آلمانی بازتاب می شود. در واقع نتایج در Tumasjan et al. (2010) بسیار خوب است که درست باشد. یک پیگیری توسط آندریاس یونگرر، پاسکال جرجنز و هارالد شوئن (2012) اشاره کرد که تجزیه و تحلیل اصلی از حزب سیاسی که بیشترین اشاره را در توییتر داشت، را منع کرده است: حزب دزدان دریایی، یک حزب کوچک که با مقررات دولت مبارزه می کند از اینترنت هنگامی که حزب دزدان دریایی در تحلیل گنجانده شد، توییتر به یک پیش بینی کننده وحشتناک از نتایج انتخابات تبدیل می شود (شکل 2.3). همانطور که در این مثال نشان داده شده است، با استفاده از منابع داده ای غیر قابل توصیف بزرگ برای انجام تعمیمات غیر نمونه می تواند بسیار اشتباه باشد. همچنین شما باید متوجه شوید که این واقعیت که 100000 توییت وجود داشت، اساسا بی اهمیت بود: بسیاری از داده های غیر نماینده هنوز نماینده نیستند، موضوعی که در فصل 3 به بررسی آنها خواهم پرداخت.
به این نتیجه می رسیم که بسیاری از منابع داده بزرگ، نمونه های نمونه ای از برخی از جمعیت به خوبی تعریف نشده هستند. برای سوالاتی که نیاز به تعمیم نتایج از نمونه به جمعیت که از آن گرفته شده است، این یک مشکل جدی است. اما برای سوالاتی در مورد مقایسه درون نمونه، داده های غیر نماینده می توانند قدرتمند باشند، تا زمانی که محققان درمورد خصوصیات نمونه هایشان روشن و ادعاهای حمل و نقل را با شواهد نظری یا تجربی حمایت کنند. در واقع امید من اینست که منابع اطلاعاتی بزرگ، محققان را قادر می سازد که مقایسه های بیشتری را در بسیاری از گروه های غیر نماینده انجام دهند و حدس من این است که برآوردهای بسیاری از گروه های مختلف برای پیشبرد تحقیقات اجتماعی بیشتر از تخمین یک تصادف احتمالی نمونه.