یکی از مشاهدات که در این فصل گنجانده نشده است، قوم نگاری است. برای اطلاعات بیشتر در مورد Boellstorff et al. (2012) در فضاهای دیجیتال، به Boellstorff et al. (2012) ، و برای بیشتر در قوم نگاری در فضاهای دیجیتال و فیزیکی مخلوط، نگاه کنید به Lane (2016) .
هیچ تعریفی مشترک از "داده های بزرگ" وجود ندارد، اما به نظر می رسد بسیاری از تعاریف بر روی "3 Vs" تمرکز داشته باشند: حجم، تنوع و سرعت (به عنوان مثال، Japec et al. (2015) ). به De Mauro et al. (2015) مراجعه کنید De Mauro et al. (2015) برای بررسی تعاریف.
محتویات من از داده های اداری دولتی در رده داده های بزرگ کمی غیر عادی است، اگرچه دیگران نیز این مورد را شامل می شوند، از جمله Legewie (2015) ، Connelly et al. (2016) و Einav and Levin (2014) . برای اطلاعات بیشتر در مورد ارزش داده های اداری دولتی برای تحقیق، به Card et al. (2010) ، Adminstrative Data Taskforce (2012) و Grusky, Smeeding, and Snipp (2015) .
برای دیدگاه تحقیقات اداری از داخل سیستم آماری دولت، به ویژه دفتر آمار ایالات متحده، به Jarmin and O'Hara (2016) . برای مطالعه کتاب طولی تحقیقاتی اداری در سوئد، به Wallgren and Wallgren (2007) .
در این فصل، من به طور خلاصه یک نظرسنجی سنتی مانند نظرسنجی عمومی اجتماعی (GSS) را با منبع داده های رسانه ای اجتماعی مانند توییتر مقایسه کردم. برای مقایسه دقیق و دقیق بین نظرسنجی های سنتی و داده های رسانه های اجتماعی، نگاه کنید به Schober et al. (2016) .
این 10 ویژگی از داده های بزرگ توسط انواع مختلف نویسندگان به روش های مختلفی مورد استفاده قرار گرفته است. نوشتن که بر تفکر من در مورد این مسائل تأثیر می گذارد، شامل Lazer et al. (2009) ، Groves (2011) ، Howison, Wiggins, and Crowston (2011) ، boyd and Crawford (2012) ، SJ Taylor (2013) ، Mayer-Schönberger and Cukier (2013) ، Golder and Macy (2014) ، Ruths and Pfeffer (2014) ، Tufekci (2014) ، Sampson and Small (2015) ، K. Lewis (2015b) ، Lazer (2015) ، Horton and Tambe (2015) ، Japec et al. (2015) ، و Goldstone and Lupyan (2016) .
در طول این فصل، از اصطلاحات دیجیتالی استفاده کردم که به نظر من نسبتا خنثی است. یکی دیگر از اصطلاحات رایج برای علامت های دیجیتال، ردپای دیجیتال است (Golder and Macy 2014) ، اما همانطور که Hal Abelson، Ken Ledeen و Harry Lewis (2008) اشاره می کنند، اصطلاح مناسب تر احتمالا اثر انگشت دیجیتالی است . هنگامی که رد پا ایجاد می کنید، شما از آنچه اتفاق می افتد آگاه هستید و رد پا شما به طور شخصی شما را نمی تواند تشخیص دهد. همین امر برای عبارات دیجیتالی شما درست نیست. در حقیقت، شما همیشه در حال ردیابی هستید که درباره آن دانش بسیار کمی دارید. و اگر چه این ردیابها نام شما را بر روی آنها ندارند، اغلب می توانند به شما مرتبط شوند. به عبارت دیگر، آنها بیشتر شبیه اثر انگشت هستند: نامرئی و شناسایی شخصی.
برای اطلاعات بیشتر در مورد اینکه چرا مجموعه داده های بزرگ تست های آماری را M. Lin, Lucas, and Shmueli (2013) ، نگاه کنید به M. Lin, Lucas, and Shmueli (2013) و McFarland and McFarland (2015) . این مسائل باید محققین را به اهمیت عملی اهمیت دهند نه اهمیت آماری.
برای اطلاعات بیشتر در مورد چگونگی دسترسی Raj chetty و همکاران به سوابق مالیاتی، به Mervis (2014) .
مجموعه داده های بزرگ همچنین می تواند مشکلات محاسباتی ایجاد کند که عموما فراتر از قابلیت های یک کامپیوتر واحد است. بنابراین، محققانی که محاسبات روی مجموعه داده های بزرگ را انجام می دهند، اغلب کار را بر روی بسیاری از رایانه ها گسترش می دهند، فرایندی که گاهی اوقات برنامه ریزی موازی نامیده می شود. برای مقدمه ای برای برنامه ریزی موازی، به ویژه یک زبان به نام Hadoop، به Vo and Silvia (2016) .
با توجه به داده های همیشه، مهم است که در نظر بگیرید که آیا شما در مقایسه با افرادی که دقیقا همان افراد را در طول زمان مقایسه می کنید یا اینکه آیا تعدادی از افرادی که تغییر می کنند مقایسه می کنید؟ برای مثال، Diaz et al. (2016) .
یک کتاب کلاسیک در مورد اقدامات غیر واکنشی Webb et al. (1966) . نمونه هایی از این کتاب پیش از عصر دیجیتال پیش می آیند، اما هنوز روشن هستند. برای نمونه هایی از افراد که تغییر رفتار خود را به دلیل حضور نظارت جمعی، Penney (2016) و Brayne (2014) .
واکنش پذیری نزدیک به آنچه که محققان اثرات تقاضا را به اثرات تقاضا می دهند، نزدیک است (Orne 1962; Zizzo 2010) و اثر Hawthorne (Adair 1984; Levitt and List 2011) .
برای Fellegi and Sunter (1969) بیشتر در ارتباط با رکورد، Dunn (1946) و Fellegi and Sunter (1969) (تاریخی) و Larsen and Winkler (2014) (مدرن) را ببینید. روشهای مشابهی نیز در علوم رایانه تحت نام هایی مانند داده کاوی، شناسایی نمونه، تطبیق نام، تشخیص تکثیر و شناسایی رکورد تکراری (Elmagarmid, Ipeirotis, and Verykios 2007) . همچنین روشهای حفظ حریم خصوصی برای ضبط پیوندهای که نیازی به انتقال اطلاعات شناسایی شخصی ندارند (Schnell 2013) . فیس بوک همچنین فرایندی را برای پیوند دادن سوابق خود به رفتار رأی ایجاد کرده است. این برای ارزیابی یک آزمایش است که در فصل 4 به شما می گویم (Bond et al. 2012; Jones et al. 2013) .
برای اطلاعات بیشتر در مورد اعتبار ساخت، به فصل 3 Shadish, Cook, and Campbell (2001) .
برای اطلاعات بیشتر در مورد آشکارسازی ورود به سیستم جستجو AOL، مراجعه کنید به Ohm (2010) . وقتی آزمایشات را توصیف می کنم، توصیه هایی در مورد مشارکت با شرکت ها و دولت ها در فصل 4 ارائه می دهم. تعدادی از نویسندگان نگرانی هایی راجع به تحقیقاتی که بر اطلاعات غیر قابل دسترسی هستند، ابراز نگرانی کرده اند، نگاه کنید به Huberman (2012) و boyd and Crawford (2012) .
یکی از راه های خوب برای محققان دانشگاه برای به دست آوردن دسترسی به داده ها است که به کار در یک شرکت به عنوان کارآموز و یا بازدید از محقق. علاوه بر امکان دسترسی به داده ها، این روند نیز محقق کسب اطلاعات بیشتر در مورد چگونه داده ها، ایجاد شد که برای تجزیه و تحلیل مهم است کمک خواهد کرد.
از نظر دسترسی به داده های دولتی، Mervis (2014) بحث می کند که چگونه راچ چتی و همکارانش دسترسی به سوابق مالیاتی مورد استفاده در تحقیقات خود را در مورد تحرک اجتماعی به دست آوردند.
برای اطلاعات بیشتر درباره تاریخ «نمایندگی» به عنوان یک مفهوم، نگاه کنید به Kruskal and Mosteller (1979a) ، Kruskal and Mosteller (1979b) ، Kruskal and Mosteller (1979c) و Kruskal and Mosteller (1980) .
خلاصه های من از کار برف و کار عروسک و هیل مختصر بود. برای اطلاعات بیشتر در مورد کار بر روی وبا، به Freedman (1991) . برای کسب اطلاعات بیشتر در مورد مطالعه پزشکان بریتانیایی، به آدرس Doll et al. (2004) و Keating (2014) .
بسیاری از محققان به این نکته شگفت زده خواهند شد که اگر چه Doll and Hill اطلاعاتی را از پزشکان زن و پزشکان زیر 35 سال جمع آوری کرده است، اما عمدا از این اطلاعات در اولین تجزیه و تحلیل خود استفاده نکردند. همانطور که آنها مدعی بودند: "از آنجا که سرطان ریه نسبتا نادر در زنان و مردان زیر 35 سال است، بعید است که در چند سال آینده در این گروه ها مفید باشد. در این گزارش اولیه ما توجه ما را به مردان بالای 35 ساله محدود کرده ایم. " Rothman, Gallacher, and Hatch (2013) ، که دارای عنوان تحریک آمیز است" چرا باید نمایندگی را اجتناب کرد، "یک استدلال کلی تر برای ارزش عمدا ایجاد داده های غیر نماینده.
عدم تحقق یک مشکل عمده برای محققان و دولتهایی است که مایل به اظهارنظر درباره کل جمعیت هستند. این کمتر از نگرانی برای شرکت هایی است که معمولا بر روی کاربران خود تمرکز دارند. برای کسب اطلاعات بیشتر در مورد اینکه چگونه آمار هلند در مورد عدم نمایش ادغام داده های کسب و کار بزرگ را در نظر می گیرید، به Buelens et al. (2014) .
برای نمونه هایی از محققان که نگرانی در خصوص ماهیت غیرواقعی منابع اطلاعاتی بزرگ دارند، به boyd and Crawford (2012) ، K. Lewis (2015b) و Hargittai (2015) .
برای مقایسه دقیق تر اهداف نظرسنجی های اجتماعی و تحقیقات اپیدمیولوژیک، به Keiding and Louis (2016) .
برای دیدن بیشتر تلاش ها برای استفاده از توییتر برای تعریف های غلط در مورد رای دهندگان، به ویژه در مورد انتخابات سال 2009، نگاه کنید به Jungherr (2013) و Jungherr (2015) . بعد از کار Tumasjan et al. (2010) محققان در سراسر جهان از روش های خیالی استفاده کرده اند، مانند استفاده از تحلیل های احساسی برای تشخیص بین اشاره مثبت و منفی طرفین - به منظور بهبود توانایی داده های توییتر برای پیش بینی انواع مختلف انتخابات (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . در اینجا چگونگی Huberty (2015) نتایج این تلاش ها را برای پیش بینی انتخابات خلاصه می کند:
"همه روش های پیش بینی شده شناخته شده بر پایه رسانه های اجتماعی پس از بروز خواسته های واقعی پیش بینی پیش بینی های انتخابات، شکست خورده اند. به نظر می رسد این شکست ها به علت ویژگی های بنیادین رسانه های اجتماعی، به جای مشکلات روش شناختی یا الگوریتمی است. به طور خلاصه، رسانه های اجتماعی نمی کنند و احتمالا هرگز تصویر نمایشی پایدار و بی طرفانه از رای دهندگان ارائه نخواهند داد؛ و نمونه های راحتی رسانه های اجتماعی اطلاعات کافی برای حل این مشکلات پس از وقفه ندارند. "
در فصل 3، نمونه برداری و برآورد در جزئیات بسیار بیشتری را توصیف می کنم. حتی اگر داده ها غیرقابل توصیف باشند، در شرایط خاص، می توان آنها را برای تولید برآوردهای خوب تولید کرد.
رانش سیستم بسیار سخت است که از خارج ببیند. با این حال، پروژه MovieLens (که بیشتر در فصل 4 مورد بحث قرار گرفته است) بیش از 15 سال توسط یک گروه تحقیقاتی دانشگاهی اجرا شده است. بنابراین، آنها توانسته اند سند و به اشتراک گذاری اطلاعات در مورد راه که سیستم در طول زمان تکامل یافته است و چگونه این ممکن است بر تجزیه و تحلیل تاثیر می گذارد (Harper and Konstan 2015) .
تعدادی از محققان بر ریزش در توییتر متمرکز شده اند: Liu, Kliman-Silver, and Mislove (2014) و Tufekci (2014) .
یک رویکرد برای مقابله با ریزش جمعیت، ایجاد گروهی از کاربران است که اجازه می دهد محققان در طول زمان با همان افراد مطالعه کنند، به Diaz et al. (2016) .
برای اولین بار شنیده شد که واژه "الگوریتمی غم انگیز" که توسط جان کلینبرگ مورد استفاده قرار می گیرد، صحبت می کند، اما متأسفانه به یاد نمی آورد که در آن زمان یا مکانی چه خبر داده شود. اولین بار که اصطلاح چاپ را دیدم در Anderson et al. (2015) ، بحث جالب در مورد چگونگی استفاده از الگوریتم های سایت های دوستیابی، توانایی محققان برای استفاده از داده های این وب سایت ها برای مطالعه ترجیحات اجتماعی را پیچیده می کند. این نگرانی توسط K. Lewis (2015a) در پاسخ به Anderson et al. (2014) .
علاوه بر فیس بوک، توییتر نیز توصیه می کند افرادی که برای پیاده سازی بر اساس ایده ی بسته شدن سه گانه، کاربران را دنبال کنند؛ Su, Sharma, and Goel (2016) . بنابراین سطح بسته شدن سه گانه در توییتر ترکیبی از برخی از گرايش های انسانی به سوی بسته شدن سه گانه و گرايش الگوریتمی برای ترویج بسته شدن سه گانه است.
برای جزئیات بیشتر در مورد تئوری عملکرد، به ویژه ایده ای که برخی از نظریه های علوم اجتماعی "موتورهای غیر دوربین" هستند (به عنوان مثال، آنها جهان را تشکیل می دهند و نه فقط آن را توصیف) - نگاه Mackenzie (2008) .
آژانس های آماری دولتی اطلاعات تمیز کردن داده های آماری را ویرایش می کنند . De Waal, Puts, and Daas (2014) تکنیک های ویرایش اطلاعات داده ها را برای داده های نظرسنجی ارائه می دهند و میزان اهمیت آنها را برای منابع داده های بزرگ مورد بررسی Puts, Daas, and Waal (2015) و Puts, Daas, and Waal (2015) برخی از ایده های مشابه را برای یک مخاطب عمومی تر.
برای یک مرور کلی از ربات های اجتماعی، Ferrara et al. (2016) . برای برخی از نمونه هایی از مطالعات که بر روی یافتن هرزنامه در توییتر متمرکز است، به Clark et al. (2016) و Chu et al. (2012) . در نهایت، Subrahmanian et al. (2016) نتایج DARPA Twitter Bot Challenge، یک همکاری جمعی را برای مقایسه رویکردهای تشخیص رباتها در توییتر توصیف کرد.
Ohm (2015) تحقیق قبلی درباره ایده اطلاعات حساس را بررسی می کند و یک آزمون چند عاملی ارائه می دهد. چهار عامل که او پیشنهاد می کند، میزان آسیب، احتمال آسیب، وجود یک رابطه محرمانه و این که آیا این خطر، منافع عمده ای را نشان می دهد.
مطالعه Farber در مورد تاکسی در نیویورک بر اساس مطالعات قبلی Camerer et al. (1997) که از سه نمونه راحتی مختلف کاغذهای سفر کاغذ استفاده می کند. این مطالعه قبلی نشان می دهد که رانندگان به نظر می رسد که افراد هدف هستند: آنها در روزهایی که حقوقشان بالاتر بود کمتر کار می کردند.
در ادامه کار، پادشاه و همکارانش سانسور آنلاین را در چین (King, Pan, and Roberts 2014, [@king_how_2016] ) . برای یک رویکرد مربوط به اندازه گیری سانسور آنلاین در چین، نگاه کنید به Bamman, O'Connor, and Smith (2012) . برای اطلاعات بیشتر در مورد روش های آماری مانند مورد استفاده در King, Pan, and Roberts (2013) برای برآورد احساسات 11 میلیون پست، به Hopkins and King (2010) . برای کسب اطلاعات بیشتر در مورد یادگیری تحت نظارت، به James et al. (2013) (کمتر فنی) و Hastie, Tibshirani, and Friedman (2009) (فنی).
پیش بینی بخش بزرگی از علم اطلاعات صنعتی است (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . یک نوع پیش بینی که معمولا توسط محققان اجتماعی انجام می شود، پیش بینی جمعیت شناختی است؛ برای مثال Raftery et al. (2012) .
گوگل آنفولانزای تاندید اولین پروژهی استفاده از دادههای جستجو برای شیوع ویروس آنفلوآنزا نبود. در واقع، محققان در ایالات متحده (Polgreen et al. 2008; Ginsberg et al. 2009) و سوئد (Hulth, Rydevik, and Linde 2009) دریافتند که واژه های جستجوی خاص (به عنوان مثال "آنفولانزای") داده ها قبل از آن منتشر شد. بعدها بسیاری از بسیاری از پروژه های دیگر سعی کرده اند از داده های ردیابی دیجیتال برای تشخیص بیماری ها استفاده کنند. Althouse et al. (2015) ببینید Althouse et al. (2015) برای بررسی.
علاوه بر استفاده از داده های ردیابی دیجیتال برای پیش بینی نتایج سلامت، مقدار زیادی از کار با استفاده از داده های توییتر برای پیش بینی نتایج انتخابات انجام شده است. برای بررسی Gayo-Avello (2011) ، Gayo-Avello (2013) ، Gayo-Avello (2013) Jungherr (2015) (فصل 7) و Huberty (2015) . در حال حاضر انتظار می رود شاخص های اقتصادی مانند تولید ناخالص داخلی (GDP) در بانک های مرکزی نیز رایج Bańbura et al. (2013) . جدول 2.8 شامل چند نمونه از مطالعاتی است که از یک نوع ردیابی دیجیتال برای پیش بینی نوعی رویداد در جهان استفاده می کنند.
ردیابی دیجیتال | نتیجه | استناد |
---|---|---|
توییتر | درآمد جعبه فیلم در آمریکا | Asur and Huberman (2010) |
سیاهههای جستجو | فروش فیلم ها، موسیقی، کتاب ها و بازی های ویدئویی در ایالات متحده | Goel et al. (2010) |
توییتر | میانگین کالای صنعتی داو جونز (بازار سهام ایالات متحده) | Bollen, Mao, and Zeng (2011) |
رسانه های اجتماعی و سیاهههای مربوط به جستجو | نظرسنجی از احساسات سرمایه گذاران و بازار سهام در ایالات متحده، انگلستان، کانادا و چین | Mao et al. (2015) |
سیاهههای جستجو | شيوع تب ديونگو در سنگاپور و بانکوک | Althouse, Ng, and Cummings (2011) |
در نهایت، جان کلاینبرگ و همکارانش (2015) این نکته اشاره کرده اند که مشکلات پیش بینی به دو دسته متفاوت تقسیم می شوند و دانشمندان علوم اجتماعی تمایل دارند که بر روی یکی تمرکز کنند و دیگران را نادیده بگیرند. تصور کنید که یکی از سیاست گذاران، من آنا آنا را می بینم، که در معرض خشکسالی است و باید تصمیمی بگیرد که آیا یک شانان برای استخدام یک رقص باران برای استخدام باران افزایش دهد. یکی دیگر از سیاست گذاران، من آن را بتی می نامم، باید تصمیمی بگیرد که آیا چتر را به کار بیاورد تا مانع رفتن به خانه شود. هر دو آنا و بتی می توانند تصمیم خوبی بگیرند، اگر آب و هوا را درک کنند، اما آنها باید چیزهای مختلف را بدانند. آنا باید درک کند که آیا رقص باران باعث باران می شود. از سوی دیگر، بتی، نیازی به درک علیت ندارد. او فقط نیاز به یک پیش بینی دقیق دارد. محققان اجتماعی اغلب بر مشکلات مانند آنا مواجه می شوند - که کلینبرگ و همکارانش "مشکلات رقص مانند باران" را به نام "مشکلات رقص باران" می نامند؛ چرا که آنها شامل سوالات مربوط به علیت می شوند. سوالاتی مانند آنهایی که با بتی روبرو هستند - که کلینبرگ و همکارانش آن را "سیاست چتر" می نامند، می توانند بسیار مهم باشند اما از محققان اجتماعی کمتر توجه می کنند.
مجله PS Science Politics یک سمپوزیوم در مورد داده های بزرگ، استدلال علیت و نظریه ی رسمی داشت و Clark and Golder (2015) هر سهم را خلاصه کردند. مجله " مجموعه مقالات آکادمی ملی علوم ایالات متحده" یک همایش در مورد نتیجه گیری علمی و داده های بزرگ داشت و Shiffrin (2016) هر سهم را خلاصه می کند. برای روش های یادگیری ماشین که به طور خودکار آزمایشات طبیعی را درون منابع داده بزرگ پیدا می کنند، به Jensen et al. (2008) ، Sharma, Hofman, and Watts (2015) ، و Sharma, Hofman, and Watts (2016) .
با توجه به آزمایش های طبیعی، Dunning (2012) درمان مقدماتی، طولانی مدت با نمونه های بسیاری را ارائه می دهد. برای دیدگاه شکاکانه از آزمایشات طبیعی، به بررسی Rosenzweig and Wolpin (2000) (اقتصاد) و یا Sekhon and Titiunik (2012) (علوم سیاسی) نگاه کنید. Deaton (2010) و Heckman and Urzúa (2010) استدلال می کنند که تمرکز بر روی آزمایش های طبیعی می تواند محققان را بر روی برآورد اثرات علیه غیر قابل توجه تمرکز کند؛ Imbens (2010) این استدلال را با دیدگاه خوش بینانه تر از ارزش آزمایش های طبیعی محاسبه می کند.
هنگام توصیف نحوه محقق می توان از برآورد اثر طراحی شده تا تأثیر خدمت، من یک تکنیک به نام متغیرهای سازمانی را توصیف کردم. Imbens and Rubin (2015) ، در فصل های 23 و 24 خود، مقدمه ای ارائه می دهند و به عنوان مثال، پیش نویس قرعه کشی را استفاده می کنند. تأثیر خدمات نظامی بر صاحبنظران گاهی اوقات به عنوان اثرات عاجلی متوسط (CAcE) و گاهی اوقات اثر درمان محلی (LATE) نامیده می شود. Sovey and Green (2011) ، Angrist and Krueger (2001) و Bollen (2012) بررسی استفاده از متغیرهای ابزار در علوم سیاسی، اقتصاد و جامعه شناسی را ارائه می دهند و Sovey and Green (2011) یک لیست "خواننده برای" ارزیابی مطالعات با استفاده از متغیرهای ابزار.
به نظر می رسد که پیش نویس قرعه کشی سال 1970، در واقع به درستی تصادفی نبود؛ انحراف های کوچک از تصادف خالص وجود داشت (Fienberg 1971) . Berinsky and Chatfield (2015) استدلال می کنند که این انحراف کوچک به طور قابل توجهی مهم نیست و بحث اهمیت تصادفی به درستی انجام شده است.
از نظر تطبیق، Stuart (2010) برای بررسی خوش بینانه و Sekhon (2009) برای بررسی بدبینانه ببینید. برای اطلاعات بیشتر در مورد تطبیق به عنوان یک نوع هرس، به Ho et al. (2007) . پیدا کردن یک بازی کامل برای هر فرد اغلب دشوار است، و این باعث می شود تعدادی پیچیدگی. اولا وقتی که مسابقات دقیق در دسترس نیستند، محققان باید تصمیم بگیرند که چگونه فاصله بین دو واحد را اندازه گیری کند و اگر فاصله داده شده به اندازه کافی نزدیک باشد. پیچیدگی دوم در صورتی اتفاق می افتد که محققان می خواهند از چندین مورد برای هر مورد در گروه درمان استفاده کنند، زیرا این می تواند منجر به تخمین دقیق تر شود. هر دو این مسائل، و همچنین دیگران، در فصل 18 Imbens and Rubin (2015) . همچنین قسمت دوم ( ??? ) .
به عنوان مثال، Dehejia and Wahba (1999) که در آن روش های تطبیق قادر به تولید برآوردها مشابه نتایج یک آزمایش تصادفی کنترل شده بودند. اما برای نمونه هایی که در آن روش های تطبیق نتوانست یک معیار آزمایشی را تولید کند، Arceneaux, Gerber, and Green (2006) و Arceneaux, Gerber, and Green (2010) ببینید.
Rosenbaum (2015) و Hernán and Robins (2016) مشاوره دیگری برای کشف مقایسه مفید بین منابع داده بزرگ ارائه می دهند.