این بخش طراحی شده است به عنوان یک مرجع استفاده می شود، به جای به عنوان یک روایت خوانده شود.
یک نوع از مشاهده این که در این فصل گنجانده شده است مردم نگاری است. برای اطلاعات بیشتر در مردمنگاری در فضاهای دیجیتال را ببینید Boellstorff et al. (2012) ، و برای اطلاعات بیشتر در مردم نگاری در فضاهای دیجیتال و فیزیکی مخلوط دیدن Lane (2016) .
هنگامی که شما به repurposing داده ها، دو حقه ذهنی است که می تواند به شما کمک کند مشکلات ممکن است که شما ممکن است روبرو درک وجود دارد. اول، شما می توانید سعی کنید تصور کنید مجموعه داده ایده آل برای مشکل شما و مقایسه کنید که به مجموعه داده که شما با استفاده از. آنها چگونه مشابه هستند و چگونه آنها متفاوت هستند؟ اگر شما را جمع آوری کنید اطلاعات خود را به خودتان، به احتمال زیاد به تفاوت بین آنچه شما می خواهید و آنچه شما وجود دارد. اما، شما باید تصمیم بگیرید که اگر این تفاوت های جزئی و یا عمده می باشد.
دوم، به یاد داشته باشید که کسی ایجاد شده و اطلاعات خود را برای برخی از این دلیل جمع آوری شده. شما باید سعی کنید به درک استدلال خود. این نوع از مهندسی معکوس می تواند کمک به شناسایی مشکلاتی که ممکن است و تعصبات در داده تغییر کاربری خود را.
هیچ تعریف اجماع تنها "داده بزرگ"، اما بسیاری از تعاریف به نظر می رسد به تمرکز بر روی 3 مقابل: (به عنوان مثال، حجم، تنوع، و سرعت Japec et al. (2015) ). به جای تمرکز بر ویژگی های داده ها، تعریف من بیشتر به همین دلیل داده های ایجاد شده بود، تمرکز دارد.
گنجاندن من از داده های اداری دولت در داخل دسته از داده های بزرگ است که کمی غیر منتظره. دیگران را ساخته اند که این مورد، شامل Legewie (2015) ، Connelly et al. (2016) ، و Einav and Levin (2014) . برای اطلاعات بیشتر در مورد ارزش داده های اداری دولتی برای تحقیق، و Card et al. (2010) ، Taskforce (2012) ، و Grusky, Smeeding, and Snipp (2015) .
برای مشاهده پژوهش اداری از داخل سیستم آماری دولت، به ویژه اداره آمار ایالات متحده، و Jarmin and O'Hara (2016) . برای درمان طول کتاب پژوهش سوابق اداری در آمار سوئد، و Wallgren and Wallgren (2007) .
در فصل، من به طور خلاصه یک نظرسنجی سنتی مانند بررسی عمومی اجتماعی (GSS) به یک منبع داده رسانه های اجتماعی مانند توییتر مقایسه شده است. برای یک مقایسه کامل و دقیق بین نظرسنجی سنتی و داده رسانه های اجتماعی، و Schober et al. (2016) .
این 10 ویژگی های داده بزرگ در انواع روش های مختلف با انواع نویسندگان مختلف شرح داده شده است. نوشتن که فکر من در مورد این مسائل را تحت تاثیر قرار عبارتند از: Lazer et al. (2009) ، Groves (2011) ، Howison, Wiggins, and Crowston (2011) ، boyd and Crawford (2012) ، Taylor (2013) ، Mayer-Schönberger and Cukier (2013) ، Golder and Macy (2014) ، Ruths and Pfeffer (2014) ، Tufekci (2014) ، Sampson and Small (2015) ، Lewis (2015) ، Lazer (2015) ، Horton and Tambe (2015) ، Japec et al. (2015) ، و Goldstone and Lupyan (2016) .
در این فصل، من آثار دیجیتال مدت، که من فکر می کنم نسبتا خنثی است استفاده می شود. یکی دیگر از مدت محبوب برای آثار دیجیتال است رد پای دیجیتال (Golder and Macy 2014) ، اما به عنوان هال ابلسون، کن لدین، و هری لوئیس (2008) اشاره می کنند، یک اصطلاح مناسب تر است که احتمالا اثر انگشت دیجیتال است. زمانی که شما ایجاد رد پا، شما را از آنچه اتفاق می افتد و رد پای خود را نمی تواند به طور کلی به شما ترسیم می شود شخصا آگاه هستند. همان است که برای آثار دیجیتال خود را است. در واقع، شما را ترک آثار در همه زمان ها در مورد آن شما باید دانش بسیار کمی. و اگر چه این آثار نام خود را بر روی آنها ندارد، آنها می توانند اغلب به شما مرتبط است. نامرئی و شخصا شناسایی: به عبارت دیگر، آنها بیشتر شبیه به اثر انگشت است.
بزرگ
برای اطلاعات بیشتر در چرا مجموعه داده های بزرگ، ارائه آزمون های آماری مشکل ساز، و Lin, Lucas, and Shmueli (2013) و McFarland and McFarland (2015) . این مسائل باید محققان را به تمرکز بر روی اهمیت عملی به جای آماری معنیدار بود.
همیشه در
که با توجه به همیشه در داده ها، مهم است که به بررسی کنند که آیا شما در مقایسه با مردم همان طول زمان و یا این که آیا شما در حال مقایسه برخی از گروه در حال تغییر از مردم؛ برای مثال رجوع کنید، Diaz et al. (2016) .
غیرواکنشی
یک کتاب کلاسیک در مورد اقدامات غیر واکنشی Webb et al. (1966) . نمونه در کتاب پیش از تاریخ عصر دیجیتال، اما آنها هنوز روشن. برای نمونه هایی از مردم تغییر رفتار خود را به دلیل حضور نظارت جمعی، و Penney (2016) و Brayne (2014) .
ناقص
برای اطلاعات بیشتر در ارتباط رکورد، و Dunn (1946) و Fellegi and Sunter (1969) (تاریخی) و Larsen and Winkler (2014) (مدرن). برخورد مشابه شده در علوم کامپیوتر تحت نام توسعه یافته نیز مانند deduplication داده، شناسایی به عنوان مثال، نام تطبیق، تشخیص، تکراری و تکراری تشخیص رکورد (Elmagarmid, Ipeirotis, and Verykios 2007) . همچنین حریم خصوصی حفظ روش برای ضبط ارتباط که انتقال اطلاعات شناسایی شخصی نیاز نیست وجود دارد (Schnell 2013) . فیس بوک نیز توسعه داده است اقدام به پیوند سوابق خود را به رای دادن. این برای ارزیابی یک آزمایش است که من شما را در مورد در فصل 4 به انجام شد (Bond et al. 2012; Jones et al. 2013) .
برای اطلاعات بیشتر در اعتبار سازه، و Shadish, Cook, and Campbell (2001) ، فصل 3.
غیر قابل دسترس
برای اطلاعات بیشتر در AOL شکست گزارش جستجو، و Ohm (2010) . من ارائه مشاوره در مورد همکاری با شرکت ها و دولت در فصل 4 وقتی که من آزمایش توصیف می کنند. تعدادی از نویسندگان نگرانی در مورد تحقیقاتی که بر روی اطلاعات غیر قابل دسترس متکی ابراز کرده اند، و Huberman (2012) و boyd and Crawford (2012) .
یکی از راه های خوب برای محققان دانشگاه برای به دست آوردن دسترسی به داده ها است که به کار در یک شرکت به عنوان کارآموز و یا بازدید از محقق. علاوه بر امکان دسترسی به داده ها، این روند نیز محقق کسب اطلاعات بیشتر در مورد چگونه داده ها، ایجاد شد که برای تجزیه و تحلیل مهم است کمک خواهد کرد.
غیر نماینده
غیر نمایندگی یک مشکل عمده برای محققان و دولت که مایل به اظهارات در مورد کل جمعیت است. این کمتر از نگرانی برای شرکت هایی که به طور معمول بر روی کاربران خود را متمرکز است. برای اطلاعات بیشتر در مورد چگونه آمار هلند مسئله غیر نمایندگی از کسب و کار داده های بزرگ در نظر، و Buelens et al. (2014) .
در فصل 3، من نمونه برداری و برآورد را با جزئیات بیشتری توضیح می دهیم. حتی اگر داده های غیر نماینده، تحت شرایط خاصی، می توان آنها را وزن کند تا تخمین خوب است.
دست خوش پیشامد میشه
رانش سیستم بسیار سخت است که از خارج. با این حال، پروژه MovieLens (بیشتر در فصل 4 بحث) شده است برای بیش از 15 سال توسط یک گروه تحقیقات علمی را اجرا کنید. بنابراین، آنها را ثبت کرده اند و اطلاعات در مورد راه است که سیستم در طول زمان تکامل یافته و چگونه این را اشتراک گذاری تجزیه و تحلیل، ممکن است تأثیر (Harper and Konstan 2015) .
تعدادی از دانشمندان در رانش در توییتر متمرکز شده است: Liu, Kliman-Silver, and Mislove (2014) و Tufekci (2014) .
الگوریتمی در گم
من برای اولین بار شنیده اصطلاح "الگوریتمی در گم" توسط جان کلینبرگ در یک بحث استفاده می شود. ایده اصلی پشت کاربردپذیری است که برخی از نظریه های علوم اجتماعی "موتورهای دوربین" هستند (Mackenzie 2008) . این است که، آنها در واقع جهان را شکل و نه تنها آن را تصرف.
کثیف
سازمان های آماری دولتی تمیز کردن داده ها، ویرایش داده های آماری است. De Waal, Puts, and Daas (2014) توصیف تکنیک های ویرایش داده های آماری توسعه یافته برای بررسی داده ها و بررسی تا چه حد آنها به منابع داده های بزرگ، و Puts, Daas, and Waal (2015) ارائه برخی از ایده های مشابه برای مخاطب عام است.
برای برخی از نمونه هایی از مطالعات انجام شده در اسپم در توییتر، متمرکز Clark et al. (2016) و Chu et al. (2012) . در نهایت، Subrahmanian et al. (2016) نتایج حاصل از DARPA توییتر ربات چالش توصیف می کند.
حساس
Ohm (2015) بررسی تحقیقات اولیه بر روی این ایده از اطلاعات حساس و آزمون چند عامل ارائه می دهد. چهار عامل او پیشنهاد شده است: احتمال آسیب؛ احتمال آسیب؛ وجود رابطه محرمانه؛ و اینکه آیا خطر منعکس نگرانی اکثریت.
مطالعه فاربر از تاکسی در نیویورک در یک مطالعه قبلی توسط استوار بود Camerer et al. (1997) که سه نمونه راحتی مختلف سفر کاغذ اشکال ورق کاغذ استفاده شده توسط رانندگان برای ضبط سفر زمان شروع، زمان پایان، و کرایه استفاده می شود. این مطالعه قبل از آن پیدا شده است که رانندگان به نظر می رسید بگیران هدف: آنها در روز که در آن حقوق خود را بالاتر بود کمتر کار کرده است.
Kossinets and Watts (2009) در ریشه های homophily در شبکه های اجتماعی متمرکز شده است. مشاهده Wimmer and Lewis (2010) برای یک رویکرد متفاوت به مشکل مشابه که با استفاده از داده ها از فیس بوک.
در کارهای بعدی، پادشاه و همکارانش بیشتر بررسی سانسور آنلاین در چین (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . برای یک رویکرد مربوط به اندازه گیری سانسور آنلاین در چین، و Bamman, O'Connor, and Smith (2012) . برای اطلاعات بیشتر در روش های آماری مانند یک مورد استفاده در King, Pan, and Roberts (2013) به منظور برآورد احساسات از پست 11 میلیون، و Hopkins and King (2010) . برای اطلاعات بیشتر در یادگیری تحت نظارت، و James et al. (2013) (کمتر فنی) و Hastie, Tibshirani, and Friedman (2009) (بیشتر فنی).
پیش بینی بخش بزرگی از صنعت علم داده است (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . یک نوع از این پیش بینی است که معمولا توسط محققان اجتماعی انجام می شود پیش بینی های جمعیتی، برای مثال Raftery et al. (2012) .
آنفولانزای روند گوگل بود اولین پروژه به استفاده از اطلاعات جستجو به nowcast شیوع آنفلوانزا است. در واقع، محققان در ایالات متحده (Polgreen et al. 2008; Ginsberg et al. 2009) و سوئد (Hulth, Rydevik, and Linde 2009) نشان داده اند که عبارتهای جستجوی ویژه (به عنوان مثال، "فلو") پیش بینی نظارت ملی بهداشت عمومی داده ها قبل از آن منتشر شد. پس از آن بسیاری از، بسیاری پروژه های دیگر سعی کرده اند به استفاده از اطلاعات ردیابی دیجیتال برای تشخیص نظارت بر بیماری، و Althouse et al. (2015) برای یک بررسی.
علاوه بر استفاده از اطلاعات ردیابی دیجیتال به پیش بینی نتایج سلامت، نیز وجود داشته اند مقدار زیادی از کار با استفاده از داده توییتر برای پیش بینی نتایج انتخابات بوده است. برای بررسی مشاهده Gayo-Avello (2011) ، Gayo-Avello (2013) ، Jungherr (2015) (فصل 7)، و Huberty (2015) .
با استفاده از اطلاعات جستجو برای پیش بینی شیوع آنفلوانزا و با استفاده از داده توییتر برای پیش بینی انتخابات هر دو نمونه هایی از استفاده از نوعی از اثری دیجیتال برای پیش بینی نوعی از رویداد در جهان می باشد. تعداد زیادی از مطالعات که این ساختار کلی وجود دارد. جدول 2.5 شامل چند نمونه دیگر.
اثری دیجیتال | نتیجه | نقل قول |
---|---|---|
توییتر | جعبه درآمد دفتر فیلم در ایالات متحده | Asur and Huberman (2010) |
جستجو سیاهههای مربوط | فروش فیلم، موسیقی، کتاب، و بازی های ویدئویی در ایالات متحده | Goel et al. (2010) |
توییتر | میانگین صنعتی داو جونز (ایالات متحده در بازار سهام) | Bollen, Mao, and Zeng (2011) |
مجله PS علوم سیاسی بود یک سمپوزیوم در داده های بزرگ، استنتاج علی و نظریه رسمی، و Clark and Golder (2015) خلاصه هر سهم. مجموعه مقالات مجله آکادمی ملی علوم از ایالات متحده آمریکا در یک نشست استنتاج علی و داده های بزرگ بود، و Shiffrin (2016) خلاصه هر سهم.
از نظر آزمایش های طبیعی، Dunning (2012) درمان طول کتاب عالی فراهم می کند. برای اطلاعات بیشتر در مورد استفاده از ویتنام پیش نویس قرعه کشی به عنوان یک آزمایش طبیعی، و Berinsky and Chatfield (2015) . برای روش های یادگیری ماشین است که تلاش به صورت خودکار کشف آزمایش های طبیعی در داخل از منابع داده های بزرگ، و Jensen et al. (2008) و Sharma, Hofman, and Watts (2015) .
از نظر تطبیق، برای بررسی خوش بینانه، و Stuart (2010) ، و برای بررسی بدبین دیدن Sekhon (2009) . برای اطلاعات بیشتر در تطبیق به عنوان یک نوع هرس، و Ho et al. (2007) . برای کتاب هایی که ارائه درمان های عالی از تطبیق، و Rosenbaum (2002) ، Rosenbaum (2009) ، Morgan and Winship (2014) ، و Imbens and Rubin (2015) .