های کلیدی:
[ ، ] مخدوش الگوریتمی یک مشکل با Google Flu Trends بود. دفعات بازدید: مقاله توسط Lazer et al. (2014) ، و ارسال نامه کوتاه، ایمیل روشن به یک مهندس در گوگل توضیح مشکل و ارائه یک ایده چگونه به رفع مشکل.
[ ] Bollen, Mao, and Zeng (2011) ادعا می کند که داده ها را از توییتر را می توان برای پیش بینی بازار سهام است. این یافته به ایجاد یک پرچین صندوق DERWENT بازار سرمایه برای سرمایه گذاری در بازار سهام بر اساس داده های جمع آوری شده از توییتر منجر (Jordan 2010) . چه شواهدی که شما می خواهید به قبل از قرار دادن پول خود را در صندوق را ببینید؟
[ ] در حالی که بعضی از طرفداران بهداشت عمومی تگرگ سیگار الکترونیکی به عنوان کمک موثر برای ترک سیگار، دیگران در مورد خطرات بالقوه، مانند بالا سطح نیکوتین هشدار می دهند. تصور کنید که یک محقق تصمیم می گیرد به مطالعه افکار عمومی به سمت سیگار الکترونیکی با جمع آوری سیگار الکترونیکی مربوط به پست های توییتر و انجام تجزیه و تحلیل احساسات.
[ ] در نوامبر 2009، توییتر سوال را در کادر صدای جیر جیر از "چه کار می کنید؟" را به تغییر "چه اتفاقی می افتد؟" (https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) مورد تجزیه و تحلیل 41.7 میلیون پروفایل کاربر، 1.47 میلیارد روابط اجتماعی، 4262 موضوعات پرطرفدار و 106 میلیون توییت بین ژوئن 6 و ژوئن 31، 2009. بر اساس این تجزیه و تحلیل به این نتیجه رسیدند که توییتر در خدمت بیشتر به عنوان یک رسانه جدید به اشتراک گذاری اطلاعات از یک شبکه اجتماعی.
[ ] "بازتوییت" اغلب برای اندازه گیری تأثیر استفاده می شود و گسترش نفوذ در توییتر. در ابتدا، کاربران مجبور به کپی و چسباندن صدای جیر جیر آنها را دوست داشت، برچسب نویسنده اصلی با / دسته خود را، و به صورت دستی تایپ کنید "RT" قبل از صدای جیر جیر به نشان می دهد که آن را به یک بازتوییت است. سپس، در سال 2009 توییتر اضافه شده یک دکمه "بازتوییت". در ماه ژوئن سال 2016، توییتر این امکان را برای کاربران به بازتوییت توییت خود را (https://twitter.com/twitter/status/742749353689780224) ساخته شده است. فکر می کنید این تغییرات باید بر نحوه استفاده از "بازتوییت" در تحقیقات خود را؟ چرا و چرا نه؟
[ ، ، ] Michel et al. (2011) ساخته شده یک مجموعه در حال ظهور از تلاش گوگل برای دیجیتالی شدن کتاب. با استفاده از اولین نسخه از لاشه، که در سال 2009 منتشر شد و شامل بیش از 5 میلیون کتابهای دیجیتالی، نویسندگان برای بررسی تغییرات زبانی و روند فرهنگی تجزیه و تحلیل فرکانس استفاده از کلمه. به زودی کتاب جسم گوگل یک منبع داده محبوب برای محققان تبدیل شد، و یک نسخه 2 از پایگاه داده در سال 2012 منتشر شد.
با این حال، Pechenick, Danforth, and Dodds (2015) هشدار داد که محققان باید به طور کامل مشخص فرایند نمونه برداری از لاشه قبل از استفاده از آن را برای نتیجه گیری وسیع است. مسئله اصلی این است که مجموعه کتابخانه مانند است، حاوی یکی از هر کتاب. در نتیجه، یک فرد، نویسنده پرکار قادر به طرز محسوسی وارد عبارات جدید به واژگان کتاب های گوگل است. علاوه بر این، متون علمی یک بخش به طور فزاینده اساسی از لاشه در سراسر از 1900s تشکیل می دهند. علاوه بر این، با مقایسه دو نسخه از مجموعه داده های داستانی انگلیسی، Pechenick و همکاران شواهد نشان داده است که فیلتر کافی در تولید اولین نسخه استفاده شده است. تمام داده های مورد نیاز برای فعالیت در اینجا در دسترس است: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ ، ، ، ] Penney (2016) به بررسی اینکه آیا تبلیغات گسترده در مورد NSA نظارت / منشور (به عنوان مثال، افشاگری های اسنودن) در ژوئن 2013 با کاهش شدید و ناگهانی در ترافیک به مقالات ویکیپدیا در موضوعاتی که افزایش نگرانی های حریم خصوصی در ارتباط است. اگر چنین است، این تغییر در رفتار و هماهنگ با اثر سرد ناشی از جاسوسی گسترده رویکرد Penney (2016) است که گاهی اوقات یک طراحی سری زمانی قطع نامیده می شود و به روش در فصل مربوط در مورد تقریب آزمایش از داده های مشاهده ای (بخش 2.4.3).
برای انتخاب کلمات کلیدی موضوع، پنی به لیست توسط وزارت امنیت داخلی برای ردیابی و نظارت بر رسانه های اجتماعی استفاده می شود اشاره شده است. لیست وزارت امنیت داخلی طبقه بندی عبارات جستجو را به یک طیف وسیعی از مسائل، یعنی "نگرانی بهداشت"، "امنیت زیرساخت،" و "تروریسم." برای گروه مورد مطالعه، پنی با استفاده از چهل و هشت کلمات کلیدی مربوط به «تروریسم» (جدول 8 مشاهده ضمیمه). او سپس ویکیپدیا تعداد مشاهده مقاله به صورت ماهانه برای مربوطه چهل و هشت مقالات ویکیپدیا در طی یک دوره سی و دو ماه جمع آوری شده، از ابتدای ژانویه سال 2012 به پایان ماه اوت 2014. برای تقویت استدلال خود را، او همچنین چند مقایسه ایجاد گروه با ردیابی بازدیدها مقاله در مورد موضوعات دیگر.
در حال حاضر، شما در حال رفتن به تکرار و گسترش Penney (2016) . همه داده های خام که شما برای این فعالیت نیاز دارید در دسترس از ویکیپدیا (https://dumps.wikimedia.org/other/pagecounts-raw/) است. یا شما می توانید آن را از wikipediatrend بسته R گرفتن (Meissner and Team 2016) . هنگامی که شما ارسال تا پاسخ های خود را، لطفا توجه داشته باشید که منبع داده شما استفاده می شود. (توجه داشته باشید: این فعالیت نیز در فصل 6 به نظر می رسد)
[ ] Efrati (2016) گزارش، بر اساس اطلاعات محرمانه، که "به اشتراک گذاری کل" در فیس بوک حدود 5.5 درصد سال به سال کاهش یافته است در حالی که "به اشتراک گذاری پخش اصلی" پایین 21٪ سال بیش از سال بود. این کاهش به خصوص با کاربران فیس بوک زیر 30 سال سن حاد بود. این گزارش کاهش به دو عامل نسبت داد. یکی از رشد در تعداد از "دوستان" مردم در فیس بوک است. دیگر این است که برخی از فعالیت های به اشتراک گذاری است به پیام ها و به رقبای مانند اسنپ چت منتقل شده است. این گزارش همچنین از چندین تاکتیک فیس بوک سعی کرده بود برای افزایش اشتراک گذاری، از جمله ترفند الگوریتم اخبار که پست اصلی برجسته تر، و همچنین یادآوری دوره ای از کاربران پست اصلی "در این روز" چند سال پیش نشان داد. چه پیامدهای، در صورت وجود، آیا این یافته ها برای محققان که مایل به استفاده از فیس بوک به عنوان یک منبع داده را داشته باشد؟
[ ] Tumasjan et al. (2010) گزارش دادند که نسبت توییت ذکر یک حزب سیاسی همسان نسبت آرا که حزب در انتخابات پارلمانی آلمان در سال 2009 دریافت کرد (شکل 2.9). به عبارت دیگر، به نظر می که شما می توانید توییتر برای پیش بینی انتخابات استفاده کنند. در آن زمان این مطالعه منتشر شد آن را بسیار هیجان انگیز در نظر گرفته شد به دلیل آن به نظر می رسید به پیشنهاد یکی از استفاده با ارزش برای یک منبع مشترک از داده های بزرگ.
با توجه به ویژگی های بد از داده های بزرگ، با این حال، شما باید فورا شک و تردید از این نتیجه باشد. آلمان در توییتر در سال 2009 کاملا یک گروه غیر نماینده بودند و یک حزب ممکن است در مورد سیاست بیشتر صدای جیر جیر. بنابراین، به نظر می رسد تعجب آور است که تمام تعصبات ممکن است که شما می توانید تصور به نحوی که لغو شد. در واقع، نتایج را در Tumasjan et al. (2010) معلوم شد که بیش از حد خوب درست باشد. در این مقاله، Tumasjan et al. (2010) حزب دموکرات مسیحی (CDU)، مسیحی سوسیال دموکرات (CSU)، SPD، لیبرال (FDP)، سمت چپ (دی لینکه)، و حزب سبز (Grüne): شش احزاب سیاسی در نظر گرفته. با این حال، حزب سیاسی آلمان ترین ذکر در توییتر که در آن زمان حزب دزدان دریایی (Piraten)، یک حزب است که مبارزه می کند وضع مقررات دولتی بر اینترنت بود. هنگامی که حزب دزدان دریایی در تجزیه و تحلیل قرار گرفت، توییتر اشاره یک پیش بینی های وحشتناک از نتایج انتخابات (شکل 2.9) می شود (Jungherr, Jürgens, and Schoen 2012) .
پس از آن، محققان دیگر در سراسر جهان استفاده کرده اند خیال باف روش مانند استفاده از تجزیه و تحلیل احساسات به تمایز بین مثبت و منفی اشاره از احزاب به منظور بهبود توانایی داده توییتر برای پیش بینی انواع انواع مختلف انتخابات (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . در اینجا چگونه Huberty (2015) نتایج حاصل از این تلاش ها برای پیش بینی انتخابات خلاصه:
"همه روش های پیش بینی شناخته شده بر اساس رسانه های اجتماعی شکست خورده اند که به خواسته های پیش بینی درست جلو، به دنبال انتخابات قرار گیرد. این شکست به نظر می رسد با توجه به خواص اساسی رسانه های اجتماعی، و نه به مشکلات مربوط به روش و یا الگوریتمی. در کوتاه مدت، رسانه های اجتماعی انجام دهد، و احتمالا هرگز، ارائه پایدار، بی طرفانه، تصویر نماینده از رای دهندگان؛ و نمونه راحتی از رسانه های اجتماعی فاقد اطلاعات کافی برای رفع این مشکلات تعقیبی. "
خواندن برخی از تحقیقاتی که منجر Huberty (2015) به این نتیجه گیری، و نوشتن یادداشت یک صفحه به یک نامزد سیاسی توصیف صورت و چگونه توییتر استفاده شود به پیش بینی انتخابات.
[ ] چه تفاوتی بین یک جامعه شناس و یک مورخ است؟ با توجه به Goldthorpe (1991) ، تفاوت اصلی بین جامعه شناس و مورخ کنترل بر جمع آوری داده ها است. مورخان مجبور به استفاده از آثار در حالی که جامعه شناسان می توانید مجموعه اطلاعات خود را به اهداف خاص خیاط. خوانده شده Goldthorpe (1991) . چگونه تفاوت بین جامعه شناسی و تاریخ مربوط به ایده Custommades و Readymades؟
[ ] ساختمان های سوال قبلی، Goldthorpe (1991) تعدادی از پاسخ های مهم، از جمله یکی از نیکی هارت به خود جلب کرد (1994) که از خود گذشتگی Goldthorpe را به چالش کشیدند به خیاط داده ساخته شده است. برای روشن شدن محدودیت های بالقوه از اطلاعات سفارشی ساخته شده، هارت کارگران پروژه مرفه، یک نظرسنجی بزرگ برای اندازه گیری رابطه بین طبقه اجتماعی و رای گیری که توسط Goldthorpe و همکارانش در اواسط 1960s انجام شد است. همان طور که از یک محقق که داده ها در طول داده یافت نشد. طراحی مورد علاقه انتظار، پروژه کارگران مرفه داده هایی را که برای رسیدگی به یک نظریه اخیرا پیشنهاد در مورد آینده طبقه اجتماعی در عصر افزایش استانداردهای زندگی طراحی شده بود جمع آوری شده. اما، Goldthorpe و همکارانش به نوعی "فراموش" را به جمع آوری اطلاعات در مورد رای دادن زنان است. در اینجا چگونه نیکی هارت (1994) خلاصه طیف قسمت:
". . . آن را دشوار است [] برای جلوگیری از این نتیجه رسیدند که زنان حذف شدند زیرا این «خیاط ساخته شده، مجموعه داده با یک منطق پارادایمی که از مطالعه حذف شدند تجربه زنان محدود می شد. رانده شده توسط یک چشم انداز نظری آگاهی طبقاتی و عمل به عنوان مشغله مرد. . . ، Goldthorpe و همکارانش ساخته شده یک مجموعه برهان تجربی که تغذیه و مفروضات نظری خود را به جای دادن آنها در معرض یک آزمون معتبر کفایت پرورش. "
هارت ادامه داد:
"یافته های تجربی از پروژه کارگران مرفه به ما بگویید بیشتر در مورد ارزشهای مردانه جامعه شناسی اواسط قرن از آنها اطلاع فرآیندهای قشربندی، سیاست و زندگی مادی."
می تواند شما را از نمونه های دیگر که در آن جمع آوری داده ها سفارشی ساخته شده است سوگیری های جمع آوری داده ها ساخته شده را به آن فکر می کنم؟ چگونه این مقایسه به مخدوش الگوریتمی می کند؟ چه پیامدهای ممکن است این برای زمانی که محققان باید Readymades استفاده کنید و زمانی که آنها باید Custommades استفاده کنید؟
[ ] در این فصل، من اطلاعات جمع آوری شده توسط محققان برای محققان با سوابق اداری ایجاد شده توسط شرکت ها و دولت در تضاد است. برخی از افراد پاسخ این پرونده اداری که در آن با کنتراست "داده ها، پیدا شده است" "داده طراحی شده است." این درست است که سوابق اداری توسط محققان، اما آنها نیز بسیار طراحی شده است. به عنوان مثال، شرکت های فن آوری مدرن صرف مقدار زیادی از زمان و منابع را به جمع آوری و معاون کشیش بخش داده های خود. بنابراین، این سوابق اداری هر دو پیدا شده است و طراحی شده، آن را فقط به دیدگاه شما (شکل 2.10) بستگی دارد.
ارائه یک مثال از منبع داده که در آن دیدن آن هر دو به عنوان پیدا شده است و طراحی شده که با استفاده از آن منبع داده برای تحقیق مفید است.
[ ] در مقاله اندیشمندانه، مسیحی Sandvig و استر Hargittai (2015) توصیف دو نوع تحقیقات دیجیتال، که در آن سیستم دیجیتال "ابزار" یا "هدف از مطالعه." به عنوان مثال از نوع اول مطالعه است که در آن بنگتسون و همکاران (2011) با استفاده از داده تلفن همراه برای ردیابی مهاجرت پس از زلزله در هائیتی در سال 2010. نمونه ای از نوع دوم است که در آن جنسن (2007) مطالعات چگونه معرفی گوشی های موبایل در سراسر کرالا، هند نهفته عملکرد بازار برای ماهی. من این باشه به دلیل آن روشن است که مطالعات با استفاده از منابع داده های دیجیتال می تواند به اهداف کاملا متفاوت حتی اگر آنها با استفاده از همان نوع منبع داده اند. به منظور روشن شدن بیشتر این تمایز، توصیف چهار مطالعه که شما را دیده ام: دو که با استفاده از یک سیستم دیجیتال به عنوان یک ابزار و دو که با استفاده از یک سیستم دیجیتال به عنوان یک شی از مطالعه. شما می توانید نمونه هایی از این فصل اگر شما می خواهید استفاده کنید.