فعالیت

این ترجمه توسط یک کامپیوتر ساخته شده است. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

فعالیت

های کلیدی:

درجه سختی: آسان ، متوسط ، سخت ، خیلی سخت
نیاز به ریاضی ( $نیاز به ریاضی$ )
نیاز به برنامه نویسی ( )
جمع آوری داده ها ( )
علایق من ( )

[ ، ] مخدوش الگوریتمی یک مشکل با Google Flu Trends بود. دفعات بازدید: مقاله توسط Lazer et al. (2014) ، و ارسال نامه کوتاه، ایمیل روشن به یک مهندس در گوگل توضیح مشکل و ارائه یک ایده چگونه به رفع مشکل.
[ ] Bollen, Mao, and Zeng (2011) ادعا می کند که داده ها را از توییتر را می توان برای پیش بینی بازار سهام است. این یافته به ایجاد یک پرچین صندوق DERWENT بازار سرمایه برای سرمایه گذاری در بازار سهام بر اساس داده های جمع آوری شده از توییتر منجر (Jordan 2010) . چه شواهدی که شما می خواهید به قبل از قرار دادن پول خود را در صندوق را ببینید؟
[ ] در حالی که بعضی از طرفداران بهداشت عمومی تگرگ سیگار الکترونیکی به عنوان کمک موثر برای ترک سیگار، دیگران در مورد خطرات بالقوه، مانند بالا سطح نیکوتین هشدار می دهند. تصور کنید که یک محقق تصمیم می گیرد به مطالعه افکار عمومی به سمت سیگار الکترونیکی با جمع آوری سیگار الکترونیکی مربوط به پست های توییتر و انجام تجزیه و تحلیل احساسات.
1. سه تعصبات ممکن است که شما در مورد در این مطالعه نگران هستند چیست؟
2. Clark et al. (2016) چنین مطالعه کرد. اول، آنها 850،000 توییت که کلمات کلیدی مربوط-سیگار الکترونیکی از ژانویه 2012 تا دسامبر 2014. پس از بازرسی نزدیک می باشد جمع آوری شده، آنها متوجه شدم که بسیاری از این توییت خودکار شد (یعنی توسط افراد نوشته نشده) و بسیاری از این توییت خودکار اساسا شد آگهی های بازرگانی. آنها را توسعه الگوریتم تشخیص انسان برای جدا توییت خودکار از توییت های آلی است. با استفاده از این بشر شناسایی الگوریتم آنها دریافتند که 80 درصد از توییت خودکار شد. آیا این یافته تغییر پاسخ خود را به بخش (الف)؟
3. هنگامی که آنها احساسات در توییت آلی و خودکار در مقایسه آنها دریافتند که توییت خودکار از توییت آلی (6.17 در مقابل 5.84) مثبت تر است. آیا این یافته تغییر پاسخ خود را به (ب)؟
[ ] در نوامبر 2009، توییتر سوال را در کادر صدای جیر جیر از "چه کار می کنید؟" را به تغییر "چه اتفاقی می افتد؟" (https://blog.twitter.com/2009/whats-happening).
1. به نظر شما چگونه تغییر دهید را تحت تاثیر قرار خواهد که صدای جیر جیر و / یا آنچه که آنها صدای جیر جیر؟
2. نام و نام خانوادگی یک پروژه تحقیقاتی برای آن شما می اعلان ترجیح می دهند "چه کار می کنید؟" توضیح دهید که چرا.
3. نام و نام خانوادگی یک پروژه تحقیقاتی برای آن شما می اعلان ترجیح می دهند "چه خبر شده؟" توضیح دهید که چرا.
[ ] Kwak et al. (2010) مورد تجزیه و تحلیل 41.7 میلیون پروفایل کاربر، 1.47 میلیارد روابط اجتماعی، 4262 موضوعات پرطرفدار و 106 میلیون توییت بین ژوئن 6 و ژوئن 31، 2009. بر اساس این تجزیه و تحلیل به این نتیجه رسیدند که توییتر در خدمت بیشتر به عنوان یک رسانه جدید به اشتراک گذاری اطلاعات از یک شبکه اجتماعی.
1. با توجه به یافته های کواک و همکاران، چه نوع از پژوهش شما با داده های توییتر انجام دهید؟ چه نوع از پژوهش شما با داده های توییتر نمی کنند؟ چرا؟
2. در سال 2010، توییتر اضافه شده است که به دنبال خدمات ساخت پیشنهاد مناسب به کاربران است. سه توصیه ها در یک زمان بر روی صفحه اصلی نشان داده شده است. توصیه ها اغلب از یک کشیده شده "دوستان از دوستان،" و تماس متقابل نیز در توصیه نمایش داده شود. کاربران می توانید تازه کردن برای دیدن یک مجموعه ای جدید از توصیه ها و یا یک صفحه با یک لیست طولانی از توصیه مراجعه کنید. فکر می کنید این ویژگی های جدید خواهد پاسخ خود را به بخشی از یک تغییر دهید)؟ چرا و چرا نه؟
3. Su, Sharma, and Goel (2016) اثر چه کسی به دنبال خدمات ارزیابی و نشان داد که در حالی که کاربران در سراسر طیف محبوبیت از توصیه های بهره مند از کاربران محبوب ترین سود قابل ملاحظه ای بیشتر از حد متوسط. آیا این یافته تغییر پاسخ شما به قسمت ب)؟ چرا و چرا نه؟
[ ] "بازتوییت" اغلب برای اندازه گیری تأثیر استفاده می شود و گسترش نفوذ در توییتر. در ابتدا، کاربران مجبور به کپی و چسباندن صدای جیر جیر آنها را دوست داشت، برچسب نویسنده اصلی با / دسته خود را، و به صورت دستی تایپ کنید "RT" قبل از صدای جیر جیر به نشان می دهد که آن را به یک بازتوییت است. سپس، در سال 2009 توییتر اضافه شده یک دکمه "بازتوییت". در ماه ژوئن سال 2016، توییتر این امکان را برای کاربران به بازتوییت توییت خود را (https://twitter.com/twitter/status/742749353689780224) ساخته شده است. فکر می کنید این تغییرات باید بر نحوه استفاده از "بازتوییت" در تحقیقات خود را؟ چرا و چرا نه؟
[ ، ، ] Michel et al. (2011) ساخته شده یک مجموعه در حال ظهور از تلاش گوگل برای دیجیتالی شدن کتاب. با استفاده از اولین نسخه از لاشه، که در سال 2009 منتشر شد و شامل بیش از 5 میلیون کتابهای دیجیتالی، نویسندگان برای بررسی تغییرات زبانی و روند فرهنگی تجزیه و تحلیل فرکانس استفاده از کلمه. به زودی کتاب جسم گوگل یک منبع داده محبوب برای محققان تبدیل شد، و یک نسخه 2 از پایگاه داده در سال 2012 منتشر شد.

با این حال، Pechenick, Danforth, and Dodds (2015) هشدار داد که محققان باید به طور کامل مشخص فرایند نمونه برداری از لاشه قبل از استفاده از آن را برای نتیجه گیری وسیع است. مسئله اصلی این است که مجموعه کتابخانه مانند است، حاوی یکی از هر کتاب. در نتیجه، یک فرد، نویسنده پرکار قادر به طرز محسوسی وارد عبارات جدید به واژگان کتاب های گوگل است. علاوه بر این، متون علمی یک بخش به طور فزاینده اساسی از لاشه در سراسر از 1900s تشکیل می دهند. علاوه بر این، با مقایسه دو نسخه از مجموعه داده های داستانی انگلیسی، Pechenick و همکاران شواهد نشان داده است که فیلتر کافی در تولید اولین نسخه استفاده شده است. تمام داده های مورد نیاز برای فعالیت در اینجا در دسترس است: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. در میشل و همکاران مقاله اصلی (2011) ، آنها با استفاده از نسخه 1 از مجموعه داده انگلیسی، رسم فراوانی استفاده از سال "1880"، "1912" و "1973"، و نتیجه گرفت که "ما فراموش گذشته ما سریعتر با گذشت هر سال "(شکل 3a، میشل و همکاران). تکرار همان طرح با استفاده از 1) نسخه 1 از لاشه، انگلیسی مجموعه داده (همان شکل 3a، میشل و همکاران)
2. حالا همان طرح با نسخه 1، انگلیسی داستان مجموعه داده را تکثیر کند.
3. حالا همان طرح با نسخه 2 از لاشه، انگلیسی مجموعه داده را تکثیر کند.
4. در نهایت، تکرار همان طرح با نسخه 2، انگلیسی داستان مجموعه داده.
5. تفاوت ها و شباهت بین این چهار قطعه را شرح دهید. آیا شما با میشل و همکاران تفسیر اصلی از روند مشاهده موافق هستید؟ (نکته: C) و د) باید همان شکل 16 در Pechenick و همکاران می باشد).
6. حالا که شما این یکی از یافته های تکرار شده اند با استفاده های مختلف گوگل کتاب شرکتهای، تغییر زبانی دیگر و یا پدیده های فرهنگی ارائه شده در مقاله اصلی میشل و همکاران را انتخاب کنید. آیا شما با تفسیر آنها دیدن همه موارد در نور از محدودیت ارائه شده در Pechenick و همکاران. در استدلال خود را قوی تر کنید، سعی کنید تکرار نمودار را با استفاده از نسخه های مختلف از داده ها را به عنوان بالا.
[ ، ، ، ] Penney (2016) به بررسی اینکه آیا تبلیغات گسترده در مورد NSA نظارت / منشور (به عنوان مثال، افشاگری های اسنودن) در ژوئن 2013 با کاهش شدید و ناگهانی در ترافیک به مقالات ویکیپدیا در موضوعاتی که افزایش نگرانی های حریم خصوصی در ارتباط است. اگر چنین است، این تغییر در رفتار و هماهنگ با اثر سرد ناشی از جاسوسی گسترده رویکرد Penney (2016) است که گاهی اوقات یک طراحی سری زمانی قطع نامیده می شود و به روش در فصل مربوط در مورد تقریب آزمایش از داده های مشاهده ای (بخش 2.4.3).

برای انتخاب کلمات کلیدی موضوع، پنی به لیست توسط وزارت امنیت داخلی برای ردیابی و نظارت بر رسانه های اجتماعی استفاده می شود اشاره شده است. لیست وزارت امنیت داخلی طبقه بندی عبارات جستجو را به یک طیف وسیعی از مسائل، یعنی "نگرانی بهداشت"، "امنیت زیرساخت،" و "تروریسم." برای گروه مورد مطالعه، پنی با استفاده از چهل و هشت کلمات کلیدی مربوط به «تروریسم» (جدول 8 مشاهده ضمیمه). او سپس ویکیپدیا تعداد مشاهده مقاله به صورت ماهانه برای مربوطه چهل و هشت مقالات ویکیپدیا در طی یک دوره سی و دو ماه جمع آوری شده، از ابتدای ژانویه سال 2012 به پایان ماه اوت 2014. برای تقویت استدلال خود را، او همچنین چند مقایسه ایجاد گروه با ردیابی بازدیدها مقاله در مورد موضوعات دیگر.

در حال حاضر، شما در حال رفتن به تکرار و گسترش Penney (2016) . همه داده های خام که شما برای این فعالیت نیاز دارید در دسترس از ویکیپدیا (https://dumps.wikimedia.org/other/pagecounts-raw/) است. یا شما می توانید آن را از wikipediatrend بسته R گرفتن (Meissner and Team 2016) . هنگامی که شما ارسال تا پاسخ های خود را، لطفا توجه داشته باشید که منبع داده شما استفاده می شود. (توجه داشته باشید: این فعالیت نیز در فصل 6 به نظر می رسد)
1. خوانده شده Penney (2016) و تکثیر شکل 2 نشان می دهد که بازدید از این صفحه برای "تروریسم" صفحات مرتبط با قبل و بعد از وحی اسنودن. تفسیر یافته.
2. بعد، تکرار شکل 4A، که گروه مورد ( «تروریسم» مقالات مرتبط با) مقایسه با یک گروه مقایسه استفاده از کلمات کلیدی طبقه بندی شده تحت "وزارت امنیت داخلی و دیگر نمایندگی ها" را از لیست وزارت امنیت داخلی (جداول ضمیمه 10). تفسیر یافته.
3. در قسمت ب) شما در گروه مورد مطالعه به یک گروه مقایسه مقایسه شده است. "امنیت زیرساخت" مقالات مربوط (جدول ضمیمه 11) و صفحات ویکیپدیا محبوب (جدول ضمیمه 12): پنی به دو گروه دیگر مقایسه مقایسه شده است. آمد تا با یک گروه مقایسه جایگزین و تست اگر این یافته ها از قسمت B) حساس به انتخاب خود را از گروه مقایسه است. که انتخاب گروه مقایسه باعث می شود بیشتر حس؟ چرا؟
4. نویسنده اظهار داشت که کلمات کلیدی مربوط به "تروریسم" را انتخاب کنید مقالات ویکیپدیا چرا که دولت آمریکا تروریسم به عنوان یک توجیه کلیدی برای شیوه های نظارت آنلاین آن اشاره استفاده شد. به عنوان یک چک از این 48 «تروریسم» کلمات کلیدی مرتبط با، Penney (2016) همچنین یک بررسی در MTurk پاسخ دهندگان درخواست برای رای دادن به هر یک از کلمات کلیدی در شرایط مشکل دولت، حریم خصوصی حساس و اجتناب انجام (جدول 7 ضمیمه و 8). تکرار بررسی MTurk و مقایسه نتایج خود را.
5. بر اساس نتایج در بخش D) و خواندن خود را از مقاله، شما را با انتخاب نویسنده از کلمات کلیدی موضوع در گروه مورد، موافق هستید؟ چرا و چرا نه؟ اگر نه، آنچه را که شما به جای نشان می دهد؟
[ ] Efrati (2016) گزارش، بر اساس اطلاعات محرمانه، که "به اشتراک گذاری کل" در فیس بوک حدود 5.5 درصد سال به سال کاهش یافته است در حالی که "به اشتراک گذاری پخش اصلی" پایین 21٪ سال بیش از سال بود. این کاهش به خصوص با کاربران فیس بوک زیر 30 سال سن حاد بود. این گزارش کاهش به دو عامل نسبت داد. یکی از رشد در تعداد از "دوستان" مردم در فیس بوک است. دیگر این است که برخی از فعالیت های به اشتراک گذاری است به پیام ها و به رقبای مانند اسنپ چت منتقل شده است. این گزارش همچنین از چندین تاکتیک فیس بوک سعی کرده بود برای افزایش اشتراک گذاری، از جمله ترفند الگوریتم اخبار که پست اصلی برجسته تر، و همچنین یادآوری دوره ای از کاربران پست اصلی "در این روز" چند سال پیش نشان داد. چه پیامدهای، در صورت وجود، آیا این یافته ها برای محققان که مایل به استفاده از فیس بوک به عنوان یک منبع داده را داشته باشد؟
[ ] Tumasjan et al. (2010) گزارش دادند که نسبت توییت ذکر یک حزب سیاسی همسان نسبت آرا که حزب در انتخابات پارلمانی آلمان در سال 2009 دریافت کرد (شکل 2.9). به عبارت دیگر، به نظر می که شما می توانید توییتر برای پیش بینی انتخابات استفاده کنند. در آن زمان این مطالعه منتشر شد آن را بسیار هیجان انگیز در نظر گرفته شد به دلیل آن به نظر می رسید به پیشنهاد یکی از استفاده با ارزش برای یک منبع مشترک از داده های بزرگ.

با توجه به ویژگی های بد از داده های بزرگ، با این حال، شما باید فورا شک و تردید از این نتیجه باشد. آلمان در توییتر در سال 2009 کاملا یک گروه غیر نماینده بودند و یک حزب ممکن است در مورد سیاست بیشتر صدای جیر جیر. بنابراین، به نظر می رسد تعجب آور است که تمام تعصبات ممکن است که شما می توانید تصور به نحوی که لغو شد. در واقع، نتایج را در Tumasjan et al. (2010) معلوم شد که بیش از حد خوب درست باشد. در این مقاله، Tumasjan et al. (2010) حزب دموکرات مسیحی (CDU)، مسیحی سوسیال دموکرات (CSU)، SPD، لیبرال (FDP)، سمت چپ (دی لینکه)، و حزب سبز (Grüne): شش احزاب سیاسی در نظر گرفته. با این حال، حزب سیاسی آلمان ترین ذکر در توییتر که در آن زمان حزب دزدان دریایی (Piraten)، یک حزب است که مبارزه می کند وضع مقررات دولتی بر اینترنت بود. هنگامی که حزب دزدان دریایی در تجزیه و تحلیل قرار گرفت، توییتر اشاره یک پیش بینی های وحشتناک از نتایج انتخابات (شکل 2.9) می شود (Jungherr, Jürgens, and Schoen 2012) .

شکل 2.9: توییتر اشاره به نظر می رسد پیش بینی نتایج در سال 2009 انتخابات آلمان (Tumasjan et al. 2010) ، اما این نتیجه می رسد وابسته به برخی از گزینه های دلخواه و غیر قابل توجیه (Jungherr, Jürgens, and Schoen 2012) .

پس از آن، محققان دیگر در سراسر جهان استفاده کرده اند خیال باف روش مانند استفاده از تجزیه و تحلیل احساسات به تمایز بین مثبت و منفی اشاره از احزاب به منظور بهبود توانایی داده توییتر برای پیش بینی انواع انواع مختلف انتخابات (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . در اینجا چگونه Huberty (2015) نتایج حاصل از این تلاش ها برای پیش بینی انتخابات خلاصه:

"همه روش های پیش بینی شناخته شده بر اساس رسانه های اجتماعی شکست خورده اند که به خواسته های پیش بینی درست جلو، به دنبال انتخابات قرار گیرد. این شکست به نظر می رسد با توجه به خواص اساسی رسانه های اجتماعی، و نه به مشکلات مربوط به روش و یا الگوریتمی. در کوتاه مدت، رسانه های اجتماعی انجام دهد، و احتمالا هرگز، ارائه پایدار، بی طرفانه، تصویر نماینده از رای دهندگان؛ و نمونه راحتی از رسانه های اجتماعی فاقد اطلاعات کافی برای رفع این مشکلات تعقیبی. "

خواندن برخی از تحقیقاتی که منجر Huberty (2015) به این نتیجه گیری، و نوشتن یادداشت یک صفحه به یک نامزد سیاسی توصیف صورت و چگونه توییتر استفاده شود به پیش بینی انتخابات.
[ ] چه تفاوتی بین یک جامعه شناس و یک مورخ است؟ با توجه به Goldthorpe (1991) ، تفاوت اصلی بین جامعه شناس و مورخ کنترل بر جمع آوری داده ها است. مورخان مجبور به استفاده از آثار در حالی که جامعه شناسان می توانید مجموعه اطلاعات خود را به اهداف خاص خیاط. خوانده شده Goldthorpe (1991) . چگونه تفاوت بین جامعه شناسی و تاریخ مربوط به ایده Custommades و Readymades؟
[ ] ساختمان های سوال قبلی، Goldthorpe (1991) تعدادی از پاسخ های مهم، از جمله یکی از نیکی هارت به خود جلب کرد (1994) که از خود گذشتگی Goldthorpe را به چالش کشیدند به خیاط داده ساخته شده است. برای روشن شدن محدودیت های بالقوه از اطلاعات سفارشی ساخته شده، هارت کارگران پروژه مرفه، یک نظرسنجی بزرگ برای اندازه گیری رابطه بین طبقه اجتماعی و رای گیری که توسط Goldthorpe و همکارانش در اواسط 1960s انجام شد است. همان طور که از یک محقق که داده ها در طول داده یافت نشد. طراحی مورد علاقه انتظار، پروژه کارگران مرفه داده هایی را که برای رسیدگی به یک نظریه اخیرا پیشنهاد در مورد آینده طبقه اجتماعی در عصر افزایش استانداردهای زندگی طراحی شده بود جمع آوری شده. اما، Goldthorpe و همکارانش به نوعی "فراموش" را به جمع آوری اطلاعات در مورد رای دادن زنان است. در اینجا چگونه نیکی هارت (1994) خلاصه طیف قسمت:

". . . آن را دشوار است [] برای جلوگیری از این نتیجه رسیدند که زنان حذف شدند زیرا این «خیاط ساخته شده، مجموعه داده با یک منطق پارادایمی که از مطالعه حذف شدند تجربه زنان محدود می شد. رانده شده توسط یک چشم انداز نظری آگاهی طبقاتی و عمل به عنوان مشغله مرد. . . ، Goldthorpe و همکارانش ساخته شده یک مجموعه برهان تجربی که تغذیه و مفروضات نظری خود را به جای دادن آنها در معرض یک آزمون معتبر کفایت پرورش. "

هارت ادامه داد:

"یافته های تجربی از پروژه کارگران مرفه به ما بگویید بیشتر در مورد ارزشهای مردانه جامعه شناسی اواسط قرن از آنها اطلاع فرآیندهای قشربندی، سیاست و زندگی مادی."

می تواند شما را از نمونه های دیگر که در آن جمع آوری داده ها سفارشی ساخته شده است سوگیری های جمع آوری داده ها ساخته شده را به آن فکر می کنم؟ چگونه این مقایسه به مخدوش الگوریتمی می کند؟ چه پیامدهای ممکن است این برای زمانی که محققان باید Readymades استفاده کنید و زمانی که آنها باید Custommades استفاده کنید؟
[ ] در این فصل، من اطلاعات جمع آوری شده توسط محققان برای محققان با سوابق اداری ایجاد شده توسط شرکت ها و دولت در تضاد است. برخی از افراد پاسخ این پرونده اداری که در آن با کنتراست "داده ها، پیدا شده است" "داده طراحی شده است." این درست است که سوابق اداری توسط محققان، اما آنها نیز بسیار طراحی شده است. به عنوان مثال، شرکت های فن آوری مدرن صرف مقدار زیادی از زمان و منابع را به جمع آوری و معاون کشیش بخش داده های خود. بنابراین، این سوابق اداری هر دو پیدا شده است و طراحی شده، آن را فقط به دیدگاه شما (شکل 2.10) بستگی دارد.

شکل 2.10: تصویر هر دو یک اردک و خرگوش است. آنچه می بینید بستگی به دیدگاه خود را. دولت و کسب و کار سوابق اجرایی هر دو پیدا شده است و طراحی شده است؛ آنچه می بینید بستگی به دیدگاه خود را. به عنوان مثال، داده های ثبت پاسخ جمع آوری شده توسط یک شرکت تلفن همراه می داده ها از دیدگاه یک محقق شده است. اما، این پرونده دقیق همان منظر داده از کسی که کار در بخش صدور صورت حساب از شرکت تلفن طراحی شده است. منبع: ویکیپدیا

ارائه یک مثال از منبع داده که در آن دیدن آن هر دو به عنوان پیدا شده است و طراحی شده که با استفاده از آن منبع داده برای تحقیق مفید است.
[ ] در مقاله اندیشمندانه، مسیحی Sandvig و استر Hargittai (2015) توصیف دو نوع تحقیقات دیجیتال، که در آن سیستم دیجیتال "ابزار" یا "هدف از مطالعه." به عنوان مثال از نوع اول مطالعه است که در آن بنگتسون و همکاران (2011) با استفاده از داده تلفن همراه برای ردیابی مهاجرت پس از زلزله در هائیتی در سال 2010. نمونه ای از نوع دوم است که در آن جنسن (2007) مطالعات چگونه معرفی گوشی های موبایل در سراسر کرالا، هند نهفته عملکرد بازار برای ماهی. من این باشه به دلیل آن روشن است که مطالعات با استفاده از منابع داده های دیجیتال می تواند به اهداف کاملا متفاوت حتی اگر آنها با استفاده از همان نوع منبع داده اند. به منظور روشن شدن بیشتر این تمایز، توصیف چهار مطالعه که شما را دیده ام: دو که با استفاده از یک سیستم دیجیتال به عنوان یک ابزار و دو که با استفاده از یک سیستم دیجیتال به عنوان یک شی از مطالعه. شما می توانید نمونه هایی از این فصل اگر شما می خواهید استفاده کنید.