فعالیت

  • درجه سختی: آسان آسان ، متوسط متوسط ، سخت سخت ، خیلی سخت خیلی سخت
  • نیاز به ریاضی ( نیاز به ریاضی دارد )
  • نیاز به برنامه نویسی ( نیاز به برنامه نویسی دارد )
  • جمع آوری اطلاعات ( جمع آوری داده ها )
  • علایق من ( مورد علاقه من )
  1. [ متوسط ، مورد علاقه من ] هنجارهای الگوریتمی مشکلی با روند گوگل آنفولانزا بود. مقاله Lazer et al. (2014) بخوانید Lazer et al. (2014) ، و یک ایمیل کوتاه و واضح برای یک مهندس در Google بنویسید تا مشکل را توضیح دهد و ایده ای در مورد چگونگی حل آن ارائه دهد.

  2. [ متوسط ] Bollen, Mao, and Zeng (2011) ادعا می کند که داده های توییتر برای پیش بینی بازار سهام استفاده می شود. این یافته ها منجر به ایجاد یک صندوق حواله - Markets Markets - برای سرمایه گذاری در بازار سهام بر اساس داده های جمع آوری شده از توییتر (Jordan 2010) . قبل از قرار دادن پول خود در این صندوق، چه مدرکی دارید؟

  3. [ آسان ] در حالی که بعضی از طرفداران بهداشت عمومی سیگاریهای الکترونیکی را به عنوان یک کمک موثر برای توقف مصرف سیگار می دانند، برخی دیگر از خطرات بالقوه مانند سطح بالای نیکوتین هشدار می دهند. تصور کنید که یک محقق تصمیم می گیرد با جمع آوری ایمیل های پست الکترونیکی مرتبط با سیگار الکترونیکی و انجام تحلیل تجزیه و تحلیل احساس خود را به سیگاری های الکترونیکی بپردازد.

    1. سه احتمال احتمالی که در این مطالعه بیشتر نگران هستید چیست؟
    2. Clark et al. (2016) چنین مطالبی را اجرا کرد. اولا آنها 850،000 توییت که از ژانویه 2012 تا دسامبر 2014 استفاده می کردند از کلمات کلیدی مربوط به سیگار استفاده می کردند. پس از بررسی دقیق تر، آنها متوجه شدند که بسیاری از این توییت ها به صورت خودکار (یعنی توسط انسان تولید نمی شوند) و بسیاری از این توییت های خودکار اساسا آگهی های بازرگانی. آنها یک الگوریتم شناسایی انسان برای جدا کردن تویت های خودکار از توییت های آلی ایجاد کردند. با استفاده از این الگوریتم تشخیص انسان، آنها دریافتند که 80٪ توییت ها به صورت خودکار انجام می شود. آیا این یافته شما پاسخ به بخش (a) را تغییر می دهد؟
    3. هنگامی که آنها احساسات را در توییت های آلی و خودکار مقایسه می کردند، متوجه شدند توییت های خودکار مثبت تر از توییت های آلی هستند (6.17 و 5.84). آیا این یافته شما پاسخ به (b) را تغییر می دهد؟
  4. [ آسان ] در ماه نوامبر سال 2009 توییتر توییتر توییتر از «چه کاری انجام دادید؟» به «چه اتفاقی؟» (https://blog.twitter.com/2009/whats-happening) تغییر کرد.

    1. شما فکر می کنید که تغییر دادن اعلان بر چه کسی صدق می کند و یا چه صدای آنها را صدقه می دهد؟
    2. نام یک پروژه تحقیقاتی را که برای شما سریعا "شما چه کار می کنید را ترجیح می دهید" توضیح دهید چرا.
    3. نام یک پروژه تحقیقاتی را که برای شما سریعا "آنچه که اتفاق می افتد" ترجیح می دهید. توضیح دهید که چرا.
  5. [ آسان ] "Retweets" اغلب برای اندازه گیری نفوذ و گسترش نفوذ در توییتر استفاده می شود. در ابتدا، کاربران مجبور به کپی کردن و چسباندن صدای جیر جیر مورد علاقه خود شدند، نویسنده اصلی را با دسته خود تگ کرده و به صورت دستی تایپ «RT» قبل از صدای جیر جیر نشان می داد که این صدای مجازی بود. سپس، در سال 2009، توییتر دکمه "بازتوییت" را اضافه کرد. در ماه ژوئن 2016، توییتر، کاربران را مجبور کرد تا توییت های خود را بازنویسی کنند (https://twitter.com/twitter/status/742749353689780224). آیا شما فکر می کنید که این تغییرات باید در نحوه استفاده از "retweets" در تحقیق شما تأثیر بگذارد؟ چرا و چرا نه؟

  6. [ خیلی سخت ، جمع آوری داده ها ، نیاز به برنامه نویسی دارد ، مورد علاقه من ] در یک مقاله به طور گسترده مورد بحث، میشل و همکارانش (2011) محتوای بیش از پنج میلیون کتاب دیجیتالی را در تلاش برای شناسایی روند بلند مدت فرهنگی مورد تحلیل قرار دادند. داده های مورد استفاده آنها اکنون به عنوان مجموعه داده های Google NGrams منتشر شده است و بنابراین می توانیم از داده ها برای تکثیر و گسترش برخی از کارهای خود استفاده کنیم.

    در یکی از نتایج بسیاری در این مقاله، میشل و همکارانش استدلال کردند که ما سریعتر و سریع تر فراموش می کنیم. برای یک سال خاص، "1883" می گویند، آنها نسبت 1 گرم در سال های بین سال های 1875 و 1975 که "1883" را منتشر می کنند محاسبه می کنند. آنها تصور می کنند که این نسبت، منافعی را برای رویدادهایی که در آن سال اتفاق افتاده است، اندازه گیری می کند. در شکل 3a آنها مسیرهای استفاده را به مدت سه سال ترسیم کردند: 1883، 1910 و 1950. این سه سال یک الگو مشترک دارد: استفاده کمی از قبل از آن سال، سپس یک سنبله، سپس فروپاشی. بعد، برای تعیین میزان تخریب برای هر سال، میشل و همکارانش «نیمه عمر» هر سال را برای هر سال بین سالهای 1875 و 1975 محاسبه کردند. در شکل 3a (inset) آنها نشان داد که نیمه عمر هر سال کاهش می یابد، و آنها استدلال کردند که این به این معنی است که ما سریعتر و سریع تر گذشته را فراموش می کنیم. آنها از نسخه 1 زبان انگلیسی استفاده می کردند، اما بعد از آن گوگل نسخه دوم این ساز را منتشر کرد. قبل از شروع برنامه نویسی، تمام بخش های سوال را بخوانید.

    این فعالیت به شما در نوشتن کد مجدد قابل استفاده، تفسیر نتایج و خراب کردن داده ها (مانند کار با فایل های ناخوشایند و دست زدن به اطلاعات خراب) عمل می کند. این فعالیت همچنین به شما کمک می کند تا با یک مجموعه داده های غنی و جالب روبرو شوید.

    1. دادههای خام را از وبسایت Viewer NGram View دریافت کنید. به طور خاص، شما باید از نسخه 2 کورس زبان انگلیسی استفاده کنید که در تاریخ 1 ژوئیه 2012 منتشر شد. Uncompressed، این فایل 1.4 گیگابایت است.

    2. بخش اصلی شکل 3a از Michel et al. (2011) بازسازی کنید Michel et al. (2011) . برای بازنویسی این رقم، شما باید دو فایل را داشته باشید: یکی از شما که بخشی از (a) و یک پرونده "total count" را دانلود کرده اید، که می توانید آن را برای تبدیل شمارش خام به نسبت ها استفاده کنید. توجه داشته باشید که فایل کل تعداد دارای یک ساختار است که می تواند آن را کمی سخت برای خواندن است. آیا نسخه 2 از اطلاعات NGram نتایج مشابهی را به آنچه در Michel et al. (2011) ارائه شده Michel et al. (2011) ، که بر اساس داده های نسخه 1 است؟

    3. حالا نمودار خود را در برابر گراف ایجاد شده توسط NGram Viewer بررسی کنید.

    4. شکل 3a (شکل اصلی) را بازیابی کنید، اما \(y\) -axis را به عنوان شماره ذکر خام (نه میزان اشاره) تغییر دهید.

    5. آیا تفاوت بین (b) و (d) شما را به ارزیابی هر یک از نتایج Michel et al. (2011). چرا و چرا نه؟

    6. در حال حاضر، با استفاده از نسبت ذکر شده، تکرار درج از شکل 3a. به عبارت دیگر، برای هر سال بین سال های 1875 و 1975، نیمه عمر آن سال را محاسبه کنید. نیمه عمر تعریف می شود که تعداد سال هایی است که پیش از آنکه نسبت ذکر ها به نیمی از ارزش اوج رسید منتقل شود. توجه داشته باشید که Michel et al. (2011) ، برای تخمین نیمه عمر، پیچیده تر است - به بخش بخش سوم سوم اطلاعات پشتیبانی آنلاین مراجعه کنید، اما ادعا می کنند که هر دو روش نتایج مشابهی را تولید می کنند. آیا نسخه 2 داده NGram نتایج مشابهی با آنچه در Michel et al. (2011) ارائه شده است Michel et al. (2011) ، که بر اساس داده های نسخه 1 است؟ (نکته: اگر این کار را نکنید شگفت زده نشوید)

    7. آیا سالهای سالی بود که سالهاست که به شدت فراموش شده بود یا به خصوص به آهستگی فراموش شد؟ به طور خلاصه در مورد دلایل احتمالی این الگویی فکر کنید و توضیح دهید که چگونه متوجه شدید.

    8. اکنون این نتیجه را برای نسخه 2 دادههای NGrams در چینی، فرانسوی، آلمانی، عبری، ایتالیایی، روسی و اسپانیایی تکرار کنید.

    9. در مقایسه با تمام زبانها، آیا سالهای سالی بود که نادیده گرفته شد، مانند سال هایی که به ویژه به سرعت یا به خصوص به آهستگی فراموش شده بود؟ به طور خلاصه در مورد دلایل ممکن برای این الگوی دلنشین است.

  7. [ خیلی سخت ، جمع آوری داده ها ، نیاز به برنامه نویسی دارد ، مورد علاقه من ] Penney (2016) بررسی کرد که آیا تبلیغات وسیع در مورد نظارت NSA / PRISM (یعنی آگهی های اسنودن) در ژوئن 2013 با کاهش شدید و ناگهانی در ترافیک به مقالات ویکی پدیا در موضوعاتی که موجب نگرانی های مربوط به حفظ حریم خصوصی می شود، پیگیری شد. اگر چنین است، این تغییر در رفتار با یک اثر سرد شدن ناشی از نظارت توده سازگار خواهد بود. رویکرد Penney (2016) گاهی اوقات به عنوان یک سری سری زمانی متوقف می شود و به روشی که در بخش 2.4.3 اشاره شده است مربوط می شود.

    برای انتخاب کلمات کلیدی موضوع، پنی به لیست استفاده شده توسط وزارت امنیت داخلی ایالات متحده برای ردیابی و نظارت بر رسانه های اجتماعی اشاره کرد. فهرست وزارت بهداشت، وزارت بهداشت، درمان و آموزش پزشکی، برخی از اصطلاحات جستجوی را به موضوعاتی از قبیل "نگرانی بهداشتی"، "امنیت زیرساخت ها" و "تروریسم" طبقه بندی می کند. پنی از 48 گروه کلیدی مرتبط با "تروریسم" استفاده کرد (جدول شماره 8 ) وی سپس مقاله مقالات ویکی پدیا را به صورت ماهانه برای مقالات مرتبط با 48 مقاله ویکی پدیا در طول یک دوره 32 ماهه از ابتدای ژانویه 2012 تا پایان ماه اوت 2014 شمارش کرد. برای تقویت استدلال او، او همچنین چند گروه مقایسه را با ردیابی ایجاد کرد دیدگاه های مقاله در مورد موضوعات دیگر.

    اکنون شما قصد دارید Penney (2016) را تکثیر و گسترش دهید. تمام داده های خام که برای این فعالیت نیاز دارید از ویکی پدیا موجود است. یا شما می توانید آن را از R-package wikipediatrend (Meissner and R Core Team 2016) . هنگامی که پاسخ خود را بنویسید، لطفا توجه داشته باشید که کد منبع مورد استفاده شما چیست. (توجه داشته باشید که این فعالیت مشابه نیز در فصل 6 نشان داده شده است.) این فعالیت به شما در تمرین داده ها و تفکر در مورد آزمایش های طبیعی در منابع داده بزرگ کمک خواهد کرد. این همچنین شما را با یک منبع داده بالقوه جالب برای پروژه های آینده می سازد.

    1. دفعات بازدید: Penney (2016) و تکرار شکل 2 خود را که نشان می دهد صفحات صفحات مربوط به "تروریسم" قبل و بعد از آشکارسازی اسنودن. یافته ها را تفسیر کنید.
    2. بعد، تکرار شکل 4A، که گروه مطالعه (مقالات مرتبط با تروریسم) را با یک گروه مقایسه کننده با استفاده از کلمات کلیدی طبقه بندی شده در "DHS و سایر سازمان ها" از لیست DHS مقایسه می کند (جدول ضمیمه جدول 10 و پانلوتوم 139) را مقایسه کنید. یافته ها را تفسیر کنید.
    3. در قسمت (b) گروه مطالعه را با یک گروه مقایسه کنید. پنی نیز با دو گروه مقایسه مقایسه کرد: مقالات مربوط به امنیت زیرساخت (جدول ضمیمه 11) و صفحات محبوب ویکی پدیا (جدول ضمیمه 12). با یک گروه مقایسهای جایگزین شوید و آزمایش کنید که آیا یافته های بخش (b) به انتخاب شما از گروه مقایسه کننده حساس هستند. کدام گزینه بیشتر معنایی دارد؟ چرا؟
    4. پنی اظهار داشت که کلمات کلیدی مربوط به «تروریسم» برای انتخاب مقالات ویکیپدیا مورد استفاده قرار گرفت، زیرا دولت آمریکا تروریسم را به عنوان یک توجیه کلیدی برای اقدامات نظارتی آنلاین خود ذکر کرد. به عنوان بررسی این 48 کلمات کلیدی مرتبط با "تروریسم"، Penney (2016) نیز یک نظرسنجی در مورد MTurk انجام داد و از پاسخ دهندگان خواسته است تا هر یک از کلمات کلیدی را از لحاظ مشکالت دولت، حساس به حریم شخصی و اجتناب از رای دهندگان ارزیابی کنند (جدول ضمیمه جدول 7 و 8 ) تکرار بررسی در MTurk و مقایسه نتایج خود را.
    5. بر اساس نتایج در بخش (d) و خواندن مقاله شما، آیا شما با انتخاب پنل کلمات کلیدی موضوع در گروه مطالعه موافق هستید؟ چرا و چرا نه؟ اگر نه، چه چیزی به شما پیشنهاد می شود؟
  8. [ آسان ] Efrati (2016) براساس اطلاعات محرمانه گزارش داد که "مجموع اشتراک گذاری" در فیس بوک در حدود 5.5٪ سالانه از سال گذشته کاهش یافته است، در حالی که "اشتراک پخش اصلی" در سال گذشته 21 درصد کاهش داشته است. این کاهش به ویژه کاربران فیسبوک کمتر از 30 سال سن داشت. این گزارش این کاهش را به دو عامل تقسیم کرد. یکی از رشد جمعیت "دوستان" در فیس بوک است. دیگر این است که برخی از فعالیت های اشتراک به پیام رسانی و به رقبا مانند Snapchat منتقل شده است. این گزارش همچنین نشان داد که چندین تاکتیک فیس بوک تلاش کرده اند تا به اشتراک گذاری را افزایش دهند، از جمله الگوریتم های Feed News که پست های اصلی را برجسته تر می کنند و همچنین یادآورهای دوره ای از پست های اصلی با قابلیت "در این روز". در صورت وجود هر گونه نتیجه، آیا این یافته ها برای محققانی است که می خواهند از فیس بوک به عنوان یک منبع داده استفاده کنند؟

  9. [ متوسط ] تفاوت بین یک جامعه شناس و یک مورخ چیست؟ با توجه به Goldthorpe (1991) ، اختلاف اصلی کنترل جمع آوری داده ها است. مورخان مجبور به استفاده از آثار هستند، در حالی که جامعه شناسان می توانند مجموعه داده های خود را به اهداف خاص تقسیم کنند. دفعات بازدید: Goldthorpe (1991) . تفاوت بین جامعه شناسی و تاریخ مربوط به ایده های سفارشی و آماده سازی چیست؟

  10. [ سخت ] این بر روی سؤال قبلی مطرح است. Goldthorpe (1991) تعدادی پاسخ انتقادی، از جمله یکی از نیکی هارت (1994) چالش کشید که متعهد Goldthorpe به خلق داده های ساخته شده را به چالش کشیده است. برای روشن ساختن محدودیت های بالقوه داده های سفارشی، هارت پروژه «کارمند ثروتمند» را توصیف کرد، یک نظرسنجی بزرگ برای سنجش ارتباط میان طبقه اجتماعی و رأی گیری که توسط گلدورتور و همکارانش در اواسط دهه 1960 انجام شد. همانطور که انتظار می رفت از یک محقق که داده های طراحی شده را بر اساس یافته های مورد نظر پیش بینی کرده بود، پروژه کارمند ثروتمند جمع آوری داده هایی بود که برای پاسخ دادن به نظری که اخیرا پیشنهاد شده درباره آینده طبقه اجتماعی در عصر افزایش استانداردهای زندگی جمع آوری شده بود. اما، Goldthorpe و همکاران خود را به نحوی "فراموش" برای جمع آوری اطلاعات در مورد رفتار رأی گیری زنان. در اینجا چگونگی نیکی هارت (1994) کل قسمت را خلاصه کردیم:

    "... دشوار است از نتیجه گیری که زنان حذف شده است، اجتناب ناپذیر است، زیرا این مجموعه داده" خیاط "توسط یک منطق پارادایمی محدود شده است که از تجربه زنان منع شده است. گلدورتور و همکارانش، به وسیله یک دیدگاه نظری از آگاهی طبقاتی و عمل به عنوان مشکالت مردانه ...، مجموعه ای از تجربیات اثبات شده را تولید کردند که تغذیه و تحقق مفروضات نظری خود را عوض کرد و آنها را به یک آزمون معتبر از کفایت تحمیل کرد. "

    هارت ادامه داد:

    "یافته های تجربی از پروژه کارگران ثروتمند بیشتر در مورد ارزش های مردانه جامعه شناسی میانه قرن بیشتر به ما می آموزد تا فرآیندهای طبقه بندی، سیاست و زندگی مادی را مورد توجه قرار دهیم."

    آیا می توانید از نمونه های دیگری که در جمع آوری داده های سفارشی وجود دارد، بی توجهی های جمع کننده داده شده به آن را در نظر بگیرید؟ چگونه این را با الگوریتم مخلوط مقایسه کنید؟ برای چه زمانی محققان باید از دستورالعمل ها استفاده کنند و چه زمانی باید از custommades استفاده کنند، این پیامدها چه تاثیری دارند؟

  11. [ متوسط ] در این فصل، من داده های جمع آوری شده توسط محققان را برای محققان با سوابق اداری ایجاد شده توسط شرکت ها و دولت ها مقایسه کرده ام. بعضی از افراد این پرونده های اداری را "داده های یافت شده" می نامند، که آنها با "داده های طراحی شده" مقایسه می کنند. درست است که سوابق اداری توسط محققان پیدا شده است، اما آنها نیز بسیار طراحی شده اند. به عنوان مثال، شرکت های فن آوری مدرن برای جمع آوری و ارزیابی داده های خود بسیار سخت کار می کنند. بنابراین، این سوابق اداری هر دو در بر داشت و طراحی شده است، آن را فقط به دیدگاه شما بستگی دارد (شکل 2.12).

    شکل 2.12: تصویر هر دو اردک و خرگوش است؛ آنچه که می بینید بستگی به دیدگاه شما دارد. منابع داده بزرگ هر دو در بر داشت و طراحی شده است. دوباره، آنچه شما می بینید بستگی به دیدگاه شما دارد. به عنوان مثال، سوابق داده های تماس گرفته شده توسط یک شرکت تلفن همراه جمع آوری داده ها از دیدگاه محقق است. اما، این رکوردهای دقیق، اطلاعات را از منظر فردی که در بخش صدور صورت حساب شرکت مخابراتی کار می کند، طراحی می کند. منبع: Science Popular Science Monthly (1899) / Wikimedia Commons.

    شکل 2.12: تصویر هر دو اردک و خرگوش است؛ آنچه که می بینید بستگی به دیدگاه شما دارد. منابع داده بزرگ هر دو در بر داشت و طراحی شده است. دوباره، آنچه شما می بینید بستگی به دیدگاه شما دارد. به عنوان مثال، سوابق داده های تماس گرفته شده توسط یک شرکت تلفن همراه جمع آوری داده ها از دیدگاه محقق است. اما، این رکوردهای دقیق، اطلاعات را از منظر فردی که در بخش صدور صورت حساب شرکت مخابراتی کار می کند، طراحی می کند. منبع: Science Popular Science Monthly (1899) / Wikimedia Commons .

    مثالي از منبع داده اي را ارائه دهيد که در آن هنگام مشاهده آن هر دو به عنوان در بر داشت و طراحي شده است، هنگام استفاده از آن منبع داده براي تحقيق، مفيد مي باشد.

  12. [ آسان ] در یک مقاله فکری، مسیحی ساندویگ و استار هارگریتای (2015) پژوهش دیجیتال را به دو دسته گسترده تقسیم می کنند که بسته به اینکه سیستم دیجیتال یک «ابزار» یا «شیء مطالعه است» است. نمونه ای از نوع اول که سیستم یک ابزار - پژوهش Bengtsson و همکارانش (2011) در مورد استفاده از داده های تلفن همراه برای ردیابی مهاجرت پس از زلزله در هائیتی در سال 2010 است. نمونه ای از نوع دوم - که جایی که این سیستم یک شیء مطالعه است - تحقیق توسط جنسن (2007) در مورد چگونگی معرفی تلفن های همراه در سراسر کرالا، هند عملکرد بازار ماهی را تحت تأثیر قرار داد. من این تمایز را مفید می دانم زیرا مشخص می کند که مطالعات با استفاده از منابع داده دیجیتال می توانند اهداف کاملا متفاوت داشته باشند، حتی اگر آنها از همان نوع منبع داده استفاده می کنند. به منظور روشن تر شدن این تمایز، چهار مطالعه را که شما دیده اید را توصیف می کنید: دو مورد از یک سیستم دیجیتال به عنوان یک ابزار و دو سیستم استفاده می کنند که از یک سیستم دیجیتال به عنوان یک شیء مطالعه استفاده می کنند. شما می توانید نمونه هایی از این فصل اگر می خواهید استفاده کنید.