أنشطة

  • درجة الصعوبة: سهل سهل ، متوسط متوسط ، الصعب الصعب ، صعب جدا صعب جدا
  • يتطلب الرياضيات ( يتطلب الرياضيات )
  • يتطلب الترميز ( يتطلب الترميز )
  • جمع البيانات ( جمع البيانات )
  • مفضلتي ( أُفضله )
  1. [ متوسط ، أُفضله كان الخلط الخوارزمي مشكلة في اتجاهات الإنفلوانزا بحسب بيانات Google. اقرأ الورقة بواسطة Lazer et al. (2014) ، وكتابة رسالة إلكترونية قصيرة ومحددة إلى مهندس في Google تشرح فيها المشكلة وتقدم فكرة عن كيفية إصلاحها.

  2. [ متوسط يزعم Bollen, Mao, and Zeng (2011) أنه يمكن استخدام البيانات من تويتر للتنبؤ بسوق الأسهم. وقد أدت هذه النتيجة إلى إنشاء صندوق تحوط - Derwent Capital Markets - للاستثمار في سوق الأسهم استناداً إلى البيانات التي تم جمعها من Twitter (Jordan 2010) . ما الدليل الذي تريد أن تراه قبل وضع أموالك في هذا الصندوق؟

  3. [ سهل ] في حين أن بعض المدافعين عن الصحة العامة يعتبرون السجائر الإلكترونية مساعدة فعالة للإقلاع عن التدخين ، يحذر آخرون من المخاطر المحتملة ، مثل ارتفاع مستويات النيكوتين. تخيل أن باحثًا قرر دراسة الرأي العام تجاه السجائر الإلكترونية من خلال جمع نشرات على تويتر متعلقة بالسجائر الإلكترونية وإجراء تحليل للمشاعر.

    1. ما هي التحيزات الثلاثة المحتملة التي تشعر بالقلق بشأنها في هذه الدراسة؟
    2. Clark et al. (2016) ركض فقط مثل هذه الدراسة. أولاً ، قاموا بجمع 850،000 تغريدة استخدمت كلمات رئيسية مرتبطة بالسيجارة الإلكترونية من يناير 2012 حتى ديسمبر 2014. عند الفحص الدقيق ، أدركوا أن العديد من هذه التغريدات كانت آلية (أي لا ينتجها البشر) والعديد من هذه التغريدات الآلية كانت في الأساس اعلانات تجارية. طوروا خوارزمية للكشف عن البشر لفصل التغريدات التلقائية من التغريدات العضوية. باستخدام هذه الخوارزمية الكشف عن البشر وجدوا أن 80 ٪ من التغريدات كانت تلقائية. هل تغير هذه النتيجة إجابتك إلى جزء (أ)؟
    3. عندما قارنوا المشاعر في التغريدات التلقائية والأوتوماتية ، وجدوا أن التغريدات التلقائية كانت أكثر إيجابية من التغريدات العامة (6.17 مقابل 5.84). هل تغير هذه النتيجة إجابتك إلى (ب)؟
  4. [ سهل في نوفمبر 2009 ، غيّر تويتر السؤال في مربع التغريدة من "ماذا تفعل؟" إلى "ما الذي يحدث؟" (https://blog.twitter.com/2009/whats-happening).

    1. برأيك ، كيف سيؤثر تغيير المطالبات على مستخدمي التغريدات و / أو ما يغردونه؟
    2. اذكر اسم مشروع بحث واحد تفضِّل فيه المطالبة بـ "ماذا تفعل؟" اشرح السبب.
    3. اذكر اسم مشروع بحث واحد تفضِّل فيه المطالبة "ما الذي يحدث؟" اشرح السبب.
  5. [ سهل غالباً ما تُستخدم "الردود" لقياس التأثير ونشر التأثير على تويتر. في البداية ، اضطر المستخدمون إلى نسخ التغويل ولصقه ، ثم وضع علامة على المؤلف الأصلي باستخدام مقبضه ، ثم اكتب "RT" يدويًا قبل التدوين للإشارة إلى أنه تم إعادة التغريد. ثم ، في عام 2009 ، أضاف تويتر زر "إعادة تغريد". في يونيو 2016 ، جعل تويتر من الممكن للمستخدمين إعادة تغريد تغريداتهم الخاصة (https://twitter.com/twitter/status/742749353689780224). هل تعتقد أن هذه التغييرات يجب أن تؤثر على كيفية استخدامك لـ "Tweets" في بحثك؟ لما و لما لا؟

  6. [ صعب جدا ، جمع البيانات ، يتطلب الترميز ، أُفضله ] في ورقة نوقشت على نطاق واسع ، حلل ميشال وزملاؤه (2011) محتوى أكثر من خمسة ملايين كتاب رقمي في محاولة لتحديد الاتجاهات الثقافية على المدى الطويل. تم الآن إصدار البيانات التي استخدموها كمجموعة بيانات Google NGrams ، وبالتالي يمكننا استخدام البيانات لتكرار بعض أعمالهم وتوسيعها.

    في واحدة من النتائج العديدة في الصحيفة ، جادل مايكل وزملاؤه بأننا ننسى بشكل أسرع وأسرع. لمدة عام معين ، قل "1883" ، حسبوا نسبة 1 غرام التي نشرت في كل عام بين 1875 و 1975 التي كانت "1883". واعتبروا أن هذه النسبة هي مقياس للاهتمامات في الأحداث التي وقعت في ذلك العام. في الشكل 3 أ ، رسموا مسارات الاستخدام لمدة ثلاث سنوات: 1883 ، 1910 ، و 1950. هذه السنوات الثلاث تشترك في نمط مشترك: القليل من الاستخدام قبل ذلك العام ، ثم ارتفاع ، ثم تسوس. وبعد ذلك ، لتحديد معدل التسوس لكل سنة ، حسب ميشال وزملاؤه "عمر النصف" من كل عام لجميع السنوات بين 1875 و 1975. في الشكل 3 أ (الشكل) ، أظهروا أن نصف عمر كل العام يتناقص ، وجادلوا بأن هذا يعني أننا ننسى الماضي بشكل أسرع وأسرع. استخدموا الإصدار 1 من جسد اللغة الإنجليزية ، ولكن في وقت لاحق أصدرت جوجل نسخة ثانية من الجسم. يرجى قراءة جميع أجزاء السؤال قبل بدء الترميز.

    سيعطيك هذا النشاط ممارسة كتابة التعليمات البرمجية القابلة لإعادة الاستخدام ، وتفسير النتائج ، وحلقات البيانات (مثل العمل مع الملفات غير المناسبة ومعالجة البيانات المفقودة). سيساعدك هذا النشاط أيضًا على العمل مع مجموعة بيانات غنية ومثيرة للاهتمام.

    1. احصل على البيانات الأولية من موقع كتب Google NGram Viewer. على وجه الخصوص ، يجب عليك استخدام الإصدار 2 من جسد اللغة الإنجليزية ، والذي صدر في 1 يوليو 2012. غير مضغوط ، هذا الملف هو 1.4GB.

    2. أعد الجزء الرئيسي من الشكل 3 أ Michel et al. (2011) . لإعادة إنشاء هذا الرقم ، ستحتاج إلى ملفين: الملف الذي قمت بتنزيله في جزء (أ) وملف "إجمالي عدد الحسابات" ، والذي يمكنك استخدامه لتحويل التهم الأولية إلى نسب. لاحظ أن ملف العدد الإجمالي له بنية قد تجعله صعبًا في القراءة. هل ينتج الإصدار الثاني من بيانات NGram نتائج مشابهة لتلك التي تم تقديمها في Michel et al. (2011) ، والتي تستند إلى بيانات الإصدار 1؟

    3. تحقق الآن من الرسم البياني الخاص بك مقابل الرسم البياني الذي تم إنشاؤه بواسطة NGram Viewer.

    4. إعادة إنشاء الشكل 3 أ (الرقم الرئيسي) ، ولكن تغيير \(y\) المحور إلى أن يكون العدد الأولي (وليس معدل الإشارة).

    5. هل يؤدي الفرق بين (ب) و (د) إلى إعادة تقييم أي من نتائج ميشيل وآخرون. (2011). لما و لما لا؟

    6. الآن ، باستخدام نسبة المذكرات ، تكرار الشكل الداخلي للشكل 3 أ. وهذا هو ، في كل عام بين 1875 و 1975 ، حساب نصف عمر ذلك العام. ويعرف نصف العمر أنه عدد السنوات التي تمر قبل أن تصل نسبة الذكريات إلى نصف قيمة ذروتها. لاحظ أن Michel et al. (2011) القيام بشيء أكثر تعقيدًا لتقدير عمر النصف - انظر القسم III.6 من معلومات الدعم عبر الإنترنت - لكنهم يزعمون أن كلا النهجين ينتجان نتائج مماثلة. هل ينتج الإصدار 2 من بيانات NGram نتائج مشابهة لتلك التي تم تقديمها في Michel et al. (2011) ، والتي تستند إلى بيانات الإصدار 1؟ (تلميح: لا تفاجأ إذا لم يحدث ذلك).

    7. هل كانت هناك أي سنوات كانت قيمًا متطرفة مثل السنوات التي تم نسيانها بسرعة خاصة أو ببطء شديد؟ تخمين لفترة وجيزة حول الأسباب المحتملة لهذا النمط وشرح كيفية تحديد القيم المتطرفة.

    8. الآن نسخ هذه النتيجة للنسخة 2 من بيانات NGrams باللغات الصينية والفرنسية والألمانية والعبرية والإيطالية والروسية والإسبانية.

    9. بمقارنة جميع اللغات ، هل كانت هناك أي سنوات كانت أعظم ، مثل السنوات التي تم نسيانها بسرعة خاصة أو ببطء شديد؟ نتوقع لفترة وجيزة حول الأسباب المحتملة لهذا النمط.

  7. [ صعب جدا ، جمع البيانات ، يتطلب الترميز ، أُفضله استكشفت Penney (2016) ما إذا كانت الدعاية واسعة النطاق حول مراقبة NSA / PRISM (أي الكشف عن سنودن) في يونيو 2013 قد ارتبطت بانخفاض حاد ومفاجئ في حركة المرور لمقالات ويكيبيديا حول مواضيع تثير مخاوف الخصوصية. إذا كان الأمر كذلك ، فإن هذا التغير في السلوك سيكون متسقًا مع تأثير التبريد الناتج عن المراقبة الجماعية. يطلق على نهج Penney (2016) أحيانًا تصميم سلسلة زمنية متقطعة ، وهو مرتبط بالنهج الموصوفة في القسم 2.4.3.

    لاختيار الكلمات الرئيسية للموضوع ، أشار بيني إلى القائمة التي استخدمتها وزارة الأمن الداخلي الأمريكية لتتبع وسائل الإعلام الاجتماعية ومراقبتها. تصنف قائمة DHS بعض مصطلحات البحث إلى مجموعة من القضايا ، مثل "Health Concern" و "Security Infrastructure" و "Terrorism". وبالنسبة لمجموعة الدراسة ، استخدم Penney الكلمات الرئيسية الـ 48 المتعلقة بـ "الإرهاب" (انظر جدول الملحق 8). ). ثم قام بتجميع عدد مشاهدات مقالة ويكيبيديا على أساس شهري لمقالات 48 ويكيبيديا المقابلة على مدى فترة 32 شهرًا ، من بداية يناير 2012 حتى نهاية أغسطس 2014. ولتعزيز حجته ، أنشأ أيضًا العديد من مجموعات المقارنة عن طريق التتبع آراء المقالة حول مواضيع أخرى.

    الآن ، ستقوم بتكرار وتوسيع Penney (2016) . جميع البيانات الأولية التي ستحتاجها لهذا النشاط متوفرة من ويكيبيديا. أو يمكنك الحصول عليها من R-package wikipediatrend (Meissner and R Core Team 2016) . عندما تكتب إجاباتك ، يرجى ملاحظة مصدر البيانات الذي استخدمته. (لاحظ أن هذا النشاط نفسه يظهر أيضًا في الفصل 6). سيعطيك هذا النشاط التدريب العملي في تبادل البيانات والتفكير في التجارب الطبيعية في مصادر البيانات الكبيرة. كما سيوفر لك أيضًا مصدر بيانات مثيرًا للاهتمام لمشاريع مستقبلية.

    1. اقرأ Penney (2016) وقم بتكرار شكله 2 الذي يعرض مشاهدات الصفحة للصفحات المرتبطة بـ "الإرهاب" قبل وبعد الكشف عن سنودن. تفسير النتائج.
    2. بعد ذلك ، تكرار الرقم 4A ، الذي يقارن بين مجموعة الدراسة (المقالات ذات الصلة "بالإرهاب") مع مجموعة المقارنة باستخدام الكلمات المفتاحية المصنفة تحت "DHS & الوكالات الأخرى" من قائمة DHS (انظر جدول التذييل 10 والحاشية 139). تفسير النتائج.
    3. في الجزء (ب) قمت بمقارنة مجموعة الدراسة بمجموعة مقارنة واحدة. كما قارنت بيني مع مجموعتين للمقارنة الأخرى: مقالات "أمن البنية التحتية" ذات الصلة (جدول الملحق 11) وصفحات ويكيبيديا الشائعة (جدول ملحق 12). ابتكر مع مجموعة مقارنة بديلة ، واختبر ما إذا كانت النتائج من الجزء (ب) حساسة لاختيارك من مجموعة المقارنة. ما هو الخيار الأكثر منطقية؟ لماذا ا؟
    4. ذكر بيني أن الكلمات الرئيسية المتعلقة بـ "الإرهاب" استخدمت لتحديد مقالات ويكيبيديا لأن الحكومة الأمريكية ذكرت الإرهاب كمبرر رئيسي لممارسات المراقبة على الإنترنت. كاختبار للكلمات الرئيسية ذات الصلة بـ 48 "الإرهاب" ، أجرى Penney (2016) أيضًا استبيانًا حول MTurk ، حيث طلب من المستجيبين تقييم كل كلمة من الكلمات الرئيسية ht فيما يتعلق بمشكلة الحكومة ، وخصوصية الخصوصية ، والتجنب (جدول الملحق 7 و 8) ). تكرار الاستطلاع على MTurk ومقارنة النتائج الخاصة بك.
    5. استنادًا إلى النتائج الواردة في الجزء (د) وقراءتك للمقال ، هل توافق على اختيار الكلمات الرئيسية للموضوع في لجنة الدراسات؟ لما و لما لا؟ إذا لم يكن كذلك ، فما الذي تقترحه بدلاً من ذلك؟
  8. [ سهل ] Efrati (2016) ، استناداً إلى معلومات سرية ، بأن "إجمالي المشاركة" على Facebook قد انخفض بنسبة 5.5٪ تقريبًا على أساس سنوي ، في حين أن "مشاركة البث الأصلي" انخفضت بنسبة 21٪ مقارنة بالعام الماضي. كان هذا الانخفاض حادًا بشكل خاص مع مستخدمي Facebook الذين تقل أعمارهم عن 30 عامًا. عزا التقرير الانخفاض إلى عاملين. أحدهما هو النمو في عدد الأشخاص "الأصدقاء" على Facebook. والآخر هو أن بعض نشاط المشاركة قد تحول إلى الرسائل وإلى المنافسين مثل Snapchat. وكشف التقرير أيضًا عن التكتيكات العديدة التي حاول Facebook تعزيزها ، بما في ذلك تعديل خوارزمية News Feed التي تجعل المشاركات الأصلية أكثر بروزًا ، بالإضافة إلى التذكيرات الدورية للمشاركات الأصلية بميزة "On This Day". ما هي الآثار ، إن وجدت ، التي تقدمها هذه النتائج للباحثين الذين يريدون استخدام Facebook كمصدر للبيانات؟

  9. [ متوسط ما الفرق بين عالم الاجتماع والمؤرخ؟ وفقا ل Goldthorpe (1991) ، والفرق الرئيسي هو السيطرة على جمع البيانات. يضطر المؤرخون إلى استخدام الآثار ، في حين يمكن لعلماء الاجتماع تصميم جمع البيانات الخاصة بهم لأغراض محددة. اقرأ Goldthorpe (1991) . كيف يرتبط الاختلاف بين علم الاجتماع والتاريخ بفكرة الموانع والأحزمة الجاهزة؟

  10. [ الصعب ] هذا يعتمد على quesiton السابقة. رسم Goldthorpe (1991) عددًا من الاستجابات النقدية ، بما في ذلك واحدة من Nicky Hart (1994) التي تحدت تفاني Goldthorpe لتصميم البيانات المصممة. لتوضيح القيود المحتملة للبيانات المخصصة ، وصف هارت مشروع العمال الأثرياء ، وهو مسح كبير لقياس العلاقة بين الطبقة الاجتماعية والتصويت الذي أجراه جولدثورب وزملاؤه في منتصف الستينات. كما قد يتوقع المرء من عالم فضل البيانات المصممة على البيانات الموجودة ، قام مشروع "العمال الأثرياء" بجمع البيانات التي صممت لتتناول نظرية مقترحة مؤخراً حول مستقبل الطبقة الاجتماعية في عصر يتزايد فيه مستوى المعيشة. ولكن ، نسي Goldthorpe وزملاؤه بطريقة أو بأخرى لجمع معلومات حول سلوك التصويت للنساء. إليك كيف لخص نيكي هارت (1994) الحلقة بأكملها:

    "... [من الصعب] تجنب الاستنتاج بأن النساء قد أغفلن لأن قاعدة البيانات هذه" المصممة خصيصا "كانت محصورة بمنطق نموذجي يستثني تجربة الأنثى. انطلاقاً من الرؤية النظرية للوعي الطبقي والعمل كمنشطات ذكورية ... قام غولدثورب وزملاؤه ببناء مجموعة من البراهين التجريبية التي تغذوا على الافتراضات النظرية الخاصة بهم ورعواها بدلاً من تعريضهم لإختبار سليم لكفاية ".

    هارت تابع:

    "إن النتائج التجريبية لمشروع العمال الأثرياء تخبرنا بالمزيد عن القيم الذكوريية لعلم الاجتماع في منتصف القرن من أنها تسترشد بعمليات التقسيم الطبقي والسياسة والحياة المادية".

    هل يمكنك التفكير في أمثلة أخرى حيث يكون تجميع البيانات المصممة خصيصًا لها تحيزًا لمجمع البيانات المدمج في ذلك؟ كيف يقارن هذا إلى الخوارزميات الخوارزمية؟ ما هي الآثار التي قد تترتب على ذلك عندما ينبغي للباحثين استخدام المجاميع الجاهزة ومتى يجب عليهم استخدام custommades؟

  11. [ متوسط ] في هذا الفصل ، قمت بمقارنة البيانات التي جمعها الباحثون للباحثين ذوي السجلات الإدارية التي أنشأتها الشركات والحكومات. يصف بعض الناس هذه السجلات الإدارية بأنها "البيانات الموجودة" ، والتي تتناقض مع "البيانات المصممة". صحيح أن الباحثين يكتشفون السجلات الإدارية ، ولكنهم مصممون أيضًا بدرجة عالية. على سبيل المثال ، تعمل شركات التكنولوجيا الحديثة بجد لجمع بياناتها وتنظيمها. وبالتالي ، يتم العثور على هذه السجلات الإدارية وتصميمها ، يعتمد الأمر فقط على وجهة نظرك (الشكل 2.12).

    الشكل 2-12: الصورة عبارة عن بطة وأرنب ؛ ما تراه يعتمد على وجهة نظرك. يتم العثور على مصادر البيانات الكبيرة وتصميمها ؛ مرة أخرى ، ما تراه يعتمد على وجهة نظرك. على سبيل المثال ، يتم العثور على سجلات بيانات المكالمات التي تم جمعها من قبل شركة للهاتف المحمول من منظور الباحث. ولكن ، تم تصميم هذه السجلات نفسها بالضبط من منظور شخص يعمل في قسم الفوترة في شركة الهاتف. المصدر: Popular Science Monthly (1899) / ويكيميديا ​​كومنز.

    الشكل 2-12: الصورة عبارة عن بطة وأرنب ؛ ما تراه يعتمد على وجهة نظرك. يتم العثور على مصادر البيانات الكبيرة وتصميمها ؛ مرة أخرى ، ما تراه يعتمد على وجهة نظرك. على سبيل المثال ، يتم العثور على سجلات بيانات المكالمات التي تم جمعها من قبل شركة للهاتف المحمول من منظور الباحث. ولكن ، تم تصميم هذه السجلات نفسها بالضبط من منظور شخص يعمل في قسم الفوترة في شركة الهاتف. المصدر: Popular Science Monthly (1899) / ويكيميديا ​​كومنز .

    قدّم مثالاً لمصدر البيانات حيث يكون رؤيته على أنه موجود ومُصمم مفيدًا عند استخدام مصدر البيانات هذا للبحث.

  12. [ سهل في مقال مدروس ، قام كل من كريستيان ساندفيج وإزتر هارجيتاي (2015) بتقسيم البحث الرقمي إلى فئتين عريضتين اعتمادًا على ما إذا كان النظام الرقمي هو "أداة" أو "هدف الدراسة". مثال على النوع الأول - حيث يكون النظام أداة - هي البحث الذي أجرته Bengtsson وزملاؤه (2011) حول استخدام بيانات الهاتف المحمول لتتبع الهجرة بعد الزلزال الذي وقع في هايتي في عام 2010. مثال على النوع الثاني - حيث النظام هو موضوع الدراسة - هو بحث Jensen (2007) على كيفية تأثير إدخال الهواتف المحمولة في جميع أنحاء ولاية كيرالا ، الهند على أداء السوق للأسماك. أجد هذا التمييز مفيدًا لأنه يوضح أن الدراسات التي تستخدم مصادر البيانات الرقمية يمكن أن يكون لها أهداف مختلفة تمامًا حتى إذا كانت تستخدم نفس نوع مصدر البيانات. من أجل زيادة توضيح هذا التمييز ، وصف أربع دراسات شاهدتها: اثنتان تستخدمان نظامًا رقميًا كأداة واثنتين تستخدمان نظامًا رقميًا كجسم للدراسة. يمكنك استخدام أمثلة من هذا الفصل إذا كنت تريد.