مفتاح:
[ ، ] كان الخلط حسابي مشكلة مع انفلونزا اتجاهات جوجل. قراءة الورقة التي Lazer et al. (2014) ، والكتابة، والبريد الإلكتروني القصير واضحا للمهندس في غوغل شرح المشكلة وتقديم فكرة عن كيفية حل المشكلة.
[ ] Bollen, Mao, and Zeng (2011) يدعي أن البيانات من التغريد يمكن استخدامها للتنبؤ سوق الأوراق المالية. أدى هذا الاكتشاف إلى إنشاء صندوق درونت التحوط أسواق رأس المال للاستثمار في سوق الأسهم استنادا إلى البيانات التي تم جمعها من تويتر (Jordan 2010) . ما هي الأدلة هل تريد أن ترى قبل وضع أموالك في هذا الصندوق؟
[ ] في حين أن بعض المدافعين عن الصحة العمومية يشيدون السجائر الإلكترونية كوسيلة مساعدة فعالة للإقلاع عن التدخين، والبعض الآخر يحذر من المخاطر المحتملة، مثل مستويات عالية من النيكوتين. تخيل أن يقرر الباحث لدراسة الرأي العام تجاه السجائر الإلكترونية من خلال جمع المشاركات تويتر ذات الصلة السجائر الإلكترونية وإجراء تحليل المشاعر.
[ ] في نوفمبر 2009، غيرت تويتر السؤال في المربع سقسقة من "ماذا تفعل؟" إلى "ماذا يحدث؟" (https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) تحليل 41700000 التشكيلات الجانبية للمستخدم، 1470000000 العلاقات الاجتماعية، 4262 المواضيع تتجه، و106000000 تويت بين 6 يونيو و 31 يونيو 2009. واستنادا إلى هذا التحليل خلصوا إلى أن تويتر تخدم أكثر كوسيلة جديدة لتبادل المعلومات من شبكة اجتماعية.
[ ] "إعادة مشاركات tweet" وغالبا ما تستخدم لقياس تأثير وانتشار النفوذ على تويتر. في البداية، كان المستخدمين من نسخ ولصق سقسقة يشاؤون، علامة المؤلف الأصلي مع نظيره / مقبض لها، ويدويا اكتب "RT" قبل سقسقة تشير إلى أن أنها تريد إعادة تغريد. ثم، في عام 2009 وأضاف تويتر زر "إعادة مشاركة tweet". في يونيو 2016، قدم تويتر من الممكن للمستخدمين لإعادة تغريد تويت الخاصة بهم (https://twitter.com/twitter/status/742749353689780224). هل تعتقد أن هذه التغيرات تؤثر على كيفية استخدام "إعادة مشاركات tweet" في البحث الخاص بك؟ لما و لما لا؟
[ ، ، ] Michel et al. (2011) بناء على جسم الناشئة من جهود جوجل لرقمنة الكتب. باستخدام النسخة الأولى من مجموعة، والتي نشرت في عام 2009 وتضم أكثر من 5 ملايين الكتب الرقمية، حلل الكتاب كلمة تردد الاستخدام للتحقيق التغييرات اللغوية والاتجاهات الثقافية. سرعان ما أصبحت كتب Google كوربوس مصدر بيانات شعبية للباحثين، وأفرج عنه نسخة 2ND من قاعدة البيانات في عام 2012.
ومع ذلك، Pechenick, Danforth, and Dodds (2015) حذر من أن الباحثين بحاجة لوصف الكامل لعملية أخذ العينات من مجموعة قبل استخدامه لاستخلاص استنتاجات واسعة. القضية الرئيسية هي أن الإحضار هو مكتبة الشبيهة، تحتوي على واحد من كل كتاب. ونتيجة لذلك، فرد، مؤلف غزير قادر على إدراج ملحوظ العبارات الجديدة في كتب Google المعجم. وعلاوة على ذلك، النصوص العلمية تشكل الجزء الموضوعي على نحو متزايد من مجموعة في جميع أنحاء 1900s في وقت. وبالإضافة إلى ذلك، من خلال مقارنة نسختين من مجموعات البيانات الخيال الإنجليزية، Pechenick وآخرون. وجد دليلا على أن عدم كفاية تصفية استخدمت في إنتاج النسخة الأولى. جميع البيانات اللازمة للنشاط غير متوفرة هنا: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ ، ، ، ] Penney (2016) يستكشف ما إذا كان يرتبط دعاية واسعة النطاق حول NSA المراقبة / PRISM (أي ما كشف عنه سنودن) في يونيو 2013 مع انخفاض حاد ومفاجئ في حركة المرور على المواد ويكيبيديا حول الموضوعات التي تثير مخاوف الخصوصية. إذا كان الأمر كذلك، فإن هذا التغيير في السلوك تكون متسقة مع تأثير سلبي الناتجة عن المراقبة الجماعية. اقتراب Penney (2016) ويسمى أحيانا توقف تصميم السلاسل الزمنية ويرتبط النهج في الفصل حول تقارب التجارب من بيانات الرصد (القسم 2.4.3).
إلى اختيار الكلمات الرئيسية الموضوع، أشار بيني إلى قائمة المستخدمة من قبل وزارة الامن الداخلي الامريكية لتتبع ومراقبة وسائل الاعلام الاجتماعية. قائمة DHS بتصنيف مصطلحات البحث معينة إلى مجموعة من القضايا، أي "القلق الصحة"، "الأمن البنية التحتية"، و "الإرهاب". وبالنسبة للمجموعة الدراسة، وتستخدم بيني وثمانية وأربعين الكلمات الرئيسية المرتبطة ب "الإرهاب" (انظر الجدول 8 الملحق). ثم تجميعها ويكيبيديا عرض المادة تعول على أساس شهري لهذه المواد ويكيبيديا المقابلة ثمان وأربعين على مدى اثنين وثلاثين شهرا، اعتبارا من بداية يناير 2012 إلى نهاية أغسطس 2014. ولتعزيز حجته، انشأ أيضا العديد من المقارنة الجماعات التي تتبع جهات النظر المادة على موضوعات أخرى.
الآن، وأنت تسير لتكرار وتوسيع Penney (2016) . جميع البيانات الخام التي سوف تحتاج لهذا النشاط هو متاح من ويكيبيديا (https://dumps.wikimedia.org/other/pagecounts-raw/). أو يمكنك الحصول عليه من wikipediatrend R حزمة (Meissner and Team 2016) . عند كتابة الاستجابات الخاصة بك، يرجى الانتباه إلى مصدر البيانات التي استخدمتها. (ملاحظة: يظهر هذا النشاط نفسه أيضا في الفصل 6)
[ ] Efrati (2016) تقارير، بناء على معلومات سرية، أن "تقاسم الكامل" على الفيسبوك قد انخفض بنحو 5.5٪ على أساس سنوي في حين كان "تقاسم البث الأصلي" بنسبة 21٪ مقارنة بالعام السابق. وكان هذا الانخفاض الحاد وخاصة مع مستخدمي الفيسبوك تحت 30 سنة من العمر. وعزا التقرير هذا الانخفاض إلى عاملين. واحد هو النمو في عدد من "أصدقاء" الناس لديهم في الفيسبوك. والآخر هو أن بعض النشاط تقاسم تحولت إلى الرسائل والمنافسين مثل سناب شات. كما كشف التقرير عن عدة تكتيكات قد الفيسبوك تحاول تعزيز المشاركة، بما في ذلك أخبار الأعلاف بتعديل الخوارزمية التي تجعل المشاركات الأصلي أكثر بروزا، وكذلك تذكير دورية عن المشاركات الأصلي المستخدمين "في مثل هذا اليوم" قبل عدة سنوات. ما الآثار، إن وجدت، لا هذه النتائج لها للباحثين الذين يرغبون في استخدام الفيسبوك كمصدر بيانات؟
[ ] Tumasjan et al. (2010) وذكرت أن نسبة التغريدات بالذكر حزب سياسي مطابقة نسبة من الأصوات الحزب الذي حصل في الانتخابات البرلمانية الألمانية في عام 2009 (الشكل 2.9). وبعبارة أخرى، يبدو أنك يمكن أن تستخدم تويتر للتنبؤ الانتخابات. في الوقت الذي تم نشر هذه الدراسة اعتبر أنه من المثير للغاية لأنه يبدو أن يقترح استخدام قيمة لمصدر مشترك للبيانات الكبيرة.
ونظرا للميزات سيئة من البيانات الكبيرة، ولكن، يجب أن تكون على الفور يشككون في هذه النتيجة. كانت الألمان على تويتر في عام 2009 الى حد بعيد مجموعة غير تمثيلية، وأنصار حزب واحد قد سقسقة حول السياسة في كثير من الأحيان. وهكذا، يبدو من المستغرب أن كل التحيزات المحتملة التي يمكن أن يتصور أن تلغي بطريقة ما. في الواقع، فإن النتائج في Tumasjan et al. (2010) تبين أن تكون جيدة جدا ليكون صحيحا. في ورقتهم، Tumasjan et al. (2010) يعتبر ستة أحزاب سياسية: الحزب الديمقراطي المسيحي (الحزب الديمقراطي المسيحي)، الحزب المسيحي الاشتراكي الديمقراطي (CSU)، SPD، الليبراليين (الحزب الديمقراطي الحر)، اليسار (الموت لينكه)، وحزب الخضر (Grüne). ومع ذلك، كان الحزب السياسي الألماني الأكثر ذكرا على تويتر في ذلك الوقت حزب القراصنة (القراصنة)، وهو الحزب الذي يقاتل التنظيم الحكومي للإنترنت. عندما أدرج حزب القراصنة في التحليل، إشارات Twitter يصبح مؤشرا رهيب من نتائج الانتخابات (الشكل 2.9) (Jungherr, Jürgens, and Schoen 2012) .
وفي وقت لاحق، باحثين آخرين في جميع أنحاء العالم وقد استخدمت مربي الحيوانات الأساليب مثل استخدام تحليل المشاعر للتمييز بين الإيجابية والسلبية تذكر من الطرفين من أجل تحسين قدرة البيانات تويتر التنبؤ مجموعة متنوعة من أنواع مختلفة من الانتخابات (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . وهنا كيف Huberty (2015) لخص نتائج هذه المحاولات للتنبؤ الانتخابات:
"لقد فشلت كل طرق التنبؤ المعروف بناء على وسائل الاعلام الاجتماعية عندما تتعرض لمطالب صحيح التنبؤ الانتخابي تطلعي. ويبدو أن هذه الإخفاقات أن ذلك يعود إلى خصائص أساسية من وسائل الاعلام الاجتماعية، بدلا من الصعوبات المنهجية أو حسابي. باختصار، وسائل الاعلام الاجتماعية لا، وربما ولن، تقدم، مشاركات، صور تمثيلية مستقرة من الناخبين. والعينات الراحة من وسائل الاعلام الاجتماعية تفتقر إلى بيانات كافية لإصلاح هذه المشاكل اللاحق ".
قراءة بعض البحوث التي تؤدي Huberty (2015) إلى هذا الاستنتاج، وكتابة مذكرة صفحة واحدة لمرشح سياسي واصفا إذا وكيف ينبغي أن تستخدم تويتر للتنبؤ الانتخابات.
[ ] ما هو الفرق بين علم الاجتماع ومؤرخ؟ وفقا لGoldthorpe (1991) ، والفرق الرئيسي بين علم الاجتماع ومؤرخ هو السيطرة على جمع البيانات. ويضطر المؤرخون إلى استخدام قطع اثرية في حين علماء الاجتماع يمكن تفصيل جمع البيانات لأغراض محددة. قراءة Goldthorpe (1991) . كيف هو الفرق بين علم الاجتماع والتاريخ ذات الصلة لفكرة Custommades وReadymades؟
[ ] وبناء على السؤال السابق، Goldthorpe (1991) ولفت عدد من الردود الحاسمة، بما في ذلك واحدة من نيكي هارت (1994) التي تحدت التفاني Goldthorpe لتفصيل البيانات المقدمة. لتوضيح أوجه القصور المحتملة للبيانات مصممة خصيصا، وصفت هارت مشروع الأثرياء العمال، مسح واسع لقياس العلاقة بين الطبقة الاجتماعية والتصويت الذي أجري من قبل Goldthorpe وزملاؤه في منتصف 1960s. كما قد يتوقع المرء من عالم الذي يفضل البيانات عبر البيانات الموجودة تصميم، جمع مشروع الأثرياء العمال البيانات التي تم مصممة خصيصا لمعالجة نظرية المقترحة مؤخرا حول مستقبل الطبقة الاجتماعية في عصر تتزايد فيه مستويات المعيشة. ولكن، Goldthorpe والزملاء بطريقة أو بأخرى "نسي" لجمع المعلومات حول السلوك الانتخابي للمرأة. وهنا كيف نيكي هارت (1994) يلخص الحلقة كاملة:
". . . ذلك [هو] من الصعب تجنب الاستنتاج بأن حذفت النساء لأن هذا "مصممة خصيصا" اقتصر بيانات من المنطق النمطي الذي استثنى تجربة الإناث. وانطلاقا من رؤية نظرية الوعي الطبقي والعمل كما انشغالات الذكور. . . ، شيدت Goldthorpe وزملاؤه مجموعة من البراهين التجريبية التي وتغذت الافتراضات النظرية الخاصة بها بدلا من تعريضها لاختبار صالح كفاية ".
واصل هارت:
"إن النتائج التجريبية من مشروع الأثرياء العمال تخبرنا المزيد عن القيم الذكورية في علم الاجتماع منتصف القرن مما إبلاغ عمليات التقسيم الطبقي والسياسة والحياة مادة".
يمكنك التفكير في أمثلة أخرى حيث جمع البيانات مصممة خصيصا لديه التحيز لجمع البيانات في صلب عليه؟ كيف يقارن هذا الخلط حسابي؟ ما هي التداعيات المحتملة هذا يكون لمتى يجب على الباحثين استخدام Readymades ومتى يجب يستخدمونها Custommades؟
[ ] في هذا الفصل، ويتناقض البيانات التي تم جمعها من قبل الباحثين للباحثين مع السجلات الإدارية التي تم إنشاؤها من قبل الشركات والحكومات. بعض الناس يسمون هذه السجلات الإدارية "البيانات التي توصلت إليها"، التي تتناقض مع "بيانات تصميم". صحيح أن السجلات الإدارية وجدت من قبل الباحثين، ولكن أيضا مصممة للغاية. على سبيل المثال، شركات التكنولوجيا الحديثة تنفق مبالغ هائلة من الوقت والموارد اللازمة لجمع والإشراف البيانات الخاصة بهم. وهكذا، هذه السجلات الإدارية تم العثور على ومصممة على حد سواء، وذلك يعتمد فقط على وجهة نظرك (الشكل 2.10).
تقديم مثال من مصدر البيانات حيث رؤيتها على حد سواء كما وجدت ومصممة من المفيد عند استخدام مصدر البيانات للبحث.
[ ] في مقال مدروس، مسيحي Sandvig وإستر Hargittai (2015) وصف نوعين من البحوث الرقمية، حيث النظام الرقمي هو "أداة" أو "موضوع الدراسة." مثال على النوع الأول من الدراسة وحيث بنغتسون وزملاؤه (2011) استخدام بيانات الهاتف المحمول لتتبع هجرة بعد الزلزال الذي ضرب هايتي في عام 2010. ومثال على النوع الثاني هو حيث جنسن (2007) دراسات كيفية إدخال الهواتف النقالة في جميع أنحاء ولاية كيرالا، الهند أثرت أداء سوق للأسماك. أجد هذا مفيدا لأنه يوضح أن الدراسات التي تستخدم مصادر البيانات الرقمية يمكن أن يكون لها أهداف مختلفة تماما حتى لو كانت تستخدم نفس النوع من مصدر البيانات. من أجل توضيح هذا التمييز، وصف أربع دراسات التي كنت قد رأيت: اثنان أن استخدام النظام الرقمي كأداة واثنين من التي تستخدم نظام رقمي ككائن من الدراسة. يمكنك استخدام أمثلة من هذا الفصل إذا كنت تريد.