تم تصميم هذا القسم لاستخدامها كمرجع، بدلا من أن يكون نصها كما السرد.
نوع واحد من ولاحظ أن لا يتم تضمين في هذا الفصل هو الاثنوغرافيا. لمعرفة المزيد عن الاثنوغرافيا في الأماكن الرقمية نرى Boellstorff et al. (2012) ، ولمعرفة المزيد عن الاثنوغرافيا في الأماكن الرقمية والمادية مختلطة رؤية Lane (2016) .
عندما كنت تطويعها البيانات، هناك نوعان من الحيل النفسية التي يمكن أن تساعدك على فهم المشاكل المحتملة التي قد تواجهها. أولا، يمكنك محاولة لتصور ورقة العمل المثالي لمشكلتك والتي تقارن إلى مجموعة البيانات الذي تستخدمه. كيف يتم شابه ذلك، وكيف أنها تختلف؟ إذا لم يكن لجمع البيانات الخاصة بك نفسك، وهناك من المحتمل أن يكون الفرق بين ما تريد وما لديك. ولكن، عليك أن تقرر ما إذا كانت هذه الاختلافات طفيفة أو كبيرة.
ثانيا، تذكر أن شخصا ما خلق وجمع البيانات الخاصة بك لسبب ما. يجب أن نحاول أن نفهم أسبابهم. هذا النوع من الهندسة العكسية يمكن أن تساعدك على تحديد المشاكل والتحيز المحتملة في البيانات الخاصة بك أغراض أخرى.
لا يوجد تعريف واحد إجماع من "البيانات الكبيرة"، ولكن يبدو أن العديد من التعريفات للتركيز على 3 ص: (على سبيل المثال، حجم وتنوع وسرعة Japec et al. (2015) ). بدلا من التركيز على خصائص البيانات، تعريفي يركز أكثر على لماذا تم إنشاء البيانات.
بلدي إدراج البيانات الإدارية الحكومية داخل فئة من البيانات الكبير هو غير عادي بعض الشيء. الآخرين الذين جعلوا من هذه القضية، وتشمل Legewie (2015) ، Connelly et al. (2016) ، و Einav and Levin (2014) . لمعرفة المزيد عن قيمة البيانات الإدارية الحكومية للأبحاث، انظر Card et al. (2010) ، Taskforce (2012) ، و Grusky, Smeeding, and Snipp (2015) .
للحصول على عرض من البحوث الإدارية من داخل النظام الإحصائي الحكومة، ولا سيما مكتب الإحصاء الأميركي، انظر Jarmin and O'Hara (2016) . لعلاج طول الكتاب للبحث السجلات الإدارية في الاحصائيات السويد، انظر Wallgren and Wallgren (2007) .
في هذا الفصل، وقارنت لفترة وجيزة المسح التقليدي مثل المسح الاجتماعي العام (الشاباك) إلى مصدر بيانات وسائل الاعلام الاجتماعية مثل تويتر. للمقارنة وافية ومتأنية بين استطلاعات التقليدية وبيانات وسائل الاعلام الاجتماعية، انظر Schober et al. (2016) .
وقد وصفت هذه الخصائص 10 من البيانات الكبيرة في مجموعة متنوعة من الطرق المختلفة من قبل مجموعة متنوعة من مؤلفين مختلفين. الكتابة التي أثرت على تفكيري حول هذه القضايا ما يلي: Lazer et al. (2009) ، Groves (2011) ، Howison, Wiggins, and Crowston (2011) ، boyd and Crawford (2012) ، Taylor (2013) ، Mayer-Schönberger and Cukier (2013) ، Golder and Macy (2014) ، Ruths and Pfeffer (2014) ، Tufekci (2014) ، Sampson and Small (2015) ، Lewis (2015) ، Lazer (2015) ، Horton and Tambe (2015) ، Japec et al. (2015) ، و Goldstone and Lupyan (2016) .
طوال هذا الفصل، لقد استعملت آثار الرقمية المدى، التي أعتقد أنها محايدة نسبيا. مصطلح آخر الشعبي لآثار الرقمية هو بصمات رقمية (Golder and Macy 2014) ، ولكن كما هال أبيلسون، كين ليدين، وهاري لويس (2008) نشير، وهو مصطلح أكثر ملاءمة وربما البصمات الرقمية. عند إنشاء آثار أقدام، وأنت على علم بما يحدث وآثارك لا يمكن عادة أن تعزى لك شخصيا. ونفس الشيء ليس صحيحا بالنسبة لآثار الرقمية الخاصة بك. في الواقع، كنت ترك أي أثر في كل وقت عن التي لديك القليل جدا من المعرفة. وعلى الرغم من أن هذه الآثار لا يكون اسمك عليها، فإنها غالبا ما تكون مرتبطة بالرد عليك. وبعبارة أخرى، فهي أشبه بصمات الأصابع: غير مرئية وتحديد شخصيا.
كبير
لمعرفة المزيد عن لماذا مجموعات البيانات الكبيرة، تجعل الاختبارات الإحصائية إشكالية، انظر Lin, Lucas, and Shmueli (2013) و McFarland and McFarland (2015) . وينبغي لهذه القضايا يؤدي الباحثين إلى التركيز على أهمية العملية بدلا من دلالة إحصائية.
دائما متاح
عند النظر دائما على البيانات، فمن المهم النظر عما إذا كنت تقارن بين الشعب نفسه بالضبط مع مرور الوقت أو ما إذا كنت مقارنة بعض مجموعة المتغيرة للشعب. انظر على سبيل المثال، Diaz et al. (2016) .
غير رد الفعل
كتاب كلاسيكي على التدابير غير رد الفعل هو Webb et al. (1966) . الأمثلة في كتاب ما قبل التاريخ في العصر الرقمي، لكنها لا تزال مضيئة. للحصول على أمثلة من الناس تغيير سلوكهم بسبب وجود مراقبة الإعلام، انظر Penney (2016) و Brayne (2014) .
غير مكتمل
لمعرفة المزيد عن الربط القياسي، انظر Dunn (1946) و Fellegi and Sunter (1969) (التاريخي) و Larsen and Winkler (2014) (الحديث). كما وضعت في علوم الكمبيوتر تحت أسماء اقترب مماثلة مثل إلغاء البيانات المكررة، وتحديد سبيل المثال، اسم مطابقة، مكررة كشف، وتكرار للكشف عن سجل (Elmagarmid, Ipeirotis, and Verykios 2007) . هناك أيضا خصوصية الحفاظ على النهج لتسجيل الربط التي لا تتطلب نقل معلومات التعريف الشخصية (Schnell 2013) . وقد وضعت الفيسبوك أيضا المضي قدما لربط سجلاتها إلى السلوك الانتخابي. وقد تم ذلك لتقييم التجربة التي سوف اقول لكم عنها في الفصل 4 (Bond et al. 2012; Jones et al. 2013) .
لمعرفة المزيد عن صحة بناء، انظر Shadish, Cook, and Campbell (2001) ، الفصل 3.
لا يمكن الوصول إليها
لمعرفة المزيد عن AOL سجل البحث كارثة، انظر Ohm (2010) . أقدم المشورة حول الشراكة مع الشركات والحكومات في الفصل 4 عندما أصف التجارب. وقد أعرب عدد من المؤلفين المخاوف بشأن الأبحاث التي تعتمد على البيانات التي يتعذر الوصول إليها، انظر Huberman (2012) و boyd and Crawford (2012) .
واحد وسيلة جيدة للباحثين الجامعة لاكتساب الوصول إلى البيانات هي العمل في شركة كمتدرب أو زيارة الباحث. بالإضافة إلى تمكين الوصول إلى البيانات، وهذه العملية تساعد أيضا على الباحث معرفة المزيد حول كيفية إنشاء البيانات، وهو أمر مهم للتحليل.
غير ممثل
غير التمثيلي هو مشكلة رئيسية للباحثين والحكومات الذين يرغبون في الإدلاء ببيانات عن شعب بأكمله. وهذا هو أقل من الاهتمام للشركات التي تركز عادة على مستخدميها. لمعرفة المزيد عن كيف ترى الاحصائيات هولندا مسألة عدم تمثيل للبيانات التجارية الكبرى، انظر Buelens et al. (2014) .
في الفصل 3، أنا أصف أخذ العينات وتقدير بمزيد من التفصيل. حتى إذا كانت البيانات هي غير ممثلة، في ظل ظروف معينة، ويمكن ترجيح لإنتاج تقديرات جيدة.
الانجراف
الانجراف نظام من الصعب جدا أن نرى من الخارج. ومع ذلك، فقد تم تشغيل المشروع MovieLens (ناقش أكثر في الفصل 4) لأكثر من 15 عاما من قبل مجموعة الأبحاث الأكاديمية. ولذلك، فقد وثقت والمعلومات حول الطريقة أن النظام قد تطورت مع مرور الوقت، وكيف شارك هذا قد يؤثر على تحليل (Harper and Konstan 2015) .
وركز عدد من العلماء على الانجراف في تويتر: Liu, Kliman-Silver, and Mislove (2014) و Tufekci (2014) .
مرتبك حسابيا
سمعت لأول مرة مصطلح "مرتبك حسابيا" المستخدمة من قبل جون كلينبيرج في الكلام. الفكرة الرئيسية وراء performativity هي أن بعض النظريات العلمية الاجتماعية هي "محركات ليس الكاميرات" (Mackenzie 2008) . وهذا يعني أنها فعلا تشكيل العالم وليس فقط الاستيلاء عليها.
قذر
تدعو الوكالات الإحصائية الحكومية وتنظيف البيانات، وتحرير البيانات الإحصائية. De Waal, Puts, and Daas (2014) وصف تقنيات تحرير البيانات الإحصائية المتقدمة لبيانات المسح ودراسة إلى أي مدى هم تنطبق على مصادر البيانات الكبيرة، و Puts, Daas, and Waal (2015) يقدم بعض من نفس الأفكار لجمهور أعم.
بالنسبة لبعض الأمثلة من الدراسات التي تركز على البريد المزعج في تويتر، Clark et al. (2016) و Chu et al. (2012) . وأخيرا، Subrahmanian et al. (2016) يصف نتائج DARPA تويتر بوت التحدي.
حساس
Ohm (2015) يستعرض أبحاث سابقة على فكرة المعلومات الحساسة ويقدم اختبار متعددة العوامل. العوامل الأربعة التي يقترحها هي: احتمال الضرر؛ احتمال الضرر؛ وجود علاقة سرية. وعما إذا كان خطر تعكس اهتمامات الأغلبية.
واستندت الدراسة فاربر للسيارات الأجرة في نيويورك في دراسة سابقة من قبل Camerer et al. (1997) التي كانت ثلاث عينات مختلفة من الراحة رحلة رقة أشكال ورقة ورقة تستخدم من قبل السائقين لتسجيل رحلة وقت البدء، وقت الانتهاء، والأجرة. وجدت هذه الدراسة في وقت سابق أن السائقين يبدو أن أصحاب الهدف: عملوا أقل على أيام حيث كانت أجورهم أعلى.
Kossinets and Watts (2009) وتركز على أصول homophily في الشبكات الاجتماعية. انظر Wimmer and Lewis (2010) لاتباع نهج مختلف لنفس المشكلة والذي يستخدم بيانات من الفيسبوك.
في عمل لاحق، ومواصلة استكشاف الملك وزملاؤه الرقابة على الإنترنت في الصين (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . لنهج ذات الصلة لقياس الرقابة على الإنترنت في الصين، انظر Bamman, O'Connor, and Smith (2012) . لمعرفة المزيد عن الأساليب الإحصائية مثل تلك المستخدمة في King, Pan, and Roberts (2013) لتقدير مشاعر الوظائف 11 مليون، انظر Hopkins and King (2010) . لمعرفة المزيد عن التعليم تحت اشراف، انظر James et al. (2013) (أقل تقنية) و Hastie, Tibshirani, and Friedman (2009) (أكثر تقنية).
التنبؤ هو جزء كبير من العلم بيانات الصناعي (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . نوع واحد من التنبؤ التي تتم عادة من قبل الباحثين الاجتماعيين والتنبؤ السكاني، على سبيل المثال Raftery et al. (2012) .
كانت مؤشرات الإنفلونزا من Google ليس أول مشروع لاستخدام بيانات البحث إلى التنبؤ الآني انتشار الأنفلونزا. في الواقع، والباحثين في الولايات المتحدة (Polgreen et al. 2008; Ginsberg et al. 2009) والسويد (Hulth, Rydevik, and Linde 2009) وقد وجدت أن بعض مصطلحات البحث (على سبيل المثال، "انفلونزا") توقع مراقبة الصحة العامة الوطنية وأطلق سراح البيانات قبل ذلك. وفي وقت لاحق وقد حاول العديد من مشاريع أخرى كثيرة لاستخدام بيانات التتبع الرقمية للكشف عن مراقبة الأمراض، انظر Althouse et al. (2015) للمراجعة.
بالإضافة إلى استخدام بيانات التتبع الرقمية للتنبؤ النتائج الصحية، وكان هناك أيضا كم هائل من العمل باستخدام بيانات تويتر للتنبؤ نتائج الانتخابات. لاستعراض رؤية Gayo-Avello (2011) ، Gayo-Avello (2013) ، Jungherr (2015) (الفصل 7)، و Huberty (2015) .
وباستخدام بيانات البحث لتوقع انتشار الإنفلونزا، وباستخدام بيانات تويتر للتنبؤ بنتائج انتخابات كلاهما أمثلة على استخدام نوع من أثر الرقمية للتنبؤ بعض النوع من الأحداث في العالم. هناك عدد هائل من الدراسات التي لديها هذا الهيكل العام. ويتضمن الجدول 2.5 أمثلة قليلة أخرى.
أثر الرقمي | نتيجة | تنويه |
---|---|---|
تغريد | إيرادات شباك التذاكر للأفلام في الولايات المتحدة | Asur and Huberman (2010) |
البحث الجذوع | مبيعات الأفلام والموسيقى والكتب، وألعاب الفيديو في الولايات المتحدة | Goel et al. (2010) |
تغريد | داو جونز الصناعي بواقع (سوق الأسهم في الولايات المتحدة) | Bollen, Mao, and Zeng (2011) |
وكانت مجلة PS العلوم السياسية ندوة حول البيانات الكبيرة، الاستدلال السببي، والنظرية الشكلية، و Clark and Golder (2015) يلخص كل مساهمة. كانت وقائع مجلة الأكاديمية الوطنية للعلوم في الولايات المتحدة الأمريكية ندوة حول الاستدلال السببي والبيانات الكبيرة، و Shiffrin (2016) يلخص كل مساهمة.
من حيث التجارب الطبيعية، Dunning (2012) يوفر علاج ممتاز طول الكتاب. لمزيد من المعلومات حول كيفية استخدام مشروع اليانصيب فيتنام كتجربة الطبيعية، انظر Berinsky and Chatfield (2015) . لنهج تعلم الآلة التي تحاول اكتشاف التجارب الطبيعية داخل مصادر البيانات الكبيرة تلقائيا، انظر Jensen et al. (2008) و Sharma, Hofman, and Watts (2015) .
من حيث مطابقة، لإجراء استعراض متفائل، انظر Stuart (2010) ، ولمراجعة المتشائم يرى Sekhon (2009) . لمعرفة المزيد عن مطابقة كنوع من التقليم، انظر Ho et al. (2007) . بالنسبة للكتب التي توفر العلاجات الممتازة للمطابقة، انظر Rosenbaum (2002) ، Rosenbaum (2009) ، Morgan and Winship (2014) ، و Imbens and Rubin (2015) .