مزید یہ تفسیر

اس حصے کی ایک داستان کے طور پر پڑھا جا کرنے کے بجائے، ایک ریفرنس کے طور پر استعمال کیا جا کرنے کے لئے ڈیزائن کیا گیا ہے.

  • تعارف (سیکشن 2.1)

کہ اس باب میں شامل نہیں ہے رکھنے کی ایک قسم نسل نگاری ہے. ڈیجیٹل خالی جگہوں میں نسل نگاری پر زیادہ کے لئے دیکھیں Boellstorff et al. (2012) ، اور مخلوط ڈیجیٹل اور جسمانی خالی جگہوں میں نسل نگاری پر زیادہ کے لئے دیکھ Lane (2016) .

  • بگ ڈیٹا (سیکشن 2.2)

آپ کو ڈیٹا repurposing کا ہو چکنے کے بعد، دو دماغی چالوں آپ ممکنہ مسائل آپ کا سامنا ہو سکتا ہے کہ سمجھنے میں مدد کر سکتے ہیں ہیں. سب سے پہلے، آپ کو آپ کے مسئلے کے لیے مثالی ڈیٹاسیٹ تصور کرنے کی کوشش کر سکتے ہیں اور جو آپ استعمال کر رہے ہیں کہ dataset کے لئے اس کا موازنہ. وہ کس طرح ملتے جلتے ہیں اور وہ کس طرح مختلف ہیں؟ آپ کو آپ کے ڈیٹا کو اپنے آپ کو جمع نہیں کیا تو، آپ چاہتے ہیں اور جو کچھ تمہارے پاس ہے کے درمیان فرق ہونے کا امکان نہیں ہیں. لیکن، آپ کو فیصلہ کرنا ان اختلافات معمولی یا بڑے ہوں تو ہے.

دوئم، کسی نے پیدا کیا اور کسی وجہ سے آپ کا ڈیٹا جمع کیا ہے کہ یاد. اگر آپ ان کے استدلال کو سمجھنے کی کوشش کرنی چاہئے. ریورس انجینئرنگ کی اس طرح آپ کو آپ کے ڈیٹا میں repurposed کیا ممکن مسائل اور تعصبات کی شناخت میں مدد کر سکتے ہیں.

"بڑی ڈیٹا" کی کوئی ایک اتفاق رائے تعریف نہیں ہے لیکن بہت تعریفیں 3 بمقابلہ اس پر توجہ مرکوز کرنے کے لئے لگ رہے ہو: (مثال کے طور پر، حجم، مختلف قسم کے، اور رفتار Japec et al. (2015) ). بلکہ اعداد و شمار کی خصوصیات پر توجہ کرنے کے بجائے، میری تعریف کیوں اعداد و شمار کو پیدا کیا گیا ہے پر زیادہ توجہ مرکوز.

بڑے اعداد و شمار کی قسم کے اندر حکومت انتظامی ڈیٹا میری شمولیت کے تھوڑا سا غیر معمولی ہے. اس صورت بنا دیا ہے جو دوسروں کو، شامل ہیں Legewie (2015) ، Connelly et al. (2016) ، اور Einav and Levin (2014) . تحقیق کے لیے حکومت کے انتظامی ڈیٹا کی قیمت کے بارے میں مزید معلومات کے لئے، دیکھیں Card et al. (2010) ، Taskforce (2012) ، اور Grusky, Smeeding, and Snipp (2015) .

حکومت شماریاتی نظام کو، خاص طور پر امریکی مردم شماری بیورو کے اندر سے انتظامی تحقیق کے ایک نقطہ نظر کے لئے دیکھیں Jarmin and O'Hara (2016) . شماریات سویڈن میں انتظامی ریکارڈ تحقیق کے ایک کتاب کی لمبائی کے علاج کے لئے، دیکھیں Wallgren and Wallgren (2007) .

باب میں، میں مختصر طور پر اس طرح طرح کے ٹویٹر کے طور پر سوشل میڈیا ڈیٹا کا ذریعہ سے جنرل سوشل سروے (GSS) کے طور پر ایک روایتی سروے کے مقابلے میں. روایتی سروے اور سوشل میڈیا ڈیٹا درمیان ایک مکمل اور احتیاط سے مقابلے کے لئے دیکھیں Schober et al. (2016) .

  • بڑے اعداد و شمار کے کامن خصوصیات (سیکشن 2.3)

بڑے اعداد و شمار کے یہ 10 خصوصیات مختلف مصنفین کی ایک قسم کی طرف سے مختلف طریقوں کی ایک قسم میں بیان کیا گیا ہے. ان مسائل پر میری سوچ سے متاثر ہے کہ لکھنے میں شامل ہیں: Lazer et al. (2009) ، Groves (2011) ، Howison, Wiggins, and Crowston (2011) ، boyd and Crawford (2012) ، Taylor (2013) ، Mayer-Schönberger and Cukier (2013) ، Golder and Macy (2014) ، Ruths and Pfeffer (2014) ، Tufekci (2014) ، Sampson and Small (2015) ، Lewis (2015) ، Lazer (2015) ، Horton and Tambe (2015) ، Japec et al. (2015) ، اور Goldstone and Lupyan (2016) .

اس باب میں، میں مدت ڈیجیٹل نشانات، مجھے لگتا ہے کہ جس میں نسبتا غیر جانبدار ہے کا استعمال کیا ہے. ڈیجیٹل نشانات کے لئے ایک اور مقبول اصطلاح ڈیجیٹل قدموں کے نشان ہے (Golder and Macy 2014) ، لیکن ہیل Abelson، کین Ledeen، اور ہیری لیوس کے طور پر (2008) کی طرف اشارہ، ایک سے زیادہ مناسب اصطلاح شاید او ڈیجیٹل فنگر پرنٹس ہے. آپ footprints کو تشکیل دیتے ہیں، آپ کو کیا ہو رہا ہے اور آپ کے قدموں کے نشانات عام طور پر ذاتی طور پر آپ کا پتہ لگایا نہیں جا سکتا آگاہ ہیں. اسی کو آپ کی ڈیجیٹل نشانات کے لئے سچ نہیں ہے. اصل میں، آپ نشانات ہر وقت آپ کو بہت کم علم ہے جس کے بارے میں چھوڑ رہے ہیں. اور، ان نشانات ان پر اپنا نام بھی نہیں ہے، اگرچہ، وہ اکثر آپ کو واپس کرنے کے لئے منسلک کیا جا سکتا ہے. دوسرے الفاظ میں، وہ زیادہ انگلیوں کے نشانات کی طرح ہیں پوشیدہ اور ذاتی طور پر شناخت.

بڑے

بڑے اعداد و شمار، اعداد و شمار کے ٹیسٹ کو رینڈر کیوں مشکلات پر زیادہ کے لئے، دیکھیں Lin, Lucas, and Shmueli (2013) اور McFarland and McFarland (2015) . ان مسائل کے بجائے شماریاتی اہمیت عملی اہمیت پر توجہ مرکوز کرنے کے محققین کی قیادت کرنا چاہئے.

ہمیشہ تیار

غور کر جب ہمیشہ پر ڈیٹا، یہ اہم ہے کہ آپ کو وقت کے ساتھ بالکل وہی لوگ موازنہ کر رہے ہیں یا کہ کیا آپ لوگوں میں سے کچھ کو تبدیل کرنے کے گروپ کا موازنہ کر رہے ہیں، چاہے وہ غور کرنے کے لئے ہے؛ مثال کے طور پر دیکھیں، Diaz et al. (2016) .

غیر رد عمل

غیر رد عمل کے اقدامات پر ایک کلاسک کتاب ہے Webb et al. (1966) . ڈیجیٹل دور کتاب پری کی تاریخ میں مثالوں، لیکن وہ اب بھی روشن کن رہے ہیں. کیونکہ بڑے پیمانے پر نگرانی کی موجودگی کے ان کے رویے کو تبدیل کرنے سے لوگوں کی مثالیں کے لئے، دیکھیں Penney (2016) اور Brayne (2014) .

نامکمل

ریکارڈ کے تعلق پر زیادہ کے لئے، دیکھیں Dunn (1946) اور Fellegi and Sunter (1969) (تاریخی) اور Larsen and Winkler (2014) (جدید). اس طرح کے طور پر ڈیٹا نقل نہ بنانے، مثال کے طور پر شناخت، نام کے ملاپ اسی رابطہ کے بھی ناموں سے کمپیوٹر سائنس میں تیار کیا گیا ہے، کا پتہ لگانے کی نقل، اور ریکارڈ کا پتہ لگانے کے نقل (Elmagarmid, Ipeirotis, and Verykios 2007) . نجی معلومات کی حفاظتی ذاتی طور پر معلومات کے کی شناخت کی نشریات ضرورت نہیں ہے جس کے تعلق کو ریکارڈ کرنے کے نقطہ نظر کا تحفظ بھی ہیں (Schnell 2013) . فیس بک بھی ایک ووٹنگ کے رویے کے لئے ان کے ریکارڈ سے منسلک کرنے کے لئے آگے بڑھنے کو تیار کیا ہے؛ یہ ایک تجربہ ہے کہ میں باب 4 میں کے بارے میں آپ کو بتا دونگا اندازہ کرنے کے لئے کیا گیا تھا (Bond et al. 2012; Jones et al. 2013) .

تعمیر موزونیت پر زیادہ کے لئے، دیکھیں Shadish, Cook, and Campbell (2001) ، باب 3.

ناقابل رسائی

AOL تلاش کے تبا شکست پر زیادہ کے لئے، دیکھیں Ohm (2010) . میں کمپنیوں اور باب 4 میں حکومتوں کے ساتھ شراکت داری کے بارے میں مشورہ پیش I تجربات کو بیان کرتے وقت. مصنفین کی ایک بڑی تعداد کو ناقابل رسائی کے اعداد و شمار پر انحصار کرتا ہے کہ تحقیق کے بارے میں خدشات کا اظہار کیا ہے، دیکھیں Huberman (2012) اور boyd and Crawford (2012) .

یونیورسٹی کے محققین کے ڈیٹا تک رسائی حاصل کرنے کے لئے ایک اچھا طریقہ ایک انٹرن یا میں آنے کے محقق کے طور پر ایک کمپنی میں کام کرنے کے لئے ہے. ڈیٹا تک رسائی کو چالو کرنے کے علاوہ میں، یہ عمل بھی محقق کے لئے کس طرح کے اعداد و شمار، پیدا کیا گیا تجزیہ کے لئے اہم ہے جس کے بارے میں مزید جاننے کے لئے مدد ملے گی.

غیر نمائندے

غیر نمائندگان محققین اور حکومتیں ایک پوری آبادی کے بارے میں بیانات بنانے کے لئے چاہتے ہیں کے لئے ایک بڑا مسئلہ ہے. یہ عام طور پر ان صارفین پر توجہ مرکوز کر رہے ہیں کہ کمپنیوں کے لئے تشویش کی کم ہے. شماریات نیدرلینڈ کاروبار بڑی ڈیٹا کی عدم نمائندگان کا مسئلہ سمجھتا ہے کہ کس طرح کے بارے میں مزید کے لئے دیکھیں Buelens et al. (2014) .

باب 3 میں، میں زیادہ تفصیل کے نمونے لینے اور تخمینہ بیان کریں گے. اعداد و شمار کے کچھ شرائط کے تحت غیر نمائندے، یہاں تک کہ اگر، وہ اچھے اندازوں کو پیدا کرنے بارت جا سکتا ہے.

بہتی

سسٹم بڑھے باہر سے دیکھنے کے لئے بہت مشکل ہے. تاہم، MovieLens منصوبے (باب 4 میں زیادہ گفتگو) ایک تعلیمی ریسرچ گروپ کی طرف سے 15 سال سے زیادہ کے لئے چلانے کی گئی ہے. لہذا، وہ دستاویزی اور مشترکہ راہ نظام وقت کے دوران تیار ہے اور یہ کہ کس طرح کے بارے میں معلومات ہے اس اثر ہو سکتا ہے کے تجزیہ (Harper and Konstan 2015) .

علماء کی ایک بڑی تعداد نے ٹویٹر میں آلگائے پر توجہ مرکوز کی ہے: Liu, Kliman-Silver, and Mislove (2014) اور Tufekci (2014) .

الگوردھمک شرمندہ

میں نے پہلی بار لفظ "الگوردھمک شرمندہ" ایک بات میں جان Kleinberg طرف سے استعمال کیا سنا. performativity پیچھے بنیادی خیال ہے کہ بعض سماجی سائنس نظریات "کے انجن نہیں کیمروں" ہیں (Mackenzie 2008) . یہ ہے کہ، وہ اصل میں دنیا کی صورت گری کی بجائے صرف اس پر قبضہ.

گندی

سرکاری شماریاتی اداروں کے اعداد و شمار کی صفائی، شماریاتی ڈیٹا ایڈیٹنگ فون کریں. De Waal, Puts, and Daas (2014) سروے کے اعداد و شمار کے لئے تیار کی شماریاتی ڈیٹا ایڈیٹنگ کی تکنیک کی وضاحت اور جس حد تک وہ بڑے اعداد و شمار ذرائع پر لاگو، اور ہیں کی جانچ پڑتال Puts, Daas, and Waal (2015) ایک سے زیادہ عام سامعین کے لئے ایک ہی خیالات کے کچھ پیش.

ٹویٹر، میں سپیم پر مرکوز جائزوں میں سے کچھ مثالیں کے لئے Clark et al. (2016) اور Chu et al. (2012) . آخر میں، Subrahmanian et al. (2016) DARPA ٹوئٹر بوٹ چیلنج کے نتائج کو بیان کرتا.

حساس

Ohm (2015) حساس معلومات کے خیال پر کہ پہلے تحقیق جائزے اور ایک کثیر عنصر ٹیسٹ فراہم کرتا ہے. چار عوامل وہ تجویز پیش کر رہے ہیں: نقصان کے امکانات؛ نقصان کا احتمال؛ ایک خفیہ تعلق کی موجودگی؛ اور خطرے چاہے اکثریت خدشات کی عکاسی.

  • چیزوں کو گن (دفعہ 2.4.1)

نیویارک میں ٹیکسی Farber کی مطالعہ کی طرف سے ایک پہلے مطالعہ پر مبنی تھی Camerer et al. (1997) سفر شروع ہونے کے وقت ریکارڈ کرنے کے ڈرائیوروں کی طرف سے استعمال شدہ کاغذ سفر چادریں کاغذ کے فارم، آخر وقت، اور کرایہ کے تین مختلف سہولت کے نمونے کا استعمال کیا ہے. وہ دنوں جہاں ان کی اجرت زیادہ تھیں پر کم کام کیا: یہ پہلے مطالعہ ڈرائیوروں ہدف ارجک لگ رہا تھا کہ پایا.

Kossinets and Watts (2009) سوشل نیٹ ورک میں homophily کے ماخذ پر مرکوز تھا. دیکھو Wimmer and Lewis (2010) اسی مسئلہ فیس بک سے اعداد و شمار کا استعمال کرتا ہے کے لئے ایک مختلف نقطہ نظر کے لئے.

بعد کے کام میں، بادشاہ اور ان کے ساتھیوں کو مزید چین میں آن لائن سنسرشپ کھنگالنے کی ہے (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . چین میں آن لائن سنسرشپ کی پیمائش کرنے کے لئے ایک نقطہ نظر کے متعلقہ لئے دیکھیں Bamman, O'Connor, and Smith (2012) . میں استعمال ایک طرح شماریات کے طریقے پر زیادہ کے لئے King, Pan, and Roberts (2013) 11 ملین خطوط کے جذبات کا اندازہ کرنے، دیکھنے Hopkins and King (2010) . زیر نگرانی تعلیم پر مزید معلومات کے لئے، دیکھیں James et al. (2013) (کم ٹیکنیکل) اور Hastie, Tibshirani, and Friedman (2009) (مزید ٹیکنیکل).

  • پیشن گوئی (دفعہ 2.4.2)

پیشن گوئی صنعتی ڈیٹا سائنس کا ایک بڑا حصہ ہے (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . عام طور پر سماجی محققین کی طرف سے کیا جاتا ہے کہ پیشن گوئی کے ایک قسم کی مثال کے طور پر، آبادیاتی پیشن گوئی ہیں Raftery et al. (2012) .

گوگل فلو رجحانات انفلوئنزا ویاپتتا nowcast کرنے کیلئے تلاش کا ڈیٹا استعمال کرنے پہلا منصوبہ نہیں تھا. اصل میں، ریاست ہائے متحدہ امریکہ میں محققین (Polgreen et al. 2008; Ginsberg et al. 2009) اور سویڈن (Hulth, Rydevik, and Linde 2009) پایا ہے کہ بعض تلاش کی اصطلاحات (مثلا، "فلو") نیشنل پبلک صحت کی نگرانی کی پیش گوئی اس سے پہلے کے اعداد و شمار جاری کیا گیا تھا. اس کے بعد بہت سے، بہت سے دیگر منصوبوں، بیماری کی نگرانی کا پتہ لگانے کے لئے ڈیجیٹل ٹریس ڈیٹا استعمال کرنے کی کوشش کی ہے دیکھیں Althouse et al. (2015) ایک جائزے کے لئے.

صحت کے نتائج کی پیشن گوئی کرنے کے لئے ڈیجیٹل ٹریس ڈیٹا کے استعمال کرنے کے علاوہ، وہاں بھی انتخابات کے نتائج کی پیشن گوئی کرنے ٹویٹر ڈیٹا کا استعمال کرتے ہوئے کام کی ایک بہت بڑی رقم رہا ہے؛ جائزے کے لئے دیکھ Gayo-Avello (2011) ، Gayo-Avello (2013) ، Jungherr (2015) (چوہدری 7)، اور Huberty (2015) .

انفلوئنزا کی ویاپتتا کی پیشن گوئی اور پیشن گوئی کرنے کے انتخابات کو دنیا میں واقعہ کی کسی قسم کی پیشن گوئی کرنے کے لئے ڈیجیٹل ٹریس کی کسی قسم کو استعمال کرتے ہوئے کے دونوں مثالیں ہیں ٹویٹر ڈیٹا کا استعمال کرتے ہوئے کرنے کے لئے تلاش کے اعداد و شمار کا استعمال کرتے ہوئے. وہاں اس عام ساخت ہے کہ مطالعہ کی ایک بہت بڑی تعداد. ٹیبل 2.5 چند دیگر مثالیں بھی شامل ہے.

ٹیبل 2.5: مطالعہ کی جزوی فہرست کچھ ایونٹ کی پیشن گوئی کرنا کچھ ڈیجیٹل ٹریس استعمال کرتے ہیں.
ڈیجیٹل ٹریس نتائج نظیر
ٹویٹر باکس امریکہ میں فلموں کے دفتر کی آمدنی Asur and Huberman (2010)
تلاش کریں لاگز امریکہ میں فلموں، موسیقی، کتابیں، اور ویڈیو گیمز کی فروخت Goel et al. (2010)
ٹویٹر ڈاؤ جونز انڈسٹریل ایوریج (امریکی سٹاک مارکیٹ) Bollen, Mao, and Zeng (2011)
  • Approximating تجربات (دفعہ 2.4.3)

جرنل PS سیاسیات بڑی ڈیٹا، اسباب تخمینے، اور رسمی اصول پر ایک سمپوزیم تھا، اور Clark and Golder (2015) ہر ایک شراکت کا خلاصہ بیان کیا. ریاستہائے متحدہ امریکہ کی نیشنل اکیڈمی آف سائنسز کے جریدے کاروائی اسباب تخمینے اور بگ ڈیٹا پر ایک سمپوزیم تھا، اور Shiffrin (2016) ہر ایک شراکت کا خلاصہ بیان کیا.

قدرتی تجربات کے لحاظ سے، Dunning (2012) ایک بہترین کتاب لمبائی علاج فراہم. ایک قدرتی آزمائشی طور پر ویت نام ڈرافٹ لاٹری کا استعمال کرتے ہوئے کے بارے میں مزید کے لئے دیکھیں Berinsky and Chatfield (2015) . بڑے اعداد و شمار کے ذرائع کے اندر قدرتی تجربات خود کار طریقے دریافت کرنے کی کوشش ہے کہ مشین لرننگ کے نقطہ نظر کے لئے دیکھیں Jensen et al. (2008) اور Sharma, Hofman, and Watts (2015) .

کے ملاپ کے لحاظ سے، ایک امید جائزہ لینے کے لئے، دیکھیں Stuart (2010) ، اور ایک نراشاوادی جائزہ لینے کے آپ کے لئے دیکھ Sekhon (2009) . کٹائی کی ایک قسم کے طور پر الفاظ کے ملاپ پر زیادہ کے لئے، دیکھیں Ho et al. (2007) . کتابوں کے ملاپ کی بہترین علاج فراہم کے لئے دیکھیں Rosenbaum (2002) ، Rosenbaum (2009) ، Morgan and Winship (2014) ، اور Imbens and Rubin (2015) .