کلیدی:
[ ، ] پر algorithmic confounding گوگل فلو کے رجحانات کے ساتھ ایک مسئلہ تھا. کی طرف سے کاغذ پڑھ Lazer et al. (2014) ، اور مسئلہ کی وضاحت اور اس مسئلہ کو حل کرنے کے لئے کس طرح ایک خیال کی پیشکش گوگل میں ایک انجینئر کے لئے ایک مختصر، واضح ای میل لکھیں.
[ ] Bollen, Mao, and Zeng (2011) ٹوئٹر سے ڈیٹا کی سٹاک مارکیٹ کی پیشن گوئی کرنے کے لئے استعمال کیا جا سکتا ہے کا دعوی ہے کہ. یہ نتیجہ ہیج فنڈ Derwent کیپٹل ٹویٹر سے جمع اعداد و شمار کی بنیاد پر اسٹاک مارکیٹ میں سرمایہ کاری مارکیٹوں میں کے ایک کی تخلیق کی قیادت (Jordan 2010) . آپ کیا ثبوت ہے کہ فنڈ میں آپ کے پیسے ڈالنے سے پہلے دیکھنا چاہتے ہیں؟
[ ] کچھ عوامی صحت کی وکالت تمباکو نوشی کے خاتمے کے لئے ایک مؤثر امداد کے طور پر ای سگریٹ کا تعلق ہے، جبکہ دوسروں جیسا کہ نکوٹین کے اعلی سطح کے ممکنہ خطرات کے بارے میں خبردار کیا ہے. ایک محقق ای سگریٹ سے متعلق ٹویٹر خطوط جمع اور جذبات تجزیہ کے انعقاد کی طرف سے ای سگریٹ کی جانب سے رائے عامہ کا مطالعہ کرنے کا فیصلہ کرتا ہے کہ ذرا تصور کریں.
[ ] نومبر 2009 میں، ٹویٹر سوال ٹویٹ باکس میں سے "تم کیا کر رہے ہو؟" تبدیل "کیا ہو رہا ہے؟" (https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) 41.7 ملین صارف پروفائلز، 1.47 ارب سماجی تعلقات، 4262 رجحان موضوعات، اور جون 6th اور جون کے 31st کے درمیان 106 ملین ٹویٹس، 2009. تجزیہ کیا اس تجزیہ انہوں نے ٹوئٹر پر ایک سے زیادہ اشتراک کی معلومات کے ایک نئے ذریعے کے طور پر زیادہ کام کرتا ہے کہ یہ نتیجہ اخذ بنا پر سماجی رابطے.
[ ] "لنک" اکثر اثر و رسوخ کی پیمائش کرنے کے استعمال کیا اور ٹویٹر پر اثر و رسوخ کے پھیلے ہوئے ہیں. ابتدائی طور پر، صارفین کو کاپی کرنے کے لئے اور تشہیر وہ پسند پیسٹ، اس کی / اس کے ہینڈل کے ساتھ اصل مصنف کو ٹیگ، اور دستی طور پر ٹائپ "RT" ٹویٹ سے پہلے یہ ایک ریٹویٹ ہے کہ اس بات کی نشاندہی کرنے کے لئے تھا. اس کے بعد، 2009 میں ٹوئٹر میں ایک "ریٹویٹ کریں" کے بٹن شامل کر. جون 2016 میں، ٹوئٹر یہ ممکن صارفین کو ان کے اپنے ٹویٹس ریٹویٹ پر (https://twitter.com/twitter/status/742749353689780224) کے لئے بنایا. آپ کے خیال میں ان تبدیلیوں سے آپ کو آپ کی تحقیق میں "ریٹویٹ" کا استعمال کیسے متاثر چاہئے؟ کیوں یا کیوں نہیں؟
[ ، ، ] Michel et al. (2011) کی کتابیں digitize کرنے کے لئے گوگل کی کوششوں سے ابھرتی ہوئی ایک کارپس تعمیر شدہ. پرتیکشیکرن، جس نے 2009 میں شائع کیا اور 5 ملین DIGITIZED کتب زائد شامل کیا گیا تھا کے پہلے ورژن کا استعمال کرتے ہوئے، مصنفین لسانی تبدیلیاں اور ثقافتی رجحانات کی تحقیقات کے لئے لفظ کے استعمال کی فریکوئنسی تجزیہ کیا. جلد ہی گوگل بکس کورپس کے محققین کے لئے ایک مقبول ڈیٹا کا ذریعہ بن گیا، اور ڈیٹا بیس کی ایک 2nd ورژن 2012 میں جاری کیا گیا تھا.
تاہم، Pechenick, Danforth, and Dodds (2015) نے خبردار محققین کو مکمل طور پر وسیع نتائج اخذ کے لئے اسے استعمال کرنے سے پہلے کارپس کے نمونے لینے کے عمل کی خصوصیات کے لئے کی ضرورت ہے کہ. سب سے اہم مسئلہ کارپس ہر کتاب میں سے ایک پر مشتمل، لائبریری کی طرح ہے کہ ہے. اس کے نتیجے میں، ایک فرد کے طور، انتھک مصنف کافی گوگل بکس ڈکشنری کے نئے جملے داخل کرنے کے قابل ہے. اس کے علاوہ، سائنسی متون 1900s کے دوران فنڈز کا ایک تیزی سے اہم حصہ کی تشکیل. اس کے علاوہ، انگریزی فکشن ڈیٹا سیٹس، Pechenick ET اللہ تعالی کے دو ورژن کا موازنہ کر کے. ناکافی فلٹرنگ پہلے ورژن کی پیداوار میں استعمال کیا گیا تھا پتہ چلا ہے کہ ثبوت. سرگرمی کے لئے ضروری اعداد و شمار کے سب یہاں دستیاب ہے: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ ، ، ، ] Penney (2016) جون 2013 میں این ایس اے / PRISM نگرانی (یعنی، سنوڈن کے انکشافات) کے بارے میں بڑے پیمانے پر پبلسٹی ایک تیز اور اچانک نجی معلومات کی حفاظتی خدشات میں اضافہ ہے کہ موضوعات پر وکیپیڈیا کے مضامین پر ٹریفک میں کمی کے ساتھ منسلک کیا جاتا ہے چاہے وہ روشنی ڈالی. اگر ایسا ہے تو، رویے میں اس تبدیلی کو بڑے پیمانے پر نگرانی کے نتیجے میں ایک chilling اثر کے مطابق ہو گا. کے نقطہ نظر Penney (2016) کبھی کبھی اس کو خلل وقت سیریز کے ڈیزائن کہا جاتا ہے اور پریکشتاتمک ڈیٹا (دفعہ 2.4.3) سے تجربات approximating بارے باب میں نقطہ نظر سے متعلق ہے.
موضوع کے مطلوبہ الفاظ کو منتخب کرنے کے لئے، سے Penney باخبر رہنے اور سوشل میڈیا کی نگرانی کے لئے ہوم لینڈ سیکورٹی کے امریکی محکمہ کی طرف سے استعمال کی فہرست پر کہا جاتا ہے. DHS فہرست مسائل، یعنی "صحت کا مسئلہ،" "بنیادی ڈھانچے کی سیکورٹی،" اور "دہشت گردی. کی ایک رینج میں بعض کی تلاش کی اصطلاحات کی درجہ بندی ٹیررازم" (ٹیبل 8 دیکھ "سٹڈی گروپ کے طور پر، سے Penney متعلق اڑتالیس مطلوبہ الفاظ کو استعمال کیا" اپینڈکس). اس کے بعد انہوں نے اگست 2014. کے آخر تک 2012 جنوری کے شروع سے ہی، ایک بتیس ماہ کے عرصے میں اسی اڑتالیس وکیپیڈیا کے مضامین کے لئے ایک ماہانہ بنیاد پر وکیپیڈیا مضمون دیکھے جانے کی تعداد مجموعی اس کی دلیل کو مضبوط کرنے کے لئے، انہوں نے کئی مقابلے کی پیدا کی دیگر موضوعات پر مضمون پڑھا گیا پر نظر رکھنے کے گروپوں.
اب، آپ نقل تیار اور توسیع کرنے کے لئے جا رہے ہیں Penney (2016) . تمام خام ڈیٹا کہ آپ اس سرگرمی کے لئے ضرورت ہو گی کہ وکی پیڈیا (https://dumps.wikimedia.org/other/pagecounts-raw/) سے دستیاب ہے. یا اگر آپ R پیکج wikipediatrend سے حاصل کر سکتے (Meissner and Team 2016) . آپ کو آپ کے جوابات لکھنے اپ کرتے ہیں تو، آپ کو استعمال کیا جس میں ڈیٹا کا ذریعہ براہ مہربانی یاد رکھیں. (نوٹ: یہ وہی سرگرمی بھی باب 6 میں ظاہر ہوتا ہے)
[ ] Efrati (2016) کی رپورٹ کے مطابق، خفیہ معلومات کی بنیاد پر، کہ فیس بک پر "کل شیئرنگ" جبکہ "اصل نشریاتی شیئرنگ" نیچے سال کے مقابلے میں 21 فیصد سال تھا سال کے مقابلے میں تقریبا 5.5 فیصد سال کی طرف سے انکار کر دیا تھا. یہ کمی عمر کے 30 سال سے کم فیس بک صارفین کے ساتھ خاص طور پر شدید تھا. رپورٹ دو عوامل کے زوال منسوب. ایک "دوست" لوگ فیس بک پر ہے کی تعداد میں اضافہ ہے. دیگر کچھ اشتراک سرگرمی پیغام رسانی کرنے اور اس طرح کے SnapChat طور پر حریف پر منتقل کر دیا گیا ہے ہے. رپورٹ میں یہ بھی کئی ہتھکنڈوں فیس بک کا اشتراک کو فروغ دینے کی کوشش کی تھی، اصل خطوط زیادہ نمایاں بنانے کے کہ نیوز فیڈ الگورتھم انداز، کے ساتھ ساتھ کئی سال پہلے "اس روز" اصل خطوط صارفین کی آودک یاددہانی سمیت انکشاف کیا. ان نتائج کی ایک ڈیٹا منبع کے طور پر فیس بک کو استعمال کرنا چاہتے ہیں جو محققین کے لئے کیا مضمرات، اگر کوئی ہے تو، حاصل ہے؟
[ ] Tumasjan et al. (2010) ایک سیاسی جماعت کا ذکر کرنے کے لئے ٹویٹس کی کہ تناسب پارٹی 2009 ء میں جرمن پارلیمانی انتخابات میں موصول ہوئی ہے کہ ووٹ (چترا 2.9) کے تناسب سے میچ کو رپورٹ کیا. دوسرے الفاظ میں، یہ آپ کے انتخابات کی پیشن گوئی کرنے ہی ٹوئٹر استعمال کر سکتا ہے کہ ظاہر ہوا. اس تحقیق شائع کیا گیا تھا اس وقت یہ اس کے بڑے اعداد و شمار کی ایک عام ذریعہ کے لئے ایک قابل قدر کے استعمال کا مشورہ کرنے کے لئے لگ رہا تھا کیونکہ انتہائی دلچسپ سمجھا جاتا تھا.
کو دیکھتے ہوئے بڑے اعداد و شمار کے برے خصوصیات، تاہم، آپ کو فوری طور پر اس نتیجے کے شبہ ہونا چاہئے. 2009 میں ٹوئٹر پر جرمنوں کافی غیر نمائندے گروپ تھے، اور ایک جماعت کے حامیوں کو زیادہ کثرت سے سیاست کے بارے میں ٹویٹ سکتا. اس طرح، یہ سب ممکن تعصبات آپ تصور کر سکتے ہیں کہ کسی نہ کسی طرح منسوخ باہر کرے گا کہ حیرت کی بات لگتی ہے. سچ تو یہ ہے، میں نتائج Tumasjan et al. (2010) بھی اچھا ثابت ہوا ہے سچ ہے. ان اخبار میں، Tumasjan et al. (2010) عیسائی ڈیموکریٹس (CDU)، کرسچن سوشل ڈیموکریٹس (CSU)، ایس پی ڈی، لبرلز (FDP)، بائیں (مرنے Linke کی)، اور گرین پارٹی (Grüne): چھ سیاسی جماعتوں سمجھا. تاہم، اس وقت ٹوئٹر پر سب سے زیادہ ذکر جرمن سیاسی پارٹی سمندری ڈاکو پارٹی (قزاقوں)، انٹرنیٹ کی حکومت کے قوانین کے خلاف برسر پیکار ہے کہ ایک پارٹی تھی. سمندری ڈاکو پارٹی تجزیہ میں شامل کیا گیا تھا جب، ٹویٹر تذکرے انتخابات کے نتائج (چترا 2.9) کی ایک خوفناک پیش گو بن جاتا ہے (Jungherr, Jürgens, and Schoen 2012) .
اس کے بعد، دنیا بھر میں دیگر محققین کا استعمال کیا ہے اچھے کے طریقوں-جیسے مثبت اور منفی کے درمیان تمیز کرنے کے جذبات کے تجزیہ کا استعمال کرتے ہوئے انتخابات کے مختلف اقسام میں سے ایک قسم کی پیشن گوئی کرنے کی صلاحیت ٹوئٹر ڈیٹا کا بہتر بنانے کے لئے پارٹیوں کے ذکر (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . طریقہ یہ ہے Huberty (2015) انتخابات کی پیشن گوئی کرنے کے لئے ان کی کوششوں کے نتائج کا خلاصہ:
سچ مستقبل کے حوالے سے انتخابی پیشن گوئی کے مطالبات کا نشانہ بنایا جب "سوشل میڈیا پر مبنی تمام معلوم موسمی پیش گوئی کے طریقوں میں ناکام رہے ہیں. ان ناکامیوں بلکہ کار یا پر algorithmic مشکلات کے مقابلے میں سوشل میڈیا کی بنیادی خصوصیات، کی وجہ سے ہونا ظاہر. مختصر میں، سوشل میڈیا کی نہیں کرتے، اور شاید کبھی نہیں، ایک مستحکم، غیر جانبدار، نمائندے ووٹر کی تصویر پیش کرے گا؛ اور سوشل میڈیا کی سہولت کے نمونے ان مسائل اس پوسٹ کو ٹھیک کرنے کے لئے کافی ڈیٹا کے فقدان. "
تحقیق کی قیادت ہے کہ کچھ پڑھا Huberty (2015) اس نتیجے پر، اور ٹویٹر کے انتخابات کی پیشن گوئی کرنے کے لئے استعمال کیا جانا چاہئے، اگر اور کس طرح بیان ایک سیاسی امیدوار کے لئے ایک ایک صفحے میمو لکھنے.
[ ] ایک سماجی علوم کے ماہر اور ایک مورخ کے درمیان کیا فرق ہے؟ Goldthorpe کے مطابق (1991) ، ایک سماجی علوم کے ماہر اور ایک مورخ کے درمیان بنیادی فرق ڈیٹا جمع کرنے پر کنٹرول ہے. مؤرخین ماہرین سماجیات مخصوص مقاصد کے لئے ان کے اعداد و شمار جمع کر سکتے ہیں درزی جبکہ اوشیش استعمال کرنے کے لئے مجبور کیا جاتا ہے. پڑھیں Goldthorpe (1991) . سوشیالوجی اور تاریخ کے درمیان فرق Custommades اور Readymades کے خیال کے لئے کس طرح سے متعلق ہے؟
[ ] پچھلے سوال پر عمارت، Goldthorpe (1991) نکی ہارٹ سے ایک سمیت اہم جوابات کی ایک بڑی تعداد، مبذول کرائی (1994) بنایا ڈیٹا کے درجی Goldthorpe کی عقیدت کو چیلنج کیا ہے کہ. درزی ساختہ ڈیٹا کی ممکنہ حدود واضح کرنے کے لئے، ہارٹ سمردق ورکر پروجیکٹ، سماجی طبقے اور ووٹنگ کے درمیان تعلقات کے وسط 1960s میں Goldthorpe اور ان کے ساتھیوں کی طرف سے منعقد کیا گیا تھا کہ پیمائش کرنے کے ایک بڑے سروے بیان کیا. ایک مل گیا ڈیٹا پر اعداد و شمار کے طور پر ڈیزائن اختیار کیا جو ایک عالم سے توقع کر سکتے ہیں، سمردق ورکر پروجیکٹ معیار زندگی میں اضافہ کے اس دور میں سماجی طبقے کے مستقبل کے بارے میں ایک حال ہی میں مجوزہ نظریہ سے نمٹنے کے لئے موزوں کیا گیا ہے کہ اعداد و شمار جمع. لیکن، Goldthorpe اور ساتھیوں کسی نہ کسی طرح "بھول گیا" عورتوں کے ووٹنگ کے رویے کے بارے میں معلومات جمع کرنے کے لئے. یہاں نکی ہارٹ طریقہ یہ ہے (1994) پورے پرکرن خلاصے:
". . . یہ نتیجہ نکالا کہ اس dataset کے ایک paradigmatic منطق کی خاتون تجربے خارج کر دیا ہے جس کے ذریعے محدود تھی 'درزی بنایا' کیونکہ خواتین لپ کیا گیا ہے سے بچنے کے لئے یہ مشکل [ہے]. لڑکا preoccupations کی طرح طبقاتی شعور اور عمل کی ایک نظریاتی وژن کے ذریعے کارفرما ہوں. . . ، Goldthorpe اور ان کے ساتھیوں کھلایا اور پریاپتتا کی ایک درست ٹیسٹ کے لئے ان کو بے نقاب کرنے کے بجائے ان کے اپنے نظریاتی مفروضات پالا جس آخباخت ثبوت کی ایک سیٹ سے تعمیر. "
ہارٹ جاری:
"سمردق ورکر پروجیکٹ کے نتائج کو عملی وہ ستریکرن، سیاست اور مادی زندگی کے عمل کو مطلع مقابلے میں ہمارے وسط صدی سوشیالوجی کے masculinist اقدار کے بارے میں مزید بتائیں."
آپ درزی ساختہ ڈیٹا کلیکشن اس میں تعمیر ڈیٹا کلکٹر کے تعصبات ہے جہاں دیگر مثالیں کے بارے میں سوچ سکتے ہیں؟ یہ کیسے پر algorithmic confounding کا موازنہ کرتا ہے؟ اس محققین Readymades استعمال کرنا چاہئے جب کے لئے کیا مضمرات کو ہو سکتا ہے اور وہ Custommades استعمال کرنا چاہئے جب؟
[ ] اس باب میں، میں اداروں اور حکومتوں کی طرف سے پیدا انتظامی ریکارڈ کے ساتھ محققین کے محققین کی طرف سے جمع اعداد و شمار کا موازنہ. کچھ لوگ ان انتظامی ریکارڈز وہ ساتھ اس کے برعکس جس میں "ڈیٹا کو، پایا" کال "ڈیزائن کیا گیا کے اعداد و شمار." یہ سچ ہے انتظامی ریکارڈ محققین کی طرف سے پائے جاتے ہیں، لیکن وہ بھی انتہائی تیار کیا گیا ہے. مثال کے طور پر، جدید ٹیک کمپنیوں کو جمع کرنے اور ان کے ڈیٹا اطلاعات کومنظم کرنے میں وقت کی بہت زیادہ مقدار اور وسائل خرچ. اس طرح، ان انتظامی ریکارڈ دونوں مل گیا اور تیار کیا گیا ہے، یہ صرف آپ کے نقطہ نظر (چترا 2.10) پر انحصار کرتا ہے.
یہ دیکھ کر جہاں تحقیق کے لئے اس ڈیٹا کا ذریعہ کا استعمال کرتے وقت پایا اور ڈیزائن مددگار ہے دونوں کے طور پر اعداد و شمار کے ذریعہ کی ایک مثال فراہم.
[ ] ایک ویچارشیل مضمون میں، عیسائی Sandvig اور Eszter کی Hargittai (2015) ڈیجیٹل تحقیق، ڈیجیٹل نظام "آلہ" یا ہے جہاں کے دو قسم کے مطالعہ کی پہلی قسم کی ایک مثال بیان کریں "تحقیق کا مقصد." ہے جہاں Bengtsson اور ساتھیوں (2011) 2010. میں ہیٹی میں آنے والے زلزلے کے بعد نقل مکانی باخبر رھنے کے لئے موبائل فون ڈیٹا کا استعمال کیا دوسری قسم کی ایک مثال ہے جہاں Jensen کی (2007) سٹڈیز کس طرح کیرل بھر موبائل فونز کے تعارف، بھارت مچھلی کے لئے مارکیٹ کے کام کاج متاثر. میں نے اس مفید یہ ڈیجیٹل اعداد و شمار ذرائع کا استعمال کرتے ہوئے سٹڈیز وہ ڈیٹا کا ذریعہ کے اسی قسم کا استعمال کرتے ہوئے کر رہے ہیں یہاں تک کہ اگر بہت مختلف مقاصد ہیں کر سکتے ہیں کہ واضح ہے کیونکہ. اور مطالعہ کے کسی چیز کے طور پر ایک ڈیجیٹل نظام کا استعمال کرتے ہیں کہ دو ایک آلہ کے طور پر ایک ڈیجیٹل نظام کا استعمال کرتے ہیں کہ دو: مزید یہ فرق واضح کرنے کے لئے، چار جائزوں تم نے دیکھا ہے کہ بیان کریں. اگر آپ چاہتے ہیں آپ کو اس باب سے مثالیں استعمال کر سکتے ہیں.