[ ، ] الگورتھممک الجھن Google Flu رجحانات کے ساتھ ایک مسئلہ تھا. Lazer et al. (2014) طرف سے کاغذ پڑھیں Lazer et al. (2014) ، اور Google پر انجنیئر کو ایک چھوٹا، واضح ای میل لکھ کر اس مسئلے کو سمجھنے اور اسے ٹھیک کرنے کا طریقہ پیش کرنے کی پیشکش.
[ Bollen, Mao, and Zeng (2011) کا دعوی ہے کہ اسٹاک مارکیٹ کی پیشن گوئی کرنے کے لئے ٹویٹر سے ڈیٹا کا استعمال کیا جا سکتا ہے. یہ تلاش ایک ہیج فنڈ - ڈیر وے کیپٹل مارکیٹس کی تخلیق کی وجہ سے تھا- ٹویٹر (Jordan 2010) سے جمع کردہ اعداد و شمار پر مبنی اسٹاک مارکیٹ میں سرمایہ کاری کرنے کے لئے. اس فنڈ میں اپنے پیسے ڈالنے سے پہلے آپ کونسی ثبوت دیکھنا چاہتے ہیں؟
[ ] جبکہ بعض عوامی صحت کے وکیلوں کو سگریٹ سگریٹ نوشی کرنے کے لۓ مؤثر مدد پر غور کیا جاتا ہے، جبکہ دیگر ممکنہ خطرات کے بارے میں خبردار کرتے ہیں، جیسے نیکوتین کی اعلی سطح. تصور کریں کہ محققین کو ای سگریٹ سے متعلق ٹویٹر اشاعتوں کو جمع کرنے اور جذبہ کے تجزیہ کو منظم کرکے ای سگریٹ کی طرف عوام کی رائے کا مطالعہ کرنا ہے.
[ ] نومبر 2009 میں، ٹویٹر نے ٹویٹ باکس میں سوال کو "کیا کر رہے ہو؟" سے "کیا ہو رہا ہے؟" (https://blog.twitter.com/2009/whats-happening).
[ ] "ریٹائٹس" اکثر ٹویٹر پر اثر انداز اور اثر انداز پھیلانے کے لئے استعمال کیا جاتا ہے. ابتدائی طور پر صارفین کو ٹویٹ کاپی کرنے اور پیسٹ کرنا پسند کیا تھا، وہ پسند مصنف اپنے ہینڈل کے ساتھ ٹیگ کرتے ہیں، اور ٹویٹ سے دستی طور پر "RT" لکھتے ہیں کہ یہ ایک ریٹائر تھا. پھر، 2009 میں، ٹویٹر نے ایک "ریٹری" بٹن شامل کیا. جون 2016 میں، ٹویٹر نے صارفین کو اپنے ٹویٹس کو ٹویٹ کرنے کے لئے ممکن بنایا (https://twitter.com/twitter/status/742749353689780224). کیا آپ کو لگتا ہے کہ یہ تبدیلیوں کو اس پر اثر انداز کرنا چاہیے کہ آپ اپنے تحقیق میں "کتوں" کا استعمال کیسے کریں؟ کیوں یا کیوں نہیں؟
[ ، ، ، ] وسیع پیمانے پر تبادلہ خیال کردہ کاغذ میں، مائیکروسافٹ اور ساتھیوں نے (2011) میں طویل مدتی ثقافتی رجحانات کی شناخت کرنے کی کوشش میں 5 ملین سے زائد ڈیجیٹل کتابوں کا مواد تجزیہ کیا. وہ استعمال جو ڈیٹا اب Google گرامس ڈیٹا بیس کے طور پر جاری کیا گیا ہے، اور اس لئے ہم اعداد و شمار کو استعمال کرتے ہیں اور ان میں سے بعض کاموں کو بڑھانے کے لئے استعمال کرسکتے ہیں.
کاغذ میں بہت سے نتائج میں سے ایک میں، مائیکروسافٹ اور ساتھیوں نے کہا کہ ہم تیزی سے اور تیزی سے بھول رہے ہیں. ایک خاص سال کے لئے، "1883" کا کہنا ہے کہ "1875 اور 1975 کے درمیان ہر سال میں 1 گرام کا تناسب شمار کیا گیا تھا جو" 1883 "تھا. انہوں نے یہ اندازہ کیا کہ یہ تناسب ان سالوں میں دلچسپی کا اندازہ ہے جو اس سال میں ہوا. ان کے اعداد و شمار 3a میں، انہوں نے تین سالوں کے لئے استعمال کے ٹرانسفارمرز: 1883، 1910، اور 1 9 50 کو پلاٹ کر دیا. یہ تین سال ایک عام نمونہ کا حصہ ہیں: اس سال سے پہلے کم استعمال، اس کے بعد ایک سپائیک، پھر مقرر ہے. اگلے، ہر سال کے لئے کابینہ کی شرح کو کم کرنے کے لئے، مائیکروسافٹ اور ساتھیوں نے 1875 اور 1975 کے درمیان ہر سال کے "سال کی عمر" کا حساب کیا. ان کے اعداد و شمار 3a (انسیٹ) میں، انہوں نے ظاہر کیا کہ ہر ایک کی نصف زندگی سال کم ہو رہا ہے، اور انہوں نے دلیل دی کہ اس کا مطلب یہ ہے کہ ہم پچھلے تیز اور تیزی سے بھول رہے ہیں. انہوں نے انگریزی زبان کا دارالحکومت ورژن ورژن 1 کا استعمال کیا، لیکن بعد میں گوگل نے لاش کا دوسرا ورژن جاری کیا ہے. آپ کوڈنگ شروع کرنے سے پہلے سوال کے تمام حصوں کو پڑھائیں.
یہ سرگرمی آپ کو دوبارہ پریشان کوڈ لکھنا، نتائج کی تشریح، اور اعداد و شمار کے سگنل پر عملدرآمد کرے گا (جیسے کہ عجیب فائلوں کے ساتھ کام کرنا اور لاپتہ ڈیٹا کو سنبھالا). یہ سرگرمی آپ کو ایک امیر اور دلچسپ ڈیٹا بیس کے ساتھ حاصل کرنے اور چلانے میں بھی مدد کرے گا.
گوگل کتب گرامر ناظر ویب سائٹ سے خام ڈیٹا حاصل کریں. خاص طور پر، آپ کو انگریزی زبان کا 2 ورژن کا ورژن 2 استعمال کرنا چاہئے جو 1 جولائی، 2012 کو جاری کیا گیا تھا. غیر مطابقت پذیری، یہ فائل 1.4GB ہے.
Michel et al. (2011) کے اعداد و شمار 3a کے اہم حصہ کو تفریح کریں Michel et al. (2011) . اس اعداد و شمار کو دوبارہ بنانے کے لئے، آپ کو دو فائلوں کی ضرورت ہوگی: جس میں آپ نے حصہ (الف) اور "مجموعی شمار" فائل میں ڈاؤن لوڈ کی ہے، جسے آپ تناسب میں خام شمار تبدیل کرنے کے لئے استعمال کرسکتے ہیں. نوٹ کریں کہ مجموعی شمار فائل میں ایک ساخت ہے جس میں اسے پڑھنے کے لئے تھوڑا سا مشکل ہوسکتا ہے. کیا گرگرام ڈیٹا کا نسبتا 2 Michel et al. (2011) میں پیش کردہ ان لوگوں کے ساتھ اسی نتائج پیدا کرتا ہے Michel et al. (2011) ، جو ورژن 1 ڈیٹا پر مبنی ہے؟
اب گراف کے خلاف اپنی گراف کو چیک کریں نگراگرام ناظر کی طرف سے پیدا کردہ گراف.
تفریحی اعداد و شمار 3a (اہم اعداد و شمار)، لیکن \(y\) -کس کو خام ذکر شمار (تبدیلی کی شرح نہیں \(y\) تبدیل کرنے کے لئے تبدیل کریں.
کیا فرق (ب) اور (ڈی) کے درمیان فرق آپ کو مشیل اور ایل کے کسی بھی نتائج کا جائزہ لینے کے لۓ ہوتا ہے. (2011). کیوں یا کیوں نہیں؟
اب، ذکر کے تناسب کا استعمال کرتے ہوئے، اعداد و شمار 3a کی انٹری کو نقل. یہی ہے، سال 1875 اور 1975 کے درمیان ہر سال کے لئے، اس سال کی نصف زندگی کا حساب. نصف زندگی کی وضاحت کی گئی ہے کہ کئی سالوں کی تعداد میں اضافہ ہوتا ہے جو کہ اس کے نقطہ نظر کے تناسب سے آدھے اس کی بلند قیمت پر پہنچ جاتی ہیں. یاد رکھیں کہ Michel et al. (2011) معاون آن لائن معلومات کے نصف زندگی دیکھتے سیکشن III.6 کا تخمینہ کرنے کے لئے کچھ اور پیچیدہ کرنا- لیکن وہ دعوی کرتے ہیں کہ دونوں نقطہ نظر اسی طرح کے نتائج پیدا کرتے ہیں. کیا گرگرام اعداد و شمار کے ورژن 2 مائلس Michel et al. (2011) میں پیش کیے جانے والوں کے لئے اسی نتائج پیدا کرتا ہے Michel et al. (2011) ، جو ورژن 1 ڈیٹا پر مبنی ہے؟ (اشارہ: حیران نہ ہو اگر ایسا نہ ہو.)
کیا ایسے سال تھے جو اس طرح کے سالگرہ تھے جیسے سالوں میں خاص طور پر جلدی یا خاص طور پر آہستہ آہستہ بھول گئے؟ مختصر طور پر اس پیٹرن کے ممکنہ وجوہات کے بارے میں وضاحت کرتے ہیں اور وضاحت کرتے ہیں کہ آپ کس طرح آؤٹالس کی شناخت کرتے ہیں.
اب اس نتیجے میں چینی، فرانسیسی، جرمن، عبرانی، اطالوی، روسی اور ہسپانوی میں این جیگرام کے اعداد و شمار کے ورژن 2 کے لئے نقل کیا گیا ہے.
تمام زبانوں میں موازنہ کیا گیا تھا، وہاں ایسے سال تھے جو باہر تھے، جیسے سال جو خاص طور پر جلدی یا خاص طور پر آہستہ آہستہ بھول گئے تھے؟ مختصر طور پر اس پیٹرن کے ممکنہ وجوہات کے بارے میں وضاحت کرتے ہیں.
[ ، ، ، Penney (2016) نے یہ پتہ لگایا کہ جون 2013 میں این ایس اے / پی ایس آئی ایس ایم کی نگرانی کے بارے میں وسیع پیمانے پر تشہیر اشاعت (یعنی سنوڈن اکاؤنٹس) نے ٹریفک میں تیز رفتار اور اچانک کمی کے ساتھ منسلک کیا تھا جو پرائیویسی خدشات کو بڑھانے والے موضوعات پر وکیپیڈیا سے متعلق مضامین. اگر ایسا ہے تو، رویے میں یہ تبدیلی بڑے پیمانے پر اثر کے ساتھ ہوسکتا ہے جس کے نتیجے میں بڑے پیمانے پر نگرانی کی جائے گی. Penney (2016) نقطہ نظر کو کبھی کبھی ایک وقفے وقت کی سیریز کے ڈیزائن کا نام دیا جاتا ہے، اور یہ سیکشن 2.4.3 میں بیان کردہ نقطہ نظر سے متعلق ہے.
موضوع کے مطلوبہ الفاظ کو منتخب کرنے کے لئے، Penney نے سوشل میڈیا کی نگرانی اور نگرانی کے لئے امریکی محکمہ برائے ہوم لینڈ سیکورٹی کی طرف سے استعمال کی گئی فہرست کی طرف اشارہ کیا. ڈی ایچ ایس کی فہرست نے بعض تلاش کے الفاظ کو مختلف معاملات میں تقسیم کیا ہے، یعنی، "صحت کے اندراج،" "انفراسٹرکچر سیکورٹی،" اور "دہشت گردی." مطالعہ کرنے والے گروپ کے لئے، پینی نے "دہشت گردی" سے متعلق 48 مطلوبہ الفاظ کا استعمال کیا. ). اس کے بعد مجموعی وکیپیڈیا مضمون کے مطابق، 48 ویکیپیڈیا کے مضامین کے لئے ماہانہ بنیاد پر 32 ماہ کی مدت کے دوران، جنوری 2012 کے اختتام تک اگست 2014 کے اختتام تک. ان کے دلائل کو مضبوط کرنے کے لئے، انہوں نے ٹریکنگ کے ذریعہ کئی موازنہ گروپ بھی بنائیں دوسرے موضوعات پر مضمون کے خیالات.
اب، آپ Penney (2016) کو دوبارہ اور بڑھانے جا رہے ہیں. آپ کو اس سرگرمی کیلئے تمام خام ڈیٹا ویکیپیڈیا سے دستیاب ہے. یا آپ اسے R-package وکیپیڈیاٹراینڈ (Meissner and R Core Team 2016) کرسکتے ہیں. جب آپ اپنے جوابات لکھتے ہیں تو، براہ مہربانی نوٹ کریں کہ جس ڈیٹا کا استعمال آپ نے کیا تھا. (یاد رکھیں کہ یہ سرگرمی باب 6 میں بھی ظاہر ہوتا ہے.) یہ سرگرمی آپ کو اعداد و شمار سے منسلک کرنے اور بڑے اعداد و شمار کے وسائل میں قدرتی تجربات کے بارے میں سوچتے ہیں. یہ آپ مستقبل کے منصوبوں کے لئے ممکنہ طور پر دلچسپ ڈیٹا کے ذریعہ آپ کے ساتھ چل رہا ہے اور چل رہا ہے.
[ Efrati (2016) نے خفیہ معلومات پر مبنی رپورٹ کیا، کہ فیس بک پر "کل اشتراک" سال سے 5.5 فیصد سال سے کم ہوا جبکہ "اصل نشریات کا اشتراک" سال میں 21 فیصد تھا. یہ کمی 30 سال کی عمر کے تحت فیس بک کے صارفین کے ساتھ خاص طور پر انتہائی سخت تھی. رپورٹ نے دو عوامل کو مسترد کردیا. ایک فیس بک پر لوگوں کے "دوستوں" کی تعداد میں اضافہ ہے. دوسرا یہ ہے کہ کچھ شیئرنگ سرگرمی سنیپچیٹ جیسے پیغامات اور سیاحوں کو منتقل کردی گئی ہے. رپورٹ نے یہ بھی واضح کیا ہے کہ فیس بک سے متعلق کئی حکمت عملی فیس بک فیڈ الگورتھم کے ساتھ شامل ہیں، جن میں اصل اشاعتوں کے ساتھ ساتھ "آخری دن" کے ساتھ اصل خطوط کے دور دراز یاد دہانیوں کو بھی شامل کیا گیا ہے. کیا اثرات، اگر کوئی ہے تو، یہ نتائج محققین کے لئے ہے جو فاسٹ ڈیٹا ذریعہ کے طور پر استعمال کرنا چاہتے ہیں؟
[ ] سماجیولوجسٹ اور ایک مؤرخ کے درمیان کیا فرق ہے؟ Goldthorpe (1991) ، اہم فرق ڈیٹا ڈیٹا جمع کرنے پر کنٹرول ہے. تاریخی باشندوں کو رشتہ داروں کا استعمال کرنے پر مجبور کیا جاتا ہے، جبکہ سماجی ماہرین کو مخصوص مقاصد کے لئے ان کے ڈیٹا کا مجموعہ درپیش کر سکتا ہے. Goldthorpe (1991) پڑھیں. اپنی مرضی کے مطابق اور readymades کے خیال سے متعلق سماجیات اور تاریخ کے درمیان فرق کیسے ہے؟
[ ] یہ پچھلے راؤنڈ پر بناتا ہے. Goldthorpe (1991) نے نازی ہارٹ (1994) سے ایک سمیت کئی اہم ردعمل اٹھائے ہیں جنہوں نے ڈیلور کردہ اعداد و شمار کے گولڈتھورپ کے عقیدے کو چیلنج کیا. درزی ساختہ اعداد و شمار کے ممکنہ حدود کو واضح کرنے کے لئے، ہارٹ نے سوشل ورکر اور ووٹنگ کے درمیان تعلقات کی پیمائش کرنے کا ایک بڑا سروے، 1960 ء کے وسط میں گولڈور پورپ اور ساتھیوں کی طرف سے منعقد کیا تھا. جیسا کہ ایک عالم سے توقع ہوسکتا ہے کہ ایک ایسے عالم سے جو ممکنہ طور پر پایا گیا اعداد و شمار کے بارے میں ڈیزائن کردہ ڈیٹا کی حمایت کرتا ہے، امیر کارکن پروجیکٹ ڈیٹا کو جمع کرتا ہے جس میں سماجی طبقے کے مستقبل کے بارے میں حال ہی میں پیش کردہ تجویز کردہ اصولوں کو حل کرنے کے لئے موزوں تھا. لیکن، گولڈھورتپ اور ساتھیوں نے کسی نہ کسی طرح "خواتین" کے ووٹنگ کے رویے کے بارے میں معلومات جمع کرنے کے لئے "بھول گیا". یہاں ہے کہ نکی ہارٹ (1994) نے اس سلسلے کا خلاصہ کیا تھا.
"... یہ نتیجہ اخذ سے بچنے کے لئے مشکل ہے کہ خواتین کو ختم کر دیا گیا ہے کیونکہ اس 'درزی بنا' ڈیٹا بیس ایک پیراگرافیک منطق کی طرف سے محدود تھا جس میں خاتون کا تجربہ خارج کردیا گیا تھا. کلاس کے شعور اور عمل کے ایک نظریاتی نقطہ نظر سے مرد کی تعصب کے طور پر عملدرآمد کی طرف سے چلایا گیا ...، گولڈھورپپ اور اس کے ساتھیوں نے تجرباتی ثبوتوں کا ایک سیٹ بنایا جس نے ان کی اپنی نظریاتی مفادات کو فروغ دینے کے بجائے ان کی مناسب جانچ کی مناسب جانچ کی.
ہارٹ جاری ہے:
"امیر کارکن پروجیکٹ کے تجرباتی نتائج ہمیں وسطی صدی کے سماجیولوجی کے مذکور اقدار کے بارے میں مزید بتاتی ہیں کہ وہ استحکام، سیاست اور مادی زندگی کے عمل کو آگاہ کرتے ہیں."
کیا آپ دوسرے مثالوں کے بارے میں سوچ سکتے ہیں جہاں ڈیلورڈ کے ڈیٹا اکٹھا میں اس میں تعمیر کردہ اعداد و شمار کے تعاقب کی تعصب ہے؟ یہ الگورتھممک الجھن کی موازنہ کرتا ہے؟ اس کے لئے کیا اثرات ہوسکتے ہیں جب محققین کو ریڈیمڈ استعمال کرنا چاہئے اور جب انہیں اپنی مرضی کے مطابق استعمال کرنا چاہئے؟
[ ] اس باب میں، میں نے کمپنیوں اور حکومتوں کی طرف سے پیدا انتظامی ریکارڈ کے ساتھ محققین کے لئے محققین کی طرف سے جمع اعداد و شمار کے برعکس ہے. کچھ لوگ ان انتظامی ریکارڈز کو "ملازمت کے اعداد و شمار" کہتے ہیں، جسے وہ "ڈیزائن شدہ ڈیٹا" کے ساتھ برعکس کرتے ہیں. یہ سچ ہے کہ انتظامی ریکارڈ محققین کی طرف سے پایا جاتا ہے، لیکن وہ بھی انتہائی ڈیزائن کیے جاتے ہیں. مثال کے طور پر، جدید ٹیک کمپنیوں کو ان کے اعداد و شمار کو جمع کرنے اور جڑے کرنے کے لئے بہت مشکل ہے. اس طرح، یہ انتظامی ریکارڈ دونوں پایا اور ڈیزائن کیا گیا ہے، یہ صرف آپ کے نقطہ نظر پر منحصر ہے (اعداد و شمار 2.12).
اعداد و شمار کے ذریعہ کا ایک مثال فراہم کریں جہاں دونوں کو پایا جاتا ہے اور تحقیق کے لئے اس ڈیٹا ذریعہ کا استعمال کرتے ہوئے ڈیزائن کیا جاتا ہے.
[ ] ایک فکرمند مضمون میں، عیسائی سینڈویگ اور ایسزرٹرگٹی (2015) نے دو وسیع اقسام میں ڈیجیٹل تحقیق تقسیم کیا ہے کہ اس کے مطابق ڈیجیٹل نظام "سازوسامان" یا "مطالعہ کا مقصد" ہے. اس قسم کی پہلی مثال - جہاں نظام ہے ایک Bengtsson اور ان کے ساتھیوں کی طرف سے تحقیق آلہ ہے (2011) کی ایک مثال 2010. میں ہیٹی میں آنے والے زلزلے کے بعد منتقلی باخبر رھنے کے لئے موبائل فون کے ڈیٹا کا استعمال کرتے ہوئے دوسری قسم، جہاں نظام کی کسی چیز ہے تحقیق Jensen کی طرف سے مطالعہ ہے (2007) کیرل بھر میں موبائل فون کی تعارف کس طرح، بھارت نے مچھلی کے لئے مارکیٹ کے کام پر اثر انداز کیا. میں یہ فرق مددگار ثابت کرتا ہوں کیونکہ ڈیجیٹل اعداد و شمار کے وسائل کا استعمال کرتے ہوئے اس مطالعے کو واضح کرتا ہے کہ اگر وہ اسی قسم کا ڈیٹا ذریعہ استعمال کررہے ہیں تو بہت مختلف مقاصد ہوسکتے ہیں. اس فرق کو مزید وضاحت کرنے کے لئے، آپ نے دیکھا ہے کہ چار مطالعات بیان کریں: دو جو ایک آلہ کے طور پر ڈیجیٹل سسٹم کا استعمال کرتے ہیں اور دو جو مطالعہ کی ایک چیز کے طور پر ڈیجیٹل سسٹم کا استعمال کرتے ہیں. اگر آپ چاہیں تو اس باب سے مثالیں استعمال کرسکتے ہیں.