چاٻي:
[ ، ] Algorithmic confounding گوگل فلو لاڙا سان هڪ مسئلو هو. جي اخبار پڙهڻ Lazer et al. (2014) ، ۽ گوگل جي مسئلي کي بيان ۽ ڪيئن ان مسئلي کي حل ڪرڻ لاء هڪ خيال جي آڇ تي هڪ انجنيئر کي هڪ مختصر، واضح اي ميل لکو.
[ ] Bollen, Mao, and Zeng (2011) دعوي ڪري ٿو ته Twitter ۽ مان ڊيٽا جي اسٽاڪ مارڪيٽ ۾ گوئي ۾ استعمال ڪري سگهجي ٿو. هن پئجي هڪ hedge فنڊ-Derwent جي گاديء جو موڪلڻ لاء روانا Twitter ۽ مان گڏ ڪيل انگن اکرن جي بنياد تي ئي اسٽاڪ مارڪيٽ ۾ سيڙپ منڊيون-ڪرڻ (Jordan 2010) . ڇا ثبوت توهان ته فنڊ ۾ پنهنجي دولت اسي کان اڳ ۾ ڏسڻ چاهيون ٿا ٿين؟
[ ] ڪجهه عوام جي صحت advocates سگريٽ نوشي cessation لاء هڪ مؤثر امداد طور ڳڙن جڏهن ته اي سگريٽ، ٻين اهڙي nicotine جي اعلي-ليول جيئن امڪاني مول، جي باري ۾ ڊيڄار. تصور ته هڪ محقق اي سگريٽ سان لاڳاپيل Twitter ۽ تحريرن کي گڏ ڪرڻ ۽ جذبي ڇنڊڇاڻ ڪرائڻ جي خواهشن سگريٽ طرف رخ ڪري عوام جي راء کي تعليم حاصل ڪرڻ چاهين ٿا.
[ ] نومبر 2009 ع ۾، Twitter ۽ جي سوال جي مشهور خاني ۾ مان کي مٽائي "تون ڇا ڪري رهيو آهين؟" "ڇا جو؟" (https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) تجزيي 41.7 ملين يوزر پروفائيل، 1.47 ارب سماجي لاڳاپن، 4262 trending نوان موضوع، ۽ جون 6th ۽ جون 31st، 2009. جي وچ ۾ 106 ملين في الحال ڪوبه هن تجزيي اھي سودي ته Twitter ۽ هڪ کان وڌيڪ معلومات شيئرنگ جي هڪ نئين وچولي جي طور تي وڌيڪ ڏي بنياد تي سوشل نيٽورڪ.
[ ] "اسدي" اڪثر اثر ۽ Twitter تي اثر جي وڇائي اندازو ڪرڻ لاء استعمال ڪري رهيا آهن. شروعات ۾، صارفين نقل ڪرڻ ۽ پيسٽ جي مشهور اھي پسند آيو، سندس / کيس رسيء سان اصل ليکڪ ڳولهي، ۽ هٿرادو جي مشهور کان اڳ "RT" لکندو مان صاف ظاهر آهي ته ان کي هڪ retweet جي هئي. ان کان پوء، 2009 ع ۾ Twitter ۽ هڪ "retweet" بٽڻ شامل. جون 2016 ع ۾، Twitter ۽ ان لحاظ کان صارف پنهنجي في (https://twitter.com/twitter/status/742749353689780224) retweet ڪرڻ لاء ڪيو. توهان سوچيو ته انهن تبديلين کي متاثر ڪرڻ گهرجي ته ڪيئن توهان پنهنجي تحقيق ۾ "اسدي" استعمال ڪريو ٿا؟ ڇو يا نه ڇو؟
[ ، ، ] Michel et al. (2011) هڪ corpus ڪتابن ڊجيٽل ڪرڻ لاء گوگل جي ڪوشش کان الطريق جوڙائي. جي corpus، جنهن کي 2009 ع ۾ شايع ڪيو ويو آهي ۽ 5 لک ڊجيٽل ڪريو ڪتابن تي موجود جي پهرين ورجن استعمال ڪري رهيو آهي، جنهن جو ليکڪ لساني تبديلين ۽ ثقافتي گڻ جي تحقيقات لاء لفظ استعمال گهڻي تجزيي. جلد ئي گوگل ڪتاب Corpus تحقيق لاء هڪ مشهور ڊيٽا ذريعو ٿيو، ۽ ڊيٽابيس جو هڪ 2nd نسخو 2012 ع ۾ آزاد ڪيو ويو.
تنهن هوندي به، Pechenick, Danforth, and Dodds (2015) خبردار ڪيو آهي ته تحقيق ڌريون وسيع conclusions نقش لاء ان کي استعمال ڪرڻ کان اڳ ۾ ئي corpus جي هوندا عمل characterize ڪرڻ جي ضرورت آهي. هن جو مکيه مسئلو هر ڪتاب جي هڪ هجن، ته corpus لائبريري-وانگر آهي. نتيجي ۾، هڪ فرد، زود ليکڪ noticeably جي گوگل ڪتاب lexicon ۾ نئين اصطلاح داخل ڪرڻ جي قابل آهي. ان کان علاوه، سائنسي حجاج جي 1900s دٻيل جي corpus جي هڪ increasingly substantive حصو constitute. ان کان سواء، هن جي انگريزي مقدس datasets جي ٻن نسخن، Pechenick تاڪين عن comparing جي. ثبوت آهي ته پورين ڇانٽي جي پهرين نسخي جي پيداوار ۾ استعمال ڪيو ويو مليو. سرگرمي لاء گهربل جي ڊيٽا جي سڀ هتي موجود آهي: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ ، ، ، ] Penney (2016) explores ڇا جون 2013 ع ۾ NSA / PRISM ڪيمرائون (يعني، جي Snowden جي آيتن) جي باري ۾ سنڌ جي وڏي پيماني تي پرچار موضوع ته خانگي نوعيت واري خدشن اٿي تي وڪيپيڊيا مضمون کي ٽريفڪ ۾ هڪ تکي ۽ اوچتو سان لاڳاپيل آهي. ته پوء، رويي ۾ هن تبديلي ڪاميٽي ڪيمرائون لڳائڻ کان نتيجي ۾ هڪ مزي جي اثر سان برابر ٿي سگهندي. جي اچڻ Penney (2016) ڪڏهن ڪڏهن هڪ ائين وقت سيريز جي جوڙجڪ سڏيو ويندو آهي ۽ observational ڊيٽا (سيڪشن 2.4.3) کان تجربن approximating جي باري ۾ باب ۾ اچي سان لاڳاپيل آهي.
هن موضوع لفظ چونڊي، Penney ٽريڪ ۽ سماجي ميڊيا نگراني لاء وطن جي تحفظ جو آمريڪا جي کاتي جي استعمال جي لسٽ جو حوالو ڏنو. هن درهم فهرست مسئلن جي حد ۾ ڪجهه تلاش جي اصطلاحن categorizes، يعني "صحت ڳڻتي،" "سامان سيڪيورٽي،" ۽ "دهشتگردي. دهشتگردي" "جي مطالعي ٽوليء لاء، Penney سان لاڳاپيل چاليھن-اٺ لفظ استعمال" (جدول 8 ڏسي جر). هن چيو ته ان کان پوء هڪ ٽيهه-ٻن مهيني جي دور جي حوالي سان سنڌ جي اسي چاليھن-اٺ وڪيپيڊيا مضمون، جنوري 2012 ع جي شروعات کان آگسٽ 2014. جي آخر تائين سندس دليل کي مضبوط ڪرڻ لاء هڪ وارو بنياد تي وڪيپيڊيا مضمون ڏسڻ نقطن اها، ته هن کي به ڪيترن ئي مقابلو پيدا ٻين عنوانن تي مضمون خيالات ٽريڪ جي گروپن.
هاڻي توهان replicate ۽ وڌائڻ لاء وڃي رهيا آهن Penney (2016) . سڀ را ڊيٽا ته اوھان کي ھن سرگرمي لاء ضرورت پوندي وڪيپيڊيا (https://dumps.wikimedia.org/other/pagecounts-raw/) کان موجود آهي. يا توهان کي ان جي آر پئڪيج wikipediatrend مان حاصل ڪري سگهو ٿا (Meissner and Team 2016) . ۽ جڏھن اوھان کي لکڻ اپ توهان جواب، مهرباني ڪري نوٽ ڪريو جن جي ڊيٽا وسيلي اوھان کي استعمال ڪيو. (نوٽ: هيء ساڳي سرگرمي به باب 6 ۾ اچن ٿا)
[ ] Efrati (2016) جي رپورٽ خفيه معلومات جي بنياد تي، ته "ڪل شيئرنگ" ڪريو تي 5.5 سيڪڙو جي سال تي سال ۾ گهٽتائي ڪئي هئي، جڏهن ته "اصل نشر شيئرنگ" نازل 21٪ سال تي سال هئي. هن کي ڪيرائڻ جي عمر 30 سالن کان گهٽ ڪريو صارفين سان خاص طور تي خطرناڪ هو. هن رپورٽ ۾ ٻه عنصر کي ڪيرائڻ منسوب ڪيو. هڪ "دوست" ماڻهن ڪريو تي آهن جي تعداد ۾ واڌ آهي. اها ٻي ڳالهه آهي ته ڪجهه شيئرنگ سرگرمي پيغام کي ۽ اهڙي SnapChat طور مقابل کي منتقل ڪري ڇڏيو آهي. رپورٽ ۾ به ڪيترن ئي حڪمت عملين ڪريو ڪيترن ئي سال اڳ شيئرنگ کي فروغ ڏيڻ جي ڪوشش ڪئي پئي، نيوز کاڌ خوراڪ الخوارزمي tweaks ته اصل تحريرن کان وڌيڪ ذهين ڪر، گڏو گڏ اصل تحريرن صارفين "هن ڏينهن تي" جي periodical ياد سميت وحي ڪيو. ڇا امڪانات، جيڪڏهن ڪنهن به، انهن پهچڻ تي تحقيق جو هڪ ڊيٽا وسيلي جي حيثيت ڪريو استعمال ڪرڻ چاهيو ٿا ان لاء آھي ٿو؟
[ ] Tumasjan et al. (2010) ٻڌايو ته هڪ سياسي پارٽي جي بيان تي في جو ته اندازو ووٽن جو اندازو آهي ته پارٽي 2009 ع ۾ جرمني جي پارلياماني چونڊن ۾ (شڪل 2.9) ۾ ملي نه ملي سگهي. ٻين لفظن ۾، اهو ته توهان کي چونڊن ۾ گوئي کي Twitter ۽ استعمال ڪري سگهي ٿي بيٺو. هن وقت هن جي مطالعي ۾ شايع ڪيو ويو ان وقت انتهائي جوش سمجهيو ويندو هو، ڇاڪاڻ ته ان کي وڏي ڊيٽا جي هڪ عام ذريعو لاء هڪ قيمتي استعمال جو مشورو رهيو.
وڏي ڊيٽا جي خراب خاصيتون ڏنو، جڏهن ته، توهان کي فوري طور تي هن نتيجي جي ڀريو وڃي. 2009 ع ۾ Twitter تي جرمن ڪافي هڪ غير نمائنده گروپ هئا، ۽ هڪ پارٽي جا حمايتي سياست جي باري ۾ وڌيڪ عام مشهور ٿئي. اهڙيء طرح، اهو رايو لڳي ٿو ته سڀني جي لحاظ کان پير پساري آهي ته توهان تصور ڪري سگهي ٿي اهڙو ٻاهر رد ڪري ڇڏي. حقيقت ۾، سنڌ ۾ نتيجا Tumasjan et al. (2010) ڪڍي موٽيو تمام سٺو ٿي سچ ٿي. سندن ڪاغذن ۾، Tumasjan et al. (2010) عيسائي جمهوريت (CDU)، عيسائي سماجي جمهوريت (CSU)، غداري، Liberals (FDP)، جڏهن ته کٻي (مرو Linke)، ۽ گرين پارٽي (Grüne): ڇهه سياسي پارٽين کي سمجهيو ويندو. تنهن هوندي به، ته وقت تي Twitter تي تمام گهڻو ذڪر جرمن سياسي پارٽي جي نقل پارٽي (Piraten)، ھڪ ٽولي هٿان آهي ته انٽرنيٽ جي حڪومت ريگيوليشن هو. جڏهن ته نقل پارٽي جي تجزيي ۾ شامل ڪيو ويو آهي، Twitter ۽ ذڪر چونڊن جي نتيجن کي (شڪل 2.9) جي هڪ ڀيانڪ predictor ٿيندو (Jungherr, Jürgens, and Schoen 2012) .
تنهن کان پوء، دنيا جي چوڌاري ٻين تحقيق fancier طريقن-اهڙي جذبي جو تجزيو استعمال ڪري مثبت ۽ منفي جي وچ ۾ فرق ڪرڻ جي طور تي استعمال ڪيو آهي ته سياسي پارٽين ۾ چونڊن جي مختلف قسمن جو هڪ قسم گوئي کي Twitter ۽ ڊيٽا جي صلاحيت کي بهتر ڪرڻ جي حڪم جي ذڪر (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . هتي ڪيئن آهي Huberty (2015) اختصار چونڊن گوئي ڪري انهن جي ڪوشش جي نتيجن:
"سڀ معلوم forecasting سماجي ميڊيا تي ٻڌل طريقن جنھن مھل سچو اڳتي-ڳولي چونڊ forecasting جي مطالبن کي تابع ۾ ناڪام ويا آهن. اهي ناڪام سماجي ميڊيا جي بنيادي مال کي، بجاء methodological يا algorithmic مشڪلات سبب ڪري ظاهر ڪيو ويندو. مختصر ۾، سماجي ميڊيا نه ڪندا، ۽ شايد ڪڏهن به نه، هڪ مستحڪم، بغير، نمائندي جي electorate جي تصوير پيش ڪندو. ۽ سوشل ميڊيا جي سهولت نموني اهي مسئلا پوسٽ .پي کي فڪس ڪرڻ لاء ڪافي ڊيٽا ايندي هئي. "
تحقيق ته ڏس جو ڪجهه پڙهڻ Huberty (2015) ته ٿڪل، ۽ جيڪڏھن بيان هڪ سياسي اميدوار ۽ ڪيئن Twitter ۽ چونڊن جي اڳڪٿي ڪرڻ لاء استعمال ڪيو وڃي لاء هڪ هڪ صفحي ۾ ميمو لکڻ.
[ ] هڪ sociologist ۽ هڪ مؤرخ جي وچ ۾ فرق ڇا آهي؟ Goldthorpe موجب (1991) ، هڪ sociologist ۽ هڪ مؤرخ جي وچ ۾ مکيه فرق ڊيٽا گڏ ڪرڻ تي ڪنٽرول آهي. مورخ تبرڪ استعمال ڪرڻ sociologists مخصوص مقصدن لاء سندن ڊيٽا گڏ ڪرڻ ۽ سنواري سگھو ٿا جڏهن ته مجبور ٿي رهيا آهن. پڙهڻ Goldthorpe (1991) . ڪيئن سماجيات ۽ تاريخ Custommades ۽ Readymades جي خيال سان لاڳاپيل جي وچ ۾ فرق آهي؟
[ ] پوئين سوال تي عمارت، Goldthorpe (1991) Nicky Hart مان هڪ سميت نازڪ جواب جو هڪ انگ، عنه (1994) ته ڪيو ڊيٽا درجي تائين Goldthorpe جي عقيدت چالان. درزي ڪيو ڊيٽا جي امڪاني حدن ڪرڻا پوندا، Hart جي آسودي سڌارڪ پراجيڪٽ، سماجي طبقي ۽ ووٽنگ جي وچ ۾ تعلق آهي ته ان جي وچ-1960s ۾ Goldthorpe ۽ طريقي جي بندوبست ڪيو ويو اندازو لاء وڏي سروي بيان ڪيو. هڪ هڪ عالم جو مليو ڊيٽا تي ٺهيل ڊيٽا احسان مان اميد ٿئي جيئن، جي آسودي سڌارڪ پروجيڪٽ ڊيٽا ته رهندڙ معيار ۾ واڌارو ڪيو جو ڪنهن زماني ۾ سماجي طبقي جي مستقبل جي باري ۾ هڪ تازو تجويز نظريي کي خطاب ڪرڻ ٽيلر ويو گڏ. پر، Goldthorpe ۽ ساٿيو اهڙو عورتن جي ووٽنگ جي رويي جي باري ۾ معلومات گڏ ڪرڻ لاء "آهين". هتي ڪيئن Nicky Hart آهي (1994) جي سڄي ماجرا خلاصو:
". . . ان جو نتيجو آهي ته عورتن ڇاڪاڻ ته هن 'درزي ڪيو' dataset هڪ paradigmatic منطق جنهن جي ڌيء تجربو اصلوڪي جي وڪوڙي ويو ڇڏيا هئا کان بچڻ لاء ڏکيو [آھي. مرد preoccupations جيئن طبقاتي شعور ۽ عمل جو هڪ نظرياتي خواب جي تڙي ڪڍيو. . . ، Goldthorpe ۽ سندس ساٿيو جنهن کي کارائي ۽ ان جي بدران کين adequacy جي صحيح پرک ڪرڻ رسوا جي پنهنجي نظرياتي assumptions تربيت شعوري معجزن جي هڪ سيٽ جوڙائي. "
Hart جاري:
"جي آسودي سڌارڪ پروجيڪٽ جي شعوري پهچڻ اسان کي وڌيڪ وچ-صدي سماجيات جي masculinist انهيء جي باري ۾ ٻڌايو کان اھي stratification، سياست ۽ مادي زندگيء جي عمل کي سڌ."
توهان ٻين مثالن جتي درزي ڪيو ڊيٽا گڏ ان ۾ تعمير جي ڊيٽا ڪليڪٽر جي پير پساري ڇڏيو آهي جو خيال ڪري سگهو ٿا؟ هن ڪيئن algorithmic confounding کي compare ٿو؟ ڇا امڪانات هن جڏهن تحقيق Readymades استعمال ڪرڻ گهرجي ۽ جنھن مھل (اھي) Custommades استعمال ڪرڻ گهرجي لاء آھي ٿئي؟
[ ] هن باب ۾، مون کي ڪمپنين ۽ حڪومتن جي پيدا انتظامي حوالن سان تحقيق لاء تحقيق جي گڏ ڪيل ڊيٽا اڪيء. ڪجهه ماڻهن کي انهن انتظامي رڪارڊ سڏ "جي انگن اکرن کي ڏٺائين،" جنهن کي اھي سان ان جي ابتڙ "ٺهيل ڊيٽا." اهو سچو آهي ته انتظامي رڪارڊ تي تحقيق جي مليا آهن، پر اهي به انتهائي ٺهيل آهن. مثال طور، جديد هتي ڪلڪ ڪمپنين انهن جي ڊيٽا گڏ ڪري ۽ curate ڪرڻ وقت ۽ وسيلن جي شاندار رقم خرچ. اهڙيء طرح، انهن جي انتظامي رڪارڊ ٻنهي مليو ۽ ٺهيل آهن، اهو صرف توهان جي به ڪانه (شڪل 2.10) تي دارومدار.
ڊيٽا ذريعو جي هڪ مثال طور، جتي ٻنهي ان کي ڏسي طور مليو ۽ ٺهيل جڏهن تحقيق لاء ته ڊيٽا ذريعو استعمال ڪري مددگار آهي مهيا ڪري.
[ ] هڪ مدبر مضمون نويس ۾، عيسائي Sandvig ۽ Eszter Hargittai (2015) ڊجيٽل تحقيق، جتي ڊجيٽل سسٽم "آلي" يا آهي جو ٻنهي قسمن جي بيان "مطالعي جي شئي." مطالعي جي پهرين قسم جي هڪ مثال طور، جتي Bengtsson ۽ ساٿيو آهي (2011) موبائل فون ڊيٽا استعمال 2010. ۾ Haiti ۾ زلزلي جو ٻيو قسم جو هڪ مثال کان پوء لڏپلاڻ کي ٽريڪ ڪرڻ لاء آهي، جتي Jensen (2007) پڙهائي ڪيئن ڪوچ اهڙي موبائل فون جي پيچيدگين، هندستان مڇي لاء مارڪيٽ جي ضرورت impacted. ڇاڪاڻ ته ان بيان کي ڊجيٽل ڊيٽا وسيلن کي استعمال ڪندي پڙهائي به جيڪڏھن ڊيٽا ذريعو جي ساڳئي قسم جي استعمال ڪري رهيا آهيو ته ڪافي مختلف مقصدن آهي سگهي ٿو ته مون کي هن مددگار نه لھندين. ٻن آهي ته هڪ آلي ۽ ٻن ته مطالعي جي هڪ اعتراض جي طور تي هڪ ڊجيٽل سسٽم استعمال جي طور تي هڪ ڊجيٽل سسٽم استعمال: امان وڌيڪ هن ڀانيون ڪرڻا ۾، چار پڙهائي ته اوھان کي ڏٺو وڃان بيان. جيڪڏهن توهان چاهيو ٿا اوهان کي هن باب مان مثال استعمال ڪري سگهو ٿا.