পরবর্তী কি পড়বে

এই অনুবাদ একটি কম্পিউটার দ্বারা তৈরি করা হয়েছে. ×

পরবর্তী কি পড়বে

ভূমিকা (অধ্যায় 2.1)

এই অধ্যায়ের মধ্যে অন্তর্ভুক্ত করা হয় না যে একটি পর্যবেক্ষণ ethnography হয়। ডিজিটাল স্থানগুলিতে নৃতত্ত্বের বিষয়ে আরও দেখুন, Boellstorff et al. (2012) , এবং মিশ্র ডিজিটাল এবং শারীরিক শূণ্যস্থান মধ্যে ethnography আরো জন্য, Lane (2016) ।

বড় তথ্য (অধ্যায় ২২)

"বড় তথ্য" এর কোন একক সম্মতিগত সংজ্ঞা নেই, তবে অনেকগুলি সংজ্ঞা "3 বনাম": ভলিউম, বৈচিত্র এবং বেগ (যেমন, Japec et al. (2015) ) -এ ফোকাস করতে বলে মনে হচ্ছে। De Mauro et al. (2015) দেখুন De Mauro et al. (2015) সংজ্ঞা একটি পর্যালোচনা জন্য।

বড় তথ্য শ্রেণীতে সরকারী প্রশাসনিক তথ্য অন্তর্ভুক্ত করা একটি বিট অস্বাভাবিক, যদিও অন্যান্যরাও এই ঘটনাটি করেছে, Legewie (2015) সহ, Connelly et al. (2016) , এবং Einav and Levin (2014) । গবেষণা জন্য সরকারি প্রশাসনিক তথ্য মূল্য সম্পর্কে আরও দেখুন, দেখুন Card et al. (2010) , Adminstrative Data Taskforce (2012) , এবং Grusky, Smeeding, and Snipp (2015) ।

সরকারি পরিসংখ্যান ব্যবস্থার অভ্যন্তরীণ গবেষণা থেকে দেখা যায়, বিশেষ করে যুক্তরাষ্ট্রের আদমশুমারি ব্যুরো, Jarmin and O'Hara (2016) । পরিসংখ্যান সুইডেনে প্রশাসনিক রেকর্ডের অনুসন্ধানের একটি বইয়ের দৈর্ঘ্যের চিকিত্সার জন্য দেখুন Wallgren and Wallgren (2007) ।

অধ্যায় ইন, আমি সংক্ষিপ্তভাবে একটি সামাজিক মিডিয়া তথ্য উত্স যেমন টুইটার হিসাবে সাধারণ সামাজিক সার্ভে (GSS) হিসাবে একটি ঐতিহ্যগত জরিপ তুলনা। ঐতিহ্যগত জরিপ এবং সোশ্যাল মিডিয়া ডেটাগুলির মধ্যে একটি পুঙ্খানুপুঙ্খ এবং সতর্কতার সাথে তুলনা করার জন্য, Schober et al. (2016) দেখুন Schober et al. (2016)

বড় তথ্য সাধারণ বৈশিষ্ট্য (বিভাগ 2.3)

বিভিন্ন লেখকের বিভিন্ন ধরনের বিভিন্ন উপায়ে বিভিন্ন ধরনের বিভিন্ন উপায়ে এই 10 টি বৈশিষ্ট্যের উল্লেখ করা হয়েছে। এই বিষয়গুলিতে আমার চিন্তাভাবনাকে প্রভাবিত করে লেখা Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) Lazer (2015) , Lazer (2015) , Horton and Tambe (2015) Japec et al. (2015) Horton and Tambe (2015) , Japec et al. (2015) , এবং Goldstone and Lupyan (2016) ।

এই অধ্যায়ের মধ্যে, আমি শব্দটি ডিজিটাল ট্রেস শব্দটি ব্যবহার করেছি, যা আমি অপেক্ষাকৃত নিরপেক্ষ মনে করি। ডিজিটাল ট্রেসগুলির জন্য আরেকটি জনপ্রিয় শব্দ হচ্ছে ডিজিটাল পদাঙ্ক (Golder and Macy 2014) , কিন্তু হ্যাল অ্যাবেলসন, কেইন লেডিন এবং হ্যারি লুইস (2008) মতে, আরো উপযুক্ত শব্দ সম্ভবত ডিজিটাল আঙুলের ছাপগুলি । যখন আপনি পদচিহ্নগুলি তৈরি করেন, তখন আপনি কি ঘটছে তা সচেতন থাকেন এবং ব্যক্তিগতভাবে আপনার পদচিহ্নগুলির সন্ধান করতে পারেন না। আপনার ডিজিটাল ট্রেসগুলির জন্যও এটি সত্য নয়। প্রকৃতপক্ষে, আপনি যে সময় সম্পর্কে খুব সামান্য জ্ঞান আছে তার সব সময় ট্রেইস ত্যাগ করছেন। এবং, যদিও এই চিহ্নগুলি আপনার উপর আপনার নাম নেই, তারা প্রায়ই আপনি ফিরে সংযুক্ত হতে পারে। অন্য কথায়, তারা আরও আঙুলের ছাপের মতো: অদৃশ্য এবং ব্যক্তিগতভাবে সনাক্তকরণ।

বিগ (অধ্যায় 2.3.1)

কেন বৃহৎ ডেটাসেট পরিসংখ্যানগত পরীক্ষাগুলি সমস্যাযুক্ত করে M. Lin, Lucas, and Shmueli (2013) এবং McFarland and McFarland (2015) । পরিসংখ্যান তাত্পর্যের পরিবর্তে এই বিষয়গুলি গবেষকদের বাস্তব তাত্পর্যের উপর ফোকাস করতে উত্সাহিত করবে।

রাজ চট্টি এবং সহকর্মীদের ট্যাক্স রেকর্ডে অ্যাক্সেসের বিষয়ে আরও জানতে, Mervis (2014) ।

বড় ডেটাসেটগুলি কম্পিউটেশনাল সমস্যা তৈরি করতে পারে যা সাধারণত একক কম্পিউটারের ক্ষমতা অতিক্রম করে। অতএব, বৃহৎ ডেটাসেটে গণনা করা গবেষকরা প্রায়শই অনেক কম্পিউটারে কাজ ছড়িয়ে দেয়, একটি প্রক্রিয়া যা কখনোই সমান্তরাল প্রোগ্রামিং নামে পরিচিত হয়। সমান্তরাল প্রোগ্রামিংয়ের একটি ভূমিকা জন্য, বিশেষ করে Hadoop নামক একটি ভাষা, Vo and Silvia (2016) ।

সর্বদা (অধ্যায় 2.3.2)

সর্বদা উপর তথ্য বিবেচনা করার সময়, আপনি সময়ের সাথে সঠিক ব্যক্তিদের তুলনা হয় কিনা তা বিবেচনা করা গুরুত্বপূর্ণ বা আপনি মানুষের পরিবর্তিত গ্রুপ তুলনা হয় কিনা তা বিবেচনা করা; উদাহরণস্বরূপ দেখুন, Diaz et al. (2016)

অ-প্রতিক্রিয়াশীল (বিভাগ ¿সেক: অ-প্রতিক্রিয়াশীল? )

Nonreactive পদক্ষেপ একটি ক্লাসিক বই Webb et al. (1966) । সেই বইয়ের উদাহরণ ডিজিটাল যুগের পূর্বাভাস দেয়, তবে তারা এখনও আলোকপাত করে। গণ নজরদারির উপস্থিতি কারণে মানুষ তাদের আচরণ পরিবর্তন উদাহরণ, Penney (2016) এবং Brayne (2014) ।

প্রতিক্রিয়াশীলতা ঘনিষ্ঠভাবে কি গবেষকরা দাবি প্রভাব (Orne 1962; Zizzo 2010) এবং Hawthorne প্রভাব (Adair 1984; Levitt and List 2011) ।

অসম্পূর্ণ (অধ্যায় 2.3.4)

রেকর্ড লিঙ্কেনের জন্য আরো দেখুন, Dunn (1946) এবং Fellegi and Sunter (1969) (ঐতিহাসিক) এবং Larsen and Winkler (2014) (আধুনিক)। ডেটা ডিডুপ্লিকেশন, ইনস্ট্যান্স শনাক্তকরণ, নাম মিলে যাওয়া, ডুপ্লিকেট ডিটেকশন এবং ডুপ্লিকেট রেকর্ড সনাক্তকরণ (Elmagarmid, Ipeirotis, and Verykios 2007) মতো কম্পিউটার বিজ্ঞানের অনুরূপ পদ্ধতিগুলিও উন্নত করা হয়েছে। ব্যক্তিগত তথ্য সনাক্তকরণ (Schnell 2013) এর ট্রান্সমিশন প্রয়োজন হয় না এমন লিংক রেকর্ড করার গোপনীয়তা রক্ষা পন্থা আছে। ফেসবুক তাদের রেকর্ড ভোটিং আচরণ লিঙ্ক একটি প্রক্রিয়া উন্নত করেছে; এই একটি পরীক্ষার মূল্যায়ন করা হয় যা আমি আপনাকে অধ্যায়ের 4 সম্পর্কে বলবো (Bond et al. 2012; Jones et al. 2013) ।

কনস্ট্রাক্ট বৈধতা আরো জানার জন্য, 3 অধ্যায় দেখুন Shadish, Cook, and Campbell (2001) ।

অপ্রত্যাশিত (বিভাগ 2.3.5)

এওএল অনুসন্ধান লগ দুর্বলতা সম্পর্কে আরো জানতে, Ohm (2010) । আমি পরীক্ষার বর্ণনা যখন আমি 4 অধ্যায়ে কোম্পানি এবং সরকার সঙ্গে অংশীদারি সম্পর্কে পরামর্শ প্রস্তাব। বেশ কয়েকজন লেখক অদূরদর্শিত তথ্যগুলির উপর নির্ভরশীল গবেষণার বিষয়ে উদ্বেগ প্রকাশ করেছেন, Huberman (2012) এবং boyd and Crawford (2012) ।

বিশ্ববিদ্যালয়ের গবেষকরা ডেটা অ্যাক্সেস অর্জন করার জন্য এক ভালো উপায় একজন ইন্টার্ন বা পরিদর্শন গবেষক হিসেবে একটি কোম্পানিতে কাজ করতে হয়. ডেটা অ্যাক্সেস সক্ষম ছাড়াও, এই প্রক্রিয়াকে সাহায্য করবে গবেষক সম্পর্কে কিভাবে ডেটা তৈরি করা হয়েছে, যা বিশ্লেষণ জন্য গুরুত্বপূর্ণ আরও জানতে.

সরকারি তথ্য অ্যাক্সেস লাভের শর্তাবলী অনুযায়ী, Mervis (2014) আলোচনা করে যে, কীভাবে রাজ চেতি ও সহকর্মীরা সামাজিক গতিশীলতার উপর গবেষণার কাজে ব্যবহার করের অ্যাক্সেস পায়।

অ-প্রতিনিধি (সেকেন্ড: অ-প্রতিনিধি)

একটি ধারণা হিসাবে "প্রতিনিধিত্বমূলক" ইতিহাসের আরও তথ্যের জন্য, Kruskal and Mosteller (1979a) Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979b) Kruskal and Mosteller (1979c) , Kruskal and Mosteller (1979c) এবং Kruskal and Mosteller (1979c) , এবং Kruskal and Mosteller (1979c) Kruskal and Mosteller (1980) ।

স্নো এবং ডল এবং হিল কাজ কাজ আমার সারসংক্ষেপ সংক্ষিপ্ত ছিল। কলেরাতে স্নো এর কাজের জন্য আরও দেখুন, Freedman (1991) । ব্রিটিশ ডাক্তারদের গবেষণা আরো দেখুন Doll et al. (2004) দেখুন Doll et al. (2004) এবং Keating (2014) ।

অনেক গবেষকরা জানতে পারবেন যে ডল এবং হিল মহিলা ডাক্তারদের কাছ থেকে এবং 35 বছরের নিচে ডাক্তারদের কাছ থেকে তথ্য সংগ্রহ করেছেন যদিও তারা ইচ্ছাকৃতভাবে এই ডেটা তাদের প্রথম বিশ্লেষণে ব্যবহার করেননি। তারা যুক্তি হিসাবে: "যেহেতু ফুসফুসের ক্যান্সার নারীদের 35 বছরের কম বয়সী পুরুষদের মধ্যে তুলনামূলকভাবে বিরল, তবে কয়েক বছর ধরে এই গ্রুপগুলিতে ফলপ্রসূ পরিসংখ্যান পাওয়া সম্ভব নয়। এই প্রাথমিক রিপোর্টে আমরা তাই 35 বছর বা তার বেশি বয়স্ক পুরুষদের প্রতি আমাদের মনোযোগ সীমিত। " Rothman, Gallacher, and Hatch (2013) , উত্তেজক শিরোনাম আছে" কেন প্রতিনিধিত্বমূলক এড়ানো উচিত, "মূল্যের জন্য আরো সাধারণ যুক্তি ইচ্ছাকৃতভাবে অ-প্রকাশমূলক তথ্য তৈরি করা।

গবেষকরা এবং সরকার যারা একটি সমগ্র জনসংখ্যার সম্পর্কে বিবৃতি করতে চান জন্য একটি প্রধান সমস্যা Nonrepresentativeness হয়। এটি কোম্পানির জন্য একটি উদ্বেগের থেকে কম, যা সাধারণত তাদের ব্যবহারকারীদের উপর দৃষ্টি নিবদ্ধ করা হয়। আরো তথ্যের জন্য এখানে ক্লিক করুন। আপনি কি আমাদেরঅবস্থান ও শর্তাবলীবুঝতে পেরেছেন? হ্যাঁ এই বাণিজ্যটি ইতিমধ্যেই অধিকৃত হয়ে গেছে। নিচে এই দাবীটিকে ডিসপুট করুন Buelens et al. (2014) ।

বড় ডেটা উত্সের অ প্রতিনিধির প্রকৃতি সম্পর্কিত উদ্বেগ প্রকাশকারী গবেষকদের উদাহরণের জন্য, boyd and Crawford (2012) , K. Lewis (2015b) Hargittai (2015) K. Lewis (2015b) , এবং Hargittai (2015) ।

সামাজিক সার্ভে এবং মহাজাগতিক গবেষণার লক্ষ্যে আরও বিস্তারিত তুলনা করার জন্য, Keiding and Louis (2016) ।

২009 সালের জার্মান নির্বাচনের ক্ষেত্রে, বিশেষ করে Jungherr (2013) এবং Jungherr (2015) দেখুন, Jungherr (2013) সাধারণীকরণের জন্য টুইটার ব্যবহার করার জন্য আরও বেশি চেষ্টা করুন। Tumasjan et al. (2010) এর কাজ পরবর্তী Tumasjan et al. (2010) বিশ্বের বিভিন্ন গবেষকরা বিভিন্ন ধরনের নির্বাচনের ভবিষ্যদ্বাণী করার জন্য টুইটারের তথ্যের দক্ষতা বৃদ্ধির জন্য দলগুলোর ইতিবাচক ও নেতিবাচক উল্লেখগুলির মধ্যে পার্থক্য সঞ্চার বিশ্লেষণের মতো ব্যবহার (Gayo-Avello 2013; Jungherr 2015, chap. 7.) । এখানে Huberty (2015) নির্বাচনের পূর্বাভাসের জন্য এই প্রচেষ্টার ফলাফলগুলির সারসংক্ষেপ করেছেন:

"সোশ্যাল মিডিয়ার উপর ভিত্তি করে সমস্ত পরিচিত পূর্বাভাস পদ্ধতি ব্যর্থ হয়েছে যখন সত্যিকারের ফৌজদারী নির্বাচনী পূর্বাভাসের দাবির সম্মুখীন হয়। এই ব্যর্থতা পদ্ধতিগত বা অ্যালগরিদম সংক্রান্ত সমস্যাগুলির পরিবর্তে সামাজিক মিডিয়াগুলির মৌলিক বৈশিষ্ট্যগুলির কারণে দেখা যায়। সংক্ষেপে, সোশ্যাল মিডিয়া না, এবং সম্ভবত কখনও হবে না, ভোটের একটি স্থিতিশীল, নিরপেক্ষ, প্রতিনিধিত্বমূলক ছবি দেখাবে; এবং সামাজিক মিডিয়া সুবিধার নমুনা এই সমস্যা পোস্ট হক ঠিক করার জন্য যথেষ্ট তথ্য অভাব। "

অধ্যায় 3, আমি অনেক বড় বিবরণের মধ্যে নমুনা এবং আনুমানিক বর্ণনা করব। এমনকি যদি কিছু নির্দিষ্ট অবস্থার অধীনে তথ্য অনিয়ন্ত্রিত হয় তবে তাদের ভাল অনুমান তৈরিতে ওজন করা যেতে পারে।

ড্রিফটিং (সেকশন ¿সেক: ড্রিফটিং? )

সিস্টেম ড্রিফট বাইরে থেকে দেখতে খুব কঠিন। যাইহোক, সিনেমা লেনস প্রকল্প (অধ্যায় 4 এ আরো আলোচনা করা হয়েছে) একটি একাডেমিক গবেষণা গ্রুপ দ্বারা 15 বছরের বেশি সময় ধরে চালানো হয়েছে। এইভাবে, তারা সময় নথিভুক্ত পদ্ধতি এবং কিভাবে এই বিশ্লেষণ (Harper and Konstan 2015) প্রভাব ফেলতে পারে সেই পদ্ধতি সম্পর্কে তথ্য দস্তাবেজ এবং শেয়ার করতে সক্ষম হয়েছে।

বেশ কয়েকজন পণ্ডিত টুইটারে ড্রিফ্টের উপর দৃষ্টি নিবদ্ধ করেছেন: Liu, Kliman-Silver, and Mislove (2014) এবং Liu, Kliman-Silver, and Mislove (2014) Tufekci (2014) ।

জনসংখ্যা বৃদ্ধির সাথে মোকাবিলা করার এক উপায় ব্যবহারকারীদের একটি প্যানেল তৈরি করা, যা গবেষকরা সময়ের সাথে একই ব্যক্তিদের অধ্যয়ন করতে দেয়, Diaz et al. (2016) দেখুন Diaz et al. (2016)

অ্যালগরিদমভাবে বিশৃঙ্খলা (সেকশন ¿সেকেন্ড: algorthmically-confounded? )

আমি প্রথম একটি কথার মধ্যে Jon Kleinberg দ্বারা ব্যবহৃত "অ্যালগরিদমভাবে বিভ্রান্ত" শব্দটি শুনেছি, কিন্তু দুর্ভাগ্যবশত আমি মনে করি না কখন বা যেখানে বক্তৃতা দেওয়া হয়েছিল। প্রথমবার আমি প্রিন্টে শব্দটি দেখেছিলাম Anderson et al. (2015) , যা ডেটিং সাইটের দ্বারা ব্যবহৃত অ্যালগরিদমগুলি কীভাবে আকর্ষণীয় ওয়েবসাইটগুলি ব্যবহার করে এই ওয়েবসাইটগুলির তথ্য ব্যবহার করে গবেষকরা 'সামাজিক পছন্দগুলি অধ্যয়ন করতে পারে তার একটি আকর্ষণীয় আলোচনা। এই উদ্বেগ K. Lewis (2015a) দ্বারা উত্থাপিত হয়েছিল K. Lewis (2015a) Anderson et al. (2014) প্রতিক্রিয়া Anderson et al. (2014) ।

ফেসবুকের পাশাপাশি, টুইটার ব্যবহারকারীরা ত্রিপক্ষীয় বন্ধের ধারণাটির ভিত্তিতে অনুসরণ করার জন্য ব্যবহারকারীদের সুপারিশ করে; Su, Sharma, and Goel (2016) । তাই টুইটারে ত্রিপক্ষীয় বন্ধন স্তর ত্রিপক্ষীয় বন্ধন এবং ত্রিদিক বন্ধন উন্নীত করার জন্য কিছু অ্যালগরিদম প্রবণতা সম্পর্কে কিছু মানুষের প্রবণতা সংমিশ্রণ।

পারফরম্যান্সের জন্য আরো কিছু বিষয়- বিশেষ করে ধারণা যে কিছু সামাজিক বিজ্ঞান তত্ত্ব "ইঞ্জিনগুলি ক্যামেরা নয়" (অর্থাৎ, তারা শুধু এটি বর্ণনা করার পরিবর্তে বিশ্বকে আকৃষ্ট করে) -মাইকেজী Mackenzie (2008) ।

নোংরা (অধ্যায় 2.3.9)

সরকারী পরিসংখ্যান সংস্থা পরিসংখ্যানগত তথ্য সম্পাদন পরিষ্কার করে তথ্য কল করে। De Waal, Puts, and Daas (2014) জরিপের তথ্য বিশ্লেষণের জন্য পরিসংখ্যানগত তথ্য সম্পাদন কৌশল বর্ণনা করে এবং সেগুলি বড় তথ্য উৎসগুলিতে কতটুকু প্রযোজ্য তা পরীক্ষা করে, এবং Puts, Daas, and Waal (2015) একই ধারার কিছু উপস্থাপন করে একটি আরো সাধারণ শ্রোতা

সামাজিক বটসগুলির একটি সংক্ষিপ্তসার জন্য দেখুন, Ferrara et al. (2016) টুইটারে স্প্যাম সন্ধানের উপর ভিত্তি করে গবেষণার কিছু উদাহরণের জন্য দেখুন Clark et al. (2016) এবং Chu et al. (2012) । অবশেষে Subrahmanian et al. (2016) DARPA টুইটার বিট চ্যালেঞ্জের ফলাফল বর্ণনা করে, টুইটারে বট সনাক্তকরণের জন্য পন্থার তুলনা করার জন্য তৈরি একটি গণসংযোগ।

সংবেদনশীল (অধ্যায় 2.3.10)

Ohm (2015) সংবেদনশীল তথ্য ধারণার আগে গবেষণা গবেষণা এবং একটি বহু ফ্যাক্টর পরীক্ষা প্রস্তাব। তিনি প্রস্তাবিত চারটি কারণ ক্ষতির পরিমাণ, ক্ষতির সম্ভাবনা, গোপনীয় সম্পর্কের উপস্থিতি এবং ঝুঁকি প্রধানতীয় উদ্বেগকে প্রতিফলিত করে কিনা।

জিনিসগুলি গণনা (সেকশন 2.4.1)

নিউ ইয়র্কের ফারবারের ট্যাক্সির অধ্যয়ন Camerer et al. (1997) একটি পূর্ববর্তী গবেষণার উপর ভিত্তি করে করা হয়েছিল Camerer et al. (1997) পত্রিকায় তিনটি ভিন্ন সুবিধার নমুনা ব্যবহৃত হয়েছিল। এই পূর্ববর্তী গবেষণায় দেখা গেছে যে ড্রাইভারগুলি লক্ষ্যমাত্রা অর্জনকারী বলে মনে হয়: তারা এমন দিনে কম কাজ করে, যেখানে তাদের মজুরি ছিল উচ্চতর।

পরবর্তীতে কাজ, রাজা এবং সহকর্মীরা আরও চীন (King, Pan, and Roberts 2014, [@king_how_2016] ) অনলাইন সেন্সরশিপ অনুসন্ধান করেছেন। চীনে অনলাইন সেন্সরশিপের পরিমাপের একটি প্রাসঙ্গিক পদ্ধতির জন্য, Bamman, O'Connor, and Smith (2012) । Hopkins and King (2010) দেখুন, 11 মিলিয়ন পোস্টের অনুভূতি অনুমান করার জন্য King, Pan, and Roberts (2013) ব্যবহৃত পরিসংখ্যান পদ্ধতির মতো আরো অনেক কিছু দেখুন। তত্ত্বাবধানে শেখার জন্য আরো দেখুন, James et al. (2013) (কম টেকনিক্যাল) এবং Hastie, Tibshirani, and Friedman (2009) (আরো প্রযুক্তিগত)।

পূর্বাভাস এবং nowcasting (বিভাগ 2.4.2)

পূর্বাভাস শিল্পের তথ্য বিজ্ঞান (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) একটি বড় অংশ। এক ধরনের পূর্বাভাস যা সাধারণত সামাজিক গবেষকদের দ্বারা করা হয় ডেমোগ্রাফিক পূর্বাভাস; দেখুন, উদাহরণস্বরূপ, Raftery et al. (2012) ।

গুগল ফ্লু ট্রেন্ডস প্রথম প্রোজেক্ট ছিল না যা এখন ইনফ্লুয়েঞ্জা প্রজন্মের সন্ধানে ব্যবহার করে। প্রকৃতপক্ষে, যুক্তরাষ্ট্রে (Polgreen et al. 2008; Ginsberg et al. 2009) এবং সুইডেন (Hulth, Rydevik, and Linde 2009) দেখিয়েছেন যে কিছু নির্দিষ্ট অনুসন্ধান পদ (যেমন, "ফ্লু") জাতীয় জনস্বাস্থ্য পর্যবেক্ষণের পূর্বাভাস দিয়েছে তথ্য প্রকাশের আগে পরবর্তীতে অনেকগুলি, অনেকগুলি প্রকল্প রোগ পর্যবেক্ষণ নজরদারির জন্য ডিজিটাল ট্রেস ডেটা ব্যবহার করার চেষ্টা করেছে; Althouse et al. (2015) দেখুন Althouse et al. (2015) একটি পর্যালোচনা জন্য।

স্বাস্থ্য পরিমাপের ভবিষ্যদ্বাণী করার জন্য ডিজিটাল ট্রেস ডেটা ব্যবহার করার পাশাপাশি, নির্বাচনের ফলাফলের পূর্বাভাসের জন্য টুইটারের তথ্য ব্যবহার করে প্রচুর পরিমাণে কাজ করা হয়েছে; Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (অধ্যায় 7) এবং Huberty (2015) । অর্থনৈতিক সূচক, যা গ্রস ডোমেস্টিক প্রডাক্ট (জিডিপি) হিসাবে বর্তমান, কেন্দ্রীয় ব্যাঙ্কগুলির মধ্যেও প্রচলিত রয়েছে, Bańbura et al. (2013) । টেবিল 2.8 এর কয়েকটি উদাহরণ অন্তর্ভুক্ত রয়েছে যা কিছুদিনের ডিজিটাল ট্র্যাস ব্যবহার করে ভবিষ্যতে কোন ধরণের ইভেন্টের ভবিষ্যদ্বাণী করতে পারে।

সারণি 2.8: কিছু ঘটনা ভবিষ্যদ্বাণী করার জন্য একটি বড় তথ্য উত্স ব্যবহার করে এমন গবেষণাগুলি
ডিজিটাল ট্রেস	ফলাফল	তলব
টুইটার	মার্কিন যুক্তরাষ্ট্রে চলচ্চিত্রের বক্স অফিস রাজস্ব	Asur and Huberman (2010)
অনুসন্ধান লগ	মার্কিন যুক্তরাষ্ট্রে চলচ্চিত্র, সঙ্গীত, বই, এবং ভিডিও গেম বিক্রয়	Goel et al. (2010)
টুইটার	ডো জোন্স ইন্ডাস্ট্রিয়াল এরিড (মার্কিন স্টক মার্কেট)	Bollen, Mao, and Zeng (2011)
সামাজিক মিডিয়া এবং অনুসন্ধান লগ	মার্কিন যুক্তরাষ্ট্র, যুক্তরাজ্য, কানাডা, এবং চীন বিনিয়োগকারী অনুভূতি এবং স্টক বাজারের সার্ভে	Mao et al. (2015)
অনুসন্ধান লগ	সিঙ্গাপুর এবং ব্যাংকক ডেঙ্গু জ্বরের প্রাদুর্ভাব	Althouse, Ng, and Cummings (2011)

অবশেষে, জন ক্লেইনবার্গ এবং সহকর্মীরা (2015) পূর্বাভাস দেওয়া হয়েছে যে, পূর্বাভাসের সমস্যাগুলি দুই ভাগে বিভক্ত হয়ে পড়েছে এবং বিভিন্ন সামাজিক বিজ্ঞানীরা একের উপর মনোযোগ কেন্দ্রীভূত করেছে এবং অন্যান্যদের উপেক্ষা করেছে এক নীতিনির্ধারক কল্পনা করুন, আমি তাকে আনা আহ্বান করব, যিনি খরা কাটিয়ে উঠবেন এবং একটি শামুককে ভাড়া দিতে হবে কিনা তা নির্ধারণ করতে হবে যাতে বৃষ্টি বর্ষিতার সম্ভাবনা বেড়ে যায়। আরেকটি নীতিনির্ধারক, আমি তার বেটিকে ফোন করবো, তা অবশ্যই সিদ্ধান্ত নিতে হবে যে, বাড়ির পথে ভেজা না হওয়া থেকে কাজ করার জন্য একটি ছাতা নিতে হবে। আন্না এবং বেটি উভয়ই আবহাওয়া বুঝতে পারলে ভাল সিদ্ধান্ত নিতে পারেন, তবে তাদের বিভিন্ন বিষয় জানতে হবে। আন্নাকে বোঝাতে হবে যে বৃষ্টি নাচ করলে বৃষ্টি হয়। বেটি, অন্যদিকে, কার্যকারিতা সম্পর্কে কিছু বোঝার প্রয়োজন নেই; তিনি শুধু একটি সঠিক পূর্বাভাস প্রয়োজন সামাজিক গবেষকরা প্রায়ই অ্যানার মুখোমুখি হচ্ছেন এমন সমস্যাগুলির ওপর মনোযোগ কেন্দ্রীভূত করেন- ক্লেইনবার্গ ও সহকর্মীরা "বৃষ্টি নাচতে" নীতির সমস্যাগুলি বলে - কারণ তারা কার্যকারণের প্রশ্নগুলির অন্তর্ভুক্ত। ক্লেইনবার্গ ও সহকর্মীরা "ছাতা-মত" নীতির সমস্যাগুলি বলে বেত্তির মুখোমুখি দাঁড় করায় এমন প্রশ্নগুলি -ও অত্যন্ত গুরুত্বপূর্ণ হতে পারে, তবে সামাজিক গবেষকদের কাছ থেকে খুব কম মনোযোগ পেয়েছেন।

পরিণাম পরীক্ষা (বিভাগ 2.4.3)

জার্নাল পিএস পলিটিক্যাল সায়েন্সের বৃহত তথ্য, কার্যকারিতার পরিপন্থী এবং আনুষ্ঠানিক তত্ত্বের উপর একটি সিম্পোজিয়াম ছিল, এবং Clark and Golder (2015) প্রতিটি অবদানকে Clark and Golder (2015) । যুক্তরাজ্যের ন্যাশনাল অ্যাকাডেমি অব সায়েন্সেসের জার্নাল প্রিসিডিংসগুলোতে কার্যকারিতার পরিপ্রেক্ষিতে একটি সিম্পোজিয়াম এবং বড় তথ্য রয়েছে এবং Shiffrin (2016) প্রতিটি অবদানকে সারসংক্ষেপে উল্লেখ করেছেন মেশিন লার্নিং পদ্ধতির জন্য যা স্বয়ংক্রিয়ভাবে বড় তথ্য উত্সের প্রাকৃতিক পরীক্ষাগুলি আবিষ্কার করার চেষ্টা করে, Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , এবং Sharma, Hofman, and Watts (2016) ।

প্রাকৃতিক পরীক্ষার ক্ষেত্রে, Dunning (2012) অনেক উদাহরণ দিয়ে একটি পরিচায়ক, বইয়ের দৈর্ঘ্যের চিকিত্সা প্রদান করে। প্রাকৃতিক গবেষণার একটি সংশয়বাদী দৃষ্টিভঙ্গির জন্য, Rosenzweig and Wolpin (2000) (অর্থনীতি) বা Sekhon and Titiunik (2012) (রাজনৈতিক বিজ্ঞান) দেখুন। Deaton (2010) এবং Heckman and Urzúa (2010) প্রাকৃতিক গবেষণার উপর মনোযোগ কেন্দ্রীকরণ অসামান্য কার্যকারিতার প্রভাব অনুমান উপর ফোকাস করতে পারে গবেষণায় যে যুক্তি; Imbens (2010) প্রাকৃতিক পরীক্ষার মান একটি আরো আশাবাদী মতামত এই আর্গুমেন্ট কাউন্টার।

একটি গবেষক পরিবেশন প্রভাব থেকে drafted হচ্ছে প্রভাব অনুমান থেকে যেতে পারে কিভাবে বর্ণনা যখন, আমি instrumental ভেরিয়েবল নামক একটি কৌশল বর্ণনা ছিল। Imbens and Rubin (2015) , তাদের অধ্যায় 23 এবং 24, একটি ভূমিকা প্রদান এবং একটি উদাহরণ হিসাবে খসড়া লটারি ব্যবহার। অভিযোগকারীদের উপর সামরিক পরিষেবাটির প্রভাবকে কখনও কখনও সমীচীন গড় কার্যকারিতা প্রভাব (সিএসিই) বলা হয় এবং কখনও কখনও স্থানীয় গড় চিকিত্সা প্রভাব (লাইট)। Sovey and Green (2011) , Angrist and Krueger (2001) , এবং Bollen (2012) রাজনৈতিক বিজ্ঞান, অর্থনীতি, এবং সমাজবিজ্ঞানে সহায়ক ভেরিয়েবলের ব্যবহার পর্যালোচনা করে এবং Sovey and Green (2011) একটি "পাঠকের চেকলিস্ট" প্রদান করে বাদ্যযন্ত্র ভেরিয়েবল ব্যবহার করে গবেষণা মূল্যায়ন

এটি দেখায় যে 1970 খসড়া লটারি ছিল না, আসলে সঠিকভাবে র্যান্ডম; বিশুদ্ধ রেনেসা (Fienberg 1971) থেকে ছোট বিচ্যুতি ছিল। Berinsky and Chatfield (2015) যুক্তি দেয় যে এই ছোট বিচ্যুতি প্রকৃতপক্ষে গুরুত্বপূর্ণ নয় এবং সঠিকভাবে পরিচালিত র্যান্ডমাইজেশনের গুরুত্ব নিয়ে আলোচনা করে।

মিলনের ক্ষেত্রে, একটি আশাবাদী পর্যালোচনা জন্য Stuart (2010) , এবং একটি নিন্দাবাদী পর্যালোচনা জন্য Sekhon (2009) । আরো তথ্যের জন্য এখানে ক্লিক করুন Ho et al. (2007) । প্রতিটি ব্যক্তির জন্য একটি একক নিখুঁত মিল খোঁজা প্রায়ই কঠিন হয়, এবং এই জটিলতার একটি সংখ্যা প্রবর্তন প্রথমত, যখন যথাযথ মিল পাওয়া যায় না, তখন গবেষকরা সিদ্ধান্ত নিতে হবে যে দুটি ইউনিটের মধ্যে দূরত্ব কতটা পরিমাপ করা যায় এবং যদি নির্দিষ্ট দূরত্বটি যথেষ্ট না হয়। দ্বিতীয় জটিলতার সৃষ্টি হয় যদি গবেষকরা চিকিত্সা গ্রুপে প্রতিটি ক্ষেত্রে একাধিক মিল ব্যবহার করতে চায়, কারণ এটি আরো সুনির্দিষ্ট অনুমানের দিকে পরিচালিত করতে পারে। এই উভয় বিষয়, পাশাপাশি অন্যদের, বিস্তারিত Imbens and Rubin (2015) অধ্যায় 18 Imbens and Rubin (2015) । ( ??? ) অংশ II দেখুন।

একটি উদাহরণ জন্য Dehejia and Wahba (1999) দেখুন যেখানে মিলিত পদ্ধতি একটি randomized নিয়ন্ত্রিত পরীক্ষা থেকে অনুরূপ আনুমানিক উত্পাদন করতে সক্ষম ছিল। কিন্তু, এমন একটি দৃষ্টান্তের জন্য Arceneaux, Gerber, and Green (2006) এবং Arceneaux, Gerber, and Green (2010) যেখানে মিলিত পদ্ধতি একটি পরীক্ষামূলক ব্যানারমার্ক তৈরি করতে ব্যর্থ হয়েছে।

Rosenbaum (2015) এবং Hernán and Robins (2016) বড় তথ্য উত্সের মধ্যে দরকারী তুলনা আবিষ্কারের জন্য অন্য পরামর্শ প্রদান করে।