বড় তথ্য উত্স সর্বত্র আছে, কিন্তু সামাজিক গবেষণা জন্য তাদের ব্যবহার চতুর হতে পারে। আমার অভিজ্ঞতাতে, ডেটাগুলির জন্য "কোনও ফ্রি লাঞ্চ" রীতির মতো কিছু নেই: যদি আপনি প্রচুর পরিমাণে এটি সংগ্রহ করেন না, তাহলে আপনি সম্ভবত অনেক কাজ করাতে পারেন এবং এটি সম্পর্কে চিন্তা করতে পারেন এটা বিশ্লেষণ।
আজকের বড় ডেটা উত্স এবং সম্ভবত আগামীকাল-এর 10 টি বৈশিষ্ট্য থাকবে এই তিনটি সাধারণত (কিন্তু সবসময় না) গবেষণা জন্য সহায়ক: বড়, সর্বদা অন, এবং nonreactive সাতটি সাধারণ (কিন্তু সর্বদা নয়) গবেষণার জন্য সমস্যাযুক্ত: অসম্পূর্ণ, অপ্রাসঙ্গিক, অ-প্রতিনিধিত্বশীল, ড্রিফ্টিং, অ্যালগরিদমভাবে বিশৃঙ্খল, নোংরা এবং সংবেদনশীল। এই বৈশিষ্ট্যগুলির বেশিরভাগই উদ্ভূত হয়, কারণ সামাজিক গবেষণার উদ্দেশ্যে বড় তথ্য উত্স তৈরি করা হয়নি।
এই অধ্যায়ে ধারণার উপর ভিত্তি করে, আমি মনে করি যে তিনটি প্রধান উপায় আছে যা সামাজিক তথ্যগুলির জন্য বড় তথ্য উৎসগুলি সবচেয়ে মূল্যবান হবে। প্রথমত, তারা গবেষকেরা প্রতিযোগিতামূলক তাত্ত্বিক পূর্বাভাসগুলির মধ্যে সিদ্ধান্ত নিতে সক্ষম করতে পারেন। এই ধরনের কাজের উদাহরণ Farber (2015) অন্তর্ভুক্ত Farber (2015) (নিউ ইয়র্ক ট্যাক্সি ড্রাইভার) এবং King, Pan, and Roberts (2013) (চীন মধ্যে সেন্সরশিপ)। দ্বিতীয়ত, বড় তথ্য উত্স এখনকারের মাধ্যমে নীতির জন্য উন্নত পরিমাপ সক্ষম করতে পারে। এই ধরনের কাজ একটি উদাহরণ Ginsberg et al. (2009) (গুগল ফ্লু ট্রেন্ডস)। অবশেষে, বড় ডেটা উত্স গবেষকরা পরীক্ষাগুলি চালিয়ে যাওয়া ছাড়া কার্যকরী অনুমান করতে সহায়তা করে। এই ধরনের কাজের উদাহরণ Mas and Moretti (2009) (উৎপাদনশীলতার উপর প্রভাব) এবং Einav et al. (2015) (ইবে এ নিলামে দাম শুরু প্রভাব)। যাইহোক, এই পন্থাগুলির প্রত্যেকটি গবেষকদের তথ্য উপাত্তের জন্য অনেক কিছু নিয়ে আসতে প্রয়োজন, যেমন পরিমাণের সংজ্ঞা যা অনুমান করা গুরুত্বপূর্ণ বা প্রতিদ্বন্দ্বী ভবিষ্যদ্বাণী করা দুটি তত্ত্ব। এইভাবে, আমি মনে করি যে, বড় তথ্য উৎসগুলি কীভাবে করতে পারে তা চিন্তা করার সর্বোত্তম উপায় হচ্ছে, তারা এমন গবেষকদের সাহায্য করতে পারে যারা আগ্রহী ও গুরুত্বপূর্ণ প্রশ্নগুলি জিজ্ঞাসা করতে পারে।
শেষ হওয়ার আগে, আমি মনে করি যে তথ্য ও তত্ত্বের মধ্যে সম্পর্কের ওপর বড় তথ্য উত্সগুলির একটি গুরুত্বপূর্ণ প্রভাব থাকতে পারে তা বিবেচনা করা উচিত। এ পর্যন্ত, এই অধ্যায়ে তত্ত্ব ভিত্তিক গবেষণামূলক গবেষণা পদ্ধতি গ্রহণ করেছে। কিন্তু বড় তথ্য সূত্র গবেষকরা কৃত্রিমভাবে চালিত থিরাইজিং করতে সক্ষম করে। যে, পরীক্ষামূলক অনুভূতি, নিদর্শন, এবং পাজল যত্নশীল সংগ্রহ মাধ্যমে, গবেষকরা নতুন তত্ত্ব গড়ে তুলতে পারেন। এই বিকল্পটি, তথ্য-তত্ত্বের প্রথম পদ্ধতিটি নতুন নয় এবং এটি স্থিরকৃত তত্ত্বের জন্য তাদের কল দিয়ে বার্নি গ্লাসার এবং অ্যাঞ্জেলম স্ট্রস (1967) দ্বারা সর্বাধিক জোরালোভাবে রচনা করা হয়েছিল। ডিজিটাল যুগে (Anderson 2008) গবেষণা সম্পর্কে সাংবাদিকতার কয়েকটি দাবিতে এই তথ্য-প্রথম দৃষ্টিভঙ্গিটি "তত্ত্বের শেষ" বলে উল্লেখ করে না। পরিবর্তে, তথ্য পরিবেশ পরিবর্তন হিসাবে, আমরা তথ্য এবং তত্ত্বের মধ্যে সম্পর্কের মধ্যে একটি rebalancing আশা করা উচিত। এমন একটি জগতে যেখানে তথ্য সংগ্রহ ব্যয়বহুল ছিল, এটি শুধুমাত্র তথ্য সংগ্রহ করার জন্য জ্ঞান ছিল যা তত্ত্বগুলি সর্বাপেক্ষা কার্যকর হবে। কিন্তু, এমন একটি জগতে যেখানে প্রচুর পরিমাণে তথ্য বিনামূল্যে ইতিমধ্যেই পাওয়া যায়, এটি একটি ডাটা-প্রথম পদ্ধতি (Goldberg 2015) চেষ্টা করেও বোঝায়।
আমি এই অধ্যায়ে দেখানো হয়েছে, গবেষকরা মানুষ দেখতে অনেক জানতে পারেন। পরবর্তী তিনটি অধ্যায়গুলিতে, আমি বর্ণনা করব যে কিভাবে আমরা আরও তথ্য এবং অন্যান্য বিষয়গুলি শিখতে পারি যদি আমরা আমাদের তথ্য সংগ্রহের সাথে তুলনা করি এবং লোকেদের সাথে আরো কিছু প্রশ্ন জিজ্ঞাসা করে (অধ্যায় 3), পরীক্ষামূলক পরীক্ষাগুলি (অধ্যায় 4) এবং তাদের সাথে জড়িত গবেষণা প্রক্রিয়া সরাসরি (অধ্যায় 5)।