আপনার বড় তথ্য কোন ব্যাপার বড়, এটি সম্ভবত আপনি চান তথ্য নেই।
সবচেয়ে বড় তথ্য উত্স অসম্পূর্ণ , অর্থে যে আপনার কাছে আপনার গবেষণা জন্য চাইবে যে তথ্য নেই। এটি এমন তথ্যগুলির একটি সাধারণ বৈশিষ্ট্য যা গবেষণা ব্যতীত অন্য উদ্দেশ্যে তৈরি করা হয়েছে। অনেক সামাজিক বিজ্ঞানী ইতিমধ্যে অসম্পূর্ণতা মোকাবেলা করার অভিজ্ঞতা পেয়েছেন, যেমন একটি বিদ্যমান জরিপ যা প্রয়োজন ছিল না জিজ্ঞাসা করা হয়নি দুর্ভাগ্যক্রমে, অস্পষ্টতার সমস্যা বড় তথ্যতে আরো বেশি চরম হয়ে থাকে। আমার অভিজ্ঞতাতে, বড় তথ্য সামাজিক অনুসন্ধানের জন্য তিন ধরনের তথ্য উপভোগ করতে থাকে: অংশগ্রহণকারীদের সম্পর্কে ডেমোগ্রাফিক তথ্য, অন্যান্য প্লাটফর্মের আচরণ এবং তাত্ত্বিক গঠনগুলি পরিচালনা করার জন্য ডেটা।
তিন ধরনের অসম্পূর্ণতার মধ্যে, তাত্ত্বিক কাঠামোকে কার্যকর করার জন্য অসম্পূর্ণ ডেটার সমস্যাটি সমাধান করা খুবই কঠিন। এবং আমার অভিজ্ঞতা, এটি প্রায়ই ঘটনাক্রমে পরিচয় হয়। মোটামুটিভাবে, তাত্ত্বিক নির্মান বিমূর্ত ধারণা যে সমাজ বিজ্ঞানীদের অধ্যয়ন এবং operationalizing একটি তাত্ত্বিক কনস্ট্রাক্ট কিছু উপায় প্রস্তাব যে পর্যবেক্ষণযোগ্য ডেটার সাথে গঠন করা ক্যাপচার মানে হয়। দুর্ভাগ্যক্রমে, এই সহজ-ধ্বনি প্রক্রিয়াটি বেশ কঠিন হয়ে পড়ে। উদাহরণস্বরূপ, আসুন আমরা কল্পনা করি কল্পনা করতে চেষ্টা করি যে, যারা আরও বুদ্ধিমান, তারা আরো অর্থ উপার্জন করে। এই দাবিটি পরীক্ষা করার জন্য, আপনাকে "বুদ্ধি" পরিমাপ করতে হবে। কিন্তু বুদ্ধি কী? Gardner (2011) যুক্তি দেন যে প্রকৃতপক্ষে আটটি ভিন্ন বুদ্ধিমত্তা রয়েছে এবং সেখানে এমন পদ্ধতি আছে যা সঠিকভাবে বুদ্ধিমত্তার কোনও উপাদানের পরিমাপ করতে পারে? মনোবিজ্ঞানী দ্বারা প্রচুর পরিমাণে কাজ সত্ত্বেও, এই প্রশ্নগুলি এখনও স্পষ্ট উত্তর নেই।
সুতরাং, এমনকি একটি অপেক্ষাকৃত সহজ দাবি- যারা আরো বুদ্ধিমান আরো অর্থ উপার্জন করতে পারেন- empirically মূল্যায়ন করা কঠিন হতে পারে কারণ তথ্যগুলিতে তাত্ত্বিক গঠনগুলি পরিচালনা করা কঠিন হতে পারে। তাত্ত্বিক গঠনগুলির অন্য উদাহরণগুলি যা প্রয়োগ করা গুরুত্বপূর্ণ কিন্তু কঠোর পরিশ্রমের অন্তর্ভুক্ত "নীতিমালা," "সামাজিক পুঁজি" এবং "গণতন্ত্র।" সামাজিক বিজ্ঞানী তত্ত্বগত গঠন এবং তথ্য নির্মাণের বৈধতা (Cronbach and Meehl 1955) মধ্য দিয়ে ম্যাচটি আহ্বান করে। হিসাবে গঠন এই সংক্ষিপ্ত তালিকা প্রস্তাবিত, বৈধতা নির্মাণ একটি সমস্যা যে সামাজিক বিজ্ঞানী একটি খুব দীর্ঘ সময়ের জন্য সংগ্রাম করেছেন। কিন্তু আমার অভিজ্ঞতাতে, গবেষণার উদ্দেশ্যে তৈরি করা ডেটাগুলির সাথে কাজ করার সময়ও কার্যকরী বৈধতার সমস্যা এমনকি (Lazer 2015) ।
যখন আপনি একটি গবেষণা ফলাফল নির্ণয় করা হয়, একটি স্থায়ী বৈধতা মূল্যায়ন দ্রুত এবং দরকারী উপায় ফলাফল গ্রহণ করা হয়, যা সাধারণত গঠন অনুযায়ী প্রকাশ করা হয়, এবং ব্যবহৃত তথ্য পরিপ্রেক্ষিতে এটি পুনরায় প্রকাশ করা উদাহরণস্বরূপ, দুটি হাইপোথলেটিক স্টাডিজগুলি বিবেচনা করুন যে দাবি করে যে আরও বুদ্ধিমান ব্যক্তিরা আরও বেশি অর্থ উপার্জন করে। প্রথম গবেষণায়, গবেষক দেখিয়েছেন যে যারা Raven Progressive Matrices Test- এ বিশ্লেষণাত্মক বুদ্ধিমত্তার একটি সুশৃঙ্খল পরীক্ষা (Carpenter, Just, and Shell 1990) -তে ভালভাবে আয় করেছেন-তাদের ট্যাক্স রিটার্নে উচ্চতর আয়কৃত আয়। দ্বিতীয় গবেষণায়, গবেষক দেখিয়েছেন যে যারা বেশি শব্দ ব্যবহার করেছেন টুইটারে লোকেরা লন্ডন ব্র্যান্ডগুলি উল্লেখ করতে পারে। উভয় ক্ষেত্রেই, এই গবেষকরা দাবি করতে পারেন যে তারা আরও দেখিয়েছেন যে, যারা আরও বুদ্ধিমান তারা আরও অর্থ উপার্জন করে। যাইহোক, প্রথম গবেষণায় তাত্ত্বিক গঠনগুলি তথ্য দ্বারা ভালভাবে চালিত হয়, অন্যদিকে তারা দ্বিতীয় নয়। উপরন্তু, এই উদাহরণটি ব্যাখ্যা করে, আরো তথ্য স্বয়ংক্রিয়ভাবে নির্মাণ বৈধতা সঙ্গে সমস্যা সমাধান না। আপনি মিলিয়ন টুইট, একটি বিলিয়ন টুইট, বা একটি ট্রিলিয়ান টুইট জড়িত কিনা তা দ্বিতীয় অধ্যয়নের ফলাফল সন্দেহ করা উচিত। পরিকল্পনার বৈধতা ধারণা থেকে পরিচিত গবেষকদের জন্য, টেবিল 2.2 ডিজিটাল ট্রেস ডেটা ব্যবহার করে তাত্ত্বিক গঠন পরিচালিত গবেষণাগুলির কিছু উদাহরণ প্রদান করে।
তথ্য সূত্র | তাত্ত্বিক গঠন | তথ্যসূত্র |
---|---|---|
একটি বিশ্ববিদ্যালয় থেকে ইমেইল লগ (শুধুমাত্র মেটা-ডেটা) | সামাজিক সম্পর্ক | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
ওয়েইবোতে সোশ্যাল মিডিয়া পোস্ট | নাগরিক প্রবৃত্তি | Zhang (2016) |
একটি ফার্ম থেকে মেইল লগগুলি (মেটা-তথ্য এবং সম্পূর্ণ পাঠ) | একটি প্রতিষ্ঠানের মধ্যে সাংস্কৃতিক ফিট | Srivastava et al. (2017) |
যদিও তাত্ত্বিক গঠনের জন্য অসম্পূর্ণ তথ্য সমস্যা সমাধান করা খুবই কঠিন, অন্য সাধারণ প্রকারের অসম্পূর্ণতার সাধারণ সমাধান রয়েছে: অসম্পূর্ণ ডেমোগ্রাফিক তথ্য এবং অন্যান্য প্ল্যাটফর্মে আচরণ সংক্রান্ত অসম্পূর্ণ তথ্য। প্রথম সমাধান আসলে আপনার প্রয়োজন তথ্য সংগ্রহ করা; আমি আপনাকে যে বিষয়ে অধ্যায় 3 এ বলবো যখন আমি আপনাকে সার্ভে সম্পর্কে বলব। দ্বিতীয় প্রধান সমাধানটি হল, তথ্য বিজ্ঞানী ব্যবহারকারীর বৈশিষ্ট্যাবলীকে অভিবাদন করে এবং সামাজিক বিজ্ঞানীরা অভিযুক্তকে অভিযুক্ত করে । এই পদ্ধতিতে, গবেষকরা অন্য লোকেদের বৈশিষ্ট্য নির্ণয় করার জন্য কিছু লোকের কাছে তাদের তথ্য ব্যবহার করে। একটি তৃতীয় সম্ভাব্য সমাধান হল একাধিক ডেটা উৎসগুলি একত্রিত করা। এই প্রক্রিয়াটি কখনও কখনও রেকর্ড লিংক বলা হয়। এই প্রক্রিয়ার জন্য আমার প্রিয় রূপক Dunn (1946) দ্বারা লিখিত লিপিবদ্ধ লেখা প্রথম প্রথম পত্রের প্রথম অনুচ্ছেদে লেখা হয়েছিল:
"বিশ্বের প্রতিটি ব্যক্তি জীবন বইয়ের সৃষ্টি করে। এই বই মৃত্যুর সাথে জন্ম ও শেষের সাথে শুরু হয়। এর পৃষ্ঠাগুলি জীবনের প্রধান ঘটনাগুলির রেকর্ডগুলির মধ্যে রয়েছে। রেকর্ড লিংক এই ভলিউম বইয়ের পৃষ্ঠাগুলি একত্রিত করার প্রক্রিয়া দেওয়া নাম। "
ডন লিখেছেন যে এই প্যাসেজটি তিনি কল্পনা করেছিলেন যে জীবনের বইয়ের মধ্যে জীবন, বিয়ে, বিবাহবিচ্ছেদ এবং মৃত্যুর মতো প্রধান জীবনের ঘটনা অন্তর্ভুক্ত থাকতে পারে। যাইহোক, এখন মানুষের সম্পর্কে এত তথ্য রেকর্ড করা হয়, যদি জীবনের বিভিন্ন পৃষ্ঠাগুলি (অর্থাৎ, আমাদের ডিজিটাল ট্রেস) একসঙ্গে আবদ্ধ হতে পারে, তাহলে জীবনের বই একটি অবিশ্বাস্যভাবে বিস্তারিত প্রতিকৃতি হতে পারে। এই বইয়ের জীবন গবেষকদের জন্য একটি মহান সম্পদ হতে পারে। কিন্তু, এটি ধ্বংসের একটি ডাটাবেস (Ohm 2010) নামেও পরিচিত হতে পারে, যা সব ধরণের অনৈতিক উদ্দেশ্যে ব্যবহার করা যেতে পারে, যেমনটি আমি অধ্যায় 6 (এথিক্স) এ বর্ণিত করব।