2.3.2.1 অসম্পূর্ণ

কোন ব্যাপার কিভাবে "বড়" আপনার "বিগ ডাটা" এটা সম্ভবত তথ্য আপনি চান নেই.

সর্বাধিক বড় তথ্য সূত্র অর্থে যে, তারা যে তথ্য আপনি আপনার গবেষণার জন্য চাইবেন না, অসম্পূর্ণ. এই তথ্য যে গবেষণা ছাড়া অন্য জন্য তৈরি করা হয়েছে একটি সাধারণ বৈশিষ্ট্য. অনেক সামাজিক বিজ্ঞানীরা ইতিমধ্যে এমন একটি বিদ্যমান জরিপ যে প্রশ্ন আপনি চেয়েছিলেন জিজ্ঞাসা করা হয়নি যেমন, অসম্পূর্ণতা সাথে ডিল করার অভিজ্ঞতা ছিল. দুর্ভাগ্যবশত, অসম্পূর্ণতা সমস্যাগুলো বড় তথ্য আরও চরম হতে থাকে. তাত্ত্বিক নির্মান operationalize থেকে জনমিতি, অন্যান্য প্ল্যাটফর্মের উপর ব্যবহার, এবং ডেটা: আমার অভিজ্ঞতায়, বড় তথ্য সামাজিক গবেষণার জন্য দরকারী তথ্য তিন ধরনের অনুপস্থিত হতে থাকে.

অসম্পূর্ণতা এই ধরনের তিনটি Gueorgi Kossinets এবং ডানকান ওয়াটস দ্বারা একটি গবেষণায় চিত্রিত করা হয় (2006) একটি বিশ্ববিদ্যালয়ে সামাজিক নেটওয়ার্ক এর বিবর্তন সম্পর্কে. Kossinets এবং ওয়াটস বিশ্ববিদ্যালয় থেকে ইমেল লগ, যা যারা কি সময়ে যাদের কাছে ইমেল প্রেরণ (গবেষকরা ইমেইলের বিষয়বস্তু এক্সেস আছে না) সম্পর্কে সুনির্দিষ্ট তথ্য ছিল দিয়ে শুরু. এই ই-মেইল রেকর্ড একটি আশ্চর্যজনক ডেটাসেটে মত শব্দ, কিন্তু তারা-সত্ত্বেও তাদের আকার এবং গ্র্যানুল্যারিটি-মৌলিকভাবে অসম্পূর্ণ. উদাহরণস্বরূপ, ই-মেইল লগ যেমন লিঙ্গ এবং বয়স হিসাবে শিক্ষার্থীদের ডেমোগ্রাফিক বৈশিষ্ট্য সম্পর্কে তথ্য অন্তর্ভুক্ত করবেন না. উপরন্তু, ই-মেইল লগ যেমন ফোন কল, টেক্সট বার্তা, বা সামনা সামনি কথোপকথন হিসাবে অন্যান্য মিডিয়া, মাধ্যমে যোগাযোগ সম্পর্কে তথ্য অন্তর্ভুক্ত করবেন না. অবশেষে, ইমেল লগ সরাসরি সম্পর্ক, অনেক বিদ্যমান তত্ত্ব মধ্যে তাত্ত্বিক নির্মান সম্পর্কে তথ্য অন্তর্ভুক্ত করবেন না. অধ্যায়ে পরে, যখন আমি গবেষণা কৌশল সম্পর্কে কথা বলতে, আপনি কিভাবে Kossinets এবং ওয়াটস এই সমস্যার সমাধান দেখতে পাবেন.

অসম্পূর্ণতা তিন ধরণের, তাত্ত্বিক নির্মান operationalize করতে অসম্পূর্ণ তথ্য সমস্যা কঠিন বিশ্লিষ্ট করা হল, এবং আমার অভিজ্ঞতা, এটা প্রায়ই ঘটনাক্রমে তথ্য বিজ্ঞানীদের দ্বারা উপেক্ষিত হয়. মোটামুটিভাবে, তাত্ত্বিক নির্মান বিমূর্ত ধারণা যে সমাজবিজ্ঞানীদের অধ্যয়ন দুর্ভাগ্যবশত, এই নির্মানের সবসময় unambiguously সংজ্ঞায়িত করা যায় না এবং মাপা হয়, কিন্তু,. উদাহরণস্বরূপ, এর প্রায়োগিক আপাতদৃষ্টিতে সহজ দাবি যে মানুষ কে বেশি বুদ্ধিমান হয় আরো অর্থ উপার্জন পরীক্ষা করার চেষ্টা কল্পনা করা যাক. অর্ডার এই দাবি পরীক্ষা করার জন্য আপনি, পরিমাপ করতে হবে "গোয়েন্দা." কিন্তু বুদ্ধিমত্তা কি? উদাহরণস্বরূপ, Gardner (2011) যুক্তি আছে আসলে যে বুদ্ধিমত্তা আট বিভিন্ন ফর্ম. এবং সেখানে পদ্ধতি সঠিকভাবে বুদ্ধিমত্তা এই ধরনের কোনো পরিমাপ করতে পারে কি? মনোবৈজ্ঞানিক দ্বারা কাজ প্রচুর পরিমাণে সত্ত্বেও, এই প্রশ্ন এখনো দ্ব্যর্থহীন উত্তর নেই. সুতরাং, এমনকি একটি অপেক্ষাকৃত সহজ দাবি-মানুষ যারা ​​বুদ্ধি বেশি আয় বেশি টাকা-যাবে না কারণ এটি ডাটা তাত্ত্বিক নির্মান operationalize কঠিন হতে পারে প্রায়োগিক মূল্যায়ন করা কঠিন. তাত্ত্বিক নির্মান যে গুরুত্বপূর্ণ কিন্তু "নিয়ম", "সামাজিক পুঁজি," এবং "গণতন্ত্র অন্তর্ভুক্ত operationalize কঠিন হয় অন্য উদাহরণ." সামাজিক বিজ্ঞানী তাত্ত্বিক নির্মান এবং ডেটা কনস্ট্রাক্ট বৈধতা মধ্যে ম্যাচ কল (Cronbach and Meehl 1955) . আর, নির্মানের এই তালিকা ইঙ্গিত করে, নির্মাণের বৈধতা যে সমাজ বিজ্ঞানীদের একটি খুব দীর্ঘ সময়ের জন্য সঙ্গে লড়াই করেছেন একটি সমস্যা হয়, এমনকি যখন তারা তথ্য যে গবেষণার উদ্দেশ্যে সংগ্রহ করা হয় সঙ্গে কাজ করা হয়েছে. যখন গবেষণা ছাড়া অন্য জন্য সংগৃহীত তথ্য সঙ্গে কাজ, কনস্ট্রাক্ট বৈধতার সমস্যা আরও বেশি চ্যালেঞ্জিং হয় (Lazer 2015) .

আপনি একটি গবেষণা কাগজ পড়া হয়, তখন এক দ্রুত এবং দরকারী উপায় মূল্যায়ন করার কনস্ট্রাক্ট বৈধতা সম্পর্কে উদ্বেগ কাগজ, যা সাধারণত নির্মানের পদ প্রকাশ করা হয় মূল দাবি গ্রহণ করা হয়, এবং ব্যবহার করা ডেটা পরিপ্রেক্ষিতে এটি পুনরায় প্রকাশ. উদাহরণস্বরূপ, দুটি প্রকল্পিত গবেষণায় দেখানোর জন্য যে আরো বুদ্ধিমান মানুষ অর্থ উপার্জন দাবী করে যে বিবেচনা করুন:

  • স্টাডি 1: যারা ​​উপর কাক প্রগ্রেসিভ ম্যাট্রিক্স টেস্ট একটি ভাল স্কোর বিশ্লেষণমূলক বুদ্ধি ভাল চর্চিত পরীক্ষা (Carpenter, Just, and Shell 1990) উচ্চতর রিপোর্ট আয় তাদের ট্যাক্স রিটার্ন উপর -have
  • স্টাডি 2: টুইটারে যারা ব্যবহার আর শব্দ আরো বিলাসিতা ব্রান্ডের উল্লেখ করার সম্ভাবনা বেশি

উভয় ক্ষেত্রেই, গবেষক দাবী পারে তারা দেখিয়েছে যে আরো বুদ্ধিমান মানুষ অর্থ উপার্জন. কিন্তু, প্রথম গবেষণায় তাত্ত্বিক নির্মান ভাল তথ্য দ্বারা কার্যকর করা হয়, এবং দ্বিতীয় তা নয়. উপরন্তু, যেমন এই উদাহরণে illustrates, আরো তথ্য স্বয়ংক্রিয়ভাবে কনস্ট্রাক্ট মেয়াদসহ সমস্যার সমাধান করে না. আপনি স্টাডি 2 ফলাফল সন্দেহ এটি একটি মিলিয়ন টুইট, একটি বিলিয়ন টুইট, বা এক ট্রিলিয়ন টুইট জড়িত কিনা তা. গবেষকরা কনস্ট্রাক্ট বৈধতা ধারণা সঙ্গে পরিচিত নয়, ছক 2.2 গবেষণার যে ডিজিটাল ট্রেস ডেটা ব্যবহার তাত্ত্বিক নির্মান কার্যকর কিছু উদাহরণ প্রদান করে.

ছক 2.2: ডিজিটাল ট্রেস যে আরো বিমূর্ত তাত্ত্বিক ধারণার ব্যবস্থা হিসেবে ব্যবহৃত হয় উদাহরণ. সমাজ বিজ্ঞানীরা এই ম্যাচ কনস্ট্রাক্ট বৈধতা কল এবং এটি সামাজিক গবেষণা জন্য বড় তথ্য সূত্র ব্যবহার করে একটি প্রধান চ্যালেঞ্জ (Lazer 2015) .
ডিজিটাল ট্রেস তাত্ত্বিক কনস্ট্রাক্ট তলব
একটি বিশ্ববিদ্যালয় থেকে ইমেল লগগুলি (মেটা-ডেটা শুধুমাত্র) সামাজিক সম্পর্ক Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
ওয়েইবোতে সোশ্যাল মিডিয়া পোস্ট নাগরিক প্রবৃত্তি Zhang (2016)
একটি দৃঢ় থেকে ইমেল লগগুলি (মেটা-ডেটা এবং সম্পূর্ণ লেখা) একটি প্রতিষ্ঠানের মধ্যে সাংস্কৃতিক হইয়া Goldberg et al. (2015)

যদিও operationalizing তাত্ত্বিক নির্মান জন্য অসম্পূর্ণ তথ্য সমস্যা প্রশংসনীয় সমাধান করা কঠিন, সেখানে অসম্পূর্ণ ডেমোগ্রাফিক তথ্য এবং অন্যান্য প্ল্যাটফর্মের উপর আচরণের উপর অসম্পূর্ণ তথ্য সমস্যার তিনটি সাধারণ সমাধান হয়. প্রথম আসলে তথ্য আপনি প্রয়োজন সংগ্রহ করা হয়; যখন আমি তোমার সার্ভে সম্পর্কে বলুন আমি 3 অধ্যায়ে যে একটি উদাহরণ সম্পর্কে বলব. দুর্ভাগ্যবশত, তথ্য সংগ্রহ এই ধরনের সবসময় সম্ভব হয় না. দ্বিতীয় প্রধান সমাধান কি তথ্য বিজ্ঞানীরা কল ব্যবহারকারী অ্যাট্রিবিউট অনুমিতি এবং কি সমাজবিজ্ঞানীদের কল স্বরুপ করতে হয়. এই পদ্ধতির গবেষকরা তথ্য তারা কিছু মানুষ আছে যে ব্যবহার অন্য মানুষ বৈশিষ্ট্যাবলী অনুমান করা. তৃতীয় সম্ভাব্য সমাধান-Kossinets এবং দ্বারা ব্যবহৃত এক একাধিক তথ্য সূত্র একত্রিত ওয়াটস-ছিল. এই প্রক্রিয়া কখনো মার্জ বা রেকর্ড লিংকেজ বলা হয়. এই প্রক্রিয়ার জন্য আমার প্রিয় রূপক খুব প্রথম কাগজ কি রেকর্ড দুটো ঘটনার উপর লেখা প্রথম অনুচ্ছেদে প্রস্তাব করেন (Dunn 1946) :

"বিশ্বের প্রতিটি ব্যক্তি জীবনের একটি গ্রন্থ সৃষ্টি. এই বইয়ের জন্ম দিয়ে শুরু হয় এবং মৃত্যুর সঙ্গে শেষ হয়. তার পেজ জীবনে নীতি ঘটনা রেকর্ড আপ করা হয়. রেকর্ড লিংকেজ নাম একটি ভলিউম মধ্যে এই বইয়ের পাতার একত্রিতকরনের প্রক্রিয়া দেওয়া হয়. "

এই উত্তরণ 1946 সালে লেখা হয়েছিল, এবং যে সময়ে, মানুষ মনে করে নিয়েছিলো জীবন বই জন্ম, বিবাহ, বিবাহবিচ্ছেদ, এবং মৃত্যুর মত প্রধান জীবনের ঘটনা অন্তর্ভুক্ত হতে পারে. যাইহোক, এখন যে মানুষ সম্পর্কে এত তথ্য নথিভুক্ত করা হয়, জীবন বই একটি অবিশ্বাস্যভাবে বিস্তারিত প্রতিকৃতি, হতে পারে যদি সেই বিভিন্ন পেজ (অর্থাৎ, আমাদের ডিজিটাল ট্রেস), একসঙ্গে আবদ্ধ করা যাবে না. জীবনের এই কিতাব গবেষকদের জন্য একটি বড় সম্পদ হতে পারে. কিন্তু, জীবন বই এছাড়াও ধ্বংসের একটি ডাটাবেসের বলা যেতে পারে (Ohm 2010) , যা অনৈতিক উদ্দেশ্য সব ধরণের জন্য ব্যবহার করা যেতে পারে, যেমন যখন আমি তথ্য সংবেদনশীল প্রকৃতি নীচের বড় তথ্য সূত্র দ্বারা সংগৃহীত সম্পর্কে কথা বলতে নিচে আরো বর্ণনা এবং অধ্যায় 6 (নীতিশাস্ত্র) মধ্যে.