[ , ] গুগল ফ্লু ট্রেন্ডস নিয়ে অ্যালগরিদমিক বিভ্রান্তি একটি সমস্যা ছিল। Lazer et al. (2014) দ্বারা কাগজ পড়ুন Lazer et al. (2014) , এবং সমস্যাটি ব্যাখ্যা করে Google এ একটি প্রকৌশলীকে একটি স্বল্প, স্পষ্ট ইমেল লিখুন এবং এটি কীভাবে ঠিক করবেন তার একটি ধারণা দিন।
[ ] Bollen, Mao, and Zeng (2011) দাবী করেন যে টুইটারের তথ্য স্টক মার্কেটের পূর্বাভাস দিতে ব্যবহার করা যায়। এই খোঁজার ফলে হেজ ফান্ড-ডারউইন্ট ক্যাপিটাল মার্কেটস-এর সৃষ্টি হয়-টুইটার থেকে সংগৃহীত তথ্য (Jordan 2010) অনুসারে স্টক মার্কেটে বিনিয়োগ করা। আপনি যে তহবিল আপনার টাকা নির্বাণ আগে দেখতে চান?
[ ] কিছু পাবলিক হেলথ অ্যাডভোকেট ই-সিগারেটগুলি ধূমপান বন্ধের জন্য কার্যকর সহায়তা বিবেচনা করে, অন্যরা সম্ভাব্য ঝুঁকিগুলি সম্পর্কে সতর্ক করে দেয় যেমন নিকোটিন উচ্চ মাত্রা। কল্পনা করুন যে একটি গবেষক ই-সিগারেটের সম্পর্কিত টুইটারের পোস্টগুলি সংগ্রহ করে এবং ইন্টিগ্রেশন বিশ্লেষণ পরিচালনা করে ই-সিগারেটের দিকে জনমত জরিপ করার সিদ্ধান্ত নেয়।
[ ] ২009 সালের নভেম্বরে, টুইটার টুইটারের বাক্সটি "কি করছেন?" থেকে "কি ঘটছে?" থেকে প্রশ্নটি পরিবর্তন করেছে (https://blog.twitter.com/2009/what-happening)।
[ ] টুইটারে "প্রভাব" এবং প্রভাবিত প্রভাব বিস্তারের জন্য প্রায়ই "প্রত্যুত্তর" ব্যবহার করা হয়। প্রাথমিকভাবে, ব্যবহারকারীরা তাদের পছন্দসই টুইটকে কপি এবং পেস্ট করে, তার হ্যান্ডেলটির সাথে মূল লেখককে ট্যাগ করে এবং টুইটটি আগে "আরটি" টাইপ করে বলেছিলেন যে এটি একটি রিটুইট ছিল। তারপর, ২009 সালে, টুইটার "রিটুইট" বোতাম যুক্ত করেছে। জুন 2016 সালে, টুইটার ব্যবহারকারীরা তাদের নিজস্ব টুইটগুলি (https://twitter.com/twitter/status/742749353689780224) এ পুনরায় টুইট করতে পারে। আপনি কি মনে করেন আপনার গবেষণায় আপনি "retweets" কীভাবে ব্যবহার করবেন এই পরিবর্তনগুলি প্রভাবিত করবে? কেন অথবা কেন নয়?
[ , , , ] একটি ব্যাপক আলোচ্য পত্রিকায়, মিশেল এবং সহকর্মীরা (2011) দীর্ঘমেয়াদী সাংস্কৃতিক প্রবণতাগুলি সনাক্ত করার চেষ্টা করে পাঁচ মিলিয়নের বেশি ডিজিটাল বইগুলির বিষয়বস্তু বিশ্লেষণ করেছেন। যে তথ্যগুলি তারা ব্যবহার করেছে তা এখন Google NGrams ডেটসেট হিসাবে প্রকাশ করা হয়েছে এবং তাই আমরা তাদের কাজগুলির পুনরাবৃত্তির এবং প্রসারিত করতে ডেটা ব্যবহার করতে পারি।
কাগজে অনেক ফলাফল এক, মিশেল এবং সহকর্মীরা যুক্তি দেখান যে আমরা দ্রুত এবং দ্রুত ভুলে যাওয়া হয়। একটি নির্দিষ্ট বছরের জন্য, "1883" বলুন, তারা 1875 এবং 1 9 75 সালের মধ্যে "1883" দ্বারা প্রতি বছর প্রকাশিত 1-গ্রামের অনুপাত গণনা করে। তারা যুক্তি দিয়েছিল যে এই অনুপাত সেই বছরের যে ঘটনাগুলি ঘটেছে তার স্বার্থের একটি পরিমাপ। তাদের চিত্র 3 এ, তারা তিন বছর ধরে ব্যবহার ট্রাজেক্টোরিটগুলি চক্রান্ত করে: 1883, 1 9 10, এবং 1950। এই তিন বছর একটি সাধারণ প্যাটার্ন ভাগ করে নিয়েছে: যে বছরের আগে সামান্য ব্যবহার, তারপর একটি গজাল, তারপর ক্ষয় পরবর্তীতে, প্রতি বছর ক্ষয়ক্ষতির হার পরিমাপ করার জন্য, মিশেল এবং সহকর্মীরা 1875 থেকে 1 9 75 সালের মধ্যে সারা বছর ধরে প্রতিটি বছরের "অর্ধ-জীবন" গণনা করে। তাদের চিত্রে 3a (ইনসেট), তারা দেখিয়েছে যে প্রতিটি অর্ধ-জীবন বছর কমেছে, এবং তারা যুক্তি দিয়েছিল যে এর মানে হচ্ছে আমরা অতীতের দ্রুত এবং দ্রুত ভুলে যাচ্ছি। তারা ইংরেজী ভাষা সংস্থার সংস্করণ 1 ব্যবহার করে, তবে পরবর্তীতে গুগল ক্রোমের দ্বিতীয় সংস্করণ প্রকাশ করেছে। আপনি কোডিং শুরু করার আগে প্রশ্ন সব অংশ পড়ুন দয়া করে।
এই কার্যকলাপ আপনাকে পুনর্ব্যবহারযোগ্য কোড লিখতে হবে, ফলাফল এবং ডেটা র্যাংগলিং (যেমন অবাঞ্ছিত ফাইলগুলি এবং নিখোঁজ ডাটা হ্যান্ডলিং হিসাবে কাজ করে) লিখতে হবে। এই কার্যকলাপটি আপনাকে একটি সমৃদ্ধ এবং আকর্ষণীয় ডেটাসেট দিয়ে উঠতে এবং চলতে সাহায্য করবে।
Google বই এনগ্রাম ভিউয়ার ওয়েবসাইট থেকে কাঁচা তথ্য পান। বিশেষ করে, আপনি ইংরেজি ভাষা সংস্থার সংস্করণ 2 ব্যবহার করতে হবে, যা 1 জুলাই ২01২ তে প্রকাশিত হয়েছিল। অসম্পূর্ণ, এই ফাইলটি 1.4 জিবি।
Michel et al. (2011) এর চিত্র 3a প্রধান অংশ উদযাপন Michel et al. (2011) । এই চিত্রটি পুনঃনির্ধারণ করার জন্য আপনাকে দুইটি ফাইলের প্রয়োজন হবে: আপনি যে অংশটি (a) এবং "মোট সংখ্যা" ফাইলটি ডাউনলোড করেছেন, যা আপনি কাঁচা সংখ্যার অনুপাত রূপে ব্যবহার করতে পারেন। লক্ষ্য করুন যে মোট সংখ্যা ফাইলের একটি কাঠামো আছে যা এটি পড়তে একটু কঠিন করে তুলতে পারে। NGram সংস্করণের সংস্করণ 2 Michel et al. (2011) উপস্থাপিত ফলাফলের অনুরূপ ফলাফল প্রকাশ করে Michel et al. (2011) , সংস্করণ 1 তথ্য ভিত্তিক যা?
NGram ভিউয়ার দ্বারা তৈরি গ্রাফের বিরুদ্ধে আপনার গ্রাফ পরীক্ষা করুন।
চিত্র 3a (প্রধান চিত্র) পুনঃস্থাপন করুন, কিন্তু \(y\) -সিসকে কাঁচা উল্লেখের গণনা (উল্লিখিত হারের হার না) হিসাবে পরিবর্তন করুন।
(খ) এবং (ঘ) মধ্যে পার্থক্য কি আপনি মিশেল এট আল এর কোনো ফলাফল reevaluate দিতে। (2011)। কেন অথবা কেন নয়?
এখন, অনুপাত অনুপাত ব্যবহার করে, চিত্র 3a এর inset প্রতিলিপি। যে, প্রতি বছর 1875 এবং 1975 এর মধ্যে, সেই বছরের অর্ধ-জীবন হিসাব করে। অর্ধ-জীবনটিকে অনুমানের অনুপাতের পূর্বে পাস হওয়া বছরগুলির সংখ্যা হিসাবে নির্ধারণ করা হয়েছে তার অর্ধেক চূড়ান্ত মূল্য পৌঁছে। উল্লেখ্য যে Michel et al. (2011) অর্ধ-জীবন-অনুমান করার জন্য আরো জটিল কিছু করে-সাপোর্টিং অনলাইন তথ্য বিভাগের তৃতীয় অধ্যায় দেখুন- কিন্তু তারা দাবি করে যে উভয় দিকের পন্থা একই ফলাফল প্রদান করে। এনজিআরএম ডট কমের 2 সংস্করণটি Michel et al. (2011) উপস্থাপিত সকলের অনুরূপ ফলাফল প্রকাশ করে Michel et al. (2011) , সংস্করণ 1 তথ্য ভিত্তিক যা? (ইঙ্গিত: এটি না হলে আশ্চর্য হবেন না।)
কোন বছর ছিল outliers যেমন বছর যে বিশেষত দ্রুত বা বিশেষ করে ধীরে ধীরে ভুলে যাওয়া? সংক্ষেপে সেই প্যাটার্নের সম্ভাব্য কারণগুলির সম্পর্কে ধারণা করুন এবং ব্যাখ্যা করুন কিভাবে আপনি আউটলাইয়ারগুলি চিহ্নিত করেছেন।
এখন এই ফলাফলটি চীনা, ফরাসি, জার্মান, হিব্রু, ইতালীয়, রাশিয়ান এবং স্প্যানিশ ভাষায় NGrams এর সংস্করণের 2 সংস্করণের প্রতিলিপি করুন।
সমস্ত ভাষার মধ্যে তুলনা, যে কোন বছর ছিল outliers, যেমন বছর হিসাবে বিশেষ করে দ্রুত বা বিশেষ করে ধীরে ধীরে ভুলে যাওয়া? সংক্ষেপে যে প্যাটার্নের জন্য সম্ভাব্য কারণ সম্পর্কে ধারণা করা।
[ , , , ] Penney (2016) জুন ২013 সালে এনএসএ / প্রিজিএম নজরদারির (অর্থাৎ স্নোডেনের আয়াতসমূহ) বিষয়ে ব্যাপক প্রচারিত হয় কিনা তা নিয়ে উদ্বেগ প্রকাশ করা হয়। যদি তাই হয়, তাহলে আচরণের এই পরিবর্তন জনতার নজরদারির ফলে সৃষ্ট একটি স্ফুলিঙ্গের প্রভাবের সাথে সামঞ্জস্যপূর্ণ হবে। Penney (2016) এর পদ্ধতির মাঝে মাঝে মাঝে একটি বিরতির সময় সিরিজ ডিজাইন বলা হয় এবং এটি সেকশন ২.4.3 এ বর্ণিত পদ্ধতির সাথে সম্পর্কিত।
বিষয়বস্তুর কীওয়ার্ডগুলি নির্বাচন করতে, পেনি ইউএস ডিপার্টমেন্ট অফ হোমল্যান্ড সিকিউরিটি দ্বারা ব্যবহৃত সোশ্যাল মিডিয়ার ট্র্যাকিং এবং পর্যবেক্ষণের জন্য ব্যবহৃত তালিকাটি উল্লেখ করে। ডিএইচএস তালিকা নির্দিষ্ট কিছু অনুসন্ধানের বিষয়কে বিভিন্ন ধরণের বিষয়বস্তুর শ্রেণীভুক্ত করে, অর্থাৎ "স্বাস্থ্যবিধি," "অবকাঠামো নিরাপত্তা," এবং "সন্ত্রাসবাদ।" গবেষণাগারের জন্য, পেনি "সন্ত্রাসবাদ" সম্পর্কিত 48 টি কীওয়ার্ড ব্যবহার করে (পরিশিষ্ট টেবিল 8 দেখুন )। এরপর তিনি উইকিপিডিয়ায় 48 টি উইকিপিডিয়া নিবন্ধের জন্য মাসিক ভিত্তিতে সংগৃহীত সংখ্যা দেখিয়েছেন যা জানুয়ারী ২01২ সালের আগস্ট থেকে আগস্ট ২014 এর শুরু থেকে শুরু হয়েছে। তার যুক্তিকে শক্তিশালী করার জন্য তিনি ট্র্যাকিং দ্বারা বেশ কিছু তুলনামূলক গ্রুপ তৈরি করেছেন। অন্যান্য বিষয়ের উপর প্রবন্ধের মতামত
এখন, আপনি Penney (2016) প্রতিলিপি এবং প্রসারিত করতে যাচ্ছেন Penney (2016) । এই কার্যকলাপের জন্য আপনার প্রয়োজন হবে যে সমস্ত কাঁচা তথ্য উইকিপিডিয়া থেকে পাওয়া যায়। অথবা আপনি এটি R- প্যাকেজ wikipediatrend থেকে পেতে পারেন (Meissner and R Core Team 2016) । আপনি যখন আপনার প্রতিক্রিয়া লেখেন, দয়া করে লক্ষ্য করুন যে কোন ডাটা উত্সটি আপনি ব্যবহার করেছেন। (লক্ষ্য করুন যে এই একই কার্যকলাপটি অধ্যায় 6-এও প্রদর্শিত হয়েছে।) এই কার্যকলাপটি আপনাকে তথ্য র্যাংলিংয়ে অনুশীলন প্রদান করবে এবং বড় তথ্য উত্সগুলিতে প্রাকৃতিক পরীক্ষার বিষয়ে চিন্তা করবে। এটি ভবিষ্যতে প্রকল্পগুলির জন্য সম্ভাব্য আকর্ষণীয় ডেটা উত্সের মাধ্যমে আপনাকেও উঠবে এবং চলবে।
[ ] Efrati (2016) গোপনীয় তথ্যের উপর ভিত্তি করে রিপোর্ট করেছে, ফেসবুকের "মোট ভাগাভাগি" বছরে প্রায় 5.5% হ্রাস পেয়েছে এবং "মূল ব্রডকোডিং শেয়ারিং" বছরের পর বছর ধরে 21% নিচে ছিল। এই পতনটি 30 বছর বয়সের নীচে ফেসবুকের ব্যবহারকারীদের সাথে তীব্র ছিল। প্রতিবেদনে দুটি কারণের পরিপ্রেক্ষিতে উল্লেখ করা হয়েছে। এক ফেসবুকের "বন্ধু" মানুষের সংখ্যা বৃদ্ধি পেয়েছে। অন্য যে কিছু শেয়ারিং কার্যকলাপ বার্তা প্রেরণ এবং Snapchat হিসাবে প্রতিযোগীদের যেমন স্থানান্তরিত হয়েছে। রিপোর্টটিও ফেসবুকের বিভিন্ন অংশকে ভাগ করে নেওয়ার চেষ্টা করেছে, খবর ফিড অ্যালগরিদম সংশোধন সহ মূল পোস্টগুলিকে আরও বিশিষ্ট করে তুলেছে, পাশাপাশি "ওয়ান দিবস" ফিচারের সাথে মূল পোস্টের পর্যায়ক্রমিক অনুস্মারকও প্রকাশ করেছে। কোন ফলাফল, যদি থাকে, তাহলে এই গবেষণার জন্য কি গবেষকরা যারা একটি তথ্য উৎস হিসাবে ফেসবুক ব্যবহার করতে চান?
[ একটি সমাজবিজ্ঞানী এবং একটি ঐতিহাসিক মধ্যে পার্থক্য কি? Goldthorpe (1991) , প্রধান পার্থক্য তথ্য সংগ্রহের উপর নিয়ন্ত্রণ। ঐতিহাসিকদের অবলম্বন ব্যবহার করতে বাধ্য করা হয়, সমাজবিজ্ঞানীরা তাদের ডেটা সংগ্রহকে নির্দিষ্ট উদ্দেশ্যে সাজাতে পারেন। পড়ুন Goldthorpe (1991) । সমাজতন্ত্র ও ইতিহাসের মধ্যে পার্থক্য কী কাস্টমডেড এবং রেডিয়েডসের ধারণা সম্পর্কিত?
[ ] এই আগের quesiton উপর ভিত্তি করে নির্মিত। Goldthorpe (1991) একটি নীল হার্ট (1994) থেকে একাধিক জঘন্য প্রতিক্রিয়া ব্যক্ত করেছিলেন, যা গোল্ডথোরপের প্রতিভা তৈরির প্রতি শ্রদ্ধা নিবেদন করেছিল। সুগঠিত তথ্যগুলির সম্ভাব্য সীমাবদ্ধতাগুলি স্পষ্ট করার জন্য হার্ট অ্যামফ্লেয়্যান্ট ওয়ার্কার প্রজেক্টের বর্ণনা দিয়েছেন, 1960-এর দশকের মাঝামাঝি গোল্ডথোরপ এবং সহকর্মীদের দ্বারা পরিচালিত সামাজিক শ্রেণী এবং ভোটের মধ্যে সম্পর্কের পরিমাপের জন্য একটি বিশাল জরিপ। যেহেতু একজন পন্ডিতের কাছ থেকে আশা করা যেতে পারে যে পাওয়া ডেটাগুলির উপর ডেড ডেভ ডেভ ডেভেলপ করা হয়েছে, সমৃদ্ধ কর্মক্ষেত্র প্রকল্পটি সংগৃহীত তথ্যগুলি যা জীবনমানের মান বৃদ্ধির যুগে সামাজিক শ্রেণির ভবিষ্যৎ সম্বন্ধে সম্প্রতি প্রস্তাবিত তত্ত্বকে সংজ্ঞায়িত করার জন্য তৈরি করা হয়েছে। কিন্তু, গোল্ডথর্প এবং সহকর্মীরা কোনওভাবে নারীর ভোটাধিকার সম্পর্কে তথ্য সংগ্রহ করতে "ভুলে গেছেন"। এখানে কীভাবে নিকি হার্ট (1994) পুরো পর্বের সারসংক্ষেপ করেছেন:
"... এই উপসংহারটি এড়িয়ে যাওয়া খুবই কঠিন যে নারীদের বাদ দেওয়া হয়েছে কারণ এই 'দরজায় তৈরি' ডেটাসেট একটি দৃষ্টান্তমূলক যুক্তি দ্বারা সীমাবদ্ধ ছিল যা নারী অভিজ্ঞতা বাদ দেয়। শ্রেণি চেতনা এবং পুরুষ প্রাক্কোষণ হিসাবে কর্মের একটি তাত্ত্বিক দৃষ্টি দ্বারা চালিত ..., Goldthorpe এবং তার সহকর্মীরা পর্যাপ্ততা একটি বৈধ পরীক্ষা তাদের প্রকাশ করার পরিবর্তে তাদের নিজস্ব তাত্ত্বিক ধারণা গ্রহণ এবং খাওয়ানো যা পরীক্ষামূলক অনুমান একটি সেট তৈরি। "
হার্ট অব্যাহত:
"সমৃদ্ধ কর্মক্ষেত্রে প্রজেক্টের গবেষণামূলক ফলাফল মধ্য শতাব্দীর সমাজবিজ্ঞানের মূখ্যতাত্ত্বিক মূল্যবোধের তুলনায় আমাদেরকে আরো বেশি করে ব্যাখ্যা করে, যেহেতু তারা স্তরবিন্যাস, রাজনীতি এবং বস্তুগত জীবনের প্রক্রিয়াগুলি জানাচ্ছে।"
আপনি কি অন্যান্য উদাহরণের কথা ভাবতে পারেন যেখানে দরজায় তৈরি তথ্য সংগ্রহের মধ্যে তথ্য সংগ্রাহকের পক্ষপাতিত্ব রয়েছে? এটি কিভাবে আলগোরিদিম বিভ্রান্তিকর তুলনা? গবেষকরা যখন রেডমাইজে ব্যবহার করতে চান এবং কখন কাস্টম মেনেজ ব্যবহার করা উচিত, তখন কি প্রভাব ফেলতে পারে?
[ ] এই অধ্যায়ের মধ্যে, আমি কোম্পানি এবং সরকার কর্তৃক তৈরি প্রশাসনিক রেকর্ড সঙ্গে গবেষকরা জন্য গবেষকরা দ্বারা সংগৃহীত তথ্য বিপরীত আছে কিছু লোক এই প্রশাসনিক রেকর্ডগুলি "ডেটা খুঁজে পায়" বলে, তারা "ডিজাইন করা ডেটা" এর সাথে বৈসাদৃশ্য করে। এটি সত্য যে, প্রশাসনিক রেকর্ডগুলি গবেষকদের দ্বারা পাওয়া যায়, তবে তারা অত্যন্ত পরিকল্পিত। উদাহরণস্বরূপ, আধুনিক প্রযুক্তি কোম্পানিগুলি তাদের ডেটা সংগ্রহ এবং ক্যু করতে খুব কঠোর পরিশ্রম করে। সুতরাং, এই প্রশাসনিক রেকর্ড উভয় পাওয়া যায় এবং ডিজাইন করা হয়, এটা শুধু আপনার দৃষ্টিকোণ (চিত্র 2.12) উপর নির্ভর করে।
তথ্য উত্সের একটি উদাহরণ প্রদান করুন যা গবেষণার জন্য যে তথ্য উত্স ব্যবহার করার সময় পাওয়া এবং ডিজাইন উভয়ই সহায়ক।
[ ] একটি চিন্তাশীল প্রবন্ধে, খ্রিস্টান স্যান্ডভিগ এবং এসজটার হারজিটায়ে (2015) ডিজিটাল গবেষণাটি একটি "যন্ত্র" বা "অধ্যয়ন অবজেক্ট" কিনা তার উপর ভিত্তি করে ডিজিটাল গবেষণা বিভক্ত করে। প্রথম ধরনের একটি উদাহরণ- যেখানে সিস্টেম একটি যন্ত্র- (2011) সালে হাইতিতে ভূমিকম্পের পর মাইগ্রেশন ট্র্যাক করার জন্য মোবাইল ফোন তথ্য ব্যবহার করে বেঙ্গসসন এবং সহকর্মীদের (2011) গবেষণা। দ্বিতীয় ধরনের একটি উদাহরণ- যেখানে সিস্টেমটি একটি গবেষণার বস্তু- যাজেন (2007) কীভাবে কেরালা জুড়ে মোবাইল ফোনের প্রবর্তন, ভারত মাছের বাজারের কার্যকারিতা প্রভাবিত করেছিল। আমি এই পার্থক্যটি সহায়ক কারণ এটি স্পষ্ট করে যে ডিজিটাল তথ্য সূত্রগুলি ব্যবহার করে পড়াশোনাগুলি বেশ ভিন্ন লক্ষ্য রাখতে পারে এমনকি যদি তারা একই ধরণের ডাটা উৎস ব্যবহার করে। এই পার্থক্য আরও স্পষ্ট করার জন্য, আপনি যে চারটি অধ্যয়নগুলি দেখেছেন তা বর্ণনা করুন: দুইটি একটি ডিজিটাল সিস্টেমকে একটি যন্ত্র হিসাবে ব্যবহার করে এবং দুইটি যে ডিজিটাল সিস্টেমকে গবেষণার একটি বস্তু হিসেবে ব্যবহার করে। আপনি যদি এই অধ্যায় থেকে উদাহরণ ব্যবহার করতে পারেন আপনি চান।