চাবি:
[ , ] আলগোরিদিমজাত বিভ্রান্তি গুগল ফ্লু প্রবণতা সঙ্গে একটি সমস্যা ছিল. দ্বারা কাগজ পড়তে Lazer et al. (2014) , এবং গুগলের একজন ইঞ্জিনিয়ার সমস্যা ব্যাখ্যা এবং কিভাবে সমস্যা সমাধানের জন্য একটি ধারণা প্রদানের জন্য একটি সংক্ষিপ্ত, পরিষ্কার ইমেল অনুগ্রহ করে লিখুন.
[ ] Bollen, Mao, and Zeng (2011) দাবি করে যে টুইটার থেকে তথ্য শেয়ার বাজারে ভবিষ্যদ্বাণী করতে ব্যবহার করা যেতে পারে. এই গবেষনার একটি হেজ ফান্ড-Derwent ক্যাপিটাল টুইটার থেকে সংগৃহীত তথ্য উপর ভিত্তি করে শেয়ার বাজারে বিনিয়োগ বাজার থেকে সৃষ্টি করতে চালিত (Jordan 2010) . কি প্রমাণ আপনি যে ফান্ডে আপনার টাকা নির্বাণ আগে দেখতে চাইবেন?
[ ] কিছু জনস্বাস্থ্য সমর্থনকারীরা শিলাবৃষ্টি যদিও ধূমপান শম জন্য একটি কার্যকর এইড হিসাবে ই-সিগারেট, অন্যদের যেমন নিকোটিন উচ্চ মাত্রা হিসেবে সম্ভাব্য ঝুঁকি সম্পর্কে সতর্ক করে দিয়েছি. কল্পনা করুন, একজন গবেষক ই-সিগারেট সংক্রান্ত টুইটার পোস্ট সংগ্রহ ও আবেগের বিশ্লেষণ আবহ দ্বারা ই-সিগারেটের দিকে জনমত অধ্যয়ন করার সিদ্ধান্ত নেয়.
[ ] নভেম্বর 2009 সালে, টুইটার প্রশ্ন কিচ্কিচ্ বক্সে "কি করছ তুমি? 'থেকে পরিবর্তন করা হয়েছে" কী হচ্ছে? "(Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) বিশ্লেষণ 41.7 মিলিয়ন ইউজার প্রোফাইল, 1.47 বিলিয়ন সামাজিক সম্পর্ক, 4262 ট্রেন্ডিং বিষয়, এবং জুন 6th এবং জুন 31 মধ্যে 106 মিলিয়ন টুইট, 2009. এই বিশ্লেষণ তারা এই সিদ্ধান্তে আসেন যে টুইটার তথ্য একটি নতুন মাঝারি একটি চেয়ে ভাগ বেশি স্থল উপর নির্ভর করে সামাজিক যোগাযোগ মাধ্যম.
[ ] "পুনঃটুইটগুলি" প্রায়ই প্রভাব পরিমাপ করতে ব্যবহৃত এবং টুইটারে প্রভাব ছড়িয়ে পড়েছে. প্রাথমিকভাবে, ব্যবহারকারীরা কপি এবং কিচ্কিচ্ তারা পছন্দ পেস্ট, তার / তার হাতল দিয়ে মূল লেখক ট্যাগ, এবং নিজে কিচ্কিচ্ সামনে "আর.টি." টাইপ নির্দেশ করার জন্য এটি একটি পুন এর ছিল. এরপর 2009 সালে টুইটার একটি "টুইট" বাটন যোগ করা হয়েছে. জুন 2016 সালে, টুইটার এটা সম্ভব ব্যবহারকারীরা তাদের নিজস্ব টুইট টুইট করা (https://twitter.com/twitter/status/742749353689780224) জন্য তৈরি. আপনি কি মনে করেন এই পরিবর্তনগুলি প্রভাবিত হওয়া উচিত কিভাবে আপনি আপনার গবেষণা "পুন" ব্যবহার করেন? কেন অথবা কেন নয়?
[ , , ] Michel et al. (2011) একটি কর্পাস বই ডিজিটায়িত গুগলের প্রচেষ্টা থেকে উঠতি নির্মান. কর্পাস, যা 2009 সালে প্রকাশিত হয় এবং 5 মিলিয়ন ডিজিটাইজড বই অন্তর্ভুক্ত প্রথম সংস্করণ ব্যবহার করে, লেখক ভাষাগত পরিবর্তন ও সাংস্কৃতিক প্রবণতা তদন্ত করার শব্দ ব্যবহারের ফ্রিকোয়েন্সি বিশ্লেষণ. শীঘ্রই গুগল বুকস করপাস গবেষকদের জন্য একটি জনপ্রিয় ডাটাবেস হয়ে ওঠে, এবং ডাটাবেসের একটি 2nd সংস্করণ 2012 সালে প্রকাশিত হয়.
তবে Pechenick, Danforth, and Dodds (2015) সতর্ক করে গবেষকরা সম্পূর্ণরূপে বিস্তৃত সিদ্ধান্তে আঁকার জন্য এটি ব্যবহার করার পূর্বে কর্পাস স্যাম্পলিং প্রক্রিয়া প্রভেদ প্রয়োজন. প্রধান সমস্যা হল কর্পাস, লাইব্রেরি-মত প্রতিটি বইয়ের এক রয়েছে. ফলে একজন ব্যক্তি হিসেবে, উর্বর লেখক লক্ষণীয়ভাবে গুগল বুকস শব্দকোষে নতুন বাক্যাংশ সন্নিবেশ করতে সক্ষম হয়. তাছাড়া, বৈজ্ঞানিক গ্রন্থে 1900 সর্বত্র কর্পাস একটি ক্রমবর্ধমান বাস্তব অংশ গঠন করে. উপরন্তু, ইংরেজি কল্পকাহিনী ডেটাসেট Pechenick এট দুটি সংস্করণ তুলনা. পাওয়া প্রমাণ যে অপর্যাপ্ত ফিল্টারিং প্রথম সংস্করণ উৎপাদন ব্যবহৃত হয়. কার্যকলাপ জন্য প্রয়োজনীয় সব ডেটা এখানে পাওয়া যায়: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) explores কিনা জুন 2013 সালে এনএসএ / প্রিজম নজরদারি (অর্থাৎ, স্নোডেন আয়াতসমূহ) সম্পর্কে ব্যাপক প্রচার একটি ধারালো এবং আকস্মিক বিষয় যে গোপনীয়তা উদ্বেগ বাড়াতে উইকিপিডিয়ার নিবন্ধ থেকে ট্রাফিক কমে সঙ্গে যুক্ত করা হয়. যদি তাই হয়, আচরণ এই পরিবর্তন নজরদারির ফলে একটি শীতল প্রভাব সঙ্গে সামঞ্জস্যপূর্ণ হতে হবে. পদ্ধতির Penney (2016) মাঝে মাঝে বিঘ্নিত সময় সিরিজ নকশা বলা হয় এবং পর্যবেক্ষণমূলক তথ্য (অনুচ্ছেদ 2.4.3) থেকে পরীক্ষা-নিরীক্ষা approximating সম্পর্কে অধ্যায়ে পন্থা সঙ্গে সম্পর্কযুক্ত.
বিষয় কীওয়ার্ড নির্বাচন করতে পেনি ট্র্যাকিং এবং সামাজিক মিডিয়া নিরীক্ষণ জন্য হোমল্যান্ড সিকিউরিটি ডিপার্টমেন্ট দ্বারা ব্যবহৃত তালিকা উল্লেখ করা হয়েছে. DHS তালিকা সমস্যা, মানে ওই "স্বাস্থ্য কনসার্ন," "ইনফ্রাস্ট্রাকচার সিকিউরিটি," এবং "সন্ত্রাসবাদ. এর একটি পরিসীমা মধ্যে নির্দিষ্ট খঁোজা শব্দগুলি শ্রেণীবদ্ধ সন্ত্রাসবাদ" (সারণি 8 দেখুন "গবেষণা দলের জন্য, পেনি আটচল্লিশ কীওয়ার্ড সম্পর্কিত ব্যবহৃত" পরিশিষ্ট). এরপর তিনি একটি বত্রিশ মাস সময়কাল ধরে সংশ্লিষ্ট আটচল্লিশ উইকিপিডিয়া নিবন্ধ জন্য একটি মাসিক ভিত্তিতে উইকিপিডিয়ার নিবন্ধ গণনা সমষ্টিগত, আগস্ট 2014. শেষ জানুয়ারি 2012 শুরু থেকে তার যুক্তি জোরদার করার জন্য তিনি বেশ কিছু তুলনা সৃষ্টি অন্যান্য বিষয়ের উপর নিবন্ধ মতামত ট্র্যাকিং দ্বারা গ্রুপ.
এখন, আপনি প্রতিলিপি এবং প্রসারিত করতে যাচ্ছি Penney (2016) . সকল কাঁচা ডেটা যে আপনি এই কার্যকলাপ জন্য প্রয়োজন হবে উইকিপিডিয়া (https://dumps.wikimedia.org/other/pagecounts-raw/) থেকে পাওয়া যায়. অথবা আপনি এটা আর প্যাকেজ wikipediatrend থেকে পেতে পারেন (Meissner and Team 2016) . আপনি যখন লেখা-আপ আপনার প্রতিক্রিয়া, দয়া করে মনে রাখবেন, যা ডাটাবেস আপনি ব্যবহার. (নোট: এই একই কার্যকলাপ এছাড়াও 6 অধ্যায়ে দেখা যায়)
[ ] Efrati (2016) রিপোর্ট, গোপনীয় তথ্যের উপর ভিত্তি করে, যে "মোট শেয়ারিং" ফেসবুকে বছরে 5.5% বছর কমে গিয়েছিল যখন "মূল ব্রডকাস্ট শেয়ারিং" নিচে বছরে 21% বছর ছিল. এই পতন বয়স 30 বছরের কম বয়সী ফেসবুক ব্যবহারকারীর সঙ্গে বিশেষ করে তীব্র ছিল. প্রতিবেদন দুটি কারণের পতন দায়ী. ওয়ান "বন্ধু" মানুষ ফেসবুকে আছে সংখ্যা বৃদ্ধি হয়. অন্যান্য যে কিছু শেয়ারিং কার্যকলাপ মেসেজিং এবং যেমন Snapchat হিসেবে প্রতিযোগীদের স্থানান্তরিত হয়েছে. প্রতিবেদনে আরও বিভিন্ন কৌশল ফেসবুক শেয়ারিং জোরদার করার চেষ্টা করেছিল, নিউজ ফিড অ্যালগরিদম সমন্বয় যে মূল পোস্টের আরো বিশিষ্ট করা, সেইসাথে মূল পোস্ট ব্যবহারকারীদের বেশ কয়েক বছর আগে "এই দিনে" এর পর্যাবৃত্ত অনুস্মারক সহ প্রকাশ. কি প্রভাব, যদি থাকে, এই তথ্যও গবেষকরা একটি ডাটা উৎস হিসেবে ফেসবুক ব্যবহার করতে চান তাদের জন্য আছে?
[ ] Tumasjan et al. (2010) রিপোর্ট একটি রাজনৈতিক দল উল্লেখ টুইটের যে অনুপাত ভোট যে দল 2009 সালে জার্মান সংসদ নির্বাচনে প্রাপ্ত (চিত্র 2.9) এর অনুপাত মিলেছে. অন্য কথায়, এটা যে আপনি নির্বাচন ভবিষ্যদ্বাণী করা টুইটার ব্যবহার করতে পারেন হাজির. সময় এই গবেষণায় প্রকাশিত হয় এ এটা অত্যন্ত উত্তেজনাপূর্ণ হিসেবে বিবেচনা করা হয়, কারণ এটা বড় তথ্য একটি সাধারণ উৎস জন্য একটি মূল্যবান ব্যবহারের সুপারিশ করলো.
বড় ডাটা খারাপ বৈশিষ্ট্য দেওয়া যাইহোক, আপনি অবিলম্বে এই ফলাফলের সন্দেহপ্রবণ হওয়া উচিত. 2009 সালে টুইটারে জার্মানরা বেশ একটি অ প্রতিনিধি দলের মধ্যে ছিলেন, আর এক দল সমর্থক রাজনীতি সম্পর্কে আরো প্রায়ই কিচ্কিচ্ পারে. সুতরাং, এতে অবাক হওয়ার কিছু মনে হয় যে সব সম্ভব গোঁড়ামির যে আপনি কল্পনা করতে পারে একরকম বাদ যাবে. বস্তুত, এ ফলাফল Tumasjan et al. (2010) নিষ্কাশিত খুব ভাল হতে সত্য হতে পারে. তাদের গবেষণাপত্রে, Tumasjan et al. (2010) খৃস্টান ডেমোক্রাতস (সিডিইউ), খ্রিস্টান সোশ্যাল ডেমোক্র্যাট (CSU), এসপিডি, লিবারেল (FDP), বাম (Die লিঙ্কি), এবং গ্রিন পার্টির (Grune): ছয় রাজনৈতিক দলগুলোর বিবেচিত. যাইহোক, যে সময়ে টুইটারে সবচেয়ে প্রথমোক্ত জার্মান রাজনৈতিক দল চর পার্টি (Piraten), একটি দল মারামারি করে ইন্টারনেটের সরকার নিয়ন্ত্রণ ছিল. যখন পাইরেট পার্টির বিশ্লেষণ অন্তর্ভুক্ত ছিল, টুইটার উল্লেখ নির্বাচনের ফলাফল (চিত্র 2.9) এর একটি ভয়ানক predictor হয়ে (Jungherr, Jürgens, and Schoen 2012) .
পরবর্তীকালে বিশ্বের অন্যান্য গবেষকরা ব্যবহার করেছেন কল্পনাকারী পদ্ধতি-যেমন অনুভূতি বিশ্লেষণ ব্যবহার ইতিবাচক ও নেতিবাচক মধ্যে পার্থক্য করতে যেমন নির্বাচনের বিভিন্ন ধরনের বিভিন্ন ভবিষ্যদ্বাণী করা টুইটার তথ্য ক্ষমতা উন্নত করার জন্য দলগুলোর-এর উল্লেখ (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . এখানে কিভাবে Huberty (2015) সংক্ষিপ্ত ভোটের ভবিষ্যদ্বাণী এইসব প্রচেষ্টার ফলাফল:
"সকল পরিচিত পূর্বাভাস সোশ্যাল মিডিয়ায় ভিত্তিক পদ্ধতি যখন প্রকৃত দূরদর্শী নির্বাচনী পূর্বাভাসের দাবী বশীভূত ব্যর্থ হয়েছে. এই ব্যর্থতা সামাজিক মিডিয়ার মৌলিক বৈশিষ্ট্য, বরং পদ্ধতিগত বা আলগোরিদিমিক অসুবিধা চেয়ে কারণে মনে করা হয়. সংক্ষেপে বলতে গেলে, সামাজিক যোগাযোগের মাধ্যম না, এবং সম্ভবত কখনও, একটি স্থিতিশীল, পক্ষপাতিত্বহীন, প্রতিনিধি নির্বাচকমণ্ডলী ছবি দিতে হবে; এবং সামাজিক মিডিয়া সুবিধার নমুনা এই সমস্যার পোষ্ট হক ফিক্স যথেষ্ট তথ্য নেই. "
গবেষণা যে নেতৃত্ব কিছু পড়ুন Huberty (2015) যে উপসংহার, এবং বর্ণনা করে এবং কিভাবে টুইটার নির্বাচনের পূর্বাভাস ব্যবহার করা উচিত একটি রাজনৈতিক প্রার্থী করার জন্য একটি এক পাতা মেমো লিখতে.
[ ] একটি সমাজবিজ্ঞানী এবং একটি ঐতিহাসিক মধ্যে পার্থক্য কী? গোল্ডথর্প অনুযায়ী (1991) , একজন সমাজবিজ্ঞানী এবং একটি ঐতিহাসিক মধ্যে মূল পার্থক্য তথ্য সংগ্রহ উপর নিয়ন্ত্রণ নেই. ঐতিহাসিকরা ধ্বংসাবশেষ ব্যবহার করতে সমাজবিজ্ঞানীদের নির্দিষ্ট উদ্দেশ্যের জন্য তাদের তথ্য সংগ্রহ দরজী করতে পারেন, যেহেতু বাধ্য করা হয়. পড়ুন Goldthorpe (1991) . কিভাবে Custommades এবং Readymades ধারণা এর সাথে সম্পর্কিত সমাজবিজ্ঞান এবং ইতিহাস মধ্যে পার্থক্য কি?
[ ] পূর্ববর্তী প্রশ্নে নির্মাণের প্রণালী, Goldthorpe (1991) নিকি হার্ট থেকে এক সহ সমালোচনামূলক প্রতিক্রিয়া একটি সংখ্যা, আকর্ষণ (1994) যে গোল্ডথর্প ভক্তিভাব চ্যালেঞ্জ তৈরি ডেটা দরজী. বিশেষভাবে উপযুক্ত তথ্য সম্ভাব্য সীমাবদ্ধতা নির্মল, হার্ট ধনী কর্মচারী প্রকল্প, সামাজিক শ্রেণী ও ভোটের মধ্যে সম্পর্ক যে মধ্য 1960 সালে গোল্ডথর্প এবং সহকর্মীদের দ্বারা পরিচালিত হয় পরিমাপ করার জন্য একটি বৃহৎ জরিপ বর্ণনা. এক একটি পণ্ডিত যারা পরিকল্পিত পাওয়া তথ্য দিয়ে ডাটা বিশেষ সুবিধাপ্রাপ্ত থেকে আশা করতে পারে, ধনী কর্মচারী প্রকল্প তথ্য যে জীবনমান বৃদ্ধির যুগে সামাজিক শ্রেণির ভবিষ্যত সম্পর্কে একটি সম্প্রতি প্রস্তাবিত তত্ত্ব মোকাবেলার উপযোগী ছিল সংগৃহীত. কিন্তু, গোল্ডথর্প এবং সহকর্মীদের একরকম নারীদের ভোট আচরণ সম্পর্কে তথ্য সংগ্রহ করার জন্য "ভুলে গেছি". এখানে কিভাবে নিকি হার্ট এর (1994) পুরো পর্বটি সারাংশগুলি:
". . . এটা উপসংহার যে নারী এই 'দরজী তৈরি' ডেটা সেটটি একটি paradigmatic যুক্তিবিজ্ঞান যা মহিলা অভিজ্ঞতা বাদ দ্বারা সীমাবদ্ধ ছিল তাদের বাদ দেওয়া হয়েছে এড়াতে কঠিন [হয়]. শ্রেণী চেতনা এবং পুরুষ করণীয় কর্ম যেমন কর্মের একটি তাত্ত্বিক দর্শন দ্বারা চালিত. . . , গোল্ডথর্প এবং তার সহকর্মীরা গবেষণামূলক নিদর্শন যা খাওয়ানো এবং তাদের পর্যাপ্ততা একটি বৈধ পরীক্ষা প্রকাশক পরিবর্তে তাদের নিজেদের তাত্ত্বিক অনুমানের লালন এর একটি সেট নির্মান. "
হার্ট অব্যাহত:
"ধনী কর্মচারী প্রকল্প গবেষণামূলক তথ্যও আমাদের মধ্য শতাব্দীর সমাজবিজ্ঞানের masculinist মান সম্পর্কে আরও বলতে চেয়ে তারা স্তরবিন্যাস, রাজনীতি ও বস্তুগত জীবনের প্রসেস অবহিত."
আপনি অন্যান্য উদাহরণ যেখানে বিশেষভাবে উপযুক্ত তথ্য সংগ্রহ এটা পাতাটা তথ্য সংগ্রহকারী এর গোঁড়ামির হয়েছে মনে করতে পারেন? কিভাবে এই আলগোরিদিমিক বিভ্রান্তি থেকে তুলনা করা যায়? কি প্রভাব এই যখন গবেষকরা Readymades ব্যবহার করা উচিত জন্য থাকতে পারে এবং যখন তারা Custommades ব্যবহার করা উচিত?
[ ] এই অধ্যায়ে আমি কোম্পানি এবং সরকার দ্বারা নির্মিত প্রশাসনিক রেকর্ডের সঙ্গে গবেষকদের জন্য গবেষকরা তথ্য সংগ্রহ করেছেন বিপরীত. কিছু মানুষ কল এই প্রশাসনিক রেকর্ড যা তারা বিপরীতে "তথ্য পাওয়া গেছে, তা" "পরিকল্পিত তথ্য." এটা সত্যি যে, প্রশাসনিক রেকর্ডপত্র গবেষকরা দ্বারা পাওয়া যায়, কিন্তু তারা অত্যন্ত ডিজাইন করা হয়. উদাহরণস্বরূপ, আধুনিক কারিগরি কোম্পানি সংগ্রহ করে এবং তাদের তথ্য সংগৃহিত করতে এবং সম্পদ সময় প্রচুর পরিমাণে ব্যয়. সুতরাং, এই প্রশাসনিক রেকর্ড উভয় পাওয়া যায় এবং ডিজাইন করা হয়, এটা শুধু আপনার দৃষ্টিকোণ (চিত্র 2.10) উপর নির্ভর করে.
যেখানে এটা এইজন্য যখন গবেষণার জন্য যে তথ্য উৎস ব্যবহার করে উভয় হিসেবে পাওয়া যায় এবং পরিকল্পিত উপকারী ডাটা উৎসের একটি উদাহরণ প্রদান.
[ ] একটি চিন্তাশীল প্রবন্ধ, খ্রিস্টান Sandvig এবং Eszter Hargittai (2015) ডিজিটাল গবেষণা, যেখানে ডিজিটাল সিস্টেম "যন্ত্র" বা হয় দুই ধরণের গবেষণার প্রথম ধরনের একটি উদাহরণ বর্ণনা "অধ্যয়নের অবজেক্ট." যেখানে Bengtsson এবং সহকর্মীদের (2011) 2010 সালে হাইতিতে ভূমিকম্পের পর মাইগ্রেশন ট্র্যাক মোবাইল ফোন তথ্য ব্যবহৃত দ্বিতীয় ধরনের একটি উদাহরণ হল যেখানে জেনসেন (2007) গবেষণার কিভাবে কেরল সর্বত্র মোবাইল ফোনের প্রবর্তনের, ভারত মাছের বাজার কার্যকরী প্রভাব. কারণ এটা সুস্পষ্ট ডিজিটাল তথ্য সূত্র ব্যবহার করে অধ্যয়ন বেশ বিভিন্ন গোল এমনকি যদি তারা ডাটা উৎসের একই ধরনের ব্যবহার করা হয় থাকতে পারে যে, আমি এই সাহায্যকারী. দুই যে একটি হাতিয়ার হিসেবে একটি ডিজিটাল পদ্ধতি ব্যবহার এবং দুই যে অধ্যয়নের একটি বস্তু হিসেবে একটি ডিজিটাল পদ্ধতি ব্যবহার করুন: যাতে আরও এই পার্থক্য নির্মল চারটি গবেষণার যে আপনি নিজেই দেখেছেন বর্ণনা. আপনি এই অধ্যায় থেকে উদাহরণ ব্যবহার করবেন যদি আপনি করতে চান করতে পারেন.