এই বিভাগে বদলে একটি আখ্যান হিসেবে পড়ার জন্য একটি রেফারেন্স হিসাবে ব্যবহার করার জন্য ডিজাইন করা হয়.
এর যে নিরীক্ষক এই অধ্যায়ে অন্তর্ভুক্ত করা হয় না এক ধরনের নৃকুলবিদ্যা হয়. ডিজিটাল স্পেস নৃকুলবিদ্যা সম্পর্কে আরো জানার জন্য দেখুন Boellstorff et al. (2012) , এবং মিশ্র ডিজিটাল এবং শারীরিক স্পেস নৃকুলবিদ্যা এর আরও বেশির জন্য দেখতে Lane (2016) .
আপনি ডাটা repurposing করা হয়, তখন সেখানে দুই মানসিক ঠাট আপনি সম্ভাব্য সমস্যার যে আপনি সম্মুখীন হতে পারে বুঝতে সাহায্য করতে পারে আছে. প্রথমত, আপনি আপনার সমস্যার জন্য আদর্শ ডেটাসেটে কল্পনা করার চেষ্টা করতে পারেন এবং ডেটা সেটটি যে আপনি ব্যবহার করছেন যে সুবিধাগুলি তুলনা করুন. তারা কিভাবে অনুরূপ এবং তারা কিভাবে আলাদা? আপনি নিজেকে আপনার তথ্য সংগ্রহ না করে থাকেন, সেখানে আপনি কি চান এবং কি আপনি মধ্যে পার্থক্য হতে পারে. কিন্তু, আপনি যদি এই পার্থক্য প্রধান অথবা গৌণ হয় সিদ্ধান্ত নিতে হবে.
দ্বিতীয়ত, মনে রাখবেন যে কেউ সৃষ্টি করেছেন এবং কিছু কারণে আপনার তথ্য সংগ্রহ করা. আপনি তাদের যুক্তি বোঝার চেষ্টা করা উচিত. রিভার্স ইঞ্জিনিয়ারিং এই ধরনের আপনি আপনার পরে সেটির তথ্য সম্ভাব্য সমস্যা ও গোঁড়ামির শনাক্ত করতে সহায়তা করতে পারেন.
সেখানে "বিগ ডাটা" এর কোন একক ঐক্যমত্য সংজ্ঞা নেই, কিন্তু অনেক সংজ্ঞা 3 বনাম ফোকাস বলে মনে হচ্ছে: (যেমন, ভলিউম, বিভিন্ন, এবং বেগ Japec et al. (2015) ). বরং তথ্য বৈশিষ্ট্যের উপর মনোযোগ নিবদ্ধ করে চেয়ে, আমার সংজ্ঞা কেন ডেটা তে তৈরি করা হয়েছিল আরও গুরুত্ত্ব দেয়.
বড় তথ্য শ্রেণীবিভাগের ভিতরে সরকার প্রশাসনিক তথ্য আমার অন্তর্ভুক্তি একটি বিট অসাধারণভাবে হয়. অন্যরা যারা এই ক্ষেত্রে করেছেন, অন্তর্ভুক্ত Legewie (2015) , Connelly et al. (2016) , এবং Einav and Levin (2014) . গবেষণার জন্য সরকার প্রশাসনিক ডাটার মান সম্পর্কে আরো জানার জন্য, দেখুন Card et al. (2010) , Taskforce (2012) , এবং Grusky, Smeeding, and Snipp (2015) .
সরকার পরিসংখ্যানগত পদ্ধতি, বিশেষ করে মার্কিন আদমশুমারি ব্যুরো ভিতর থেকে প্রশাসনিক গবেষণার একটি দৃশ্য দেখার জন্য, দেখুন Jarmin and O'Hara (2016) . পরিসংখ্যান সুইডেন এ প্রশাসনিক রেকর্ডপত্র গবেষণার বই দৈর্ঘ্য চিকিত্সার জন্য, দেখুন Wallgren and Wallgren (2007) .
অধ্যায়ে আমি সংক্ষেপে যেমন সাধারণ সামাজিক সার্ভে (GSS) একটি সামাজিক মিডিয়া ডেটা উৎস যেমন টুইটার হিসাবে হিসাবে একটি ঐতিহ্যগত জরিপ তুলনায়. ঐতিহ্যগত সার্ভে এবং সামাজিক মিডিয়া ডেটা মধ্যে একটি পুঙ্খানুপুঙ্খ যত্নশীল তুলনা করার জন্য, দেখুন Schober et al. (2016) .
বড় তথ্য এই 10 বৈশিষ্ট্য বিভিন্ন উপায়ে বিভিন্ন বিভিন্ন লেখক বিভিন্ন দ্বারা বর্ণনা করা হয়েছে. লিখন যে এসব বিষয়ে আমার চিন্তা প্রভাবিত অন্তর্ভুক্ত: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , এবং Goldstone and Lupyan (2016) .
এই অধ্যায়ের সর্বত্র, আমি শব্দটি ডিজিটাল ট্রেস, যা আমি মনে করি অপেক্ষাকৃত নিরপেক্ষ ব্যবহার করেছি. ডিজিটাল চিহ্ণ আরেকটি জনপ্রিয় শব্দটি ফুটপ্রিন্ট হয় (Golder and Macy 2014) , কিন্তু হাল Abelson কেন্ Ledeen, এবং হ্যারি লুইস হিসাবে (2008) নির্দেশ, একটি অধিক উপযুক্ত শব্দটি সম্ভবত যে ডিজিটাল ফিঙ্গারপ্রিন্ট হয়. যখন আপনি পদচিহ্নের তৈরি করেন, আপনি কি ঘটছে এবং আপনার পদচিহ্নের সাধারণত ব্যক্তিগতভাবে আপনি আঁকা যাবে না সচেতন. একই আপনার ডিজিটাল চিহ্ণ সত্য নয়. আসলে, আপনি ট্রেস রেখে করা হয় সব সময় যা সম্পর্কে আপনি খুব সামান্য জ্ঞান আছে. এবং, যদিও এইসব ট্রেস তাদের উপর আপনার নাম আছে কি না, তারা প্রায়ই ফিরে আপনি লিঙ্ক করা যেতে পারে. অন্য কথায়, তারা আরো ফিঙ্গারপ্রিন্ট মত: অদৃশ্য এবং ব্যক্তিগতভাবে শনাক্তযোগ্য.
বড়
কেন বড় ডেটাসেট, পরিসাংখ্যিক পরীক্ষাগুলো সমস্যাযুক্ত রেন্ডার সম্পর্কে আরো জানার জন্য, দেখুন Lin, Lucas, and Shmueli (2013) এবং McFarland and McFarland (2015) . এসব বিষয় গবেষকরা নেতৃত্ব পরিসংখ্যানগত তাৎপর্য বদলে ব্যবহারিক তাৎপর্য উপর ফোকাস করা উচিত.
সবসময়
যখন বিবেচনায় সবসময় অন তথ্য, এটা গুরুত্বপূর্ণ বিবেচনা করা হবে কিনা তা আপনি সময়ের সঠিক একই মানুষ তুলনা করা হয় বা কিনা আপনি কিছু লোক পরিবর্তন গ্রুপ তুলনা করা হয়; উদাহরণস্বরূপ দেখুন, Diaz et al. (2016) .
অ প্রতিক্রিয়াশীল
অ প্রতিক্রিয়াশীল ব্যবস্থা উপর একটি ক্লাসিক বই Webb et al. (1966) . বই প্রাক তারিখ উদাহরণ ডিজিটাল বয়স, কিন্তু তারা এখনও আলোকজ্জ্বল হয়. ভর নজরদারি উপস্থিতির কারণ তাদের আচরণ পরিবর্তন মানুষের উদাহরণের জন্য, দেখুন Penney (2016) এবং Brayne (2014) .
অসম্পূর্ণ
রেকর্ড দুটো ঘটনার সম্পর্কে আরো জানার জন্য, দেখুন Dunn (1946) এবং Fellegi and Sunter (1969) (ঐতিহাসিক) এবং Larsen and Winkler (2014) (আধুনিক). একই তটস্থ যেমন ডাটা ডিডুপ্লিকেশান উদাহরণস্বরূপ সনাক্তকরণ, নাম মিল এছাড়াও নামের অধীন কম্পিউটার বিজ্ঞান মধ্যে উন্নত করা হয়েছে, সনাক্তকরণ সদৃশ এবং রেকর্ড ডিটেকশন ডুপ্লিকেট (Elmagarmid, Ipeirotis, and Verykios 2007) . এছাড়া গোপনীয়তা লিংকেজ যা ব্যক্তিগতভাবে তথ্য চিহ্নিতকরণের সংক্রমণ প্রয়োজন হয় না রেকর্ড করতে পন্থা সংরক্ষণের হয় (Schnell 2013) . ফেসবুক একটি ভোটিং আচরণ তাদের রেকর্ডের লিঙ্ক করতে এগিয়ে বিকশিত করেনি; এই একটা পরীক্ষা যে আমি আপনি অধ্যায় 4 সম্পর্কে বলব মূল্যায়ন করা হয়েছিল (Bond et al. 2012; Jones et al. 2013) .
কনস্ট্রাক্ট বৈধতা সম্পর্কে আরো জানার জন্য, দেখুন Shadish, Cook, and Campbell (2001) , অধ্যায় 3.
অনধিগম্য
AOL সার্চ লগ ছত্রভঙ্গ সম্পর্কে আরো জানার জন্য, দেখুন Ohm (2010) . আমি কোম্পানি ও অধ্যায় 4 সরকারগুলো সঙ্গে অংশীদার সম্পর্কে পরামর্শ দিতে যখন আমি পরীক্ষায় বর্ণনা. লেখক একটি সংখ্যা গবেষণা যে দুর্গম তথ্য উপর নির্ভর সম্পর্কে উদ্বেগ প্রকাশ করেছে, দেখতে Huberman (2012) এবং boyd and Crawford (2012) .
বিশ্ববিদ্যালয়ের গবেষকরা ডেটা অ্যাক্সেস অর্জন করার জন্য এক ভালো উপায় একজন ইন্টার্ন বা পরিদর্শন গবেষক হিসেবে একটি কোম্পানিতে কাজ করতে হয়. ডেটা অ্যাক্সেস সক্ষম ছাড়াও, এই প্রক্রিয়াকে সাহায্য করবে গবেষক সম্পর্কে কিভাবে ডেটা তৈরি করা হয়েছে, যা বিশ্লেষণ জন্য গুরুত্বপূর্ণ আরও জানতে.
অ প্রতিনিধি
অ প্রতিনিধীত্বগুলির গবেষক এবং সরকার কে একটি সমগ্র জনসংখ্যার সম্পর্কে বিবৃতি করতে চান জন্য একটি বড় সমস্যা. এই কোম্পানি যে সাধারণত তাদের ব্যবহারকারীদের উপর দৃষ্টি নিবদ্ধ করা হয় জন্য উদ্বেগের কম. কিভাবে পরিসংখ্যান নেদারল্যান্ডস ব্যবসা বড় তথ্য অ প্রতিনিধীত্বগুলির ইস্যু বিবেচনায় সম্পর্কে আরো জানার জন্য, দেখুন Buelens et al. (2014) .
অধ্যায় 3, আমি অনেক বেশী বিস্তারিত স্যাম্পলিং এবং প্রাক্কলন বর্ণনা করব. এমনকি যদি তথ্য অ প্রতিনিধি, নির্দিষ্ট অবস্থার অধীনে হয়, তারা ভাল অনুমান উত্পাদন পরিমেয় যাবে.
drifting
সিস্টেম ড্রিফট বাইরে থেকে দেখতে খুব কঠিন. তবে MovieLens প্রকল্প (অধ্যায় 4 বেশী আলোচিত) একটি একাডেমিক গবেষণা গ্রুপ দ্বারা অধিক 15 বছর জন্য চালানো হয়েছে. অতএব, তারা নথিভুক্ত এবং ভাগ উপায় যে সিস্টেম সময় ধরে বিকশিত হয়েছে এবং কিভাবে সম্পর্কে তথ্য আছে এই বিশ্লেষণ প্রভাবিত পারে (Harper and Konstan 2015) .
পণ্ডিতদের একটি নম্বর টুইটার ড্রিফট উপর দৃষ্টি নিবদ্ধ করা হয়েছে: Liu, Kliman-Silver, and Mislove (2014) এবং Tufekci (2014) .
algorithmically কিংকর্তব্যবিমূঢ়
আমি প্রথম শুনেছি শব্দটি "আলগোরিদিমিক্যালি কিংকর্তব্যবিমূঢ়" একটি আলাপ মধ্যে Jon Kleinberg দ্বারা ব্যবহৃত. Performativity পিছনে মূল ধারণা যে কিছু সামাজিক বিজ্ঞান তত্ত্ব "ইঞ্জিন না ক্যামেরা" হয় (Mackenzie 2008) . অর্থাৎ, তারা আসলে বিশ্বের আকৃতি বদলে শুধু এটা ক্যাপচার.
মলিন
সরকারি স্ট্যাটিস্টিকাল এজেন্সি ডেটা পরিষ্কার, পরিসংখ্যানগত তথ্য সম্পাদনা করুন. De Waal, Puts, and Daas (2014) জরিপ তথ্য জন্য উন্নত পরিসংখ্যানগত তথ্য সম্পাদনা কৌশল বর্ণনা এবং পরীক্ষা করার জন্য যা ব্যাপ্তি তারা বড় তথ্য সূত্র প্রযোজ্য, এবং হয় Puts, Daas, and Waal (2015) একটি সাধারণ দর্শকদের জন্য একই ধারণা কিছু উপস্থাপন করে.
টুইটার, স্প্যাম উপর দৃষ্টি নিবদ্ধ করা গবেষণার কিছু উদাহরণের জন্য Clark et al. (2016) এবং Chu et al. (2012) . অবশেষে, Subrahmanian et al. (2016) ডার্পা টুইটার বট চ্যালেঞ্জ ফলাফল বর্ণনা করে.
সংবেদনশীল
Ohm (2015) রিভিউ সংবেদনশীল তথ্য ধারণার উপর আগের গবেষণা এবং একটি মাল্টি ফ্যাক্টর পরীক্ষা উপলব্ধ করা হয়. চারটি কারণের তিনি প্রস্তাব আছে: ক্ষতি সম্ভাবনা; ক্ষতি সম্ভাবনা; একটি গোপন সম্পর্কের উপস্থিতি; এবং কিনা ঝুঁকি গরিষ্ঠতামূলকভাবে উদ্বেগ প্রতিফলিত.
নিউ ইয়র্কে ট্যাক্সি Farber গবেষণা দ্বারা আগের গবেষণা উপর ভিত্তি করে ছিল Camerer et al. (1997) যে কাগজ ট্রিপ চাদর কাগজ ড্রাইভার দ্বারা ব্যবহার ট্রিপ শুরুর সময়ের রেকর্ড করতে ফরম, শেষ সময়, এবং ভাড়া এর তিনটি ভিন্ন সুবিধা স্যাম্পল. এই আগের গবেষণায় দেখা যায় যে ড্রাইভার লক্ষ্য উপার্জনকারী হতে যাচ্ছিলেন তারা দিন যেখানে তাদের মজুরি ছিল উচ্চ উপর কম কাজ করেন.
Kossinets and Watts (2009) সামাজিক নেটওয়ার্ক homophily উদ্ভব উপর দৃষ্টি নিবদ্ধ করা হয়. দেখুন Wimmer and Lewis (2010) একই সমস্যা যা ফেসবুক থেকে তথ্য ব্যবহার করে একটি ভিন্ন পদ্ধতির জন্য.
পরবর্তী কাজ, রাজা এবং সহকর্মীদের আরও চীন অনলাইন সেন্সরশিপ অন্বেষণ (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . চীন মধ্যে অনলাইন সেন্সরশীপ পরিমাপ করার জন্য একটি সংশ্লিষ্ট পদ্ধতির জন্য দেখুন Bamman, O'Connor, and Smith (2012) . ব্যবহৃত এক মত পরিসংখ্যানগত পদ্ধতি সম্পর্কে আরো জানার জন্য King, Pan, and Roberts (2013) 11 মিলিয়ন পোস্টের মনোবৃত্তি অনুমান করার জন্য, দেখুন Hopkins and King (2010) . পরিদর্শিত লার্নিং সম্পর্কে আরো জানার জন্য, দেখুন James et al. (2013) (কম কারিগরী) Hastie, Tibshirani, and Friedman (2009) (আরও প্রযুক্তিগত).
পূর্বাভাস শিল্প তথ্য বিজ্ঞানের একটি বড় অংশ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . পূর্বাভাস এক ধরনের যে সাধারণভাবে সামাজিক গবেষকরা দ্বারা সম্পন্ন হয় উদাহরণস্বরূপ, ডেমোগ্রাফিক পূর্বাভাস হয় Raftery et al. (2012) .
গুগল ফ্লু প্রবণতা ইনফ্লুয়েঞ্জা প্রাদুর্ভাব nowcast থেকে সার্চ ডেটা ব্যবহারের জন্য প্রথম প্রকল্প ছিল না. বস্তুত, মার্কিন যুক্তরাষ্ট্র গবেষক (Polgreen et al. 2008; Ginsberg et al. 2009) এবং সুইডেন (Hulth, Rydevik, and Linde 2009) পাওয়া যায় যে নির্দিষ্ট খঁোজা শব্দগুলি (যেমন, "ফ্লু") পূর্বাভাস জাতীয় জনস্বাস্থ্য নজরদারী এটা করার আগে তথ্য প্রকাশ করা হয়. পরবর্তীকালে অনেক, অনেক অন্যান্য প্রকল্প রোগ নজরদারি সনাক্তকরণের জন্য ডিজিটাল ট্রেস ডেটা ব্যবহারের জন্য, দেখুন চেষ্টা করেছি Althouse et al. (2015) একটি পর্যালোচনা জন্য.
স্বাস্থ্য ফলাফল ভবিষ্যদ্বাণী ডিজিটাল ট্রেস ডেটা ব্যবহার করা ছাড়াও, এছাড়াও টুইটার তথ্য ব্যবহার করে নির্বাচন ফলাফল ভবিষ্যদ্বাণী করার কাজ বিপুল পরিমাণ হয়েছে; পর্যালোচনার জন্য দেখতে Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (অধ্যায়. 7), এবং Huberty (2015) .
ইনফ্লুয়েঞ্জা প্রাদুর্ভাব পূর্বাভাসের এবং ভবিষ্যদ্বাণী নির্বাচনের বিশ্বের ঘটনা কিছু ভবিষ্যদ্বাণী করা ডিজিটাল ট্রেস কিছু ব্যবহার উভয় উদাহরণ আছে টুইটার ডেটা ব্যবহার করার জন্য সার্চ তথ্য ব্যবহার করে. সেখানে গবেষণায় এই সাধারণ কাঠামো আছে একটি বিরাট সংখ্যা. ছক 2.5 কয়েকটি উদাহরণ রয়েছে.
ডিজিটাল ট্রেস | ফলাফল | তলব |
---|---|---|
টুইটার | যুক্তরাষ্ট্রে সিনেমা বক্স অফিসে আয় | Asur and Huberman (2010) |
অনুসন্ধান লগ | মার্কিন যুক্তরাষ্ট্রে চলচ্চিত্র, সঙ্গীত, বই, এবং ভিডিও গেম সেলস | Goel et al. (2010) |
টুইটার | ডাউ জোনস ইন্ডাস্ট্রিয়াল অ্যাভারেজ (মার্কিন স্টক মার্কেট) | Bollen, Mao, and Zeng (2011) |
জার্নাল দ্রষ্টব্য রাষ্ট্রবিজ্ঞান বড় তথ্য, কার্যকারণ অনুমান, এবং প্রথাগত তত্ত্ব উপর এক সিম্পোজিয়ামে ছিল, এবং Clark and Golder (2015) প্রতিটি অবদান সংক্ষিপ্ত বিবরণ. আমেরিকা যুক্তরাষ্ট্র এর জাতীয় বিজ্ঞান একাডেমী জার্নালে প্রসিডিংস কার্যকারণ অনুমিতি এবং বড় তথ্য উপর এক সিম্পোজিয়ামে ছিল, এবং Shiffrin (2016) প্রতিটি অবদান সংক্ষিপ্ত বিবরণ.
প্রাকৃতিক পরীক্ষায় নিরিখে Dunning (2012) একটি চমৎকার বই দৈর্ঘ্য চিকিত্সা প্রদান করে. একটি প্রাকৃতিক পরীক্ষা যেমন ভিয়েতনাম খসড়া সুরতি ব্যবহারপদ্ধতি জন্য দেখুন Berinsky and Chatfield (2015) . মেশিন লার্নিং পন্থা স্বয়ংক্রিয়ভাবে বড় তথ্য উৎসের ভিতরে প্রাকৃতিক পরীক্ষায় আবিষ্কার করার চেষ্টা যে জন্য দেখুন, Jensen et al. (2008) এবং Sharma, Hofman, and Watts (2015) .
ম্যাচিং নিরিখে, একটি আশাবাদী পর্যালোচনার জন্য, দেখুন Stuart (2010) , এবং একটি হতাশাপূর্ণ পর্যালোচনার জন্য দেখতে Sekhon (2009) . কেঁটে সাফ এক ধরনের হিসাবে মিলে সম্পর্কে আরো জানার জন্য, দেখুন Ho et al. (2007) . বই যে ম্যাচিং এর চমৎকার চিকিত্সা প্রদান জন্য দেখুন Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , এবং Imbens and Rubin (2015) .