ساده شمېرنې کیدای شي په زړه که تاسو سره د ښه دداتا یوه ښه پوښتنه کول.
که څه هم دا په سمه ژبه د ژبو سره سمون لري، ډیرې ټولنیزه څیړنه په حقیقت کې یوازې د شیانو شمیرل کیږي. د سترو معلوماتو په عمر کې، محققین کولی شي د هر وخت څخه زیات شمیرل کیږي، مګر دا پدې مانا ندي چې دوی باید په غیرقانوني توګه د شمېرنې شمیره پیل کړي. پرځای یې، څیړونکي باید وپوښتل شي: کوم شیان د شمېرنې ارزښت لري؟ دا کیدای شي په بشپړ ډول د ماتونکي موضوع په څیر ښکاري، مګر یو څه عمومي نمونې شتون لري.
ډیری وخت زده کونکي د خپل شمیرې څیړنې هڅوي د دې په واسطه: زه به یو څه وشمیرم چې هیڅوک مخکې له دې چې شمیرل شوي نه وي. د مثال په توګه، یو زده کوونکی کیدی شي ووایی چې ډیرو خلکو مهاجرینو زده کړې کړې او ډیرو خلکو د جینونو مطالعه کړې، مګر هیڅوک د مهاجرو جالونو مطالعه نه کړې. زما په تجربه کې، دا ستراتیژي چې زه د نشتوالي له امله هڅیږم ، معمولا د ښه څیړنې سبب ګرځي. د نشتوالي له امله هڅول داسی ویل کیږي چې هلته هلته سوری شتون لري، او زه به دا ستونزمن کار وکړم چې هغه ډک کړم. مګر هر سوراخ باید ډک شي.
د نشتوالي له امله د هڅونې پر ځای، زما په اند یو ښه ستراتیژی د څیړنو د پوښتنو په لټه کې دی چې مهم او یا هم په زړه پورې دي (یا هم مثلا دواړه). دا دواړه شرایط یو څه ستونزمن دی، خو د یوې مهمې څیړنې په اړه فکر کولو یوه لاره یې دا ده چې دا د پالیسۍ جوړونکو لخوا یو مهم پریکړه کې د اندازه کولو اغیز یا فیډ لري. د بیلګې په توګه، د بیکارۍ کچه اندازه مهم ده ځکه دا د اقتصاد شاخص دی چې د پالیسۍ پریکړې پرمخ بیایی. عموما، زه فکر کوم چې څیړونکي د پام وړ ښه احساس لري کوم اهمیت لري. نو، د دې برخې په پاتې برخه کې، زه غواړم دوه مثالونه وړاندې کړم چیرې چې زه فکر کوم د شمېرنې څرنګوالی دی. په هره قضیه کې، څیړونکي په ناپوهۍ سره شمیرل ندي؛ بلکه، دوی په ځانګړو سیسټمونو کې شمیرل کیده چې د ټولنیز سیسټم څنګه کار کوي په عمومي عمومي نظریاتو کې مهم اندیښنې روښانه کړي. په بل عبارت، د دې ځانګړې شمیرې تمرینونه په زړه پورې دي چې دا معلومات پخپله ندي، دا د دې عمومي نظرونو څخه راځي.
د شمېرنې ساده سټراټیټ یوه بیلګه د هینري فرابر (2015) څخه د نیویارک ښار ټیکسي چلوونکو د چلند د مطالعې څخه راځي. که څه هم دا ډله ممکن په میراث ډول په زړه پوري ښکاري، دا د کارګرانو په اقتصاد کې د دوو سیالو تیوریانو د آزموینې لپاره د ستراتیژیکو څیړنې ځای دی. د فاربر د څیړنو په موخه، د ټیکسي چلوونکي د کاري چاپیریال په اړه دوه مهمې ځانګړتیاوې شتون لري:) 1 (د هغوی ساعتونه معاش له ورځې څخه تر ورځې پورې راټیټوي، د فکتورونو لکه هوا، او) 2 (ساعتونه کار کولی شي هره ورځ د خپلو پریکړو پر بنسټ تغیر وکړي. دا ځانګړتیاوې د روانې میاشتې معاش او ساعتونو ترمنځ د اړیکو په اړه یوه دلچسپه پوښتنه کوي. په اقتصاد کې د نیکولوژیک ماډل اټکل کوي چې ټکسي چلوونکي به په څو ورځو کې کار وکړي چیرې چې دوی لوړ ساعته معاش لري. په عین حال کې، د چلند د اقتصاد ماډلونه په حقیقت کې د برعکس وړاندیز کوي. که چیرې چلوونکی د ځانګړي عاید هدف ټاکي - هره ورځ $ 100 ووایي او تر هغه چې کار ونه کړي نو کار وکړي، نو بیا به موټر چلوونکي به په څو ورځو کې کار وکړي چې دوی نور ډیر عاید لري. د مثال په توګه، که تاسو د هدف ګټونکي یاست، شاید تاسو په ښه ورځ کې څلور ساعته کار وکړئ) په 25 ساعتونو کې $ (او پنځه ساعته په خرابه ورځ) 20 ډالره ډالر (. نو نو موټر چلوونکي په ورځ کې په ساعتونو کې ډیر ساعتونه کار کوي (لکه د نیکولوژیکي ماډل لخوا وړاندیز شوي) یا د لږو ساعته معاشونو سره د ورځې په اوږدو کې ډیر ساعتونه (لکه څنګه چې د چلند اقتصادي ماډلونه وړاندیز شوي)؟
د دې پوښتنې ځواب لپاره فاربر د هر ټیسي سفر په اړه معلومات ترلاسه کړي چې له نیویارک ښار څخه د 2009 څخه تر 2013 پورې اخیستل شوي، هغه معلومات چې په عامه توګه موجود دي. دا ډاټا - کوم چې د برښنا میتر لخوا راټول شوي وو، ښار د هرې سفر په اړه معلومات پکې شامل دي - د هرې سفر په اړه معلومات شامل دي: د پیل وخت، د موقعیت پیل، د پای وخت، د پاې ځای، کرایه، او پوسته) که چیرې دا ټیک د کریډیټ کارت سره ورکړل شوی . د دې ټیکسي میتود ډاټا په کارولو سره، فاربر موندلي چې ډیری ډریوران په ورځو کې ډیر کار کوي کله چې معاشونه لوړ وي، د نییوکوزوليک تیورۍ سره سمون لري.
د دې اصلي موندلو برسیره، فاربر کولی شو د ډیټابیس انداز اندازه وکړو چې د تثبیت او حرکتونو په اړه ښه پوهیږي. هغه وموندله چې د وخت په تېرېدو سره نوي چلونکي په تدریجي ډول د لوړو معاشونو په ساعتونو کې د ساعتونو لپاره کار کوي) د بیلګې په توګه، دوی زده کړه کوي چې د نییوکوزیکل ماډل وړاندیز کوي. (. او هغه نوي چلونکي چې د هدف وړ ګټونکي په څیر چلند کوي د ټکسي چلوونکو څخه ډډه کوي. د دغو دغو فرعي موندنو، کوم چې د اوسني چلونکو د لیدل شوي چلند تشریح کولو کې مرسته کوي، یوازې د ډاټاټس د اندازې له امله ممکن و. دوی په نامناسب ډول موندلو کې ناممکن وو چې د لنډ وخت په اوږدو کې د لږ شمیر ټکسي چلوونکو څخه د کاغذ سفر لیټونه کارول (Camerer et al. 1997) .
د فاربر څیړنه د یوې لویې پیښې سرچینې سره د څیړنې لپاره نږدې قضیه وه، ځکه چې هغه معلومات چې د ښار لخوا راټول شوي وو هغه نږدې معلوماتو ته نږدې وو چې د کروندګر راټول شوي وو) یو توپیر دا دی چې د کروندګر به په مجموع کې ډاټا غوښتل معاشونه او نور تجاوزونه - مګر په ښار کې یوازې هغه معلومات چې د کریډیټ کارت لخوا ورکړل شوي دي). که څه هم، یوازې معلومات یواځې ندي. د فاربر څیړنې کلي د معلوماتو لپاره یوه زړه پورې پوښتنه راوړله، یوه پوښتنه چې لوی توپیرونه د دې مشخص ترتیب څخه وروسته لري.
د شیانو د شمیرو دوهم مثال د چینایي حکومت لخوا د آنلاین سنسرشیر په اړه د ګری پاچا، جینیفر پین، او مولی رابرټز (2013) لخوا د څیړنې څخه راځي. په داسې حال کې، څیړونکي باید خپل لوی معلومات راټول کړي او دوی باید د دې حقیقت سره معامله وکړي چې د دوی معلومات ناممکن وو.
پاچا او همکاران د دې واقعیت له امله هڅول شوي چې په چین کې د ټولنیزو رسنیو پوستونه د ډیرو دولتي اپینو لخوا سینسر شوي دي چې فکر کوي په لسګونه زره خلک پکې شامل دي. په هرصورت، څیړونکي او اتباع لږ لږ احساس لري چې دا سینسر څنګه پریکړه کوي چې کوم محتوا له مینځه وړل کیږي. د چین پوهان د واقعیت لرونکو توقعاتو په اړه د کوم ډول پوسټونو ویجاړولو احتمال لري. ځینې خلک فکر کوي چې سینسرونه د پوسټونو په اړه تمرکز کوي چې د دولت نازک دي، پداسې حال کې چې نور داسې فکر کوي چې دوی په پوستونو تمرکز کوي چې ډله ایز چلند هڅوي لکه لاریونونه. د دې اندیښنو معلومول کوم چې سمه ده سمه ده چې څیړونکي پدې پوهیږي چې څنګه چین او نور حکومتی حکومتونه پوهیږي چې سانسور کې ښکیل دي. له دې امله، پاچا او ملګري غوښتل چې پوسټونه خپاره کړي چې وروسته خپاره شوي او وروسته بیا د هغو پوستونو سره لرې شوي چې حذف شوي او حذف شوي ندي.
د دې ليکنې په راټولولو د 1،000 څخه زیات د چين د ټولنیزو رسنیو د ويب-هر د مختلفو مخ layouts موندنې اړونده ليکنې، او بيا د دې ليکنې د بیا چې وګوري چې وروسته ړنګ له محبسه د حیرانونکې انجنيري ګام کې لاس لري. سره په پراخه کچه د ویب په سستۍ تړاو د عادي انجنيري ستونزو سربېره، د دې پروژې د زياته کړه ننګونه چې دا اړتيا يې ډېره روژه وي، ځکه ډيرو سانسور ليکنې په 24 ساعتونو څخه کم راښکته درلود. په بل عبارت، په ورو بانديښويږ به خطا د ليکنې چې د سانسور ډېر. برسيره پر دې، د crawlers درلود چې دا د ټولو د معلوماتو د راټولولو کار کشف تښنېدلې داسې حال کې چې هسې نه د ټولنیزو رسنیو د ويب بندې لاسرسی او یا په بل ته د مطالعې په ځواب کې د خپلو پالیسیو کې بدلون راولي.
کله چې دا لوی انجنیري دنده پای ته ورسېده، پاچا او همکارانو 85 مختلفو موضوعګانو په اړه 11 ملیون پوسټونه ترلاسه کړل، چې هر یو یې د حساسیت کچه په پام کې نیولې ده. د بیلګې په توګه، د لوړ حساسیت موضوع ایی وی ویی، مقابل کونکی دی. د منځنی حساسیت موضوع د چینایی اسعارو قدردانی او تشویق دی، او د ټیټ حساسیت موضوع د نړیوال جام دی. د دغو 11 میلیونو پوستونو څخه، نږدې دوه میلیونه سینسر شوی. په حیرانتیا سره، پاچا او همکارانو وموندله چې په خورا حساس موضوعاتو کې پوسټونه د منځنۍ او د حساسیت ټیټ حساس موضوعات په پرتله یوازې لږ ځله ډیر سنسر شوی و. په بل عبارت، چینایي سینسر د هغه پوست سنسر په اړه احتمال لري چې آی وی ویوی د پوسټ په توګه یادونه کوي چې نړیوال جام ته اشاره کوي. دا موندنې د دې مفکورې مالتړ نه کوي چې حکومت د حساسو موضوعګانو ټول پوسټونه سنسران لري.
د موضوع په واسطه د سنسرسر د شرح ساده ساده حساب کول به غلط وي، مګر. د مثال په توګه، حکومت ممکن د عی وی وی وی ملاتړی پوستونه سانسور کړی، مګر هغه پوسټونه پریږدي چې د هغه په اړه دي. د پوستونو ترمنځ په ډیر احتیاط سره توپیر کولو لپاره، څیړونکي د هر پوست جذب اندازه کولو ته اړتیا لري. له بده مرغه، د ډیرو کارونو سره سره، د پخوانیو موجوداتو لغاتونو څخه کار اخیستل د ځان احساساتو طریقه په بشپړه توګه طریقه اوس هم په ډیرو حالتونو کې ډیره ښه نه ده) د هغه ستونزې احساساتو ته په پام کې ونیسئ چې د 11 سپتامبر 11، 2001 کې د 2.3.9 برخه کې تشریح شوي احساسات چمتو کړئ. له دې امله، پاچا او همکارانو د 11 میلیونو ټولنیز رسنیو پوسټونو لیبل ته اړتیا درلوده چې ایا دا وي (1) د دولت نازک،) 2 (د دولت مالتړي، یا) 3 (د پیښو په اړه غیررسمي یا حقیقتي راپورونه. دا د لوی کار په څیر ښکاري، مګر دوی یې د یوې پیاوړې چال په کارولو سره حل کړي چې د ډیټا ساینس کې عام دي مګر نسبتا په ټولنیز ساینس کې خورا لږ دي: څارل شوي زده کړې ؛ 2.5 شکل وګورئ.
لومړی، په یوه مرحله کې چې په عمومي توګه د Preprocessing په نوم یادیږي، څیړونکو د ټولنیزو رسنیو پوسټونو د اسنادو مدیریت کې میډکس کې بدل کړل ، چیرته چې د هر سند او یو کالم لپاره یو قطار و چې دا یې ثبت کړی چې پوسته یو ځانګړي کلمه) د مثال په توګه، لاریون یا ټرافیک (. . بله، د تحقیق معاونینو یوه ډله د پوستونو نمونه جذب کړي. بیا، دوی د دې لاس لیبل شوي ډیټا کارولو لپاره د ماشین زده کړې ماډل رامینځ ته کول چې کولی شي د پوست جذب یې د هغې ځانګړتیاو پر بنسټ تعقیب کړي. بالاخره، دوی دا ماډل کارولي چې د 11 میلیونو پوستو احساسات اټکل کړي.
په دې توګه، په مستقیم ډول د 11 میلیونو پوستونو مطالعې او لیبل کول - کوم چې د لوژستيکي پلوه ناشونې وي - کابینې او همکارانو په منظم ډول لږ شمیر پوستونه لیبل کړل او بیا یې د ټولو پوستونو جذب اټکل کولو لپاره نظارت شوي زده کړې کارولې. د دې تحلیل بشپړولو وروسته، دوی وتوانیدل چې نتیجه وکړي، ځینې حیرانتیاوې، د پوستې له مینځه وړلو احتمال له دې سره تړاو نه درلود چې آیا دا د دولت مهم یا د دولت مالتړ کونکی دی.
په پاى کې، پاچا او همکارانو وموندله چې يوازې درې ډوله پوستونه په منظمه توګه سانسور شوي: فحشګرافي، د سانسور تنقيد، او هغه کسان چې ډله ييز عمل لري (يعنې د لوى کچې لاريونونو ته لار هوارول). د ډیرو پوستونو په لرې کولو سره چې له مینځه وړل شوي او پوستې حذف شوې وې، پاچا او همکاران پدې پوهیدلي وو چې سینسر څنګه د کتلو او شمیرلو له الرې کار کوي. پردې سربېره، د یوې موضوع بیاکتنه چې په دې کتاب کې به ترسره شي، د نظارت نظارت شوي تګلاره چې دوی یې د ځینو پایلو لاسونه لیږدوي او بیا د ماشین زده کړې ماډل رامینځ ته کوي ترڅو د آرامۍ بدلید په ټولنیز څیړنه کې په ډیجیټل عمر کې ډیر عام وي . تاسو به د انځورونو لیدلو ته ورته ورته وګورئ په 2.5 فصلونو کې وګورئ) د پوښتنو څخه پوښتنه (او 5 (د ډله ایزو همکاریو رامینځ ته کول)؛ دا یو له هغو لږو نظرونو څخه دی چې په څو فصلونو کې ښکاري.
دا مثالونه - په نیویارک کې د ټسيسي چلوونکي او د چینايي حکومت ټولنیز رسنیو سنسرولي چلند ښیي چې د نسبتا ډیرو ارقامو ساده پیژندل ممکن په ځینو حاالتو کې، په زړه پورې او مهم څیړنې ته الر پیدا کړي. که څه هم، په دواړو قضیه کې، څیړونکي باید د ډیرو معلوماتو سرچینې ته دلچسپې پوښتنې راوړي؛ د خپل ځان معلومات کافی نه وو.