અમે અંદાજે પ્રયોગો કરી શકીએ છીએ કે આપણી પાસે નથી અથવા નથી કરી શકતા. બે અભિગમ જે ખાસ કરીને મોટા ડેટા સ્રોતથી લાભ થાય છે તે કુદરતી પ્રયોગો અને મેળ ખાતા છે.
કેટલાક મહત્વપૂર્ણ વૈજ્ઞાનિક અને નીતિના પ્રશ્નો સાધક છે. ઉદાહરણ તરીકે, વેતન પર નોકરીની તાલીમ કાર્યક્રમની અસર શું છે? આ પ્રશ્નનો જવાબ આપવાનો પ્રયાસ કરનારા એક સંશોધક એવા લોકોની કમાણીની તુલના કરી શકે છે, જેણે તે માટે તાલીમ માટે સાઇન અપ કર્યું નથી. પરંતુ, આ જૂથો વચ્ચેના વેતનમાં કોઈ તફાવત કેટલો છે, તાલીમના કારણે અને લોકો જે સાઇન અપ કરે છે અને જે નથી તે વચ્ચે પહેલેથી અસ્તિત્વમાં રહેલા તફાવતને કારણે છે. આ એક મુશ્કેલ પ્રશ્ન છે, અને તે એક છે જે આપમેળે વધુ ડેટા સાથે દૂર થતું નથી. બીજા શબ્દોમાં કહીએ તો, સંભવિત પહેલેથી અસ્તિત્વમાં રહેલા તફાવતો વિશે ચિંતા ઊભી થાય છે કે તમારા ડેટામાં કેટલા કર્મચારીઓ છે.
ઘણી પરિસ્થિતિઓમાં, કેટલીક સારવાર, જેમ કે જોબ ટ્રેનિંગના સાધક અસરનો અંદાજ કાઢવાની મજબૂત રીત, એક રેન્ડમાઇઝ્ડ અંકુશિત પ્રયોગ ચલાવવાનું છે જ્યાં સંશોધક રેન્ડમલી કેટલાક લોકોને સારવાર આપે છે અને અન્ય લોકો નહીં. હું બધા પ્રકરણ 4 ને પ્રયોગો માટે સમર્પિત કરીશ, તેથી અહીં હું બિન-પ્રાયોગિક ડેટા સાથે ઉપયોગમાં લેવાતી બે વ્યૂહરચનાઓ પર ધ્યાન કેન્દ્રિત કરીશ. પ્રથમ વ્યૂહરચના એ દુનિયામાં જે કંઇક થઈ રહ્યું છે તે શોધી કાઢવા પર આધાર રાખે છે જે રેન્ડમ (અથવા લગભગ રેન્ડમ) કેટલાક લોકોને સારવાર આપે છે અને અન્ય લોકો નથી. બીજી વ્યૂહરચના, જેણે સારવાર લીધી નથી અને જે મેળવ્યું તે વચ્ચે પહેલેથી અસ્તિત્વમાં રહેલા તફાવતને ધ્યાનમાં રાખવાના પ્રયાસરૂપે બિન-પ્રયોગાત્મક ડેટાનું આંકડાકીય રીતે સમાયોજન પર આધાર રાખે છે.
એક શંકાસ્પદ દાવો કરી શકે છે કે આ વ્યૂહરચનાઓ બન્નેથી ટાળવી જોઈએ કારણ કે તેમને મજબૂત ધારણાઓ, ધારણાઓ જે આકારણી કરવી મુશ્કેલ છે અને તે વ્યવહારમાં, વારંવાર ઉલ્લંઘન કરે છે. જ્યારે હું આ દાવા પ્રત્યે સહાનુભૂતિ અનુભવું છું, મને લાગે છે કે તે થોડો વધારે દૂર છે. તે ચોક્કસપણે સાચું છે કે બિન-પ્રાયોગિક ડેટામાંથી સાર્થક અંદાજો વિશ્વસનીય બનાવવા મુશ્કેલ છે, પરંતુ મને નથી લાગતું કે તેનો અર્થ એ કે આપણે ક્યારેય પ્રયાસ ન કરવો જોઈએ. ખાસ કરીને, બિન-પ્રયોગાત્મક અભિગમો મદદરૂપ થઈ શકે છે જો હેરફેરની અવરોધ તમને કોઈ પ્રયોગ કરવાથી અટકાવે છે અથવા નૈતિક પરિમાણોનો અર્થ છે કે તમે કોઈ પ્રયોગ ચલાવવા માંગતા નથી. વધુમાં, બિન-પ્રયોગાત્મક અભિગમો મદદરૂપ થઈ શકે છે જો તમે રેન્ડમાઇઝ્ડ અંકુશિત પ્રયોગ ડિઝાઇન કરવા પહેલાથી અસ્તિત્વમાં છે તે ડેટાનો લાભ લેવા માગો છો.
કાર્યવાહી કરતા પહેલાં, તે નોંધવું પણ મહત્વનું છે કે સાધકનું અંદાજ કાઢવું સામાજિક સંશોધનમાં સૌથી વધુ એકલતમ વિષયોમાંનું એક છે અને તે એક તીવ્ર અને ભાવનાત્મક ચર્ચા તરફ દોરી શકે છે. શું અનુસરે છે, હું તેના વિશે અંતર્જ્ઞાન બનાવવા માટે દરેક અભિગમનું આશાવાદી વર્ણન પૂરું પાડું છું, પછી તે અભિગમનો ઉપયોગ કરતી વખતે થનારી કેટલાક પડકારોનું વર્ણન કરીશું. દરેક પ્રકરણ વિશે વધુ વિગતો આ પ્રકરણના અંતમાં સામગ્રીમાં ઉપલબ્ધ છે. જો તમે તમારા પોતાના સંશોધનોમાં આમાંથી કોઈ અભિગમનો ઉપયોગ કરવાની યોજના ઘડી રહ્યા હોવ, તો હું ખૂબ જ (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) અનુમાન (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) પર ઘણા ઉત્તમ પુસ્તકો વાંચવા ભલામણ કરું છું.
નોન-પ્રાયોગિક ડેટામાંથી કાર્યકારી અંદાજ કરવાના એક અભિગમ એ એવી ઇવેન્ટ જોવા માટે છે કે જે રેન્ડમલી કેટલાક લોકોને સારવાર સોંપી છે અને અન્ય લોકો માટે નથી. આ પરિસ્થિતિઓને કુદરતી પ્રયોગ કહેવામાં આવે છે. એક કુદરતી પ્રયોગના સ્પષ્ટ ઉદાહરણોમાંની એક જોશુઆ ઍન્ગ્રિસ્ટ (1990) ના સંશોધનથી મળે છે, જે કમાણી પર લશ્કરી સેવાઓના પ્રભાવને માપી રહી છે. વિયેતનામ યુદ્ધ દરમિયાન, યુનાઇટેડ સ્ટેટ્સે તેના સશસ્ત્ર દળોના કદને ડ્રાફ્ટ દ્વારા વધારી દીધો. જે નાગરિકોને સેવામાં બોલાવવામાં આવશે તે નક્કી કરવા માટે, યુ.એસ. સરકારે લોટરી યોજી હતી. દરેક જન્મ તારીખ કાગળના ટુકડા પર લખવામાં આવી હતી, અને, આકૃતિ 2.7 માં બતાવ્યા પ્રમાણે, કાગળના આ ટુકડાઓ એક સમયે એક પસંદ કરવામાં આવ્યા હતા જેથી ક્રમમાં યુવાન પુરુષોને સેવા આપવા માટે કહેવામાં આવશે (યુવાન સ્ત્રીઓ વિષય ન હતી ડ્રાફ્ટ્સ માટે). પરિણામોના આધારે, 14 સપ્ટેમ્બરના રોજ જન્મેલા પુરુષોને સૌ પ્રથમ કહેવામાં આવતું હતું, 24 એપ્રિલના રોજ જન્મેલા પુરુષો બીજા હતા, અને તેથી જ. છેવટે, આ લોટરીમાં, 195 અલગ અલગ દિવસોથી જન્મેલાં પુરુષોનો મુસદ્દો તૈયાર કરવામાં આવ્યો હતો, જ્યારે 171 દિવસો પર જન્મ્યા પુરુષો ન હતા.
જો કે તે તરત જ સ્પષ્ટ ન થઈ શકે, તેમ છતાં, ડ્રાફ્ટ લોટરીમાં રેન્ડમાઇઝ્ડ અંકુશિત પ્રયોગ માટે નિર્ણાયક સમાનતા છે: બન્ને પરિસ્થિતિઓમાં, સહભાગીઓ રેન્ડમલીને સારવાર પ્રાપ્ત કરવા માટે સોંપવામાં આવે છે. આ અવ્યવસ્થિત સારવારની અસરનો અભ્યાસ કરવા માટે, એન્ગ્રીસ્ટે હંમેશાં મોટી માહિતી સિસ્ટમનો લાભ લીધો: યુ.એસ. સોશિયલ સિક્યુરિટી એડમિનિસ્ટ્રેશન, જે રોજગારમાંથી પ્રત્યેક અમેરિકન કમાણીની માહિતીને એકત્રિત કરે છે. સરકારી સરકારી વહીવટી રેકોર્ડમાં એકત્રિત કરવામાં આવેલી કમાણીની માહિતી સાથે ડ્રાફ્ટ લોટરીમાં રેન્ડમ રીતે પસંદ કરવામાં આવેલા લોકોની માહિતીને સંયોજિત કરીને, એન્ગ્રીસ્ટ એ તારણ કાઢ્યું હતું કે નિવૃત્ત સૈનિકોની કમાણી તુલનાત્મક બિન-નિવૃત્ત સૈનિકોની આવક કરતાં લગભગ 15% ઓછી હતી.
જેમ કે આ ઉદાહરણ સમજાવે છે, કેટલીક વખત સામાજિક, રાજકીય અથવા કુદરતી દળો સંશોધનને આધારે સારવાર લે છે, જે સંશોધકો દ્વારા લિવરેજ કરી શકાય છે, અને કેટલીક વાર આ સારવારની અસરો હંમેશા મોટા ડેટા સ્ત્રોતોમાં લેવામાં આવે છે. આ સંશોધન વ્યૂહરચના નીચે પ્રમાણે સારાંશ આપી શકાય છે: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
ડિજિટલ વયમાં આ વ્યૂહરચનાને સમજાવવા માટે, ચાલો એલેકઝાન્ડ્રે માસ અને એનરિકો મોર્ટેટી (2009) દ્વારા અભ્યાસ પર વિચાર કરીએ, જે કામદારની ઉત્પાદકતા પર ઉત્પાદક સહકાર્યકરો સાથે કામ કરવાની અસરનો અંદાજ કાઢવાનો પ્રયાસ કરે છે. પરિણામો જોતાં પહેલાં, તે તરફ ધ્યાન આપવું એ યોગ્ય છે કે તમારી પાસે વિરોધાભાસી અપેક્ષાઓ છે જે તમારી પાસે હોઈ શકે છે. એક તરફ, તમે અપેક્ષા રાખી શકો કે ઉત્પાદક સહકર્મીઓ સાથે કામ કરતા એક કર્મચારીને પીઅર દબાણના કારણે તેની ઉત્પાદકતા વધારવા દોરી જશે. અથવા, બીજી તરફ, તમે આશા રાખી શકો છો કે હાર્ડ-વર્કિંગ સાથીદારોએ કામદારને ધીમી કરી દો કારણ કે તેમનું કામ તેના સાથીદારો દ્વારા કરવામાં આવશે. ઉત્પાદકતા પર પીઅર ઇફેક્ટ્સનો અભ્યાસ કરવાની સ્પષ્ટ રીત એક યાદચ્છિક નિયંત્રિત પ્રયોગ હશે, જ્યાં કામદારોને વિવિધ ઉત્પાદકતાના સ્તરના કામદારો સાથે શિફ્ટ કરવામાં આવે છે અને પછી પરિણામે ઉત્પાદકતા દરેક માટે માપવામાં આવે છે. સંશોધકો, જો કે, કોઈપણ વાસ્તવિક કારોબારીમાં કામદારોના શેડ્યૂલને નિયંત્રિત કરતા નથી, અને તેથી માસ અને મોરેટીને સુપરમાર્કેટમાં કેશિયરને લગતા કુદરતી પ્રયોગ પર આધાર રાખવો જરૂરી હતો.
આ ખાસ સુપરમાર્કેટમાં, જે સુનિશ્ચિત કરવામાં આવ્યું હતું અને જે રીતે ઓવરલેપ થતી હતી તે કારણે, દરેક કેશિયરના દિવસના જુદા જુદા સમયે અલગ-સહકાર્યકરો હતા. વધુમાં, આ ખાસ સુપરમાર્કેટમાં, કેશિયનોની સોંપણી તેમના સાથીદારોની ઉત્પાદકતા સાથે સંબંધિત ન હતી અથવા સ્ટોર કેટલો વ્યસ્ત હતો બીજા શબ્દોમાં કહીએ તો, કેશિયનોની સુનિશ્ચિતતા લોટરી દ્વારા નિર્ધારિત કરવામાં ન આવી હોવા છતાં, એવું હતું કે કામદારોને ઘણીવાર ઉચ્ચ (અથવા નીચુ) ઉત્પાદકતાના સાથીદારો સાથે કામ કરવા માટે અસાધારણ રીતે સોંપવામાં આવ્યા હતા. સદભાગ્યે, આ સુપરમાર્કેટમાં ડિજિટલ-એજ ચેકઆઉટ સિસ્ટમ પણ હતી જે દરેક કેશિયર દરેક સમયે સ્કેન કરતા વસ્તુઓને ટ્રૅક કરે છે. આ ચેકઆઉટ લોગ ડેટામાંથી, માસ અને મોર્ટેટી ઉત્પાદકતાના ચોક્કસ, વ્યક્તિગત અને હંમેશાંના માપદંડોને બનાવવાની ક્ષમતા ધરાવતા હતા: પ્રતિ સેકંડ સ્કેન કરેલી વસ્તુઓની સંખ્યા. આ બે વસ્તુઓનું મિશ્રણ - પીઅર ઉત્પાદકતામાં કુદરતી રીતે બનતું વૈવિધ્ય અને ઉત્પાદકતા-માસ અને મોર્્રેટીના હંમેશાંના માપનો અંદાજ છે કે જો કેશિયરને સહકાર્યકરો સોંપવામાં આવ્યા હતા જે સરેરાશ કરતા 10% વધુ ઉત્પાદક હતા, તો તેમની ઉત્પાદકતામાં 1.5% . વધુમાં, તેમણે બે મહત્વના મુદ્દાઓની શોધ માટે તેમના ડેટાના માપ અને સમૃદ્ધિનો ઉપયોગ કર્યો હતો: આ અસરની વિવિધતા (કયા પ્રકારનાં કાર્યકરો અસરકારક છે?) અને અસર પાછળની પદ્ધતિઓ (ઉચ્ચ-ઉત્પાદકતાના સાથીઓએ શા માટે જીવી રહ્યા છે ઉચ્ચ ઉત્પાદકતા?). અમે આ બે મહત્વના મુદ્દાઓ પર પાછા જઈશું - સારવારની અસરો અને મિકેનિઝમની વિવિધતા-પ્રકરણ 4 માં જ્યારે અમે વધુ વિગતવાર પ્રયોગો પર ચર્ચા કરીએ છીએ.
આ બે અભ્યાસોમાંથી સામાન્યીકરણ, ટેબલ 2.3 અન્ય અભ્યાસોનો સારાંશ આપે છે કે જે આ જ માળખું ધરાવે છે: કેટલાક રેન્ડમ વેરિયેશનની અસરને માપવા માટે હંમેશાંના ડેટા સ્રોતનો ઉપયોગ કરે છે. વ્યવહારમાં, સંશોધકો કુદરતી પ્રયોગો શોધવા માટે બે અલગ-અલગ વ્યૂહરચનાઓનો ઉપયોગ કરે છે, જે બંને ફળદાયી હોઈ શકે છે. કેટલાક સંશોધકો હંમેશાંના ડેટા સ્ત્રોતથી શરૂઆત કરે છે અને વિશ્વની રેન્ડમ ઇવેન્ટ્સને જુએ છે; અન્ય લોકો દુનિયામાં એક રેન્ડમ ઇવેન્ટ શરૂ કરે છે અને ડેટા સ્ત્રોતો શોધી કાઢે છે જે તેની અસરને પકડે છે.
સબસ્ટન્ટિવ ફોકસ | કુદરતી પ્રયોગનો સ્ત્રોત | હંમેશાં ડેટા સ્રોત | સંદર્ભ |
---|---|---|---|
ઉત્પાદકતા પર પીઅર પ્રભાવો | સુનિશ્ચિત પ્રક્રિયા | ચેકઆઉટ ડેટા | Mas and Moretti (2009) |
મિત્રતા રચના | વાવાઝોડુ | ફેસબુક | Phan and Airoldi (2015) |
લાગણીઓ ફેલાવો | વરસાદ | ફેસબુક | Lorenzo Coviello et al. (2014) |
પીઅર-ટુ-પીઅર આર્થિક પરિવહન | ભૂકંપ | મોબાઇલ મની ડેટા | Blumenstock, Fafchamps, and Eagle (2011) |
વ્યક્તિગત વપરાશ વર્તન | 2013 અમેરિકી સરકાર બંધ | વ્યક્તિગત નાણાંકીય માહિતી | Baker and Yannelis (2015) |
ભલામણ સિસ્ટમોની આર્થિક અસર | વિવિધ | એમેઝોન પર બ્રાઉઝિંગ ડેટા | Sharma, Hofman, and Watts (2015) |
અજાત બાળકો પર તણાવ અસર | 2006 ઇઝરાયેલ-હીઝબોલ્લાહ યુદ્ધ | જન્મ રેકોર્ડ્સ | Torche and Shwed (2015) |
વિકિપીડિયા પર વર્તન વાંચન | સ્નોડેન | વિકિપીડિયા લોગ | Penney (2016) |
કસરત પર પીઅર અસરો | હવામાન | ફિટનેસ ટ્રેકર્સ | Aral and Nicolaides (2017) |
કુદરતી પ્રયોગો વિશે અત્યાર સુધી ચર્ચામાં, મેં એક અગત્યનો મુદ્દો છોડ્યો છે: તમે જે ઇચ્છો છો તે પ્રકૃતિ દ્વારા જે પ્રદાન કરવામાં આવ્યું છે તેમાંથી જવાથી ક્યારેક ઘણી મુશ્કેલ હોઈ શકે છે. ચાલો વિયેતનામ ડ્રાફ્ટના ઉદાહરણમાં પાછા આવો. આ કિસ્સામાં, એન્ગ્રીસ્ટ કમાણી પર લશ્કરી સેવાની અસરનો અંદાજ કરવામાં રસ હતો. કમનસીબે, લશ્કરી સેવા રેન્ડમ સોંપાયેલ ન હતી; તેના બદલે તે ઘોષિત કરવામાં આવી હતી કે રેન્ડમ સોંપાયેલ હતી. જો કે, મુસદ્દો તૈયાર કર્યો હતો તે દરેકને સેવા આપતી નથી (ત્યાં ઘણી મુક્તિ આપવામાં આવી હતી), અને સેવા આપનાર દરેકને ડ્રાફ્ટ કરવામાં આવ્યું ન હતું (લોકો સેવા આપવા માટે સ્વયંસેવક બની શકે છે) કારણ કે મુસદ્દો તૈયાર કર્યો હતો તે અવ્યવસ્થિત રીતે સોંપવામાં આવ્યો હતો, એક સંશોધક ડ્રાફ્ટમાં બધા પુરુષો માટે મુસદ્દો તૈયાર કરવાની અસરનો અંદાજ કરી શકે છે. પરંતુ Angrist મુસદ્દો તૈયાર કરવામાં આવી રહી છે તે અસર ખબર ન હતી; તે લશ્કરમાં સેવા કરવાની અસર જાણવા માગે છે આ અંદાજ કરવા માટે, જો કે, વધારાની ધારણાઓ અને ગૂંચવણો જરૂરી છે. પ્રથમ, સંશોધકોએ એવું ધારી લેવું જરૂરી છે કે આવકમાં અસરગ્રસ્ત મુસદ્દો તૈયાર કરવામાં એકમાત્ર રસ્તો લશ્કરી સેવા દ્વારા છે, જે બાકાત પ્રતિબંધ કહેવાય છે. આ ધારણા ખોટી હોઈ શકે છે, ઉદાહરણ તરીકે, જે મુસદ્દો તૈયાર કરવામાં આવ્યા હતા તે શાળામાં રોકવા માટે લાંબા સમય સુધી શાળામાં રોકાયા હતા અથવા જો નોકરીદાતાઓ ઓછા મુસદ્દો તૈયાર કરવામાં આવતા લોકોની ભરતી કરતા હતા. સામાન્ય રીતે, બાકાત પ્રતિબંધ એ એક ગંભીર ધારણા છે, અને તે ચકાસવા માટે સામાન્ય રીતે મુશ્કેલ છે. જો બાકાત પ્રતિબંધ સાચો છે, તો પણ બધા પુરુષો પર સેવાની અસરનો અંદાજ કાઢવો અશક્ય છે. તેના બદલે, તે તારણ આપે છે કે સંશોધકો માત્ર પુરુષોના વિશિષ્ટ ઉપગણ પરની અસરને અંદાજિત કરી શકે છે (જે પુરુષો જ્યારે મુસદ્દો તૈયાર કરવામાં આવે ત્યારે સેવા આપે છે, પરંતુ મુસદ્દો તૈયાર ન થાય ત્યારે સેવા આપતા નથી) (Angrist, Imbens, and Rubin 1996) . ફરિયાદો, જોકે, રસની મૂળ વસ્તી નથી. નોંધ લો કે આ સમસ્યા ડ્રાફ્ટ લોટરીના પ્રમાણમાં સ્વચ્છ કિસ્સામાં પણ ઉદ્ભવે છે. ભૌતિક લોટરી દ્વારા સારવાર ન આપવામાં આવે ત્યારે જટિલતાઓનો વધુ સમૂહ ઊભો થાય છે. દાખલા તરીકે, માસ અને મોર્્રેટીના કેશિયનોના અભ્યાસમાં, વધારાના પ્રશ્નો ઉદ્દભવતા ઊભી થાય છે કે પેઢીઓની સોંપણી અનિવાર્ય રૂપે રેન્ડમ છે. જો આ ધારણાને મજબૂતપણે ઉલ્લંઘન કરવામાં આવ્યું હોય, તો તે તેમના અંદાજોને પૂર્વગ્રહ કરી શકે છે. નિષ્કર્ષ કરવા માટે, કુદરતી પ્રયોગો બિન-પ્રાયોગિક ડેટામાંથી કાર્યકારી અંદાજો કરવા માટે એક શક્તિશાળી વ્યૂહરચના હોઈ શકે છે, અને મોટા ડેટા સ્રોતો કુદરતી પ્રયોગો પર ઉભી થવાની ક્ષમતાને વધારી શકે છે જ્યારે તે થાય છે. જો કે, તે કદાચ મહાન કાળજીની જરૂર પડશે- અને ક્યારેક મજબૂત ધારણાઓ-જે અંદાજને તમે ઇચ્છો તે પ્રકૃતિ દ્વારા શું પ્રદાન કરે છે તે જાણવા માટે.
બિન-પ્રાયોગિક ડેટામાંથી કાર્યકારી અંદાજો કરવા વિશે તમને જે બીજું વ્યૂહરચના જણાવવું છે તે, જેણે સારવાર પ્રાપ્ત કરી નહોતી અને જે મેળવ્યું તે વચ્ચે પહેલેથી અસ્તિત્વમાં રહેલા તફાવતને ધ્યાનમાં રાખવાના પ્રયાસમાં આંકડાકીય રીતે બિન-પ્રાયોગિક ડેટાને વ્યવસ્થિત કરવા પર નિર્ભર કરે છે. આવા ઘણા એડજસ્ટમેન્ટ અભિગમો છે, પરંતુ હું એક મેળ ખાતા પર ધ્યાન કેન્દ્રિત કરું છું. મેળ ખાતી વખતે, સંશોધક બિન-પ્રાયોગિક ડેટા દ્વારા જુએ છે જે એવા લોકોની જોડી બનાવવા માટે સમાન હોય છે જે એકને સારવાર પ્રાપ્ત કરે છે અને તેમાંથી એક નથી. બંધબેસતી પ્રક્રિયામાં, સંશોધકો વાસ્તવમાં કાપણી પણ છે ; એટલે કે, કોઈ સ્પષ્ટ મેચ ન હોય તેવા કિસ્સાઓ કાઢી નાખવામાં આવે છે. આમ, આ પદ્ધતિ વધુ સચોટ રીતે મેચિંગ-અને-કાપણી કહેવાશે, પરંતુ હું પરંપરાગત શબ્દ સાથે ચોંટાડીશ: મેચિંગ.
વિશાળ બિન-પ્રાયોગિક ડેટા સ્ત્રોત સાથે મેળ ખાતી વ્યૂહરચનાઓની શક્તિનું એક ઉદાહરણ લીરોન ઇનાવ અને સહકાર્યકરો (2015) દ્વારા ગ્રાહક વર્તણૂંક પરના સંશોધનથી મળે છે. તેઓ ઇબે પર થતી હરાજીમાં રસ ધરાવતા હતા, અને તેમના કામનું વર્ણન કરતા, હું વેચાણ કિંમત અથવા વેચાણની સંભાવના જેવી હરાજીના પરિણામો પર હરાજીના ભાવની અસર પર ધ્યાન કેન્દ્રિત કરું છું.
વેચાણ કિંમત પર ભાવ શરૂ કરવાની અસરનો અંદાજ કાઢવા માટેનો સૌથી નિષ્ક્રીય રીત અલગ ભાવો સાથે હરાજીની અંતિમ કિંમતની ગણતરી કરવાનો છે. જો તમે પ્રારંભિક કિંમત આપેલ વેચાણ કિંમતની આગાહી કરવા માગતા હો તો આ અભિગમ સારો રહેશે. પરંતુ જો તમારો પ્રશ્ન પ્રારંભિક ભાવની અસરને અસર કરે છે, તો આ અભિગમ કાર્ય કરશે નહીં કારણ કે તે વાજબી તુલના પર આધારિત નથી; નીચલા પ્રારંભિક ભાવોની હરાજી ઊંચી શરૂ કરતા ભાવથી અલગ હોઇ શકે છે (દા.ત., તેઓ જુદા જુદા પ્રકારના માલ માટે હોઈ શકે છે અથવા વિવિધ પ્રકારનાં વેચનારો શામેલ હોઈ શકે છે)
જો તમે પહેલેથી જ બિન-પ્રયોગાત્મક ડેટાનું કાર્યકારી અંદાજ કરતી વખતે સમસ્યાઓ ઊભી કરી શકો છો, તો તમે નિષ્કપટ અભિગમને છોડી દો છો અને એક ફીલ્ડ પ્રયોગ ચલાવવાનું વિચારી શકો છો કે જ્યાં તમે વિશિષ્ટ આઇટમ વેચશો - એક ગોલ્ફ ક્લબ હરાજી પરિમાણોનો સમૂહ, કહે છે, મુક્ત શીપીંગ અને હરાજી બે અઠવાડિયા માટે ખુલ્લી છે - પરંતુ રેન્ડમલી સોંપાયેલ પ્રારંભિક ભાવ સાથે પરિણામી બજાર પરિણામો સરખામણી કરીને, આ પ્રયોગ પ્રયોગ વેચાણ કિંમત પર ભાવ શરૂ કરવાની અસરની સ્પષ્ટ માપ આપશે. પરંતુ આ માપ માત્ર એક ચોક્કસ ઉત્પાદન અને હરાજી પરિમાણોના સેટ પર લાગુ થશે. પરિણામો અલગ અલગ હોઈ શકે છે, ઉદાહરણ તરીકે, વિવિધ પ્રકારના ઉત્પાદનો માટે મજબૂત થિયરી વગર, આ એક જ પ્રયોગથી સંભવિત પ્રયોગોના સંપૂર્ણ શ્રેણીમાં એક્સ્ટ્રાપ્લેટ કરવું મુશ્કેલ છે જે ચાલી શકે છે. વધુમાં, ફિલ્ડ પ્રયોગો પૂરતા પ્રમાણમાં ખર્ચાળ છે કે તે દરેક વિવિધતાને ચલાવવા માટે અયોગ્ય હશે જે તમે પ્રયત્ન કરવા માગો છો.
નિષ્કપટ અને પ્રયોગાત્મક અભિગમોથી વિપરીત, ઇનાવ અને સહકાર્યકરોએ ત્રીજા અભિગમ લીધો: મેચિંગ. તેમની વ્યૂહરચનામાં મુખ્ય યુક્તિ એ છે કે ક્ષેત્ર પ્રયોગો જેવી જ વસ્તુઓ છે જે ઇબે પર પહેલાથી જ બન્યું છે. ઉદાહરણ તરીકે, આકૃતિ 2.8 બરાબર એ જ વિક્રેતા- "બજેટ ગોલ્ફર" દ્વારા વેચવામાં આવે છે, તે જ ગોલ્ફ ક્લબ- એક તોલ્સમેડ બર્નર 09 ડ્રાયવર માટે 31 સૂચિઓ પૈકીની કેટલીક બતાવે છે. જોકે, આ 31 સૂચિઓમાં જુદી જુદી લાક્ષણિકતાઓ છે, જેમ કે વિવિધ પ્રારંભ ભાવ, અંતિમ તારીખો, અને શિપિંગ ફી. બીજા શબ્દોમાં કહીએ તો, એવું જ છે કે "બજેટગોલ્ફર" સંશોધકો માટે પ્રયોગો ચાલી રહ્યું છે.
ટેલર્મડે બર્નર 09 ડ્રાઈવરની આ સૂચિઓ "બજેટ ગોલ્ફર" દ્વારા વેચવામાં આવી રહી છે, તે યાદીના એક મેળ ખાતી સમૂહનું એક ઉદાહરણ છે, જ્યાં ચોક્કસ જ વસ્તુને એક જ વેચનાર દ્વારા વેચવામાં આવી રહી છે, પરંતુ દરેક સમયે થોડી જુદી જુદી લાક્ષણિકતાઓ છે. ઇબેના વિશાળ લોગોમાં શાબ્દિક લાખો સૂચિઓને લગતા હજારો સેટ મેચો છે. આમ, આપેલ પ્રારંભિક કિંમતે તમામ હરાજીના અંતિમ ભાવની સરખામણી કરતા, ઇનાવ અને સહકર્મીઓ મેળ ખાતી સમૂહોની તુલનામાં સરખાવાય છે. આ સેંકડો મેળ ખાતી સેટ્સની તુલનામાં પરિણામોને ભેગા કરવા માટે, ઇનાવ અને સહકાર્યકર્તાઓએ દરેક આઇટમના સંદર્ભ મૂલ્યની દ્રષ્ટિએ પ્રારંભિક કિંમત અને આખરી કિંમતને ફરીથી દર્શાવ્યું (દા.ત., તેની સરેરાશ વેચાણ કિંમત). ઉદાહરણ તરીકે, જો ટેલર્મડે બર્નર 09 ડ્રાઈવર પાસે $ 100 (તેના વેચાણના આધારે) નું સંદર્ભ મૂલ્ય છે, તો $ 10 ની પ્રારંભિક કિંમતને 0.1 તરીકે અને 1.2 ડોલરની અંતિમ કિંમત 1.2 તરીકે વ્યક્ત કરવામાં આવશે.
યાદ રાખો કે Einav અને સહકર્મીઓ હરાજી પરિણામો પર શરૂઆતની કિંમતની અસરમાં રસ ધરાવતા હતા. પ્રથમ, તેઓએ રેખીય રીગ્રેસનનો ઉપયોગ કરવા માટે અંદાજ કાઢ્યો છે કે ઊંચી શરૂ થયેલી કિંમતમાં વેચાણની સંભાવનામાં ઘટાડો થાય છે અને તે વધતા ભાવથી અંતિમ વેચાણ કિંમત (વેચાણ પર શરતી) વધે છે. પોતાને દ્વારા, આ અંદાજો - જે એક રેખીય સંબંધને વર્ણવે છે અને તમામ ઉત્પાદનો પર સરેરાશ થાય છે-તે બધા રસપ્રદ નથી પછી, ઈનાવ અને સહકાર્યકરોએ તેમના વધુ માહિતીના વિશાળ કદનો ઉપયોગ કરીને વધુ ગૂઢ અંદાજો તૈયાર કર્યો. ઉદાહરણ તરીકે, અસરની અલગ અલગ કિંમતની વિવિધતા માટેનો અંદાજ કાઢીને, તેમને જાણવા મળ્યું છે કે ભાવ અને વેચાણ કિંમત વચ્ચેના સંબંધ બિનરેખીય છે (આકૃતિ 2.9). ખાસ કરીને, 0.05 અને 0.85 ની વચ્ચે ભાવ શરૂ કરવા માટે, પ્રારંભિક ભાવનો વેચાણ કિંમત પર બહુ જ ઓછો અસર થાય છે, તે શોધ જે તેમના પ્રથમ વિશ્લેષણથી સંપૂર્ણપણે ચૂકી ગઇ હતી. વધુમાં, તમામ વસ્તુઓની સરેરાશ કરતા, ઇનાવ અને સહકર્મીઓએ 23 અલગ અલગ વર્ગોની વસ્તુઓ (દા.ત., પાલતુ પુરવઠો, ઇલેક્ટ્રોનિક્સ, અને રમતો યાદો) (આંકડાની 2.10) માટે ભાવ શરૂ કરવાની અસરનો અંદાજ કાઢ્યો હતો. આ અંદાજો દર્શાવે છે કે વધુ વિશિષ્ટ આઇટમ્સ-જેમ કે મેમોરેબિલિયાથી શરૂ થતી કિંમત, વેચાણની સંભાવના પર ઓછી અસર કરે છે અને અંતિમ વેચાણ કિંમત પર મોટી અસર કરે છે. વધુમાં, વધુ કોમોડિડેટેડ વસ્તુઓ માટે- જેમ કે ડીવીડી-પ્રારંભિક ભાવ અંતિમ કિંમત પર લગભગ કોઈ અસર નથી. બીજા શબ્દોમાં કહીએ તો, સરેરાશ વસ્તુઓ કે જે 23 અલગ અલગ વર્ગોમાંના પરિણામોને જોડે છે તે આ વસ્તુઓ વચ્ચે મહત્વપૂર્ણ તફાવતને છુપાવે છે.
જો તમે ઇબે પર હરાજીમાં ખાસ રસ ધરાવતા નથી, તો તમારે આકૃતિ 2.9 અને 2.10 ની રીતની પ્રશંસા કરવી પડશે. સરળ અંદાજો કરતાં ઇબેની વધુ સારી સમજણ આપે છે જે રેખીય સંબંધોનું વર્ણન કરે છે અને ઘણી બધી વસ્તુઓની શ્રેણીઓને ભેગા કરે છે. વધુમાં, જો તે વૈજ્ઞાનિક રીતે ક્ષેત્ર પ્રયોગો સાથે આ વધુ સૂક્ષ્મ અંદાજ પેદા કરવા માટે શક્ય હશે, તો ખર્ચમાં આવા પ્રયોગો આવશ્યકપણે અશક્ય બનાવશે.
કુદરતી પ્રયોગો સાથે, ત્યાં ઘણા રસ્તાઓ છે જે મેળ ખાતા ખરાબ અંદાજો તરફ દોરી શકે છે. મને લાગે છે કે બંધબેસતા અંદાજો સાથેની સૌથી મોટી ચિંતા એ છે કે તેઓ એવી વસ્તુઓ દ્વારા પૂર્વગ્રહયુક્ત હોઈ શકે છે કે જે મેચિંગમાં ઉપયોગમાં લેવાતા ન હતા. ઉદાહરણ તરીકે, તેમના મુખ્ય પરિણામોમાં, ઇનાવ અને સહકર્મીઓએ ચાર લાક્ષણિકતાઓ પર ચોક્કસ મેળ ખાતા હતા: વિક્રેતા ID નંબર, આઇટમ કેટેગરી, આઇટમ ટાઇટલ, અને સબટાઇટલ. જો વસ્તુઓ એવી રીતે જુદી જુદી હોય છે કે જે મેચિંગ માટે ઉપયોગમાં લેવાતી ન હતી, તો તે અયોગ્ય તુલના બનાવી શકે છે. ઉદાહરણ તરીકે, જો "બજેટોલૉલ્ફરે" શિયાળામાં ટેલર્મડે બર્નર 09 ડ્રાઈવર માટે ભાવ ઘટાડ્યા છે (જ્યારે ગોલ્ફ ક્લબો ઓછા લોકપ્રિય છે), તો તે દેખાશે કે નીચલા પ્રારંભિક ભાવ નીચા અંતિમ ભાવ તરફ દોરી જાય છે, જ્યારે હકીકતમાં આ એક આર્ટિફેક્ટ હશે માંગમાં મોસમી તફાવત આ ચિંતનને ઉકેલવા માટેનો એક અભિગમ ઘણી જુદી જુદી પ્રકારની મેચિંગ મેચિંગનો પ્રયાસ કરી રહ્યું છે. દાખલા તરીકે, ઈનાવ અને તેના સાથીઓએ તેમના વિશ્લેષણને પુનરાવર્તન કર્યું છે, જ્યારે મેળ ખાતી વખતે વપરાતી સમય વિંડોની અલગતા (મેળ ખાતી સેટમાં એક વર્ષની અંદર, એક મહિનાની અંદર, અને સમકાલિન) સદનસીબે, તેમને બધા સમયની વિંડોઝ માટે સમાન પરિણામો મળ્યા. બંધબેસતા સાથે વધુ ચિંતા વ્યક્ત કરે છે. મેળ ખાતાના અંદાજો માત્ર મેળ ખાતા ડેટા પર લાગુ થાય છે; તેઓ એવા કેસોમાં લાગુ પડતા નથી કે જે મેળ ખાતા નથી. ઉદાહરણ તરીકે, વસ્તુઓને સંશોધન કરવા માટે મર્યાદિત કરીને, જે બહુવિધ સૂચિઓ ધરાવે છે, Einav અને સહકાર્યકરો વ્યાવસાયિક અને અર્ધ-વ્યવસાયિક વેચાણકર્તાઓ પર ધ્યાન કેન્દ્રિત કરે છે. આ રીતે, આ સરખામણીઓનો અર્થઘટન કરતી વખતે આપણે યાદ રાખવું જોઈએ કે તેઓ ફક્ત ઇબેના ઉપગણ પર જ લાગુ પડે છે.
બિન-પ્રાયોગિક ડેટામાં મેળો તુલના કરવા માટે એક શક્તિશાળી વ્યૂહરચના છે. ઘણા સામાજિક વૈજ્ઞાનિકોને, મેચિંગને પ્રયોગો માટે બીજું શ્રેષ્ઠ લાગે છે, પરંતુ તે એવી માન્યતા છે જેને સુધારી શકાય, સહેજ. મોટા પાયે માહિતી મેળવવામાં થોડી સંખ્યા પ્રયોગો કરતા વધુ સારી હોઇ શકે છે જ્યારે (1) અસરોમાં વિવિધતા મહત્વની છે અને (2) મેચિંગ માટે જરૂરી મહત્વપૂર્ણ ચલો માપવામાં આવ્યા છે. કોષ્ટક 2.4 મોટા ડેટા સ્રોતો સાથે કેવી રીતે મેચિંગનો ઉપયોગ કરી શકાય તે અન્ય કેટલાક ઉદાહરણો પૂરા પાડે છે.
સબસ્ટન્ટિવ ફોકસ | મોટા ડેટા સ્રોત | સંદર્ભ |
---|---|---|
પોલીસ હિંસા પર ગોળીબારની અસર | સ્ટોપ અને પટકથા રેકોર્ડ | Legewie (2016) |
સપ્ટેમ્બર 11, 2001 ના પરિવારો અને પડોશીઓ પર અસર | મતદાન નોંધો અને દાનનાં રેકોર્ડ્સ | Hersh (2013) |
સામાજિક સંસર્ગ | સંચાર અને ઉત્પાદન દત્તક ડેટા | Aral, Muchnik, and Sundararajan (2009) |
નિષ્કર્ષમાં, બિન-પ્રયોગાત્મક ડેટામાંથી સાર્થક અસરોનું અનુમાન કરવું મુશ્કેલ છે, પરંતુ કુદરતી પ્રયોગો અને આંકડાકીય ગોઠવણ (દા.ત., મેળ ખાતી) જેવા અભિગમનો ઉપયોગ કરી શકાય છે. કેટલીક પરિસ્થિતિઓમાં, આ અભિગમ ખરાબ રીતે ખોટી થઇ શકે છે, પરંતુ જ્યારે કાળજીપૂર્વક જમાવટ કરવામાં આવે છે, ત્યારે આ અભિગમ પ્રાયોગિક અભિગમ માટે ઉપયોગી પૂરક બની શકે છે જે હું પ્રકરણ 4 માં વર્ણવ્યો હતો. વધુમાં, આ બે અભિગમો ખાસ કરીને હંમેશા- પર, મોટી માહિતી સિસ્ટમો