નોનપ્રીપેન્ટેટિવ ડેટા બહારના નમૂનાના સામાન્યીકરણ માટે ખરાબ છે, પરંતુ નમૂનાની સરખામણીમાં તે ખૂબ ઉપયોગી હોઈ શકે છે.
કેટલાક સામાજિક વૈજ્ઞાનિકો સારી રીતે વ્યાખ્યાયિત વસ્તીમાંથી સંભવિત રેન્ડમ નમૂનામાંથી આવે છે તેવી માહિતી સાથે કામ કરવા માટે ટેવાયેલા છે, જેમ કે કોઈ ચોક્કસ દેશના તમામ વયસ્કો. આ પ્રકારના ડેટાને પ્રતિનિધિ માહિતી કહેવામાં આવે છે કારણ કે નમૂના મોટી વસ્તીને "પ્રતિનિધિત્વ" કરે છે. ઘણા સંશોધકો ઇનામ પ્રતિનિધિ માહિતી, અને કેટલાક માટે, પ્રતિનિધિ માહિતી સખત વિજ્ઞાનનો સમાનાર્થી છે જ્યારે બિનઅનુભવી માહિતી સ્લીપપાઇનેસનો પર્યાય છે. સૌથી વધુ આત્યંતિક સમયે, કેટલાક સંશયવાદી માને છે કે બિન-પ્રતિનિધિત્વ માહિતીથી કંઈ જ શીખી શકાતું નથી. જો સાચું હોય તો, મોટા ડેટા સ્ત્રોતોમાંથી શું શીખી શકાય તે અંગે ગંભીરતાથી મર્યાદિત લાગે છે કારણ કે તેમાંના ઘણા બિનપ્રતિનિધિત્વ કરે છે. સદનસીબે, આ સંશયવાદી માત્ર અંશતઃ અધિકાર છે. ચોક્કસ સંશોધન ધ્યેયો છે કે જેના માટે બિનઅનુભવી માહિતી સ્પષ્ટ રીતે અનુકૂળ નથી, પરંતુ ત્યાં અન્ય લોકો છે જેના માટે તે ખરેખર ઉપયોગી હોઈ શકે છે.
આ તફાવતને સમજવા માટે, ચાલો વૈજ્ઞાનિક ક્લાસિક ગણાવીએ: લંડનમાં 1853-54 કોલેરા ફાટી નીકળેલા જોહ્ન સ્નો'સ સ્ટડી. તે સમયે, ઘણા ડોકટરોનું માનવું હતું કે "ખરાબ હવા" દ્વારા હાસારા થવું પડ્યું હતું, પરંતુ સ્નો માનતા હતા કે તે એક ચેપી રોગો છે, જે સંભવતઃ ગટરવ્યવહાર પીવાના પાણીથી ફેલાય છે. આ વિચારને ચકાસવા માટે, સ્નોએ હવે આપણે કુદરતી પ્રયોગ કહીએ છીએ તેનો લાભ લીધો. તેમણે બે જુદી જુદી જળ કંપનીઓ દ્વારા ચલાવવામાં આવેલા ઘરોના હાસ્યના દરની સરખામણી કરી: લેમબેથ અને સાઉથવાર્ક અને વોક્સહોલ આ કંપનીઓએ સમાન પરિવારોને સેવા આપી હતી, પરંતુ તેઓ એક મહત્વપૂર્ણ રીતથી અલગ હતા: 1849 માં - મહામારી શરૂ થતાં થોડા વર્ષો પહેલા- લેમ્બેથ લંડનમાં મુખ્ય મળપાણીના સ્રાવમાંથી તેના પ્રવેશ બિંદુ ઉપરની તરફ વળી ગયા હતા, જ્યારે સાઉથવાર્ક અને વોક્સહોલે તેમના ઇનકટેક પાઇપને નીચેથી છોડી દીધી હતી. સીવેજ સ્રાવ જ્યારે સ્નોએ બે કંપનીઓ દ્વારા સેવા આપતા ઘરોમાં મૃત્યુના દરની સરખામણી કરી, ત્યારે તેમને મળ્યું હતું કે સાઉથવાર્ક એન્ડ વોક્સહોલના ગ્રાહકો - જે ગ્રાહકોને ગટર-દૂષિત પાણી પૂરું પાડતું હતું - તે કોલેરાથી મૃત્યુ પામે તેવી શક્યતા 10 ગણી વધુ હતી. આ પરિણામ કોલેરાના કારણો અંગે બરફની દલીલ માટે મજબૂત વૈજ્ઞાનિક પુરાવા પૂરા પાડે છે, ભલે તે લંડનમાં લોકોના પ્રતિનિધિ નમૂના પર આધારિત ન હોય.
જોકે, આ બે કંપનીઓના ડેટા અલગ અલગ પ્રશ્નનો જવાબ આપવા માટે આદર્શ નથી: ફાટી નીકળ્યા દરમિયાન લંડનમાં કોલેરાનો ફેલાવો શું હતો? તે બીજા પ્રશ્ન માટે, જે પણ મહત્વનું છે, લંડનના લોકોનું પ્રતિનિધિ સેમ્પલ હોવું તે વધુ સારું રહેશે.
જેમ જેમ બરફનું કામ સમજાવે છે તેમ, કેટલાક વૈજ્ઞાનિક પ્રશ્નો છે કે જેના માટે બિનનિયંત્રિત માહિતી તદ્દન અસરકારક હોઇ શકે છે અને અન્ય લોકો માટે તે યોગ્ય રીતે અનુકૂળ નથી. આ બે પ્રકારના પ્રશ્નોને અલગ પાડવાનો એક ક્રૂર રસ્તો એ છે કે કેટલાક પ્રશ્નો અંદર-નમૂનાની તુલનામાં હોય છે અને કેટલાક નમુનાના સામાન્યીકરણ વિશે છે. આ ભેદને મહામારીશાસ્ત્રના અન્ય ક્લાસિક અભ્યાસો દ્વારા સચિત્ર કરી શકાય છેઃ બ્રિટિશ ડૉક્ટર્સ સ્ટડી, જે દર્શાવે છે કે ધુમ્રપાનને કારણે કેન્સર થાય છે. આ અભ્યાસમાં, રિચાર્ડ ડોલ અને એ. બ્રેડફોર્ડ હિલએ આશરે 25,000 પુરુષ ડોકટરોને ઘણાં વર્ષો સુધી અનુસર્યા હતા અને તેમની મૃત્યુ દરના આધારે અભ્યાસ શરૂ થયો ત્યારે તે ધૂમ્રપાન કરતા હતા. ડોલ અને હીલ (1954) ને મજબૂત સંસર્ગ-પ્રતિભાવ સંબંધ મળ્યો: વધુ ભારે લોકોએ ધૂમ્રપાન કર્યું, ફેફસાના કેન્સરથી મૃત્યુ પામે તેવી શક્યતા વધુ હતી. અલબત્ત, પુરૂષ ડોકટરોના આ જૂથના આધારે તમામ બ્રિટિશ લોકોમાં ફેફસાના કેન્સરની ફેલાવાને અંદાજવું ખોટું હશે, પરંતુ અંદર-નમૂનાની સરખામણી હજુ પુરાવા પુરા પાડે છે કે ધૂમ્રપાન ફેફસાના કેન્સરને કારણે થાય છે.
હવે મેં સેમ્પલની તુલનામાં અને સામાન્ય રીતે બહારના નમૂના વચ્ચેનો તફાવત સમજાવી છે, બે ચેતવણીઓ ક્રમમાં છે. પ્રથમ, કુદરતી પ્રમાણમાં એવા પ્રશ્નો છે કે જેમાં પુરૂષ બ્રિટીશ ડોકટરોના નમૂનામાં રહેલો સંબંધ સ્ત્રી, બ્રિટીશ ડોકટરો અથવા પુરુષ બ્રિટીશ ફેક્ટરી કામદારો અથવા માદા જર્મન ફેક્ટરી કામદારો અથવા અન્ય ઘણા જૂથોના નમૂનામાં રહેશે. આ પ્રશ્નો રસપ્રદ અને મહત્વપૂર્ણ છે, પરંતુ તે સવાલોના પ્રશ્નોથી અલગ છે કે જેમાં આપણે નમૂના પરથી વસતીને સામાન્ય બનાવી શકીએ છીએ. નોટિસ, દાખલા તરીકે, તમને શંકા છે કે ધુમ્રપાન અને કેન્સર વચ્ચેના સંબંધો જે બ્રિટીશ ડોકટરોમાં મળ્યા છે તે કદાચ આ અન્ય જૂથોમાં સમાન હશે. આ એક્સ્ટ્રાપોલેશન કરવા માટેની તમારી ક્ષમતા હકીકત એ નથી કે પુરુષ બ્રિટિશ ડોકટરો કોઈપણ વસ્તીમાંથી સંભવતઃ રેન્ડમ નમૂના છે; તેના બદલે, તે પદ્ધતિની સમજથી આવે છે જે ધૂમ્રપાન અને કેન્સરને જોડે છે. આમ, એક નમૂનામાંથી જે જનસંખ્યા દોરવામાં આવે છે તે મોટા ભાગે એક આંકડાકીય મુદ્દો છે, પરંતુ એક જૂથમાં બીજા જૂથમાં મળેલી પેટર્નની પરિવહનક્ષમતા વિશે પ્રશ્નો મોટેભાગે (Pearl and Bareinboim 2014; Pearl 2015) મુદ્દો છે (Pearl and Bareinboim 2014; Pearl 2015) .
આ બિંદુએ, એક નાસ્તિક વ્યક્તિ એવું સૂચન કરે છે કે ધૂમ્રપાન અને કેન્સર વચ્ચેનાં સંબંધો કરતા મોટાભાગનાં સામાજિક દાખલાઓ જૂથોમાં સંભવતઃ ઓછા પરિવહનક્ષમ છે. અને હું સંમત છું જે રીતે આપણે પેટર્નને પરિવહનક્ષમ બનાવવાની અપેક્ષા રાખવી જોઈએ તે છેવટે એક વૈજ્ઞાનિક પ્રશ્ન છે જે સિદ્ધાંત અને પુરાવા પર આધારિત નક્કી કરવાનો છે. તે સ્વયંચાલિત રીતે ધારી શકાશે નહીં કે પેટર્ન પરિવહનક્ષમ હશે, પરંતુ તે ધારવામાં ન હોવા જોઈએ કે તે પરિવહનક્ષમ રહેશે નહીં. અંડરગ્રેજ્યુએટ વિદ્યાર્થીઓ (Sears 1986, [@henrich_most_2010] ) અભ્યાસ કરીને માનવ વર્તણૂંક વિશે કેટલા સંશોધકો શીખી શકે તે અંગે ચર્ચાઓનું અનુસરણ કર્યું હોય તો પરિવહનક્ષમતા અંગેના આ અમૂર્ત પ્રશ્નો તમને પરિચિત હશે. આ ચર્ચાઓ હોવા છતાં, તેમ છતાં, એવું કહેવું નકામું હશે કે સંશોધકો અંડરગ્રેજ્યુએટ વિદ્યાર્થીઓનો અભ્યાસ કરતા કંઈપણ શીખી શકતા નથી.
બીજી ચેતવણી એ છે કે બિન-પ્રતિનિધિની માહિતીવાળા મોટાભાગના સંશોધકો સ્નો અથવા ડોલ અને હિલની જેમ સાવચેત નથી. તેથી, સમજાવવા માટે કે ખોટા શું થઈ શકે છે જ્યારે સંશોધકો બિન-પ્રતિનિધિત્વ કરતા ડેટામાંથી સામાન્યીકરણની બહારના સામાન્યીકરણને બનાવવાનો પ્રયાસ કરે છે, હું તમને અન્ડરરીક તુમશાન અને સહકર્મીઓ (2010) દ્વારા 2009 ની જર્મન સંસદીય ચૂંટણીના અભ્યાસ વિશે કહેવા માંગું છું. 100,000 થી વધુ ટ્વીટ્સનું વિશ્લેષણ કરીને, તેમને મળ્યું કે ટ્વીટ્સના પ્રમાણમાં પક્ષની સંસદીય ચૂંટણી (આંકડા 2.3) માં મળેલા મતોના પ્રમાણ સાથે મેળ ખાતી રાજકીય પક્ષનો ઉલ્લેખ કરે છે. અન્ય શબ્દોમાં, એવું દેખાય છે કે ટ્વિટર ડેટા, જે અનિવાર્યપણે મુક્ત હતો, પરંપરાગત જાહેર અભિપ્રાય સર્વેક્ષણો બદલી શકે છે, જે ખર્ચાળ છે કારણ કે પ્રતિનિધિ માહિતી પર ભાર મૂકવામાં આવે છે.
આપને ટ્વિટર વિશે કદાચ પહેલેથી જ ખબર હોય તે આપેલ છે, તમારે તરત જ આ પરિણામની શંકાસ્પદ બનવું જોઈએ. Twitter પર જર્મની 2009 માં જર્મન મતદારોના સંભવિત રેન્ડમ નમૂના ન હતા, અને કેટલાક પક્ષોના ટેકેદારો અન્ય પક્ષોના ટેકેદારો કરતાં વધુ વખત રાજકારણ વિશે ચીંચીં શકે છે. આમ, તે આશ્ચર્યજનક લાગે છે કે તમે શક્ય તેટલા તમામ પૂર્વગ્રહને કલ્પના કરી શકશો કે કોઈક રીતે રદ કરવામાં આવશે જેથી આ ડેટા જર્મન મતદારોના સીધા પ્રતિબિંબીત થશે. વાસ્તવમાં, Tumasjan et al. (2010) માં પરિણામો Tumasjan et al. (2010) સાચું હોવાનું ખૂબ સારું બન્યું. એન્ડ્રેસ જુંગર, પાસ્કલ જુર્ગન્સ અને હારાલ્ડ સ્કોન (2012) દ્વારા ફોલો-અપ પેપર દ્વારા દર્શાવ્યું હતું કે મૂળ વિશ્લેષણમાં રાજકીય પક્ષને બાકાત રાખવામાં આવી હતી જેણે ખરેખર ટ્વિટર પર સૌથી વધુ ઉલ્લેખ કર્યો છે: પાઇરેટ પાર્ટી, એક નાની પાર્ટી જે સરકારી નિયમન ઈન્ટરનેટ જ્યારે પાઇરેટ પાર્ટી વિશ્લેષણમાં સમાવવામાં આવી હતી, ત્યારે ટ્વિટરમાં જણાવાયું છે કે ચૂંટણી પરિણામો (આંકડા 2.3) ની એક ભયંકર આગાહી બની. જેમ જેમ આ ઉદાહરણ સમજાવે છે, આઉટ-ઓફ-નમૂનાનું સામાન્યીકરણ કરવા માટે બિન-પ્રતિનિધિત્વના મોટા ડેટા સ્રોતોનો ઉપયોગ કરવો તે ખૂબ જ ખોટું થઈ શકે છે. ઉપરાંત, તમારે નોંધવું જોઈએ કે ત્યાં 100,000 ટ્વીટ્સ હતા તે હકીકત મૂળભૂત રીતે અપ્રસ્તુત હતી: અસંખ્ય બિન-પ્રતિનિધિત્વ માહિતી હજુ પણ બિન-પ્રતિનિધિ છે, જ્યારે હું સર્વેક્ષણમાં ચર્ચા કરું ત્યારે હું પ્રકરણ 3 માં પાછો આવું છું.
નિષ્કર્ષ પર, ઘણા મોટા ડેટા સ્રોત કેટલાક સારી રીતે વ્યાખ્યાયિત વસ્તીના પ્રતિનિધિના નમૂના નથી. એવા પ્રશ્નો માટે કે જેનાથી નમૂનાને વસ્તીને દોરવામાં આવે છે તેમાંથી સામાન્ય પરિણામોની જરૂર છે, આ એક ગંભીર સમસ્યા છે. પરંતુ નમૂનાની સરખામણીમાં પ્રશ્નો માટે, બિન-પ્રતિનિધિત્વ માહિતી શક્તિશાળી હોઈ શકે છે, જ્યાં સુધી સંશોધકો તેમના નમૂનાની લાક્ષણિકતાઓ વિશે સ્પષ્ટ છે અને સૈદ્ધાંતિક અથવા આનુભાવિક પુરાવા સાથે પરિવહનક્ષમતા વિશે સપોર્ટ દાવાઓ છે. વાસ્તવમાં, મારી આશા છે કે મોટા ડેટા સ્રોતો સંશોધકોને ઘણા બિન-પ્રતિનિધિ જૂથોમાં નમૂનાની તુલનામાં વધુ બનાવવા માટે સક્ષમ બનાવશે, અને મારા અનુમાન મુજબ ઘણા જુદા જુદા જૂથોના અંદાજ સંભાવનાની રેન્ડમથી એક અંદાજ કરતાં વધુ સામાજિક સંશોધનને આગળ વધારવા માટે વધુ કરશે નમૂનો