બિન-Representativeness બે સ્ત્રોતો વિવિધ વસ્તી અને વિવિધ વપરાશ પેટર્ન હોય છે.
મોટા ડેટા વ્યવસ્થિત બે મુખ્ય રીતે પક્ષપાતી હોય છે. આ વિશ્લેષણ તમામ પ્રકારના માટે એક સમસ્યા નથી કારણ જરૂર છે, પરંતુ કેટલાક વિશ્લેષણ માટે એક જટિલ ભૂલ હોઈ શકે છે.
વ્યવસ્થિત પૂર્વગ્રહ પ્રથમ સ્ત્રોત છે કે જે લોકો કબજે ખાસ કરીને ન બધા લોકો એક સંપૂર્ણ બ્રહ્માંડ અથવા કોઇ ચોક્કસ વસ્તી માંથી રેન્ડમ નમૂના છે. ઉદાહરણ તરીકે, ટ્વિટર પર અમેરિકનો અમેરિકનો એક રેન્ડમ નમૂના નથી (Hargittai 2015) . વ્યવસ્થિત પૂર્વગ્રહ એક બીજા સ્ત્રોત છે કે ઘણા મોટા માહિતી સિસ્ટમો ક્રિયાઓ કેપ્ચર છે, અને કેટલાક લોકો અન્યો કરતાં ઘણા વધુ ક્રિયાઓ ફાળો આપે છે. ઉદાહરણ તરીકે, ટ્વિટર પર કેટલાક લોકો અન્યો કરતાં ગણી વધુ ટ્વીટ્સ સેંકડો ફાળો આપે છે. તેથી, ચોક્કસ પ્લેટફોર્મ પર ઘટનાઓ પ્લેટફોર્મ કરતા ચોક્કસ પેટાજૂથો ડબ્લ્યુપી ક્યારેય વધુ ભારે પ્રતિબિંબીત હોઈ શકે છે.
સામાન્ય રીતે સંશોધકો માહિતી હોય છે કે તેઓ વિશે ઘણું ખબર કરવા માંગો છો. પરંતુ, મોટા માહિતી બિન પ્રતિનિધિ પ્રકૃતિ આપવામાં આવે છે, તે મદદરૂપ પણ તમારા વિચાર વિમાનની મુસાફરી કરવા માટે છે. તમે પણ માહિતી તમારી પાસે નથી કે વિશે ઘણું જાણવાની જરૂર છે. આ ખાસ કરીને સાચું છે જ્યારે તેઓ માહિતી તમારી પાસે નથી કે માહિતી તમારી પાસે હોય કે વ્યવસ્થિત અલગ છે. ઉદાહરણ તરીકે, જો તમે એક વિકાસશીલ દેશોમાં મોબાઇલ ફોન કંપની પાસેથી કોલ રેકોર્ડ હોય, તો તમે વિચારવું જોઇએ માત્ર છે, પણ જે લોકો પણ મોબાઇલ ફોન માલિકી ગરીબ હોઈ શકે છે તે વિશે તમારા dataset લોકો વિશે. વધુમાં, પ્રકરણ 3, અમે વજન કેવી રીતે સંશોધકો બિન-પ્રતિનિધિ માહિતી વધુ સારી અંદાજ બનાવવા માટે સક્ષમ કરી શકો છો વિશે જાણવા મળશે.