Două surse de bază non-reprezentativitate sunt diferite populații și modele de utilizare diferite.
date mari tind să fie influențate în mod sistematic în două moduri principale. Acest lucru nu trebuie să cauzeze o problemă pentru toate tipurile de analiză, dar pentru unele analize poate fi un defect critic.
O primă sursă de polarizare sistematică este faptul că oamenii capturate sunt, de obicei nici un univers complet al tuturor oamenilor sau a unui eșantion aleatoriu din orice populație specifică. De exemplu, americanii pe Twitter nu sunt un eșantion aleatoriu de americani (Hargittai 2015) . O a doua sursă de polarizare sistematică este faptul că multe sisteme mari de date de captare de acțiuni, iar unii oameni contribuie mai multe acțiuni decât altele. De exemplu, unii oameni de pe Twitter să contribuie de sute de ori mai multe tweet-uri decât altele. Prin urmare, evenimentele de pe o platformă specifică poate fi tot mai puternic reflectorizantă unor subgrupuri decât platforma în sine.
În mod normal , cercetatorii vor sa stie multe despre datele pe care le - au. Însă, având în vedere natura non-reprezentative de date mari, este de ajutor pentru a flip, de asemenea, gândirea. De asemenea , trebuie sa stii multe despre datele pe care nu le au. Acest lucru este valabil mai ales în cazul în care datele pe care nu le aveți sunt sistematic diferite de datele pe care le aveți. De exemplu, dacă aveți înregistrările de apel de la o companie de telefonie mobilă într-o țările în curs de dezvoltare, ar trebui să gândească nu doar despre oamenii din setul dumneavoastră de date, dar, de asemenea, despre oamenii care ar putea fi prea săraci pentru a deține un telefon mobil. În continuare, în capitolul 3, vom afla mai multe despre modul în care ponderea poate permite cercetătorilor să facă estimări mai bune de date non-reprezentative.