Data isiyowakilisha ni mbaya kwa utoaji wa sampuli nje, lakini inaweza kuwa muhimu sana kwa kulinganisha ndani ya sampuli.
Baadhi ya wanasayansi wa kijamii wamezoea kufanya kazi na data inayotokana na sampuli ya uwezekano wa random kutoka kwa watu walioelezwa vizuri, kama watu wote wazima katika nchi fulani. Aina hii ya data inaitwa data ya mwakilishi kwa sababu sampuli "inawakilisha" idadi kubwa. Watafiti wengi wanakubali data ya mwakilishi, na kwa baadhi, data ya mwakilishi ni sawa na sayansi kali wakati data zisizo za kielelezo zinafanana na ushindi. Wakati uliokithiri zaidi, baadhi ya wasiwasi wanaonekana kuamini kwamba hakuna kitu kinachoweza kujifunza kutoka kwa data isiyo ya kielelezo. Ikiwa ni kweli, hii itaonekana kupunguza kikamilifu kile ambacho kinaweza kujifunza kutokana na vyanzo vikuu vya data kwa sababu wengi wao hawana wawakilishi. Kwa bahati nzuri, hawa wasiwasi ni sehemu tu ya haki. Kuna baadhi ya malengo ya utafiti ambayo data isiyo ya kielelezo haifai vizuri, lakini kuna wengine ambayo inaweza kuwa muhimu sana.
Ili kuelewa tofauti hii, hebu tuchunguze classic kisayansi: Utafiti wa John Snow ya kuzuka kwa kolera kwa 1853-54 huko London. Wakati huo, madaktari wengi waliamini kwamba kipindupindu kilichosababishwa na "hewa mbaya," lakini theluji iliamini kwamba ilikuwa magonjwa ya kuambukiza, labda yanaenea kwa maji ya kunywa maji. Ili kuchunguza wazo hili, theluji ilitumia faida ya kile ambacho tunaweza sasa kuwaita majaribio ya asili. Alilinganisha kiwango cha kipindupindu cha kaya kilichotumiwa na kampuni mbili za maji: Lambeth na Southwark & Vauxhall. Makampuni haya yaliwahi kaya zinazofanana, lakini zimefautiana kwa njia moja muhimu: mwaka wa 1849-miaka michache kabla ya janga hilo kuanza-Lambeth alihamisha hatua yake ya ulaji kutoka mto kuu wa maji taka London, ambapo Southwark & Vauxhall waliacha pipe yao ya ulaji kutoka kutokwa kwa maji taka. Wakati theluji ikilinganishwa na viwango vya kifo kutoka kwa kipindupindu katika nyumba zilizotumiwa na makampuni hayo mawili, aligundua kuwa wateja wa kampuni ya Southwark & Vauxhall-ambayo ilikuwa ya kutoa maji ya maji taka ya maji taka-mara 10 zaidi ya kufa kutokana na kolera. Matokeo haya hutoa ushahidi wa kisayansi wenye nguvu kuhusu hoja ya theluji kuhusu sababu ya kolera, ingawa sio msingi wa sampuli ya mwakilishi wa watu huko London.
Takwimu kutoka kwa makampuni haya mawili, hata hivyo, haitakuwa bora kwa kujibu swali tofauti: ni nini kuenea kwa kipindupindu huko London wakati wa kuzuka? Kwa swali la pili, ambalo ni muhimu pia, itakuwa bora zaidi kuwa na sampuli ya mwakilishi wa watu kutoka London.
Kama kazi ya theluji inavyoonyesha, kuna baadhi ya maswali ya sayansi ambayo data isiyo ya kielelezo yanaweza kuwa na ufanisi kabisa na kuna wengine ambayo haifai vizuri. Njia moja isiyo ya kawaida ya kutofautisha aina hizi mbili za maswali ni kwamba baadhi ya maswali ni kuhusu kulinganisha ndani ya sampuli na baadhi ni kuhusu generalizations nje ya sampuli. Tofauti hii inaweza kuelezewa zaidi na uchunguzi mwingine wa classic katika ugonjwa wa magonjwa: Utafiti wa Madaktari wa Uingereza, ambao ulikuwa na jukumu muhimu katika kuonyesha kwamba sigara husababisha saratani. Katika utafiti huu, Richard Doll na A. Bradford Hill walimfuata takriban 25,000 madaktari wa kiume kwa miaka kadhaa na ikilinganisha na viwango vya kifo vyao kulingana na kiwango ambacho walivuta wakati wa utafiti ulianza. Doll na Hill (1954) walipata uhusiano wa nguvu wa kukabiliana na majibu: watu wengi walivuta sigara, wangeweza kufa zaidi kutokana na kansa ya mapafu. Bila shaka, itakuwa si busara kuchunguza kuenea kwa kansa ya mapafu kati ya watu wote wa Uingereza kulingana na kundi hili la madaktari wa kiume, lakini kulinganisha ndani ya sampuli bado hutoa ushahidi kwamba sigara husababisha saratani ya mapafu.
Sasa kwa kuwa nimeonyesha tofauti kati ya kulinganisha ndani ya sampuli na generalizations nje ya sampuli, makaburi mawili yanapangwa. Kwanza, kuna maswali ya kawaida kuhusu kiwango ambacho uhusiano unaoishi ndani ya sampuli ya madaktari wa kiume wa Uingereza pia utaishi ndani ya sampuli ya wanawake, madaktari wa Uingereza au wafanyakazi wa kiwanda wa Uingereza au wajakazi wa kiwanda wa Ujerumani au makundi mengine mengi. Maswali haya ni ya kuvutia na muhimu, lakini ni tofauti na maswali kuhusu kiwango ambacho tunaweza kuzalisha kutoka sampuli kwa idadi ya watu. Ona, kwa mfano, kwamba husababisha kuwa uhusiano kati ya sigara na kansa uliopatikana katika madaktari wa kiume wa Uingereza pengine uwe sawa katika makundi mengine haya. Uwezo wako wa kufanya hii extrapolation haujitokei na ukweli kwamba madaktari wa kiume wa Uingereza ni sampuli ya uwezekano wa random kutoka kwa idadi yoyote ya watu; badala yake, inatoka kwa ufahamu wa utaratibu unaohusiana na sigara na kansa. Hivyo, generalization kutoka sampuli kwa idadi ya watu kutoka inayotokana ni kwa kiasi kikubwa suala la takwimu, lakini maswali kuhusu usafirishaji wa muundo kupatikana katika kundi moja kwa kundi jingine ni hasa suala la kutosha (Pearl and Bareinboim 2014; Pearl 2015) .
Katika hatua hii, inaweza kuwa na wasiwasi kuwa mifumo mingi ya jamii ni chini ya kusafirishwa kwa makundi kuliko uhusiano kati ya sigara na kansa. Na mimi kukubaliana. Kiwango ambacho tunapaswa kutarajia mifumo ya kusafirishwa ni hatimaye swali la kisayansi ambalo linapaswa kuamua kulingana na nadharia na ushahidi. Haipaswi kudhaniwa kuwa moja kwa moja kuwa mifumo itakuwa ya kusafirishwa, lakini haipaswi kufikiri kuwa haitashughulikiwa. Maswali haya yasiyo ya kufikiria juu ya kusafirishwa yatakufahamu kwako ikiwa umefuatilia mjadala kuhusu kiasi gani watafiti wanaweza kujifunza juu ya tabia ya binadamu kwa kusoma wanafunzi wa shahada ya kwanza (Sears 1986, [@henrich_most_2010] ) . Pamoja na mjadala huu, hata hivyo, itakuwa vigumu kusema kwamba watafiti hawawezi kujifunza chochote kutokana na kujifunza wanafunzi wa shahada ya kwanza.
Pango la pili ni kwamba watafiti wengi wenye data isiyo ya kielelezo sio kama makini kama Snow au Doll na Hill. Kwa hiyo, ili kuonyesha nini kinachoweza kufanya vibaya wakati watafiti wanajaribu kufanya jenerali ya nje ya sampuli kutoka kwa data zisizowakilisha, ningependa kukuambia kuhusu utafiti wa uchaguzi wa bunge wa Ujerumani wa 2009 na Andranik Tumasjan na wenzake (2010) . Kwa kuchunguza tweets zaidi ya 100,000, waligundua kwamba idadi ya tweets inayozungumzia chama cha siasa ilifanana na idadi ya kura ambazo chama hupokea katika uchaguzi wa bunge (takwimu 2.3). Kwa maneno mengine, imeonekana kwamba data ya Twitter, ambayo ilikuwa ya bure kabisa, inaweza kuchukua nafasi ya tafiti za jadi za maoni ya umma, ambazo ni ghali kwa sababu ya msisitizo wao juu ya data ya mwakilishi.
Kutokana na kile ambacho tayari unajua kuhusu Twitter, unapaswa kuwa na wasiwasi wa matokeo haya mara moja. Wajerumani juu ya Twitter mwaka 2009 hawakuwa sampuli ya uwezekano wa wapiga kura wa Ujerumani, na wafuasi wa vyama vingine wanaweza tweet kuhusu siasa mara nyingi zaidi kuliko wafuasi wa vyama vingine. Kwa hiyo, inaonekana ya kushangaza kuwa yote ya uwezekano wa kuacha kwamba ungeweza kufikiria ingeweza kufuta kwa namna hiyo data hii itafakari moja kwa moja ya wapiga kura wa Ujerumani. Kwa kweli, matokeo katika Tumasjan et al. (2010) imeonekana kuwa nzuri sana kuwa kweli. Karatasi ya kufuatilia na Andreas Jungherr, Pascal Jürgens, na Harald Schoen (2012) yalisema kuwa uchambuzi wa awali ulikuwa umeondoa chama cha siasa ambacho kilikuwa kikipokea maelezo zaidi kwenye Twitter: Party ya Pirate, chama kidogo kinapigana na kanuni za serikali ya mtandao. Wakati Party ya Pirate ilijumuishwa katika uchambuzi, mazungumzo ya Twitter inakuwa ni predictor mbaya ya matokeo ya uchaguzi (takwimu 2.3). Kama mfano huu unavyoonyesha, kutumia vyanzo vingi vya data vyenye uwakilishi kufanya vidonge vya nje vya sampuli vinaweza kwenda vibaya sana. Pia, unapaswa kutambua kwamba ukweli kwamba kulikuwa na tweets 100,000 hakuwa na maana: kura nyingi za data zisizowakilisha bado haziwakilishi, jambo ambalo nitarudi kwenye sura ya 3 wakati ninapojadili tafiti.
Ili kukamilisha, vyanzo vingi vyenye data sio sampuli za mwakilishi kutoka kwa watu fulani walioelezwa vizuri. Kwa maswali ambayo yanahitaji matokeo ya kuzalisha kutoka kwa sampuli kwa idadi ya watu ambayo ilitolewa, hii ni tatizo kubwa. Lakini kwa maswali kuhusu kulinganisha ndani ya sampuli, data zisizo za kielelezo zinaweza kuwa na nguvu, kwa muda mrefu kama watafiti ni wazi juu ya sifa za sampuli zao na msaada wa madai kuhusu usafirishaji na ushahidi wa kinadharia au wa kihistoria. Kwa kweli, matumaini yangu ni kwamba vyanzo vingi vya data vitawawezesha watafiti kufanya zaidi kulinganisha ndani ya sampuli katika makundi mengi yasiyo ya kikundi, na nadhani yangu ni kwamba makadirio kutoka kwa makundi mengi yatafanya zaidi ili kuendeleza utafiti wa kijamii kuliko makadirio moja kutoka kwa random ya uwezekano sampuli.