Нерепрезентативности дадзеныя дрэнныя для якія выйшлі з ўзору абагульненняў, але можа быць вельмі карыснымі для унутрыгрупавы ўзору параўнання.
Некаторыя грамадазнаўцы прывыклі да працы з дадзенымі, што зыходзіць з імавернаснай выпадковай выбаркі з добра пэўнай групы насельніцтва, такія, як усе дарослыя ў той ці іншай краіне. Гэты выгляд дадзеных называецца рэпрэзентатыўных дадзеных , паколькі ўзор «ўяўляе сабой» вялікую частку насельніцтва. Многія даследчыкі прыз рэпрэзентатыўныя дадзеныя, а некаторыя, прадстаўнічы дадзеныя з'яўляецца сінонімам строгай навукі, тады як нерепрезентативности дадзеных з'яўляюцца сінонімам разгільдзяйства. На самым крайнім, некаторыя скептыкі, падобна, лічаць, што нішто не можа быць вынята з нерепрезентативности дадзеных. Калі гэта праўда, гэта, здавалася б сур'ёзна абмежаваць тое, што можна атрымаць з буйных крыніц дадзеных, паколькі многія з іх з'яўляюцца нерепрезентативностью. На шчасце, гэтыя скептыкі толькі збольшага. Ёсць пэўныя даследчыя мэты, для якіх нерепрезентативность дадзеныя відавочна не вельмі добра падыходзіць, але ёсць і іншыя, для якіх яна сапраўды можа быць вельмі карыснай.
Каб зразумець гэта адрозненне, давайце разгледзім навуковую класіку: даследаванне Джона Сноў ўспышкі халеры 1853-54 у Лондане. У той час многія лекары лічылі, што халера была выкліканая «дрэнным паветрам», але снег лічыў, што гэта інфекцыйнае захворванне, магчыма, распаўсюджваецца сцёкавай карункавым пітной вадой. Каб праверыць гэтую ідэю, снег скарыстаўся, што мы можам зараз сказаць натуральны эксперымент. Ён параўнаў цэны халеры хатніх гаспадарак, якія абслугоўваюцца два розных водных кампаній: Ламбет і Саутворкой & Vauxhall. Гэтыя кампаніі служылі аналагічныя хатнія гаспадаркі, але яны адрозніваліся адной важнай асаблівасцю: ў 1849-некалькі гадоў да пачатку эпідэміі-Lambeth пераехаў яго спажыванне пункт уверх па плыні ад галоўнага скіду сцёкавых вод у Лондане, у той час як Саутварк і Vauxhall пакінула всасывать трубу ўніз па плыні ад скід сцёкавых вод. Калі снег параўнаў ўзровень смяротнасці ад халеры ў хатніх гаспадарках, якія абслугоўваюцца двух кампаній, ён выявіў, што кліенты Саутворка & Vauxhall-кампаніі, якая аказвае кліент каналізацыйныя сапсаваны водаразборныя былі ў 10 разоў больш шанцаў памерці ад халеры. Гэты вынік дае моцныя навуковыя доказы аргументу Сноў пра прычыну халеры, нават калі ён не заснаваны на рэпрэзентатыўнай выбарцы людзей у Лондане.
Дадзеныя з гэтых двух кампаній, аднак, не былі б ідэальнай для адказу на іншае пытанне: што распаўсюджанасць халеры ў Лондане падчас ўспышкі? Для гэтага другога пытання, што таксама важна, было б значна лепш мець рэпрэзентатыўную выбарку людзей з Лондана.
Як паказвае праца Сноў, ёсць некаторыя навуковыя пытанні, для якіх нерепрезентативности дадзеныя могуць быць вельмі эфектыўнымі, і ёсць іншыя, для якіх яна не вельмі добра падыходзіць. Адзін сырой спосаб адрозніваць гэтыя два віды пытанняў з'яўляецца тое, што некаторыя пытанні аб межах выбаркі параўнанняў і некаторыя з іх пра тое, з-за межамі выбаркі абагульнення. Гэта адрозненне можа быць праілюстравана іншым класічным даследаваннем у галіне эпідэміялогіі: Брытанскія лекары Азнаямленчы, якія згулялі важную ролю ў дэманстрацыі таго, што курэнне выклікае рак. У гэтым даследаванні, Рычард Дол і А. Брэдфорд Хіл перамяшчаліся амаль 25 000 лекараў-мужчын на працягу некалькіх гадоў і параўналі іх паказчыкі смяротнасці на аснове сумы, якую яны палілі, калі пачалося даследаванне. Doll і Hill (1954) выявілі моцную сувязь экспазіцыі Адказ: у большай ступені людзі палілі, тым больш верагодна , што яны павінны былі памерці ад раку лёгкіх. Вядома, было б неразумна, каб ацаніць распаўсюджанасць рака лёгкіх сярод усіх брытанскіх людзей на аснове гэтай групы лекараў-мужчын, але параўнанне ўнутры выбаркі па-ранейшаму сведчыць аб тым, што курэнне выклікае рак лёгкіх.
Цяпер, калі я праілюстраваў розніцу паміж ўнутры выбаркі параўнання і па-за выбаркі абагульненняў, два засцярогі ў парадку. Па-першае, натуральна пытанні аб тым, у якой ступені адносіны, якія трымае ў выбарцы мужчын брытанскіх лекараў таксама правядзе ва ўзоры самкі, брытанскіх лекараў ці мужчын брытанскіх фабрычных рабочых ці жанчын нямецкіх фабрычных рабочых і многіх іншых груп. Гэтыя пытанні цікавыя і важныя, але яны адрозніваюцца ад пытанняў пра тое, наколькі мы можам абагульняць ад ўзору да папуляцыі. Звярніце ўвагу, што, напрыклад, вы, верагодна, падазраюць, што сувязь паміж курэннем і ракам, які быў знойдзены ў мужчынскіх брытанскіх лекарах, верагодна, будзе падобная на гэтых іншых групах. Ваша здольнасць рабіць гэта экстрапаляцыя не зыходзіць з таго факту, што мужчыны Брытанскія лекары імавернасны выпадковая выбарка з любога насельніцтва; хутчэй, гаворка ідзе ад разумення механізму, які звязвае курэнне і рак. Такім чынам, абагульненне ад ўзору да папуляцыі , з якой намаляваны з'яўляецца ў асноўным статыстычных пытаннем, але пытанні аб транспартабельнасці малюнка , знойдзенай у адной групы да іншай групы ў значнай ступені нестатистическом пытанне (Pearl and Bareinboim 2014; Pearl 2015) .
На дадзены момант, скептык можа паказваць на тое, што большасць сацыяльных мадэляў, верагодна, менш транспартабельнасці ў розных групах, чым адносіны паміж курэннем і ракам. І я згодны. Ступень, у якой мы павінны чакаць мадэлі будзе транспартавацца ў канчатковым рахунку, навуковы пытанне, які павінен быць вызначаны на аснове тэорыі і доказы. Яна не павінна аўтаматычна меркаваць, што мадэлі будуць транспартабельныя, але і не павінна быць, што мяркуецца, што яны не будуць транспартавацца. Гэтыя некалькі абстрактныя пытанні аб транспартабельнасці будуць вам знаёмыя , калі вы вынікалі дэбаты аб тым , колькі даследчыкі могуць даведацца аб паводзінах чалавека, вывучаючы студэнтаў старэйшых курсаў (Sears 1986, [@henrich_most_2010] ) . Нягледзячы на гэтыя дэбаты, аднак, было б неразумна, каб сказаць, што даследчыкі не могуць нічога ад вывучэння студэнтаў старэйшых курсаў вучыцца.
Другі нюанс у тым, што большасць даследчыкаў з нерепрезентативностью дадзеных не так старанна, як снег або Doll і Hill. Такім чынам, каб паказаць , што можа пайсці не так , калі даследчыкі спрабуюць зрабіць па-за ўзору абагульнення ад нерепрезентативности дадзеных, я хацеў бы распавесці вам аб даследаванні нямецкіх парламенцкіх выбараў 2009 года Андранік Tumasjan і яго калегамі (2010) . На аснове аналізу больш чым 100000 твітаў, яны выявілі, што доля твітаў з згадваннем палітычнай партыі адпавядае долі галасоў, атрыманай партыі ў парламенцкіх выбарах (малюнак 2.3). Іншымі словамі, аказалася, што дадзеныя Twitter, які быў па сутнасці, не можа замяніць традыцыйныя апытанні грамадскай думкі, якія з'яўляюцца дарагімі з-за іх акцэнту на рэпрэзентатыўных дадзеных.
Улічваючы тое, што вы, верагодна, ужо ведаеце пра Twitter, вы павінны неадкладна скептычна ставіцца да гэтага выніку. Немцы на Twitter у 2009 годзе не былі імавернаснай выпадковай выбаркай нямецкіх выбаршчыкаў, і прыхільнікі некаторых партый могуць цвіркалі пра палітыку значна часцей, чым прыхільнікі іншых партый. Такім чынам, здаецца дзіўным, што ўсе магчымыя прадузятасці, якія вы можаце сабе ўявіць, як-то адмяніць такім чынам, каб гэтыя дадзеныя былі б непасрэдна адлюстроўваюць нямецкіх выбаршчыкаў. На самай справе, вынікі ў Tumasjan et al. (2010) і Tumasjan et al. (2010) апынуўся занадта добра , каб быць праўдай. Наступны дакумент Андрэас Jungherr, Паскаль Юргенс, і Харальд Шена (2012) паказаў, што першапачатковы аналіз выключыў палітычную партыю , якая на самай справе атрымала найбольш згадкі на Twitter: Пірацкая партыю, невялікую партыю , якая змагаецца дзяржаўнае рэгуляванне інтэрнэту. Калі Пірацкая партыя была ўключана ў аналіз, Twitter згадвае становіцца жудасны прадказальнік вынікаў выбараў (малюнак 2.3). Як паказвае гэты прыклад, выкарыстоўваючы нерепрезентативности вялікіх крыніц дадзеных, каб зрабіць па-за ўзору абагульненне можа ісці вельмі няправільна. Акрамя таго, варта заўважыць, што той факт, што было 100000 твітаў у асноўным не мае значэння: шмат нерепрезентативных дадзеныя па-ранейшаму нерепрезентативность, тэму, што я вярнуся ў раздзеле 3, калі я абмяркоўваю абследаванне.
У заключэнне, многія буйныя крыніцы дадзеных не з'яўляюцца рэпрэзентатыўнымі ўзорамі з некаторых добра пэўнай групы насельніцтва. Для пытанняў, якія патрабуюць абагульняючых вынікаў ад ўзору да папуляцыі, з якой яна была намалявана, гэта сур'ёзная праблема. Але пытанні аб межах выбаркі параўнання, нерепрезентативности дадзеныя могуць быць магутнымі, так доўга, як даследчыкі дакладнае ўяўленне аб характарыстыках іх узораў і дапаможных сцвярджэнняў аб транспартабельнасці з тэарэтычнымі або эмпірычнымі дадзенымі. На самай справе, мая надзея складаецца ў тым, што вялікія крыніцы дадзеных дазволяць даследчыкам зрабіць больш параўнанняў у межах выбаркі пры многасьці нерепрезентативности груп, і я думаю, што ацэнкі з розных груп будуць рабіць больш для сацыяльных даследаванняў, чым адной ацэнкі з імавернасных выпадковых ўзор.