Незалежна ад таго , наколькі вялікія вашых вялікіх дадзеных, ён , верагодна , ня не мае інфармацыі вы хочаце.
Большасць буйных крыніцы дадзеных з'яўляюцца няпоўнымі, у тым сэнсе , што ў іх няма інфармацыі , што вы хочаце для вашага даследавання. Гэта агульная асаблівасць дадзеных, якія былі створаныя для іншых, чым у даследчых мэтах. Многія сацыёлагі ўжо мелі досвед працы з непаўнатой, напрыклад, існуючага абследавання, якія не задаюць пытанне, што было неабходна. На жаль, праблемы непаўнаты, як правіла, больш экстрэмальнымі ў вялікіх дадзеных. На маю вопыту, вялікія дадзеныя, як правіла, не хапаюць тры тыпаў інфармацыі, карысных для сацыяльных даследаванняў: дэмаграфічныя дадзеныя аб удзельніках, паводзін на іншых платформах, а таксама дадзеныя па практычнай рэалізацыі тэарэтычных пабудоў.
З трох відаў непаўнаты, праблема няпоўных дадзеных операционализировать тэарэтычныя пабудовы цяжэй за ўсё вырашыць. І ў маім вопыце, часта выпадкова забываюць. Груба кажучы, тэарэтычныя канструкты абстрактныя ідэі , што сацыёлагі вывучаюць і операционализации тэарэтычная канструкцыя азначае , прапаноўваючы якой - то спосаб , каб захапіць , што будаваць з назіранымі дадзенымі. На жаль, гэты просты які гучыць працэс часта аказваецца даволі складана. Напрыклад, давайце ўявім, спрабуючы эмпірычнаму праверыць, відаць простае сцвярджэнне, што людзі, якія разумней зарабіць больш грошай. Для таго каб праверыць гэта зацвярджэнне, што вам трэба будзе вымераць «інтэлект». Але што такое інтэлект? Gardner (2011) сцвярджаў , што ў рэальнасці існуе восем розных формаў інтэлекту. І ёсць працэдуры, якія маглі б дакладна вымераць любога з гэтых формаў інтэлекту? Нягледзячы на велізарныя колькасці працы псіхолагаў, гэтыя пытанні да гэтага часу няма адназначнага адказу.
Такім чынам, нават параўнальна простыя прэтэнзійна-людзі, якія разумней зарабіць больш грошай, можа быць цяжка ацаніць эмпірычнаму, таму што гэта можа быць цяжка операционализации тэарэтычных канструктаў ў дадзеных. Іншыя прыклады тэарэтычных канструктаў , якія з'яўляюцца важнымі , але цяжка операционализировать ўключаць «норму», «сацыяльны капітал» і «дэмакратыю» . Сацыёлагі называюць адпаведнасць паміж тэарэтычнымі канструкцыямі і пабудаваць дадзеныя дзеяннямі (Cronbach and Meehl 1955) . У гэты кароткі спіс канструкцый мяркуе, пабудаваць рэчаіснасць з'яўляецца праблемай, якую сацыёлагі змагаліся з на працягу вельмі доўгага часу. Але на маю вопыту, праблемы валіднасці яшчэ больш пры працы з дадзенымі , якія не былі створаны для мэт даследавання (Lazer 2015) .
Пры ацэнцы выніку даследаванняў, адзін хуткі і зручны спосаб для ацэнкі канструктыўнай валіднасці з'яўляецца прыняць вынік, які звычайна выяўляецца ў тэрмінах канструкцый, і зноў выказаць у тэрмінах выкарыстоўваюцца дадзеных. Напрыклад, разгледзім два гіпатэтычных даследаванні, якія сцвярджаюць, каб паказаць, што людзі, якія разумней зарабіць больш грошай. У першым даследаванні, даследчык выявіў , што людзі , якія добра заб'юць на цесцю-а тэст Рейвену добра вывучанага тэст аналітычнага інтэлекту (Carpenter, Just, and Shell 1990) -У вышэй паведамленыя даходы па іх падатковых дэкларацыях. У другім даследаванні, даследчык выявіў, што людзі на Twitter, якія выкарыстоўвалі больш доўгія словы, хутчэй за ўсё, згадаць люксовые брэнды. У абодвух выпадках гэтыя даследчыкі маглі сцвярджаць, што яны паказалі, што людзі, якія разумней зарабіць больш грошай. Тым не менш, у першым даследаванні тэарэтычныя канструкцыі добра ў дзеянне дадзенымі, у той час як у другім яны не з'яўляюцца. Акрамя таго, як гэты прыклад паказвае, больш дадзеных аўтаматычна не вырашаюць праблемы з валіднасцю. Вы павінны сумнявацца ў выніках другога даследаванні, ці ўдзельнічаюць мільён твітаў, мільярд твітаў ці трыльён твітаў. Для даследчыкаў, не знаёмых з ідэяй пабудаваць дзеянні, табліца 2.2 прыведзена некаторыя прыклады даследаванняў, у аператыўных тэарэтычныя канструкты з выкарыстаннем лічбавых дадзеных трасіроўкі.
крыніца дадзеных | тэарэтычная канструкцыя | спасылкі |
---|---|---|
Email часопісы з універсітэта (толькі мета-дадзеныя) | сацыяльныя адносіны | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) і De Choudhury et al. (2010) |
Сацыяльныя медыя паведамленняў на Weibo | ўдзел грамадзянскай супольнасці | Zhang (2016) |
Email часопісы з фірмы (мета-дадзеныя і поўны тэкст) | Культурныя змесцяцца ў арганізацыі | Srivastava et al. (2017) |
Хоць праблема няпоўных дадзеных для захопу тэарэтычных пабудоў даволі цяжка вырашыць, ёсць агульныя рашэнні іншых распаўсюджаных тыпаў непаўнаты: няпоўная дэмаграфічная інфармацыя і няпоўная інфармацыя аб паводзінах на іншых платформах. Першае рашэнне фактычна сабраць дадзеныя, неабходныя; Я раскажу вам пра тое, што ў раздзеле 3, калі я распавяду вам пра апытаннях. Другое асноўнае рашэннем з'яўляецца тое , што навукоўцы называюць дадзеных выснова карыстальніка атрыбутаў і сацыёлагі называюць абвінавацілі. Пры такім падыходзе даследчыкі выкарыстоўваюць інфармацыю, якую яны аказваюць на некаторых людзей, каб вывесьці атрыбуты іншых людзей. Трэцяе магчымае рашэнне складаецца ў аб'яднанні некалькіх крыніц дадзеных. Гэты працэс часам завецца запісам сувязі. Мая любімая метафара для гэтага працэсу была напісана Dunn (1946) у першым абзацы першай працы калі - небудзь напісанай на запіс сувязі:
«Кожны чалавек у свеце стварае Кнігу Жыцця. Гэтая кніга пачынаецца з нараджэння і заканчваецца смерцю. Яе старонкі складаюцца з запісаў галоўных падзей у жыцці. Запіс сувязі гэтае імя, дадзенае ў працэсе зборкі старонкі гэтай кнігі ў аб'ёме «.
Калі Dunn пісаў гэты ўрывак, ён уяўляў сабе, што Кніга жыцця можа ўключаць у сябе асноўныя жыццёвыя падзеі, як нараджэнне, шлюб, развод і смерць. Аднак цяпер, калі так шмат інфармацыі пра людзей, запісваецца, кніга жыцця можа быць неверагодна дэталёвы партрэт, калі гэтыя розныя старонкі (гэта значыць, нашы лічбавыя сляды) могуць быць звязаны адзін з адным. Гэтая кніга жыцця можа быць вялікім рэсурсам для даследчыкаў. Але, гэта таксама можна назваць базу дадзеных спусташэння (Ohm 2010) , які можа быць выкарыстаны для ўсіх відаў неэтычных мэтаў, як я апішу ў главе 6 (этыка).