Sama hversu stór stór gögn þín, það hefur sennilega ekki þær upplýsingar sem þú vilt.
Flestir stóru gagnaheimildir eru ófullnægjandi , í þeim skilningi að þær hafa ekki þær upplýsingar sem þú vilt fyrir rannsóknir þínar. Þetta er algengt einkenni gagna sem voru búnar til í öðrum tilgangi en rannsóknum. Margir félagsvísindamenn hafa þegar fengið reynslu af að takast á við ófullkomleika, svo sem núverandi könnun sem ekki spurði spurninguna sem þurfti. Því miður eru vandamálin ófullkomin yfirleitt meiri í stórum gögnum. Reynslan mín hefur tilhneigingu til að vera vantar þremur tegundum upplýsinga sem gagnlegar eru fyrir félagslega rannsóknir: lýðfræðilegar upplýsingar um þátttakendur, hegðun á öðrum vettvangi og gögn til aðgerða á fræðilegum byggingum.
Af þeim þremur tegundum ófullkomleika er vandamálið með ófullnægjandi gögnum til að virkja fræðilega byggingu erfiðast að leysa. Og í minni reynslu er það oft óvart gleymast. Gróft eru fræðilegar byggingar abstrakt hugmyndir sem félagsvísindamenn rannsaka og rekstraraðila fræðilega byggingu þýðir að leggja til nokkrar leiðir til að fanga þessi byggingu með áberandi gögn. Því miður reynir þetta einfalt ferli að vera nokkuð erfitt. Til dæmis, við skulum ímynda okkur að reyna að reyna að reynslan virðist einfaldlega krafa um að fólk sem er greindur fái meiri peninga. Til að prófa þessa fullyrðingu þurfti að mæla "upplýsingaöflun". En hvað er upplýsingaöflun? Gardner (2011) hélt því fram að í raun séu átta mismunandi gerðir upplýsingaöflunar. Og eru það verklagsreglur sem gætu mælt nákvæmlega hvaða af þessum greindum? Þrátt fyrir mikið magn af vinnu sálfræðinga, hafa þessar spurningar enn ekki ótvíræðar svör.
Þannig er jafnvel tiltölulega einföld krafa - fólk sem er greindari fær meira fé - erfitt að meta empirically vegna þess að það getur verið erfitt að rekstera fræðilega byggingu í gögnum. Önnur dæmi um fræðileg býr sem eru mikilvæg, en erfitt er að operationalize eru "viðmið", "félagsauð" og "lýðræði". Félagsmál vísindamenn kalla inná milli fræðilegra býr og gögn reisa réttmæti (Cronbach and Meehl 1955) . Eins og þessi stutta lista yfir byggingar bendir til, eru byggingargildi vandamál vandamál sem félagsvísindamenn hafa átt í erfiðleikum með í mjög langan tíma. En í minni reynslu eru vandamálin við byggingu gildi enn meiri þegar unnið er að gögnum sem ekki voru búnar til til rannsókna (Lazer 2015) .
Þegar þú metur rannsóknarniðurstöðu er ein fljótleg og gagnleg leið til að meta byggingargildið að leiða til niðurstöðu, sem venjulega er lýst hvað varðar byggingar og endurspegla það hvað varðar gögnin sem notuð eru. Tökum dæmi um tvær sönnunargögn sem krafa um að sýna að fólk sem er greindur fái meiri peninga. Í fyrstu rannsókninni komst rannsóknaraðilinn að því að fólk sem skoraði vel á Raven Progressive Matrices Test-vel rannsakað próf greiningarupplýsinga (Carpenter, Just, and Shell 1990) -hafa hærri tekjur í skattframtali. Í annarri rannsókninni kom rannsóknarniðurstöðurnar að því að fólk á Twitter sem notaði lengri orð eru líklegri til að nefna lúxusmerki. Í báðum tilvikum geta þessi vísindamenn krafist þess að þeir hafi sýnt að fólk sem er greindur fær meira fé. En í fyrstu rannsókninni eru fræðilegar byggingar vel rekin af gögnum, en í öðru er það ekki. Enn fremur, eins og þetta dæmi sýnir, leysa fleiri gögn ekki sjálfkrafa vandamál með byggingu gildi. Þú ættir að efast um niðurstöður síðari rannsóknarinnar hvort það hafi átt sér stað milljón kvaðrata, milljarða kvaðrata eða trilljón kvak. Fyrir vísindamenn sem ekki þekkja hugmyndina um byggingargildi, sýnir tafla 2.2 nokkur dæmi um rannsóknir sem hafa rekstrarfræðilegar fræðilegar byggingar með stafrænum rekjaupplýsingum.
Gögn uppspretta | Fræðilega byggingu | Tilvísanir |
---|---|---|
Tölvupóstskrár frá háskóla (aðeins meta-gögn) | Félagsleg tengsl | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Félagslegar færslur á Weibo | Borgaraleg þátttaka | Zhang (2016) |
Email logs frá fyrirtæki (meta-gögn og heill texta) | Menning passar í samtök | Srivastava et al. (2017) |
Þó að vandamálið með ófullnægjandi gögnum til að taka upp fræðilegum byggingum er frekar erfitt að leysa, þá eru algengar lausnir við aðrar algengar tegundir ófullnægjandi: ófullnægjandi lýðfræðilegar upplýsingar og ófullnægjandi upplýsingar um hegðun á öðrum vettvangi. Fyrsta lausnin er að í raun safna gögnum sem þú þarft; Ég skal segja þér frá því í kafla 3 þegar ég segi þér um kannanir. Seinni aðallausnin er að gera hvaða gagnafræðingar kalla á notendavottorð ályktun og félagsvísindamenn kalla álagningu . Í þessari nálgun eru vísindamenn að nota þær upplýsingar sem þeir hafa um sumt fólk til að afleita eiginleika annarra. Þriðja hugsanlega lausnin er að sameina margar gagnasöfnanir. Þetta ferli er stundum kallað upp tengsl . Uppáhalds myndlíking mín fyrir þetta ferli var skrifað af Dunn (1946) í fyrstu málsgrein fyrstu blaðsins sem skrifað var á hljómplata:
"Hver einstaklingur í heiminum skapar lífsbókina. Þessi bók byrjar með fæðingu og endar með dauða. Þessar síður eru gerðar úr skrám um helstu atburði í lífinu. Upptökutenging er nafnið sem gefið er upp á því að setja saman blaðsíður þessa bókar í bindi. "
Þegar Dunn skrifaði þessi leið var hann að ímynda sér að lífsbókin gæti falið í sér helstu atburði lífsins eins og fæðingu, hjónaband, skilnað og dauða. Hins vegar, þegar mikið af upplýsingum um fólk er skráð, gæti lífsbókin verið ótrúlega nákvæm mynd, ef hægt er að tengja þessar mismunandi síður (þ.e. Þessi bók lífsins gæti verið frábær úrræði fyrir vísindamenn. En það gæti líka verið kallað gagnagrunnur um eyðileggingu (Ohm 2010) , sem gæti verið notað fyrir alls konar siðlaus tilgang, eins og ég lýsi í kafla 6 (siðfræði).