2.3.2.1 Nepilna

Nesvarbu, kaip "didelis" savo "dideli duomenys" tai tikriausiai neturi norimą informaciją.

Dauguma didelių duomenų šaltiniai yra neišsamūs, ta prasme, kad jie neturi informacijos, kad jūs norite savo tyrimus. Tai yra bendras bruožas duomenų, kurie buvo sukurti, išskyrus tyrimų tikslais. Daugelis socialinių mokslų jau turėjo galimybę spręsti su neužbaigtumo, tokių kaip esamo tyrimo, kad nebuvo užduoti klausimą, kurį norėjote patirtį. Deja, neužbaigtumo problemų linkę būti labiau kraštutinis dideliuose duomenų. Iš savo patirties, didelis duomenys yra linkęs būti trūksta trijų tipų informacijos, naudingos socialinių tyrimų: demografija, elgesį kitų platformų ir duomenų, kad imtų veikti teorinius konstruktus.

Visi šie neužbaigtumo formų trys iliustruoti tam tikrame Gueorgi Kossinets ir Duncan Watts tyrimo (2006) apie socialinio tinklo evoliucijos metu universitete. Kossinets ir vatai prasidėjo su pašto rąstų iš universiteto, kuris turėjo tikslios informacijos apie tai, kas išsiuntė laiškus kam kokiu laiku (tyrėjai neturėjo patekti į laiškų turinį). Šie Siųsti įrašai skamba nuostabų rinkinį, bet jie-nepaisant jų dydžio ir detalumo-iš esmės neišsamus. Pavyzdžiui, elektroninio pašto rąstai neapima duomenis apie demografinius rodiklius studentams, pavyzdžiui, lytį ir amžių. Be to, elektroninio pašto rąstai neapima informacijos apie bendravimo per kitose žiniasklaidos priemonėse, pavyzdžiui, telefono skambučius, teksto žinutėje arba akis į akį. Galiausiai, pašto rąstai nėra tiesiogiai įtraukti informaciją apie santykius, teorinių konstruktų daugelyje esamų teorijų. Vėliau skyriuje, kai aš kalbėti apie mokslinių tyrimų strategijos, pamatysite, kaip Kossinets ir vatai išspręsti šias problemas.

Iš trijų rūšių neužbaigtumo, kad neišsamių duomenų problema, kad imtų veikti teorinius konstruktus yra sunkiausia išspręsti, ir mano patirtis rodo, kad dažnai netyčia pamiršta duomenų mokslininkai. Grubiai, teoriniai konstruktai yra abstrakčios idėjos, kad sociologai mokytis, bet, deja, šie konstruktai ne visada gali būti vienareikšmiškai apibrėžti ir išmatuoti. Pavyzdžiui, įsivaizduokime, bando empiriškai patikrinti matyt paprastą teiginį, kad žmonės, kurie yra labiau protingas uždirbti daugiau pinigų. Norint patikrinti šį teiginį jums reikės išmatuoti "intelektas." Bet, kas yra intelektas? Pavyzdžiui, Gardner (2011) teigė, kad ten iš tikrųjų yra aštuonių skirtingų formų intelektas. Ir ten procedūros, kurios gali tiksliai išmatuoti bet kurį iš šių intelekto formas? Nepaisant milžiniškų sumų darbo psichologai, šie klausimai vis dar neturi nedviprasmiškas atsakymus. Taigi, net gana paprastas žalų-žmonių, kurie daugiau protingas uždirbti daugiau pinigų gali būti sunku įvertinti empiriškai, nes ji gali būti sunku, kad imtų veikti teorinius konstruktus į duomenis. Kiti pavyzdžiai teorinių konstruktų, kurie yra svarbūs, bet sunku ope įtraukti "normas", "socialinį kapitalą" ir "demokratiją". Socialinių mokslų skambinti tarp teorinių konstruktų ir duomenų konstrukto galiojimo rungtynes (Cronbach and Meehl 1955) . Ir, kaip rodo šis konstruktų sąrašas, statyti galiojimas yra problema, kad socialiniai mokslininkai kovojo su labai ilgą laiką, net jei jie dirbo su tuo buvo surinkta už mokslinių tyrimų tikslais duomenis. Dirbant su surinktais kitais nei mokslinių tyrimų tikslais duomenimis, konstrukto galiojimo problemos yra dar sunkiau (Lazer 2015) .

Kai jūs skaitote mokslinių tyrimų popieriaus, vienas greitas ir naudingas būdas įvertinti susirūpinimas konstrukto galiojimo yra imtis pagrindinį reikalavimą popieriaus, kuris paprastai yra išreikštas stato, ir vėl ją išreikšti, kalbant apie naudojamų duomenų. Pavyzdžiui, panagrinėkime dvi hipotetines studijas, kad reikalavimas rodo, kad daugiau intelektualūs žmonės uždirba daugiau pinigų:

  • Tyrimas 1: žmonės, kurie pirmi ant varnas Progressive matricų testas-gerai mokėsi bandymas analitinio intelekto (Carpenter, Just, and Shell 1990) -turėti didesnis pranešta pajamas savo mokesčių deklaracijas
  • 2 Tyrimas: žmonės Twitter, kuris naudojamas ilgiau žodžiai yra labiau linkę paminėti prabangos prekių ženklai

Abiem atvejais, mokslininkai gali teigti, kad jie parodė, kad daugiau intelektualūs žmonės uždirba daugiau pinigų. Bet, pirmojo tyrimo teorinės konstruoja yra gerai operacionalizuojamas pagal duomenų, ir antroje jie nėra. Be to, kaip šis pavyzdys iliustruoja, daugiau duomenų nėra automatiškai išspręsti problemas, susijusias su konstrukto galiojimo. Turėtumėte abejoju Studijų 2 rezultatų ar jis dalyvavo mln tweets, milijardo tweets arba trilijoną tweets. Mokslininkams nėra susipažinę su konstrukto galiojimo idėja, 2.2 lentelėje pateikiami kai kurie tyrimai, kurie teorinius konstruktus operacionalizuojamas naudojant skaitmeninius pėdsakus duomenis pavyzdžių.

2.2 lentelė: pavyzdžiai skaitmeninių pėdsakų, kurie yra naudojami kaip priemonės daugiau abstrakčių teorinių koncepcijų. Socialiniai mokslininkai vadina varžybas konstrukto galiojimą ir tai yra didelis iššūkis su didelėmis duomenų šaltinius socialinių tyrimų (Lazer 2015) .
Skaitmeniniai pėdsakų teorinė konstruktas citata
Siųsti rąstai iš universiteto (tik meta duomenys) socialiniai santykiai Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
socialinės žiniasklaidos pranešimų apie Weibo pilietinis dalyvavimas Zhang (2016)
Siųsti rąstai firmos (meta-duomenų ir pilnas tekstas) Kultūros tinka organizacijoje Goldberg et al. (2015)

Nors neišsamių duomenų veikiančiu teorinių konstruktų problema yra gana sunku spręsti, yra trys bendri sprendimai į nepilno demografinę informaciją ir neišsamios informacijos apie elgesio kitų platformų problemą. Pirmasis yra iš tikrųjų surinkti duomenis, kuriuos reikia; Pasakysiu apie to pavyzdžiui, 3 skyriuje, kai aš jums papasakoti apie apklausas. Deja, šis duomenų rinkimo rūšies yra ne visada įmanoma. Antrasis pagrindinis sprendimas yra daryti tai, ką mokslininkai vadina duomenų vartotojas atributo išvados ir ką sociologai vadina priskyrimo. Taikant šį metodą, mokslininkai naudojame informaciją, kurią jie turi kai kurių žmonių daryti išvadą, atributus kitų žmonių. Trečias galimas sprendimas-vienas naudojamas Kossinets ir vatai-buvo sujungti kelis duomenų šaltinius. Šis procesas kartais vadinamas sujungti arba įrašyti ryšys. Mano mėgstamiausia metafora šiame procese buvo pasiūlyta labai pirmoje pastraipoje pirmųjų popieriaus kada nors parašyta rekordiškai ryšį (Dunn 1946) :

"Kiekvienas pasaulio žmogus sukuria gyvenimo knyga. Ši knyga prasideda gimimo ir baigiasi mirtimi. Jos puslapiai yra sudaryta iš įrašų principo gyvenimo įvykių. Įrašų ryšys yra pavadinimas, suteiktas montuojant šios knygos puslapius į tūris procesą. "

Ši ištrauka buvo parašyta 1946 metais, ir tuo metu, žmonės galvoja, kad gyvenimo knyga galėtų apimti svarbiausius gyvenimo įvykius, pavyzdžiui, gimimo, santuokos, skyrybų, ir mirties. Tačiau dabar, tiek daug informacijos apie žmones, yra registruojami, gyvenimo knyga galėtų būti neįtikėtinai išsamias portretas, jei šios skirtingos puslapiai (ty, mūsų skaitmeninių TRACES), gali būti surišti. Tai gyvenimo knyga gali būti puikus šaltinis mokslininkams. Bet iš gyvenimo knygos taip pat galėtų vadintis griuvėsiai duomenų bazę (Ohm 2010) , kurios galėtų būti naudojamos visoms neetiškų įvairiausiais tikslais, kaip aprašyta daugiau nei kai aš kalbėti apie slaptos informacijos pagal žemiau didelių duomenų šaltinių surinkta ir 6 skyrius (etikos).