2.3.2.1 Няпоўныя

Незалежна ад таго , як "вялікія" вашы "вялікія дадзеныя", верагодна , ня не мае інфармацыі , якую вы хочаце.

Большасць буйных крыніц дадзеных з'яўляюцца няпоўнымі, у тым сэнсе , што ў іх няма інфармацыі , што вы хочаце для вашага даследавання. Гэта агульная асаблівасць дадзеных, якія былі створаныя для мэт, выдатных даследчых мэтах. Многія сацыёлагі ўжо мелі досвед працы з непаўнатой, такія як існуючы апытанне, які не задаваў пытанне, які вы хацелі. На жаль, праблемы непаўнаты маюць тэндэнцыю быць больш экстрэмальным ў вялікіх дадзеных. На маю вопыту, вялікія дадзеныя, як правіла, не хапае трох тыпаў інфармацыі, карыснай для сацыяльных даследаванняў: дэмаграфію, паводзіны на іншых платформах, а таксама дадзеныя для практычнай рэалізацыі тэарэтычных пабудоў.

Усе гэтыя тры формы незавершанасці праілюстраваны ў даследаванні Gueorgi Kossinets і Дункана Уотса (2006) аб эвалюцыі сацыяльнай сеткі ў універсітэце. Kossinets і Ўотс пачаў з часопісамі электроннай пошты з універсітэта, які меў дакладную інфармацыю аб тым, хто паслаў электронныя лісты каму ў які час (даследчыкі не мелі доступу да зместу электронных лістоў). Гэтыя адрасы электроннай запісу гучаць як дзіўны набор дадзеных, але яны-нягледзячы на ​​свае памеры і зярністасць-прынцыпова няпоўным. Напрыклад, часопісы па электроннай пошце не ўключаюць у сябе дадзеныя аб дэмаграфічных характарыстыках студэнтаў, такіх, як падлогу і ўзрост. Акрамя таго, часопісы па электроннай пошце не ўключаюць у сябе інфармацыю пра сувязь праз іншыя сродкі масавай інфармацыі, такія як тэлефонныя званкі, тэкставыя паведамленні, або тварам да твару размоў. І, нарэшце, часопісы па электроннай пошце наўпрост не ўключаюць у сябе інфармацыю пра ўзаемаадносіны, тэарэтычных пабудоў у многіх існуючых тэорый. Пазней у гэтым раздзеле, калі я кажу аб стратэгіі даследаванняў, вы ўбачыце, як Kossinets і Ўотс вырашыць гэтыя праблемы.

З трох відаў непаўнаты, праблема няпоўных дадзеных у практычнай рэалізацыі тэарэтычных пабудоў цяжэй за ўсё вырашыць, і ў маім вопыце, часта выпадкова забываюць навукоўцаў дадзеных. Груба кажучы, тэарэтычныя канструкцыі з'яўляюцца абстрактныя ідэі , якія вывучаюць сацыёлагі, але, на жаль, гэтыя канструкцыі не заўсёды могуць быць адназначна вызначаны і вымераныя. Напрыклад, давайце ўявім, спрабуючы эмпірычнаму праверыць, відаць простае сцвярджэнне, што людзі, якія разумней зарабіць больш грошай. Для таго каб праверыць гэта зацвярджэнне вам трэба будзе вымераць "інтэлект". Але, што такое інтэлект? Напрыклад, Gardner (2011) сцвярджаў , што на самой справе існуе восем розных формаў інтэлекту. І, існуюць працэдуры, якія маглі б дакладна вымераць кожнай з гэтых формаў інтэлекту? Нягледзячы на ​​велізарныя аб'ёмы працы псіхолагаў, гэтыя пытанні да гэтага часу не маюць адназначных адказаў. Такім чынам, нават адносна просты прэтэнзійна-людзі , якія разумней зарабіць больш грошай , можа быць цяжка ацаніць эмпірычнаму , паколькі ён можа быць цяжка практычнай рэалізацыі тэарэтычных пабудоў у дадзеных. Іншыя прыклады тэарэтычных пабудоў , якія з'яўляюцца важнымі , але цяжка операционализировать ўключаць "нормы", "сацыяльны капітал" і "дэмакратыі" . Сацыяльныя навукоўцы называюць адпаведнасць паміж тэарэтычнымі канструкцыямі і пабудаваць дадзеныя дзеянні (Cronbach and Meehl 1955) . І, як гэты спіс канструкцый мяркуе, пабудаваць рэчаіснасць з'яўляецца праблемай, якую сацыёлагі змагаліся з на працягу вельмі доўгага часу, нават калі яны працавалі з дадзенымі, якія былі сабраныя для мэт даследавання. Пры працы з дадзенымі , сабранымі для мэтаў, выдатных даследчых мэтаў, праблемы валіднасці яшчэ больш складанай задачай (Lazer 2015) .

Калі вы чытаеце навукова-даследчую працу, адзін хуткі і карысны спосаб ацаніць асцярогі з нагоды канструктыўнай дзейснасці ўзяць асноўную прэтэнзію ў дакуменце, які, як правіла, выяўляецца ў тэрмінах канструкцый, і зноў выказаць у тэрмінах выкарыстоўваюцца дадзеных. Напрыклад, разгледзім два гіпатэтычных даследаванні, якія сцвярджаюць, каб паказаць, што больш разумныя людзі зарабляюць больш грошай:

  • Даследаванне 1: людзі , якія добра забіць на тэст-а Raven Progressive матрыц добра вывучаны тэст аналітычнага інтэлекту (Carpenter, Just, and Shell 1990) -У вышэй паведамілі даходы ад іх падатковых дэкларацый
  • Даследаванне 2: людзі на Twitter, якія выкарыстоўвалі больш доўгія словы, больш верагодна, згадаць раскошныя брэнды

У абодвух выпадках даследчыкі маглі б сцвярджаць, што яны паказалі, што больш разумныя людзі зарабляюць больш грошай. Але, у першым даследаванні тэарэтычныя канструкцыі добра операционализированы дадзенымі, а ў другім выпадку яны не з'яўляюцца. Акрамя таго, як гэты прыклад паказвае, больш дадзеных аўтаматычна не вырашае праблем з валіднасці. Вы павінны сумнявацца ў выніках даследавання 2 ці ўдзельнічае ён мільён твітаў, мільярд твітаў ці трыльён твітаў. Для даследчыкаў, якія не знаёмыя з ідэяй пабудаваць дзеянні, у табліцы 2.2 прыведзены некаторыя прыклады даследаванняў, тэарэтычныя пабудовы аператыўнае выкарыстанне з дапамогай лічбавых дадзеных трасіроўкі.

Табліца 2.2: Прыклады лічбавых слядоў, якія выкарыстоўваюцца ў якасці меры больш абстрактных тэарэтычных канцэпцый. Сацыяльныя навукоўцы называюць гэты матч пабудаваць дзеянні , і гэта з'яўляецца адной з асноўных праблем з выкарыстаннем вялікіх крыніц дадзеных для сацыяльных даследаванняў (Lazer 2015) .
лічбавай след тэарэтычная канструкцыя цытаванне
часопісы па электроннай пошце з універсітэта (толькі мета-дадзеныя) сацыяльныя адносіны Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) і De Choudhury et al. (2010)
паведамленняў у сацыяльных медыя на Weibo ўдзел грамадзянскай супольнасці Zhang (2016)
электроннай пошты з часопісаў фірмы (мета-дадзеных і поўны тэкст) Культуры падыходзіць у арганізацыі Goldberg et al. (2015)

Хоць праблема няпоўных дадзеных для ўвядзення ў дзеянне тэарэтычных пабудоў даволі цяжка вырашыць, ёсць тры агульныя вырашэння праблемы няпоўнай дэмаграфічнай інфармацыі і няпоўнай інфармацыі аб паводзінах на іншых платформах. Па-першае, на самай справе сабраць неабходныя вам дадзеныя; Я раскажу вам пра прыклад таго, што ў раздзеле 3, калі я распавяду вам пра апытаннях. На жаль, гэты від збору дадзеных не заўсёды магчыма. Другім асноўным рашэннем з'яўляецца тое , што навукоўцы дадзеных называць выснова карыстальнікам атрыбутаў і тое , што сацыёлагі называюць стаўлення. Пры такім падыходзе даследчыкі выкарыстоўваюць інфармацыю, якую яны маюць на некаторых людзей, каб вывесьці атрыбуты іншых людзей. Трэцяе магчымае рашэнне-адзін з якіх выкарыстоўваецца Kossinets і Ўотс-было аб'яднаць некалькі крыніц дадзеных. Гэты працэс часам называюць зліцця або запісы сувязі. Мая любімая метафара для гэтага працэсу быў прапанаваны ў першым жа абзацы першай працы калі - небудзь напісаных на запіс сувязі (Dunn 1946) , (Dunn 1946) :

"Кожны чалавек у свеце стварае Кнігу Жыцця. Гэтая кніга пачынаецца з нараджэння і заканчваецца смерцю. Яе старонкі складаюцца з запісаў галоўных падзей у жыцці. Запіс сувязь з'яўляецца імя, дадзенае ў працэсе зборкі старонак гэтай кнігі ў аб'ёме ".

Гэты ўрывак быў напісаны ў 1946 годзе, і ў той час, людзі думалі, што кніга жыцця можа ўключаць у сябе асноўныя жыццёвыя падзеі, як нараджэнне, шлюб, развод і смерць. Аднак цяпер, калі так шмат інфармацыі пра людзей, запісваецца, кніга жыцця можа быць неверагодна дэталёвы партрэт, калі гэтыя розныя старонкі (гэта значыць, нашы лічбавыя сляды), могуць быць звязаны адзін з адным. Гэтая кніга жыцця можа быць вялікім рэсурсам для даследчыкаў. Але кніга жыцця таксама можна было б назваць базу дадзеных спусташэння (Ohm 2010) , які можа быць выкарыстаны для ўсіх відаў неэтычных мэтаў, як апісана больш ніжэй , калі я кажу пра адчувальным характары інфармацыі , сабранай вялікімі крыніцамі дадзеных ніжэй і ў главе 6 (этыкі).