2.3.2.1 Нецелосни

Не е важно како "голем" вашата "големи податоци", тоа веројатно нема информации што ви треба.

Повеќето големи извори на податоци се нецелосни, во смисла дека тие немаат информации дека ќе сакате за вашето истражување. Ова е заедничка карактеристика на податоци, кои се создадени за други цели освен истражувања. Многу научници од општествените науки веќе имале искуство на справување со непотполноста, како постоечки анкетата кои не се постави прашањето што го сакаше. За жал, проблемите на некомплетност имаат тенденција да бидат поекстремни во големи податоци. Во моето искуство, големи податоци има тенденција да се водат за исчезнати три видови на информации кои се корисни за социјални истражувања: демографијата, однесувањето на други платформи, како и податоци за операционализација теоретски конструкции.

Сите три од овие форми на некомплетност се илустрирани во една студија од страна Gueorgi Kossinets и Данкан Вотс (2006) за развојот на социјалната мрежа на универзитетот. Kossinets и Вотс започна со е-мејл логови од универзитетот, каде што имаше прецизни информации за тоа кој праќаат пораки на кои во она време (на истражувачите не имаат пристап до содржината на e-mail). Овие е-мејл евиденција звучи неверојатно базата, но, тие се, и покрај нивната големина и грануларност-фундаментално нецелосни. На пример, е-мејл логови не содржи податоци за демографските карактеристики на учениците, како што се полот и возраста. Понатаму, е-мејл логови не вклучуваат информации за комуникација преку други медиуми, како што се телефонски повици, текстуални пораки, или лице-в-лице разговори. На крајот, е-мејл логови директно не вклучуваат информации за врски, теоретски конструкции во многу од постојните теории. Подоцна во ова поглавје, кога зборувам за истражување стратегии, вие ќе видите како Kossinets и Вотс реши овие проблеми.

На три вида на некомплетност, проблемот на нецелосни податоци за операционализација теориски конструкции е најтешко да се реши, и во моето искуство, тоа е често случајно се занемаруваат од страна на научниците на податоци. Грубо, теориски конструкции се апстрактни идеи кои социјалните научници учат, но, за жал, овие конструкции не може секогаш да биде недвосмислено дефиниран и мери. На пример, да замислиме обидува емпириски да ја тестира очигледно едноставни тврдат дека луѓето кои се поинтелигентни заработи повеќе пари. Со цел да ги тестираат оваа барање ќе треба да се измери "интелигенција". Но, она што е разузнавање? На пример, Gardner (2011) тврди дека таму се всушност осум различни форми на интелигенција. И, постојат процедури кои можат точно да се измери било која од овие форми на интелигенција? И покрај огромните количини на работа од страна на психолозите, овие прашања се уште немаат недвосмислени одговори. Така, дури и релативно едноставна барање за луѓе кои се повеќе интелигентни заработи повеќе пари може да биде тешко да се процени емпириски, бидејќи тоа може да биде тешко да се операционализира теориски конструкции во податоците. Други примери на теориски конструкции, кои се важни, но тешко да се операционализира се "норми", "општествен капитал" и "демократија". Социјални научници се јавите на натпреварот помеѓу теоретски конструкции и конструкција податоци важност (Cronbach and Meehl 1955) . И, како што оваа листа на конструкции сугерира, изградба важност е проблем кој социјални научници се борат со многу долго време, дури и кога се работи со податоците кои се собрани за целите на истражување. Кога се работи со податоци собрани за други цели освен за истражување, проблемите на изградба на важност се уште поголем предизвик (Lazer 2015) .

Кога ги читате истражувачки труд, една брза и корисен начин да се процени загриженост за изградба важност е да се земе на главното побарување во весникот, кој обично се изразува во однос на конструкции, и повторно да се изразат во однос на податоците се користи. На пример, земете две хипотетички студии кои тврдат дека за да се покаже дека повеќе интелигентни луѓе заработуваат повеќе пари:

  • Студија 1: луѓето кои се резултат и на тест-a Равен напредна Матрици добро проучен тест на аналитички интелигенција (Carpenter, Just, and Shell 1990) -have повисоки пријавени приходи на даночните пријави
  • Студија 2: луѓе на Твитер кои се користат подолги зборови се со поголема веројатност да се спомене луксузни брендови

Во двата случаи, истражувачите можеле да се тврди дека тие покажаа дека повеќе интелигентни луѓе заработуваат повеќе пари. Но, во првата студија на теориски конструкции се добро операционализирана на податоци, а во втората тие не се. Понатаму, како овој пример покажува, повеќе податоци автоматски не ги реши проблемите со изградба важност. Треба да се сомнева во резултатите од студијата 2 без разлика дали тоа се вклучени милиони твитови, милијарди твитови, или илјада милијарди твитови. За истражувачите не се запознаени со идејата за изградба на важење, Табела 2.2 обезбедува некои примери на студии кои се операционализира теориски конструкции користење на дигитални податоци трага.

Табела 2.2: Примери на дигиталните траги кои се користат како мерка за повеќе апстрактни теоретски концепти. Социјални научници го нарекуваат овој натпревар конструкција важност и тоа е голем предизвик со користење на големи извори на податоци за социјални истражувања (Lazer 2015) .
дигитални трага теоретски конструкција цитат
Е-логови од универзитет (само мета-податоци) Општествените односи Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
социјалните медиуми мислења на Weibo граѓански ангажман Zhang (2016)
Е-логови од фирма (мета-податоци и целосна текст) Културни вклопуваат во една организација Goldberg et al. (2015)

Иако проблемот на нецелосни податоци за операционализација теориски конструкции е прилично тешко да се реши, постојат три заеднички решенија за проблемот на нецелосни демографски информации и непотполни информации за однесувањето на други платформи. Првиот е да се, всушност, ги собираат податоците што треба; Јас ќе ви кажам за еден пример за тоа во Глава 3 кога ќе ви кажам за анкети. За жал, овој вид на собирање на податоци не е секогаш можно. Втората главна решение е да се направи она што научниците го нарекуваат податоци корисник атрибутот инференција и она што социјалните научници го нарекуваат импутација. Во овој пристап, истражувачите ги користат информациите кои тие го имаат на некои луѓе да заклучиме атрибути на другите луѓе. Третиот можно решение, оној што се користат од страна Kossinets и Вотс, е да се комбинираат повеќе извори на податоци. Овој процес се нарекува и спојување или да снимате поврзување. Моја омилена метафора за овој процес беше предложен уште во првиот став од првите хартија некогаш напишани на рекорд поврзување (Dunn 1946) :

"Секој човек во светот создава книгата на животот. Оваа книга започнува со раѓањето и завршува со смрт. нејзините страници се составени од евиденцијата на принципот настани во животот. Снимање на поврзување е името дадено на процесот на составување на страниците на оваа книга во волумен. "

Овој пасус е напишана во 1946 година, и во тоа време, луѓето мислат дека Книгата на животот може да се големи животни настани како раѓање, брак, развод, и смрт. Сепак, сега кога толку многу информации за луѓето е снимен, Книгата на Животот може да биде неверојатно детална слика, ако тие различни страни (на пример, нашите дигитални траги), може да се врзани заедно. Оваа книга на Животот може да биде голем извор на информации за истражувачите. Но, книгата на животот, исто така може да се нарече една база на податоци на пропаст (Ohm 2010) , која може да се користи за сите видови на неетичко цели, како што е опишано повеќе подолу кога зборувам за чувствителната природа на информациите собрани од страна на големите извори на податоци подолу и во поглавјето 6 (етика).