2.3.2.5 algorítmica confundidos

Comportamento en datos atopados non é natural, é impulsado polas metas de enxeñería de sistemas.

A pesar de moitas fontes de datos atopados son non reactivo, porque a xente non son conscientes dos seus datos están sendo gravados (Sección 2.3.1.3), os investigadores non debe considerar o comportamento nestes sistemas en liña para ser "natural" ou "puro". En realidade, o sistemas dixitais que o comportamento rexistro son altamente deseñados para inducir comportamentos específicos como premer en anuncios ou publicación de contidos. Os camiños que os obxectivos de proxectos de sistemas poden introducir normas en datos chámase confusión algorítmica. confusión algorítmica é relativamente descoñecido para os científicos sociais, pero é unha gran preocupación entre os científicos de datos coidadosas. E, ao contrario de algúns dos outros problemas con vestixios dixitais, confusión algorítmica é en gran parte invisible.

Un exemplo relativamente simple de confusión algorítmica é o feito de que en Facebook hai un número anormalmente elevado de usuarios, con preto de 20 amigos (Ugander et al. 2011) . Científicos que analizan con estes datos, sen comprensión de como funciona o Facebook podería, sen dúbida, xerar moitas historias sobre como 20 é unha especie de número máxico sociais. Con todo, Ugander e os seus colegas tiñan unha comprensión substancial do proceso que xerou os datos, e eles sabían que Facebook animou as persoas con poucas conexións en Facebook para facer máis amigos, ata que chegou a 20 amigos. Aínda Ugander e os seus compañeiros non din iso no papel, esta política foi supostamente creado polo Facebook, a fin de impulsar os novos usuarios a facer máis activos. Sen saber sobre a existencia desta política, con todo, é doado aproveitar a conclusión errónea a partir dos datos. Noutras palabras, o número sorprendentemente elevado de persoas con preto de 20 amigos dinos máis sobre Facebook que o comportamento humano.

Máis pernicioso que este exemplo anterior, onde confusión algorítmica produciu un resultado peculiar que unha coidadosa investigadores poden investigar máis, hai unha versión aínda máis complicado de confusión algorítmica que ocorre cando os deseñadores de sistemas en liña son conscientes das teorías sociais e, a continuación, asar esas teorías sobre o funcionamento dos seus sistemas. Os científicos sociais chaman iso de performatividade: cando as teorías cambiar o mundo de tal xeito que eles traen o mundo máis en liña coa teoría. Nos casos de confusión algorítmica performativa, natureza confundida dos datos é probable invisible.

Un exemplo dun estándar creado por performatividade é transitividade en redes sociais en liña. Nos anos 1970 e 1980, os investigadores descubriron que varias veces se é amigo de Alicia e é amigo de Bob, a continuación, Bob e Alicia son máis propensos a ser amigos entre si do que dúas persoas elixidas ao azar. E, este mesmo patrón se atopou no gráfico social Facebook (Ugander et al. 2011) . Así, pódese concluír que os patróns de amizade en Facebook replicar patróns de amizades offline, polo menos en canto a transitividade. Con todo, a magnitude da transitividade no gráfico social Facebook é parcialmente impulsado pola confusión algorítmica. É dicir, datos científicos en Facebook sabía da busca empírica e teórica sobre transitividade e despois cocido-lo como Facebook funciona. Facebook ten un "Persoas que quizais coñeza" recurso que suxire novos amigos, e dun xeito que Facebook decide quen suxerir a vostede é transitividade. É dicir, Facebook é máis probable que suxiren que facer amigos cos amigos dos seus amigos. Isto ten, así, o efecto de aumentar transitividade no gráfico social Facebook, noutras palabras, a teoría da transitividade trae o mundo en liña coas previsións da teoría (Healy 2015) . Así, cando fontes de datos grandes aparece para reproducir previsións da teoría social, hai que ter a certeza de que a teoría en si non foi cocido como o sistema funcionaba.

No canto de pensar de fontes de datos grandes como observar as persoas nun contorno natural, unha metáfora máis adecuada é observar a xente nun casino. Casino son altamente ambientes deseñados para inducir certos comportamentos de enxeñaría, e un investigadores nunca esperaría que o comportamento nun casino ía ofrecer unha fiestra sen restricións sobre o comportamento humano. Por suposto, poderiamos aprender algo sobre o comportamento de estudar as persoas humanas en casinos, de feito, un casino pode ser un escenario ideal para estudar a relación entre o consumo de alcohol e risco preferencias, pero se ignorássemos que os datos foron sendo creados nun casino poderiamos tirar algunhas conclusións malas.

Desafortunadamente, xestionar a confusión algorítmica é particularmente difícil porque moitas características de sistemas en liña son propietarias, pouco documentados, e en constante cambio. Por exemplo, como eu vou explicar máis adiante neste capítulo, confusión algorítmica foi unha posible explicación para a gradual descomposición de Google Flu Trends (Sección 2.4.2), pero esta reclamación era difícil de avaliar, porque os funcionamentos internos de busca de Google algoritmo son propietarios. A natureza dinámica da confusión algorítmica é unha forma de desvío do sistema. confusión Algorithmic significa que temos que ser cautelosos sobre calquera proposta de comportamento humano que vén dun único sistema dixital, non importa o grande.