2.3.8

Chan eil giùlan ann an siostaman dàta mòr nàdarra; tha e air a stiùireadh le amasan innleadaireachd nan siostaman.

Ged a tha mòran de thobraichean dàta mòra neo-ghnìomhach a chionn 's nach eil daoine mothachail gu bheil an dàta aca air a chlàradh (earrann 2.3.3), cha bu chòir do luchd-rannsachaidh beachdachadh air giùlan anns na siostaman air-loidhne sin gu bhith "a' tachairt gu nàdarra." Gu fìrinneach, tha na siostaman didseatach a tha a 'clàradh giùlan innleachdach gu bhith a 'brosnachadh ghiùlan sònraichte mar a bhith a' briogadh air sanasan no a 'postadh susbaint. Tha na dòighean anns a bheil cinn-uidhe a-siostam dealbhaidh urrainn thoirt a-steach pàtrain a-steach dàta a ghairm algorithmic confounding. Chan eil luchd-saidheans sòisealta gu ìre mhòr neo-chinnteach air algorithm, ach tha e na uallach mòr am measg luchd-saidheans dàta cùramach. Agus, aocoltach ri cuid de na duilgheadasan eile le comharran didseatach, chan eil e follaiseach gu ìre mhòr.

Is e eisimpleir coimeasach sìmplidh de dhuilgheadasan algorithmach a th 'ann gu bheil àireamh anabarrach àrd de luchd-cleachdaidh air Facebook air a bheil mu 20 caraidean, mar a chaidh a lorg le Johan Ugander agus co-obraichean (2011) . Dh'fhaodadh luchd-saidheans a bhith a 'dèanamh anailis air an dàta seo gun tuigse air mar a dh' obraicheas Facebook a bhith a 'cruthachadh mòran sgeulachdan mu dheidhinn mar a tha 20 de sheòrsa àireamh shòisealta draoidheil. Gu fortanach, bha tuigse mhòr aig Ugander agus a cho-obraichean mun phròiseas a chruthaich an dàta, agus bha fios aca gu robh Facebook a 'brosnachadh dhaoine le beagan cheanglaichean air Facebook gus barrachd chàirdean a dhèanamh gus an ruigeadh iad 20 caraidean. Ged nach eil Ugander agus co-obraichean ag ràdh seo anns a 'phàipear aca, tha coltas gur e Facebook a chruthaich am poileasaidh seo gus luchd-cleachdaidh ùr a bhrosnachadh gus a bhith nas gnìomhaiche. Gun a bhith mothachail air a bhith a 'toirt a' phoileasaidh seo, ge-tà, tha e furasta an co-dhùnadh ceàrr a tharraing bhon dàta. Ann am faclan eile, tha an àireamh iongantach àrd de dhaoine le mu 20 caraidean ag innse barrachd dhuinn mu Facebook na mu dheidhinn giùlan daonna.

Anns an eisimpleir seo roimhe, rinn toradh cugallach droch thoradh air an adhbhar gum faodadh neach-rannsachaidh cùramach tuilleadh a lorg agus a sgrùdadh. Ach, tha dreach eadhon nas duilghe de dhuilgheadasan algorithmach a tha a 'tachairt nuair a tha dealbhadairean siostaman air-loidhne mothachail air teòraidhean sòisealta agus an uairsin a' fuine nan teòiridhean sin a-steach do bhith ag obair nan siostaman aca. Bidh luchd-saidheans sòisealta a 'gairm an dèanadas seo: nuair a bhios teòiridh ag atharrachadh an t-saoghail ann an dòigh a bheir e an saoghal nas motha a rèir an teòiridh. Ann an suidheachadh cugallach algorithmach cluicheach, tha nàdur an-dàta glè dhoirbh a lorg.

Tha aon eisimpleir de phàtran a chaidh a chruthachadh le cleasachd inntinneach ann an lìonraidhean sòisealta air-loidhne. Anns na 1970an agus na 1980an, lorg luchd-rannsachaidh a-rithist, ma tha thu càirdeil ri Alice agus Bob, an uairsin bidh Alice agus Bob nas dualtaiche a bhith nan caraidean ri chèile ach nam biodh iad air an taghadh le daoine air thuaiream. Chaidh an aon phàtran seo a lorg anns a 'ghraf shòisealta air Facebook (Ugander et al. 2011) . Mar sin, dh'fhaodadh aon co-dhùnadh gu bheil pàtran cairdeas air pàtranan de charaidean fa-leth air an riochdachadh, co-dhiù a thaobh transitivity. Ach, tha ìre an iomadachd anns a 'ghraf sòisealta Facebook air a stiùireadh gu ìre le aimhreit a' toirt buaidh air. Is e sin, bha eòlas aig luchd-saidheans fiosrachaidh aig Facebook air an rannsachadh empirigeach agus teòiridheach a thaobh transitivity agus an uairsin ga dhèanamh a-mach mar a tha Facebook ag obrachadh. Tha feart aig "People You May Know" aig Facebook a tha a 'moladh caraidean ùra, agus aon dòigh a tha Facebook a' co-dhùnadh cò ris a tha thu a 'moladh dhut gu bheil e tarraingeach. Is e sin, tha Facebook nas dualtaich a bhith a 'moladh gum bi thu nad charaidean ri caraidean do charaidean. Mar sin tha a 'bhuaidh aig seo mar a tha e a' meudachadh eadar-ghluasad ann an graf sòisealta Facebook; ann am faclan eile, tha an teòiridh eadar-iomadachd a 'toirt an t-saoghail a-rèir ro-innse na teòiridh (Zignani et al. 2014; Healy 2015) . Mar sin, nuair a tha coltas gu bheil tobraichean dàta mòr a 'toirt a-steach ro-innse mu theòiridh sòisealta, feumaidh sinn a bhith cinnteach nach deach an teòiridh fhèin a bhualadh a-steach mar a bha an siostam ag obair.

An àite a bhith a 'smaoineachadh mu thobraichean dàta mòr mar a bhith a' coimhead dhaoine ann an suidheachadh nàdarra, tha tomhas nas freagarraiche a 'coimhead air daoine ann an casino. Tha casinos ann an àrainnean innleachdach air an dealbhadh gus giùlan àraidh a bhrosnachadh, agus cha bhiodh dùil aig neach-rannsachaidh giùlan ann an casino gus uinneag gun fhilleadh a thoirt do ghiùlan daonna. Gu dearbh, dh'fhaodadh tu rudeigin ionnsachadh mu ghiùlan daonna le bhith a 'sgrùdadh dhaoine ann an casinos, ach ma dhiùltas tu gu robh an dàta air a chruthachadh ann an casino, dh'fhaodadh tu droch cho-dhùnaidhean a tharraing.

Gu mì-fhortanach, tha dèiligeadh gu h-àraid duilich le bhith a 'dèiligeadh ri aimhreit algorithm oir tha mòran fheartan de shiostaman air-loidhne sealbhach, droch chlàradh, agus a' sìor atharrachadh. Mar eisimpleir, mar a mhìnicheas mi nas fhaide air adhart anns a 'chaibideil seo, b' e mìneachadh aon-chòrdte a bha ann airson a bhith a 'briseadh sìos mean air mhean de Google Flu Trends (earrann 2.4.2), ach bha an tagradh seo doirbh a mheasadh oir tha obair taobh a-staigh algorithm rannsachaidh Ghoogle sealbhadair. Is e nàdar fiùghantach a bhith a 'briseadh algorithmach aon seòrsa de shreap siostam. Tha cugallachd algorithmach a 'ciallachadh gum bu chòir dhuinn a bhith faiceallach mu dheidhinn tagradh sam bith a thaobh giùlan daonna a thig bho aon shiostam didseatach, ge bith dè cho mòr' sa tha e.