Η συμπεριφορά στα μεγάλα συστήματα δεδομένων δεν είναι φυσική. καθοδηγείται από τους μηχανικούς στόχους των συστημάτων.
Παρόλο που πολλές μεγάλες πηγές δεδομένων είναι μη αντιδραστικές επειδή οι άνθρωποι δεν γνωρίζουν ότι τα δεδομένα τους καταγράφονται (ενότητα 2.3.3), οι ερευνητές δεν θα πρέπει να θεωρούν τη συμπεριφορά σε αυτά τα διαδικτυακά συστήματα «φυσικά». Στην πραγματικότητα, τα ψηφιακά συστήματα που καταγράφουν τη συμπεριφορά σχεδιασμένο για να προκαλέσει συγκεκριμένες συμπεριφορές, όπως κλικ σε διαφημίσεις ή δημοσίευση περιεχομένου. Οι τρόποι με τους οποίους οι στόχοι των σχεδιαστών συστημάτων μπορούν να εισάγουν πρότυπα στα δεδομένα ονομάζονται αλγοριθμικές συγχύσεις . Η αλγοριθμική σύγχυση είναι σχετικά άγνωστη στους κοινωνικούς επιστήμονες, αλλά είναι μια μεγάλη ανησυχία μεταξύ των προσεκτικών επιστημόνων δεδομένων. Και, σε αντίθεση με κάποια από τα άλλα προβλήματα με τα ψηφιακά ίχνη, η αλγοριθμική σύγχυση είναι σε μεγάλο βαθμό αόρατη.
Ένα σχετικά απλό παράδειγμα αλγοριθμικού σύγχυσης είναι το γεγονός ότι στο Facebook υπάρχει ένας ανώμαλος αριθμός χρηστών με περίπου 20 φίλους, όπως ανακαλύφθηκε από τον Johan Ugander και τους συναδέλφους του (2011) . Οι επιστήμονες που αναλύουν τα δεδομένα αυτά χωρίς να κατανοούν πώς λειτουργεί το Facebook θα μπορούσαν χωρίς αμφιβολία να δημιουργήσουν πολλές ιστορίες για το πώς είναι ένα είδος μαγικού κοινωνικού αριθμού. Ευτυχώς, ο Ugander και οι συνεργάτες του γνώριζαν ουσιαστικά τη διαδικασία που δημιούργησε τα δεδομένα και ήξεραν ότι το Facebook ενθάρρυνε τους ανθρώπους με λίγες συνδέσεις στο Facebook να κάνουν περισσότερους φίλους μέχρι να φτάσουν σε 20 φίλους. Αν και ο Ugander και οι συνεργάτες του δεν το λένε στο έγγραφό τους, η πολιτική αυτή δημιουργήθηκε προφανώς από το Facebook, προκειμένου να ενθαρρυνθούν οι νέοι χρήστες να γίνουν πιο δραστήριοι. Χωρίς να γνωρίζουμε για την ύπαρξη αυτής της πολιτικής, ωστόσο, είναι εύκολο να αντλήσουμε λάθος συμπέρασμα από τα δεδομένα. Με άλλα λόγια, ο εκπληκτικά υψηλός αριθμός ατόμων με περίπου 20 φίλους μας λέει περισσότερα για το Facebook παρά για την ανθρώπινη συμπεριφορά.
Σε αυτό το προηγούμενο παράδειγμα, η αλγοριθμική σύγχυση παρήγαγε ένα περίεργο αποτέλεσμα που ένας προσεκτικός ερευνητής μπορεί να ανιχνεύσει και να διερευνήσει περαιτέρω. Ωστόσο, υπάρχει μια ακόμα πιο περίπλοκη εκδοχή της αλγοριθμική σύγχυση που συμβαίνει όταν οι σχεδιαστές των online συστημάτων γνωρίζουν τις κοινωνικές θεωρίες και στη συνέχεια ψήνουν αυτές τις θεωρίες στην λειτουργία των συστημάτων τους. Οι κοινωνικοί επιστήμονες ονομάζουν αυτή την απόδοση : όταν μια θεωρία αλλάζει τον κόσμο με τέτοιο τρόπο ώστε να φέρει τον κόσμο πιο κοντά στη θεωρία. Στην περίπτωση της μεταβλητικής αλγοριθμικής συγχύσεως, η σύγχυση των δεδομένων είναι πολύ δύσκολο να ανιχνευθεί.
Ένα παράδειγμα ενός προτύπου που δημιουργείται από την απόδοση είναι η μεταβατικότητα στα επιγραμμικά κοινωνικά δίκτυα. Στη δεκαετία του '70 και του '80, οι ερευνητές επανειλημμένα διαπίστωσαν ότι αν είστε φίλοι τόσο με την Alice όσο και με τον Bob, τότε η Alice και ο Bob είναι πιο πιθανό να είναι φίλοι μεταξύ τους απ 'ό, τι αν ήταν δύο τυχαία επιλεγμένοι άνθρωποι. Αυτό το ίδιο μοτίβο βρέθηκε στο κοινωνικό γράφημα στο Facebook (Ugander et al. 2011) . Έτσι, θα μπορούσε κανείς να καταλήξει στο συμπέρασμα ότι τα πρότυπα φιλίας στο Facebook επαναλαμβάνουν τα πρότυπα offline φιλίας, τουλάχιστον όσον αφορά την μεταβατικότητα. Ωστόσο, το μέγεθος της μεταβατικότητας στο κοινωνικό γράφημα του Facebook οδηγείται εν μέρει από αλγοριθμική σύγχυση. Δηλαδή, οι επιστήμονες δεδομένων στο Facebook ήξεραν για την εμπειρική και θεωρητική έρευνα σχετικά με την μεταβατικότητα και στη συνέχεια το έκαψαν στο πώς λειτουργεί το Facebook. Το Facebook έχει ένα χαρακτηριστικό "Άνθρωποι μπορείτε να γνωρίζετε" που προτείνει νέους φίλους και ένας τρόπος με τον οποίο το Facebook αποφασίζει ποιος να σας προτείνει είναι η μεταβατικότητα. Δηλαδή, το Facebook είναι πιο πιθανό να σας προτείνει να γίνετε φίλοι με τους φίλους των φίλων σας. Αυτό το χαρακτηριστικό έχει ως αποτέλεσμα την αύξηση της μεταβατικότητας στο κοινωνικό γράφημα του Facebook. με άλλα λόγια, η θεωρία της μεταβατικότητας φέρνει τον κόσμο σε συμφωνία με τις προβλέψεις της θεωρίας (Zignani et al. 2014; Healy 2015) . Έτσι, όταν μεγάλες πηγές δεδομένων φαίνεται να αναπαράγουν τις προβλέψεις της κοινωνικής θεωρίας, πρέπει να είμαστε βέβαιοι ότι η ίδια η θεωρία δεν είχε ψηθεί στο πώς λειτουργεί το σύστημα.
Αντί να σκεφτόμαστε τις μεγάλες πηγές δεδομένων ως παρατηρώντας τους ανθρώπους σε ένα φυσικό περιβάλλον, μια πιο κατάλληλη μεταφορά παρατηρεί τους ανθρώπους σε μια χαρτοπαικτική λέσχη. Τα καζίνο είναι περιβάλλοντα υψηλής τεχνολογίας σχεδιασμένα για να προκαλέσουν συγκεκριμένες συμπεριφορές και ένας ερευνητής δεν θα περίμενε ποτέ τη συμπεριφορά σε μια χαρτοπαικτική λέσχη για να προσφέρει ένα απεριόριστο παράθυρο στην ανθρώπινη συμπεριφορά. Φυσικά, θα μπορούσατε να μάθετε κάτι για την ανθρώπινη συμπεριφορά μελετώντας τους ανθρώπους στα καζίνο, αλλά εάν αγνοήσατε το γεγονός ότι τα δεδομένα δημιουργήθηκαν σε μια χαρτοπαικτική λέσχη, μπορεί να έχετε κάποια κακά συμπεράσματα.
Δυστυχώς, η αντιμετώπιση αλγοριθμικών προβλημάτων είναι ιδιαίτερα δύσκολη, διότι πολλά χαρακτηριστικά των ηλεκτρονικών συστημάτων είναι ιδιόκτητα, ανεπαρκώς τεκμηριωμένα και συνεχώς μεταβαλλόμενα. Για παράδειγμα, όπως θα εξηγήσω αργότερα σε αυτό το κεφάλαιο, η αλγοριθμική σύγχυση ήταν μια πιθανή εξήγηση για τη σταδιακή κατάρρευση της Google Flu Trends (ενότητα 2.4.2), αλλά ο ισχυρισμός αυτός ήταν δύσκολο να εκτιμηθεί επειδή οι εσωτερικές λειτουργίες του αλγορίθμου αναζήτησης της Google είναι ιδιόκτητος. Η δυναμική φύση της αλγοριθμικής συγχύσεως είναι μία μορφή μετατόπισης του συστήματος. Η αλγοριθμική σύγχυση σημαίνει ότι πρέπει να είμαστε προσεκτικοί σχετικά με κάθε ισχυρισμό σχετικά με την ανθρώπινη συμπεριφορά που προέρχεται από ένα ενιαίο ψηφιακό σύστημα, ανεξάρτητα από το πόσο μεγάλο.