2.3.2.5 thuật toán xấu hổ

Hành vi trong dữ liệu tìm thấy là không tự nhiên, nó được thúc đẩy bởi các mục tiêu kỹ thuật của hệ thống.

Mặc dù nhiều nguồn dữ liệu được tìm thấy là không phản ứng vì mọi người không biết dữ liệu của họ đều được ghi lại (mục 2.3.1.3), các nhà nghiên cứu không nên xem xét hành vi trong các hệ thống trực tuyến để được "tự nhiên" hoặc "tinh khiết". Trong thực tế, hệ thống kỹ thuật số mà hành vi ghi lại được đánh giá cao thiết kế để tạo ra các hành vi cụ thể như cách nhấp vào quảng cáo hoặc đăng nội dung. Những cách mà những mục tiêu của các nhà thiết kế hệ thống có thể giới thiệu mô hình thành dữ liệu được gọi là nhiễu thuật toán. nhiễu thuật toán là tương đối chưa biết đến các nhà khoa học xã hội, nhưng nó là một mối quan tâm chính của các nhà khoa học dữ liệu cẩn thận. Và, không giống như một số vấn đề khác với dấu vết kỹ thuật số, nhiễu thuật toán phần lớn là vô hình.

Một ví dụ đơn giản của thuật toán gây nhiễu là một thực tế rằng trên Facebook có một số quá cao của người sử dụng với khoảng 20 bạn bè (Ugander et al. 2011) . Các nhà khoa học phân tích các dữ liệu này mà không cần bất kỳ sự hiểu biết về cách Facebook làm việc chắc chắn từ có thể tạo ra rất nhiều câu chuyện về cách 20 là một số loại số xã hội huyền diệu. Tuy nhiên, Ugander và các đồng nghiệp của ông đã có một sự hiểu biết đáng kể của quá trình đó tạo ra các dữ liệu, và họ biết rằng Facebook khuyến khích những người có vài kết nối trên Facebook để làm cho bạn bè nhiều hơn cho đến khi họ đạt 20 bạn bè. Mặc dù Ugander và các đồng nghiệp không nói điều này trong bài báo, chính sách này có lẽ đã được tạo ra bởi Facebook để khuyến khích người dùng mới để trở nên năng động hơn. Mà không biết về sự tồn tại của chính sách này, tuy nhiên, nó rất dễ dàng để rút ra những kết luận sai lầm từ dữ liệu. Nói cách khác, số lượng đáng ngạc nhiên của mọi người với khoảng 20 bạn bè cho chúng ta biết thêm về Facebook hơn hành vi của con người.

Nhiều nguy hại hơn so với ví dụ trước đây nơi nhiễu thuật toán đưa ra kết quả kỳ quặc mà một nhà nghiên cứu cẩn thận có thể điều tra thêm, có một phiên bản thậm chí còn phức tạp hơn của nhiễu thuật toán xảy ra khi thiết kế các hệ thống trực tuyến là nhận thức của các lý thuyết xã hội và sau đó nướng những lý thuyết vào làm việc hệ thống của họ. Các nhà khoa học xã hội gọi performativity này: khi các lý thuyết thay đổi thế giới theo một cách như vậy mà họ mang lại cho thế giới nhiều thành phù hợp với lý thuyết. Trong trường hợp của nhiễu thuật toán trình diễn, bản chất xấu hổ của các dữ liệu có khả năng tàng hình.

Một ví dụ về một mô hình được tạo ra bởi performativity là transitivity trong các mạng xã hội trực tuyến. Trong những năm 1970 và 1980, các nhà nghiên cứu liên tục thấy rằng nếu bạn là bạn bè với Alice và là bạn bè với Bob, sau đó Bob và Alice có nhiều khả năng là bạn bè với nhau hơn hai người được chọn ngẫu nhiên. Và, mô hình này rất giống nhau đã được tìm thấy trong đồ thị xã hội trên Facebook (Ugander et al. 2011) . Do đó, người ta có thể kết luận rằng mô hình của bạn trên Facebook tái tạo mô hình của tình bạn ẩn, ít nhất là về bắc cầu. Tuy nhiên, biên độ bắc cầu trong đồ thị xã hội Facebook là một phần được thúc đẩy bởi nhiễu thuật toán. Đó là, các nhà khoa học dữ liệu Facebook biết về những nghiên cứu thực nghiệm và lý thuyết về transitivity và sau đó nướng nó thành như thế nào Facebook hoạt động. Facebook có một "người bạn có thể biết" tính năng cho thấy những người bạn mới, và một trong những cách mà Facebook quyết định xem ai gợi ý với bạn là transitivity. Đó là, Facebook có nhiều khả năng đề nghị bạn nên trở thành bạn bè với những người bạn của bạn bè của bạn. Tính năng này do đó có tác dụng tăng transitivity trong đồ thị xã hội Facebook; nói cách khác, lý thuyết bắc cầu mang thế giới vào phù hợp với dự đoán của lý thuyết (Healy 2015) . Vì vậy, khi các nguồn dữ liệu lớn xuất hiện để tái tạo dự đoán của lý thuyết xã hội, chúng ta phải chắc chắn rằng các lý thuyết chính nó đã không nướng vào cách hệ thống làm việc.

Thay vì suy nghĩ của các nguồn dữ liệu lớn như quan sát người trong một khung cảnh thiên nhiên, một ẩn dụ thích hợp hơn là quan sát mọi người trong một sòng bạc. Sòng bạc được đánh giá cao thiết kế các môi trường được thiết kế để kích thích hành vi nhất định, và một nhà nghiên cứu sẽ không bao giờ mong đợi rằng hành vi trong một sòng bạc sẽ cung cấp một cửa sổ không bị trói buộc vào hành vi của con người. Tất nhiên, chúng ta có thể học được điều gì về những người vi nghiên cứu của con người trong sòng bạc trong thực tế sòng bạc có thể là một thiết lập lý tưởng để nghiên cứu mối quan hệ giữa việc tiêu thụ rượu và rủi ro sở thích-nhưng nếu chúng ta bỏ qua các dữ liệu đã được tạo ra trong một sòng bạc chúng ta có thể rút ra một số kết luận xấu.

Thật không may, đối phó với nhiễu thuật toán đặc biệt khó khăn vì nhiều tính năng của hệ thống trực tuyến này là độc quyền, ít được quan tâm, và liên tục thay đổi. Ví dụ, như tôi sẽ giải thích sau trong chương này, gây nhiễu thuật toán là một lời giải thích có thể cho dần dần phá vỡ xuống của Google Xu hướng dịch cúm (mục 2.4.2), nhưng yêu cầu này rất khó để đánh giá vì các hoạt động bên trong tìm kiếm của Google thuật toán này là độc quyền. Bản chất năng động của nhiễu thuật toán là một hình thức của hệ thống drift. nhiễu thuật toán có nghĩa là chúng ta nên thận trọng về bất kỳ khiếu nại đối với hành vi con người đến từ một hệ thống kỹ thuật số duy nhất, không có vấn đề lớn như thế nào.