2.3.2.4 Drifting

მოსახლეობა drift გამოყენება დრიფტი, და სისტემა drift ძნელი გამოიყენოთ დიდი მონაცემთა წყარო შესწავლა გრძელვადიანი ტენდენციები.

ერთ-ერთი დიდი უპირატესობა ბევრი დიდი მონაცემთა წყაროებს, რომ ისინი აგროვებენ მონაცემები, დროთა განმავლობაში. სოციოლოგები მოვუწოდებთ ამ სახის ზედმეტად დროის მონაცემებით, გრძივი მონაცემები. და, ბუნებრივია, გრძივი მონაცემები ძალიან მნიშვნელოვანია შესწავლა ცვლილება. იმისათვის, რომ საიმედოდ გავზომოთ ცვლილება, თუმცა, საზომი სისტემა თავად უნდა იყოს სტაბილური. ამ სიტყვებით სოციოლოგი Otis Dudley Duncan, "თუ გვინდა გავზომოთ ცვლილება, არ იცვლება ღონისძიება" (Fischer 2011) .

სამწუხაროდ, ბევრი დიდი მონაცემთა სისტემები, განსაკუთრებით ბიზნეს სისტემა, რომელიც შექმნა და ხელში ციფრული კვალი-იცვლება ყველა დროის, პროცესი, რომელიც მე მოვუწოდებ დრიფტი. კერძოდ, ამ სისტემების შეიცვალოს სამი ძირითადი გზა: მოსახლეობის drift (ცვლილება, ვინც იყენებს მათ), ქცევითი drift (ცვლილება როგორ ხალხს იყენებს მათ), და სისტემის drift (სისტემის შეცვლას თავისთავად). სამი წყარო დრიფტის ნიშნავს, რომ ნებისმიერი ნიმუში ციფრული კვალი მონაცემების შეიძლება იყოს გამოწვეული მნიშვნელოვანი ცვლილება მსოფლიოში, ან შეიძლება იყოს გამოწვეული გარკვეული ფორმით დრიფტი.

პირველი წყარო drift მოსახლეობის drift-არის, ვინც იყენებს ამ სისტემას, და ეს ცვლის on დიდი ხნის მასშტაბებს და მოკლე დროში მასშტაბებს. მაგალითად, 2008 წლიდან დღემდე, საშუალო ასაკის ადამიანების სოციალური მედიის გაიზარდა. გარდა ამისა, ეს გრძელვადიანი ტენდენციები, ხალხი გამოყენებით სისტემა ნებისმიერ დროს მერყეობს. მაგალითად, აშშ-ს საპრეზიდენტო არჩევნების 2012 წლის პროპორცია tweets პოლიტიკის შესახებ, რომლებიც დაწერილი ქალები მერყეობდა, ყოველდღე (Diaz et al. 2016) . აქედან გამომდინარე, თუ რა შეიძლება, როგორც ჩანს, ცვლილება განწყობა Twitter ლექსი, შესაძლოა, რეალურად მხოლოდ ცვლილებები იქნება, რომელიც არის საუბარი ნებისმიერ მომენტში.

გარდა ამისა, ცვლილებები, რომელიც გამოყენებით სისტემა, არსებობს ასევე ცვლილებები, თუ როგორ სისტემა გამოიყენება. მაგალითად, ოკუპაციას გეზის პარკის საპროტესტო სტამბოლში 2013 წელს საპროტესტო აქციის შეიცვალა მათი გამოყენების hashtags რადგან საპროტესტო განვითარდა. აი, როგორ Zeynep Tufekci (2014) აღწერილი drift, რომელიც მას შეუძლია აღმოაჩინოს, რადგან იგი აკვირდება ქცევის on Twitter და ადგილზე:

"რა მოხდა იყო ის, რომ, როგორც კი პროტესტი გახდა დომინანტური ამბავი, დიდი რაოდენობით ადამიანი. . . შეწყვიტა გამოყენებით hashtags გარდა გავამახვილო ყურადღება ახალი მოვლენაა. . .. მიუხედავად იმისა, რომ საპროტესტო გამოსვლები, და კიდევ გაძლიერდა, hashtags შესუსტდა. ინტერვიუები გამოვლინდა ორი მიზეზი აქვს. პირველ რიგში, კიდევ ერთხელ ყველამ იცოდა, რომ თემა, hashtag ერთდროულად ზედმეტია და არარაციონალური ხასიათი შეზღუდული Twitter პლატფორმა. მეორე, hashtags იყო განიხილება, როგორც სასარგებლო მოზიდვის ყურადღება კონკრეტულ თემას, არ ვსაუბრობთ იგი. "

ამდენად, მკვლევარები, რომლებიც სწავლობდნენ მიერ საპროტესტო ანალიზის tweets საპროტესტო დაკავშირებული hashtags უნდა დამახინჯებული გაგებით რა ხდებოდა, რადგან ამ ქცევითი დრიფტი. მაგალითად, შესაძლოა, მათ მიაჩნიათ, რომ განხილვა საპროტესტო შემცირდა დიდი ხნით ადრე შემცირდა.

მესამე სახის ტენდენცია სისტემა დრიფტი. ამ შემთხვევაში, ეს არ არის ხალხი იცვლება ან მათი ქცევის შეცვლის, მაგრამ თავად სისტემა იცვლება. მაგალითად, დროთა განმავლობაში Facebook გაიზარდა ლიმიტი სიგრძე სტატუსის განახლება. ამდენად, ნებისმიერი გრძივი შესწავლა სტატუსის განახლება იქნება დაუცველი ნივთები გამოიწვია ეს ცვლილება. სისტემა drift მჭიდროდაა დაკავშირებული პრობლემა მოუწოდა ალგორითმული confounding, რომელსაც ჩვენ ახლა აქციოს.