[ , ] Algorithmic confounding იყო პრობლემა Google Flu ტენდენციები. წაიკითხეთ ქაღალდი Lazer et al. (2014) , და წერა მოკლე, ნათელი ელფოსტა ინჟინერი Google- ს ახსნა პრობლემა და სთავაზობს იდეა როგორ უნდა გაასწორონ ის.
[ ] Bollen, Mao, and Zeng (2011) აცხადებს, რომ მონაცემები Twitter- დან შეიძლება გამოყენებულ იქნას საფონდო ბაზრის პროგნოზით. ამ დასკვნამ გამოიწვია ჰეჯირების ფონდის დერბენტული კაპიტალის ბაზრის შექმნა - საფონდო ბაზარზე ინვესტირება Twitter- ზე (Jordan 2010) შეგროვებული მონაცემების საფუძველზე. რა მტკიცებულება გინდა რომ იხილოთ ფული თქვენს ფონდში?
[ მიუხედავად იმისა, რომ ზოგიერთი საზოგადოებრივი ჯანდაცვის ადვოკატი მიიჩნევს, ელ-სიგარეტებზე თამბაქოს მოხმარების ეფექტურ დახმარებას მიიჩნევს, ზოგი აფრთხილებს პოტენციური რისკების შესახებ, როგორიცაა ნიკოტინის მაღალი დონე. წარმოიდგინეთ, რომ მკვლევარი გადაწყვეტს საზოგადოებრივი აზრის ელექტრონული სიგარეტის შესწავლა ელექტრონული სიგარეტის დაკავშირებული Twitter- ის შედგენით და განწყობის ანალიზით.
[ ] 2009 წლის ნოემბერში Twitter- მა შეცვალა კითხვა ყუთში "რას აკეთებ?" და "რა ხდება?" (Https://blog.twitter.com/2009/what-happening).
[ ] "Retweets" ხშირად იყენებენ გავლენას გავლენისა და გავლენის გავრცელების შესახებ Twitter- ზე. თავდაპირველად, მომხმარებელმა უნდა მოახდინოს კოპირებისა და პასპორტის ასლი, რომლებსაც მოეწონათ, დაამატეთ ორიგინალური ავტორი თავის სახელს, და ხელით აკრიფოთ "RT", სანამ მიუთითებს, რომ ეს იყო რეკვიზიტი. შემდეგ 2009 წელს Twitter- მა "Retweet" ღილაკს დაამატა. 2016 წლის ივნისში Twitter- მა შესაძლებელი გახადა მომხმარებლებისთვის საკუთარი Twitter- ის განახლება (https://twitter.com/twitter/status/742749353689780224). ფიქრობთ, რომ ეს ცვლილებები გავლენას მოახდენს თქვენს კვლევაში "retweets" - ის გამოყენებისას? Რატომ ან რატომ არ?
[ , , , ] ფართოდ განხილულ გაზეთში, მიშელმა და კოლეგებმა (2011) გაანალიზეს ხუთ მილიონზე მეტი ციფრული წიგნის შინაარსი გრძელვადიანი კულტურული ტენდენციების დასადგენად. მონაცემები, რომლებსაც იყენებდნენ ახლა უკვე გაათავისუფლეს Google NGrams- ის მონაცემთა ნაკრებს, და ა.შ. ჩვენ შეგვიძლია გამოვიყენოთ მონაცემები, რომ გაიმეორონ და გააგრძელონ ზოგიერთი ნამუშევარი.
ქაღალდის ერთ-ერთ ბევრ შედეგში მიშელ და კოლეგები ამტკიცებდნენ, რომ სწრაფად და სწრაფად დავიწყებთ. კერძოდ, 1883 წელს ამბობდნენ, რომ 1875 და 1975 წლებში გამოქვეყნებული 1 გრამის პროპორციამ, რომლებიც "1883" იყო. ისინი ამტკიცებდნენ, რომ ეს წილი არის იმ ღონისძიებათა ინტერესი, რომელიც მოხდა იმ წელს განვითარებულ მოვლენებზე. მათი ფიგურა 3 ა, მათ სამი წლის განმავლობაში გამოიყენეს გამოყენების ტრაექტორიები: 1883, 1910 და 1950 წლები. ეს სამი წელი იზიარებს საერთო ნიმუში: ცოტა ხნის წინ, სანამ სპლიკზე, მაშინ decay. ყოველი წლის განმავლობაში, მიშელსა და კოლეგებს ყოველწლიურად 1875 წლიდან 1975 წლამდე "ნახევრად სიცოცხლე" გაანგარიშეს. მათი ფიგურა 3a (ჩანართი), მათ აჩვენა, წელი მცირდება და ისინი ამტკიცებდნენ, რომ ეს ნიშნავს, რომ ჩვენ წარსულში უფრო სწრაფად და უფრო სწრაფად დავიწყებას დავიწყებთ. ისინი იყენებდნენ ინგლისური ენის კორპორაციის ვერსია 1, თუმცა შემდგომში Google- მა გაათავისუფლა კორპუსის მეორე ვერსია. გთხოვთ, წაიკითხოთ კითხვის ყველა ნაწილი, სანამ დაიწყებთ კოდირებას.
ეს საქმიანობა მოგაწვდით პრაქტიკაში ხელახლა ჩაწერის კოდს, შედეგების ანალიზს და მონაცემთა wrangling (როგორიცაა უხერხულ ფაილებთან მუშაობა და დაკარგული მონაცემების გატარება). ეს აქტივობა ასევე დაგეხმარებათ მდიდარ და საინტერესო მონაცემთა ნაკრებსთან ერთად და გაიაროთ.
მიიღეთ Google Books NGram Viewer ნახვა ნედლეული მონაცემები. კერძოდ, თქვენ უნდა გამოვიყენოთ ინგლისური ენის კორპორაციის ვერსია 2, რომელიც გამოვიდა 2012 წლის 1 ივლისს. შეუსაბამო, ეს ფაილი არის 1.4GB.
დააინსტალირეთ Michel et al. (2011) . ამ ფიგურის ხელახლა შესაქმნელად საჭიროა ორი ფაილი: ერთი გადმოწერილი ნაწილი (a) და "მთლიანი რიცხვები" ფაილი, რომელიც შეგიძლიათ გამოიყენოთ ნედლეულის რიცხვი პროპორციებით. გაითვალისწინეთ, რომ მთლიანი რიცხვები აქვს სტრუქტურას, რომელიც შეიძლება გაგიადვილოს წასაკითხად. NGram- ის მონაცემების ვერსია 2 იძლევა მსგავს შედეგებს Michel et al. (2011) , რომელიც ეფუძნება ვერსია 1 მონაცემებს?
ახლა შეამოწმეთ გრაფიკი NGram Viewer- ის მიერ შექმნილი გრაფის წინააღმდეგ.
ფიგურა 3a (მთავარი ფიგურა) ხელახლა შეიყვანეთ, მაგრამ შეცვალეთ \(y\) -მაქსიკის ნედლეული დათვლის რაოდენობა (არ არის აღწერილი მაჩვენებელი).
განსხვავებაა ბ) და დ) შორის განსხვავება მიშელ და სხვის შედეგებზე. (2011). Რატომ ან რატომ არ?
ახლა, გამოყენებით პროპორციულად აღნიშნავს, replicate Inset ფიგურა 3a. ანუ, ყოველწლიურად 1875 და 1975 წლებში, ამ წელიწადში ნახევარი ცხოვრების დათვლა. ნახევარი სიცოცხლე განისაზღვრება წლების რაოდენობა, რომ გაივლის ადრე პროპორცია მიუთითებს ნახევარი პიკი ღირებულება. გაითვალისწინეთ, რომ Michel et al. (2011) რაღაც უფრო გართულებულია ნახევარი ცხოვრების შეფასების შესახებ - იხილეთ ონლაინ ინფორმაციის შესახებ III.6 სექცია, მაგრამ ისინი აცხადებენ, რომ ორივე მიდგომა აწარმოებს მსგავს შედეგებს. ამჯამად NGram მონაცემების ვერსია 2 იძლევა Michel et al. (2011) , რომელიც ეფუძნება ვერსია 1 მონაცემებს? (მინიშნება: არ გაგიკვირდებათ, თუ არა.)
იყო თუ არა წლები, რომლებიც წლების მანძილზე იყვნენ განსაკუთრებით სწრაფად ან განსაკუთრებით ნელ-ნელა დავიწყებული? მოკლედ ვფიქრობთ, რომ ამ ნიმუშის შესაძლო მიზეზებზეა საუბარი და ახსენით, თუ როგორ განვსაზღვრავთ გამანადგურებლებს.
ახლა ამ შედეგების რეპლიკაციას ახდენს NGrams- ის ვერსია 2 ჩინურ, ფრანგულ, გერმანულ, ებრაულ, იტალიურ, რუსულ და ესპანურ ენებზე.
შედარება ყველა ენაზე, იქ იყო წლების განმავლობაში, რომლებიც იყო outliers, როგორიცაა წლის, რომლებიც დავიწყებული განსაკუთრებით სწრაფად ან განსაკუთრებით ნელა? მოკლედ ვფიქრობთ, რომ ამ ნიმუშის შესაძლო მიზეზების შესახებ.
[ , , , Penney (2016) შესწავლილ იქნა თუ არა 2013 წლის ივნისში NSA / PRISM- ის ზედამხედველობის შესახებ ფართოდ გავრცელებული საჯაროობა (მაგალითად, Snowden Revelations) დაკავშირებული იყო მკვეთრი და უეცარი შემცირება ტრაფიკიდან ვიკიპედიაში სტატიების შესახებ, რომლებიც კონფიდენციალურობას ეხება. თუ ასეა, ქცევის ეს ცვლილება შეესაბამება მასობრივ მეთვალყურეობასთან დაკავშირებული გამყინვარების ეფექტს. Penney (2016) მიდგომა ხანდახან მოუწოდა შეწყვეტილი დროის სერიის დიზაინს, და ეს დაკავშირებულია 2.4.3 ნაწილში აღწერილ მიდგომებთან.
თემის შერჩევის მიზნით, პენიმ მიმართა აშშ-ს სახელმწიფო დეპარტამენტის მიერ გამოყენებულ სიას სოციალური მედიის მონიტორინგისა და მონიტორინგისთვის. DHS- ის სიაში შედის კონკრეტული საძიებო ტერმინები, როგორიცაა "ჯანმრთელობის შეშფოთება", "ინფრასტრუქტურის უსაფრთხოება" და "ტერორიზმი". კვლევის ჯგუფში Penney- მა გამოიყენა 48 ტეტრისიზმი, რომელიც დაკავშირებულია "ტერორიზმთან" (იხილეთ დანართი ცხრილი 8 ). მას შემდეგ, რაც აგრეგირებული ვიკიპედია განიხილავს ყოველთვიურად 48 ვიკიპედიის სტატიებს 32-თვიან პერიოდზე, 2012 წლის იანვრიდან 2014 წლის აგვისტოს ბოლომდე. მისი არგუმენტის გაძლიერების მიზნით, მან ასევე შექმნა რამდენიმე შედარების ჯგუფი, სტატიის ნახვა სხვა თემებზე.
ახლა, თქვენ აპირებთ გაიმეორებთ და გააგრძელეთ Penney (2016) . ყველა ნედლეული მონაცემები, რომლითაც საჭიროა ამ საქმიანობისთვის, ვიკიპედიიდან არის შესაძლებელი. ან თქვენ შეგიძლიათ მიიღოთ იგი R- პაკეტი wikipediatrend (Meissner and R Core Team 2016) . როდესაც თქვენს პასუხებს დაწერეთ, გაითვალისწინეთ, თუ რომელი წყაროებიდან იყენებთ. (გაითვალისწინეთ, რომ ეს იგივე საქმიანობა, როგორც ჩანს, მე -6 თავი). ეს საქმიანობა მოგაწვდით პრაქტიკაში მონაცემების გაყალბებისა და ბუნებრივი ექსპერიმენტების შესახებ დიდ მონაცემთა წყაროებში. იგი ასევე მიიღებს თქვენ და გაშვებული ერთად პოტენციურად საინტერესო მონაცემთა წყარო მომავალი პროექტები.
[ ] Efrati (2016) იტყობინება, კონფიდენციალური ინფორმაციის საფუძველზე, რომ Facebook- ზე "საერთო გაზიარება" დაახლოებით 5.5% -ით შემცირდა, ხოლო "ორიგინალური მაუწყებლობის გაზიარება" წელიწადში 21% -ით შემცირდა. ეს კლება განსაკუთრებით მწვავე იყო Facebook მომხმარებლების 30 წლის ასაკში. მოხსენება ორ ფაქტორს იწვევს. ერთი არის "მეგობარი" ადამიანების რიცხვი Facebook- ზე. მეორე ის არის, რომ ზოგიერთი გაზიარების საქმიანობა გადაეგზავნა შეტყობინებას და კონკურენტებს, როგორიცაა Snapchat. ანგარიშში ასევე გამოვლინდა რამდენიმე ტაქტიკა Facebook- ს გაზიარების გაზრდის მცდელობა, მათ შორის ახალი ამბები Feed ალგორითმის შესწორებები, რომლებიც ორიგინალური პოსტების უფრო გამორჩეული, ასევე ორიგინალური პოსტების პერიოდულ შეხსენებებს "On This Day" ფუნქციით. რა გავლენას ახდენს მკვლევარები, რომელთაც სურთ გამოიყენონ Facebook როგორც მონაცემთა წყარო?
[ რა განსხვავებაა სოციოლოგსა და ისტორიკოსს შორის? გოლდთორპის (1991) , ძირითადი განსხვავებაა მონაცემთა შეგროვების კონტროლი. ისტორიკოსები იძულებულნი იყენებენ სიწმინდეებს, ხოლო სოციოლოგებს შეუძლიათ საკუთარი მონაცემების შეგროვება კონკრეტული მიზნებისათვის. წაიკითხეთ Goldthorpe (1991) . როგორ არის განსხვავება სოციოლოგიასა და ისტორიაში, რომელიც დაკავშირებულია საბაჟო და იდეების იდეასთან?
[ ] ეს აშენებს წინა quesiton. Goldthorpe (1991) გააქტიურდა რიგი კრიტიკული პასუხები, მათ შორის ერთი Nicky Hart (1994) რომ ეჭვქვეშ Goldthorpe ერთგულება მკერავი გააკეთა მონაცემები. ჰარტმა აღწერა მკითხველისთვის შექმნილი მონაცემების პოტენციური შეზღუდვების გასარკვევად, "ჰოლტმა" დაასახელა სოციალურ კლასსა და კენჭისყრას შორის ურთიერთობების გაზომვა, რომელიც 1960-იან წლებში გოლდთორფმა და კოლეგებმა ჩაატარეს. როგორც შეიძლება ითქვას, მეცნიერისგან მოლოდინშია, თუ ვისაუბრებთ დამუშავებული მონაცემების მოძიებაზე, დამხმარე მუშაობის პროექტზე შეგროვებული მონაცემები, რომლებიც მორგებული იყო თანამედროვე სოციალურ კლასში ცხოვრების დონის გაზრდის ეპოქაში ბოლო დროს შემოთავაზებული თეორიის შესასრულებლად. თუმცა, გოლდთორფმა და კოლეგებმა რატომღაც "დაავიწყდათ" ქალთა ხმის მიცემის შესახებ ინფორმაციის შეგროვება. აი როგორ Nicky Hart (1994) შეაჯამა მთელი ეპიზოდი:
"... რთულია, რომ თავიდან იქნას აცილებული დასკვნა, რომ ქალები გამოტოვებულნი იყვნენ, რადგან ეს" მკერავი გააკეთა "მონაცემთა ბაზა შემოიფარგლებოდა პარადიგმატური ლოგიკით, რომელიც ქალთა გამოცდილებას გამორიცხავს. კლასის ცნობიერების თეორიული ხედვა და მოქმედება, როგორც მამაკაცი დაკავებულები ..., გოლდთორფმა და მისმა კოლეგებმა შექმნეს ემპირიული მტკიცებულებები, რომლებიც აყალიბებენ და ატარებენ თავიანთ თეორიულ ვარაუდებს, ვიდრე ადეკვატურობის ნამდვილ გამოცდას გამოაცხადებენ.
ჰარტი განაგრძო:
"დამხმარე მუშაობის პროექტის ემპირიული დასკვნები გვეუბნება უფრო მეტ საუკუნეში სოციოლოგიის მუსკულური ღირებულებების შესახებ, ვიდრე ისინი ინფორმირებულნი არიან სტრატიფიკაციის, პოლიტიკისა და მატერიალური ცხოვრების პროცესების შესახებ".
შეგიძლიათ წარმოიდგინოთ სხვა მაგალითები, სადაც მორგებული მონაცემების შეგროვება შეიცავს მასში შემავალი მონაცემების კოლექტორის მიკერძოებას? როგორ შეესაბამება ეს ალგორითმული დამაბნეველი? რა გავლენას მოახდენს ეს მკვლევარებმა მკითხველებს უნდა გამოიყენონ readymades და როდესაც ისინი უნდა გამოიყენონ custommades?
[ ] ამ თავში, მკვლევართა მიერ მკვლევართა მიერ შედგენილ მონაცემებს, რომლებიც შექმნილია კომპანიებისა და მთავრობების მიერ შექმნილ ადმინისტრაციულ ჩანაწერებთან. ზოგიერთი ადამიანი ამ ადმინისტრაციულ ჩანაწერებს "მონაცემებს იძენს", რომლებიც "შემუშავებულ მონაცემებთან" განსხვავდებიან. მართალია, ადმინისტრაციული ჩანაწერები მკვლევარებმა აღმოაჩინეს, მაგრამ ისინი ასევე მაღალია. მაგალითად, თანამედროვე ტექნოლოგიური კომპანიები მუშაობენ ძალიან რთულად შეგროვებისა და მათი მონაცემების შესამოწმებლად. ამდენად, ეს ადმინისტრაციული ჩანაწერები, როგორც აღმოჩენილია და შექმნილია, ეს მხოლოდ თქვენი პერსპექტივაზეა დამოკიდებული (ფიგურა 2.12).
მონაცემების წყაროს მაგალითის წარმოდგენა, სადაც ის დაინახავს, როგორც კვლევისთვის მონაცემთა წყაროს გამოყენებისას.
[ ] გააზრებული ესეში, ქრისტიან სანდვიგმა და ესზტერ ჰარგითიამ (2015) გაანადგურეს ციფრული კვლევა ორ ფართო კატეგორიად, იმის მიხედვით, თუ რამდენად ციფრული სისტემა არის "ინსტრუმენტი" ან "სწავლის ობიექტი". პირველი ტიპის მაგალითია, სადაც სისტემა ინსტრუმენტი არის ბენგსსონისა და კოლეგების კვლევა (2011) მობილურ ტელეფონზე მონაცემების გამოყენება 2010 წლის ჰაიტის მიწისძვრის შემდეგ მიგრაციის დასაფიქსირებლად. მეორე ტიპის მაგალითი, სადაც სისტემა არის კვლევის ობიექტი - კვლევა იენსენი (2007) , როგორ გაეცათ მობილური ტელეფონები კარაქის მთელს საქართველოში, ინდოეთი გავლენას ახდენდა ფუნქციონირების ბაზარზე თევზი. მე ეს განსხვავება სასარგებლოა, რადგან ის განმარტავს, რომ ციფრული მონაცემების გამოყენებით სწავლა შეიძლება საკმაოდ განსხვავებული მიზნების მიღწევის შემთხვევაშიც კი, თუ ისინი იგივე მონაცემების წყაროს იყენებენ. ამ განსხვავების გასარკვევად, აღწერეთ ოთხი კვლევა, რომლითაც იხილა: ორი, რომელიც იყენებს ციფრულ სისტემას, როგორც ინსტრუმენტს და ორი, რომელიც იყენებს ციფრულ სისტემას, როგორც კვლევის საგნად. თქვენ შეგიძლიათ გამოიყენოთ მაგალითები ამ თავში, თუ გინდათ.