გასაღები:
[ , ] ალგორითმული confounding იყო პრობლემა Google გრიპის ტენდენციები. დაწვრილებით ქაღალდის Lazer et al. (2014) , და დაწეროთ მოკლე, მკაფიო ელ ინჟინერი at Google განმარტების პრობლემა და სთავაზობს იდეა, თუ როგორ უნდა დააფიქსიროს პრობლემა.
[ ] Bollen, Mao, and Zeng (2011) ამტკიცებს, რომ მონაცემების Twitter შეიძლება გამოყენებულ იქნას პროგნოზირება საფონდო ბაზარზე. ეს დასკვნა გამოიწვია შექმნის hedge ფონდი Derwent Capital Markets-ინვესტირებას საფონდო ბაზარზე საფუძველზე მოპოვებული Twitter (Jordan 2010) . რა მტკიცებულება, რომ თუ გვინდა, რომ ადრე აყენებს თქვენი ფული, რომ ფონდი?
[ ] მიუხედავად იმისა, რომ ზოგიერთი საზოგადოებრივი ჯანმრთელობის ადვოკატები სეტყვა ელექტრონული სიგარეტი, როგორც ეფექტური დახმარების მოწევის შეწყვეტის, სხვები გავაფრთხილო პოტენციური რისკები, როგორიცაა მაღალი დონის ნიკოტინის. წარმოიდგინეთ, რომ მკვლევარი გადაწყვეტს საზოგადოებრივი აზრის კვლევა მიმართ ელექტრონული სიგარეტი შეგროვება ელექტრონული სიგარეტი დაკავშირებული Twitter შეტყობინება და ჩატარების განწყობა ანალიზი.
[ ] 2009 წლის ნოემბერში, Twitter შეცვალა კითხვა tweet ყუთი "რას აკეთებ?" "რა ხდება?" (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) გაანალიზებულია 41.7 მლნ მომხმარებლის პროფილები, 1.47 მილიარდი სოციალური ურთიერთობების, 4262 Trending თემები და 106 მილიონი tweets შორის 6 ივნისს და ივნისში, 2009 წლის 31 დაყრდნობით ანალიზი დაასკვნა, რომ Twitter ემსახურება, როგორც ახალი საშუალო ინფორმაციის გაცვლას, ვიდრე სოციალური ქსელი.
[ ] "Retweets" ხშირად გამოიყენება შევაფასებთ გავლენა და გავრცელების გავლენა Twitter. თავდაპირველად, მომხმარებლებს უნდა დააკოპირეთ და ჩასვით tweet მოეწონათ, საკვანძო ორიგინალური ავტორი / და მისი სახელური, და ხელით ტიპი "RT" ადრე tweet მიუთითებს იმაზე, რომ ეს არის retweet. შემდეგ, 2009 წელს Twitter ემატება "retweet" ღილაკს. ივნისში 2016, Twitter შესაძლებელი გახადა მომხმარებლებს retweet საკუთარი tweets (https://twitter.com/twitter/status/742749353689780224). როგორ ფიქრობთ, ეს ცვლილებები უნდა იქონიოს გავლენა, თუ როგორ გამოიყენოთ "retweets" თქვენს კვლევის? რატომ ან რატომ არ?
[ , , ] Michel et al. (2011) აშენებული კორპუსის განვითარებადი Google ძალისხმევა დაამატა წიგნები. გამოყენებით პირველი მობილური corpus, რომელიც გამოქვეყნდა 2009 წელს და შეიცავს 5 მილიონზე მეტი digitized წიგნები, ავტორებმა გაანალიზეს სიტყვა გამოყენების სიხშირე გამოიძიოს ენობრივი ცვლილებები და კულტურული ტენდენციები. მალე Google წიგნები Corpus გახდა პოპულარული მონაცემთა წყარო მკვლევარები, და მე -2 ვერსია ბაზაში გამოიცა 2012 წელს.
თუმცა, Pechenick, Danforth, and Dodds (2015) განაცხადა, რომ მკვლევარებმა უნდა სრულად ახასიათებს შერჩევის პროცესში corpus ადრე გამოყენებით ხატვის ფართო დასკვნები. მთავარი ისაა, რომ corpus ბიბლიოთეკა მსგავსი, რომელიც შეიცავს ერთი თითოეული წიგნი. შედეგად, ინდივიდუალური, ნაყოფიერი ავტორი შეუძლია შესამჩნევად ჩადეთ ახალი ფრაზები შევიდა Google წიგნები lexicon. უფრო მეტიც, სამეცნიერო ტექსტები წარმოადგენს უფრო არსებითი ნაწილი corpus მთელი 1900. გარდა ამისა, შედარებით ორი ვერსია ინგლისური ფანტასტიკა მონაცემების Pechenick et al. მოიპოვა მტკიცებულება, რომ საკმარისი ფილტრაცია გამოიყენება წარმოების პირველი ვერსია. ყველა მონაცემების საჭირო საქმიანობის ხელმისაწვდომია აქ: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) იკვლევს თუ არა გავრცელებული საჯაროობის შესახებ NSA / PRISM სათვალთვალო (ანუ, Snowden revelations) 2013 წლის ივნისში უკავშირდება მკვეთრი და მოულოდნელი შემცირება მიმოსვლის სტატიები თემებზე, რომ დააყენებს კონფიდენციალურობის შეშფოთება. თუ ასეა, ეს ცვლილება ქცევა უნდა შეესაბამებოდეს, დაშინების ეფექტს შედეგად მასობრივი თვალთვალის. მიდგომა Penney (2016) უწოდებენ შეწყვეტილი დრო სერია დიზაინი და არის დაკავშირებული მიდგომების თავი დაახლოება ექსპერიმენტი ზედამხედველობითი მონაცემები (სექცია 2.4.3).
აირჩიოს თემის სიტყვა, Penney მოხსენიებული სია გამოიყენება აშშ დეპარტამენტის უსაფრთხოების თვალთვალის და მონიტორინგის სოციალური მედია. DHS სიაში კატეგორია გარკვეული ძიება პირობები შევიდა მთელი რიგი საკითხები, ანუ "ჯანმრთელობის შეშფოთება", "ინფრასტრუქტურის უსაფრთხოების" და "ტერორიზმი". კვლევის ჯგუფი, Penney გამოიყენება ორმოცდარვა სიტყვების დაკავშირებული "ტერორიზმთან" (ცხრილი 8 დანართი). მას შემდეგ ერთიანი Wikipedia article კალენდარი ითვლის ყოველთვიურად შესაბამისი ორმოცდარვა სტატიები მეტი ოცდაათი ორი თვის პერიოდში, იანვრის დასაწყისში 2012 წლის აგვისტოს ბოლოს 2014 გააძლიეროს მისი არგუმენტი, მან ასევე შექმნა რამდენიმე შედარებით ჯგუფების მიერ თვალთვალის სტატია შეხედულებები სხვა საკითხები.
ახლა, თქვენ აპირებთ იმეორებს და ვრცელდება Penney (2016) . ყველა ნედლეული მონაცემები, რომ თქვენ უნდა ამ საქმიანობაში არის შესაძლებელი ვიკიპედია (https://dumps.wikimedia.org/other/pagecounts-raw/). ან შეგიძლიათ მიიღოთ იგი R პაკეტი wikipediatrend (Meissner and Team 2016) . როდესაც ვწერთ-up თქვენი პასუხები, გთხოვთ გაითვალისწინოთ, რომელიც მონაცემთა წყარო გამოყენებულია. (შენიშვნა: ეს იგივე საქმიანობა ასევე, როგორც ჩანს თავი 6)
[ ] Efrati (2016) დაყრნობით კონფიდენციალური ინფორმაცია, რომ "სულ გაზიარება" on Facebook უარი დაახლოებით 5.5% წლიდან წლამდე, ხოლო "ორიგინალური სამაუწყებლო გაზიარება" იყო ქვემოთ 21% -ით იმატა. ეს შემცირება განსაკუთრებით მწვავედ Facebook მომხმარებლებს ქვეშ 30 წლის ასაკიდან. ანგარიშის მიეკუთვნება შემცირება ორი ფაქტორი. ერთ-ერთი არის ზრდა რაოდენობის "მეგობრები" ადამიანებს აქვთ on Facebook. სხვა არის, რომ ზოგიერთი გაზიარება საქმიანობის ინაცვლებს შეტყობინებები და კონკურენტები როგორიცაა SnapChat. ანგარიშში ასევე გამოვლინდა რამდენიმე ტაქტიკა Facebook სცადა გაზარდოს გაზიარება, მათ შორის News Feed ალგორითმი შესწორებები, რომ ორიგინალური შეტყობინება უფრო თვალსაჩინო, ასევე პერიოდული შეგახსენებთ ორიგინალური შეტყობინება მომხმარებლებს "ეს დღე" რამდენიმე წლის წინ. რა შედეგი, ასეთის არსებობის შემთხვევაში, ჯერ ეს დასკვნები აქვს მკვლევარები, რომლებიც გსურთ გამოიყენოთ Facebook როგორც მონაცემთა წყარო?
[ ] Tumasjan et al. (2010) ცნობით, პროპორცია tweets ხსენებას პოლიტიკური პარტიის შესაბამისი პროპორციით, რომ პარტიამ გერმანიის საპარლამენტო არჩევნები 2009 (ნახაზი 2.9). სხვა სიტყვებით, აღმოჩნდა, რომ თქვენ შეიძლება გამოიყენოთ Twitter პროგნოზირება არჩევნებში. ამავე დროს, ამ სასწავლო წელს გამოიცა იგი მიჩნეული იყო ძალიან საინტერესო, რადგან, როგორც ჩანს, უნდა ვივარაუდოთ, ღირებული გამოყენების საერთო წყარო დიდი მონაცემები.
იმის გათვალისწინებით, რომ ცუდი თვისებები დიდი მონაცემები, თუმცა, თქვენ დაუყოვნებლივ უნდა იყოს სკეპტიკურად ეს შედეგი. გერმანელები on Twitter 2009 წელს იყო საკმაოდ არასამთავრობო წარმომადგენლობითი ჯგუფი, და მხარდამჭერები ერთ-ერთი მხარის ალბათ Tweet პოლიტიკაზე უფრო ხშირად. ამდენად, თითქოს გასაკვირი, რომ ყველა შესაძლო გადახრები, რომ შეეძლო წარმოედგინა როგორმე გაბათილდება. ფაქტია, რომ შედეგების Tumasjan et al. (2010) აღმოჩნდა ძალიან კარგი უნდა იყოს ნამდვილი. დოკუმენტში Tumasjan et al. (2010) ითვლება ექვსი პარტია ქრისტიან-დემოკრატები (CDU), Christian სოციალ-დემოკრატები (CSU), SPD, ლიბერალ (FDP), The მარცხენა (Die Linke), და მწვანეთა პარტია (Grüne). თუმცა, ყველაზე აღნიშნული გერმანული პოლიტიკური პარტიის on Twitter იმ დროს Pirate პარტია (Piraten), რომ პარტია, რომელიც იბრძვის ხელისუფლების რეგულირების ინტერნეტში. როდესაც Pirate პარტია შედიოდა ანალიზი, Twitter ახსენებს ხდება საშინელი predictor არჩევნების შედეგების (ნახაზი 2.9) (Jungherr, Jürgens, and Schoen 2012) .
მოგვიანებით, სხვა მკვლევართა მთელს მსოფლიოში არ გამოიყენება fancier მეთოდები, როგორიცაა გამოყენებით განწყობის ანალიზი განასხვავოს დადებითი და უარყოფითი ახსენებს პარტიების-გაუმჯობესების მიზნით უნარი Twitter მონაცემთა პროგნოზირება სხვადასხვა სახის არჩევნების (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . აი, როგორ Huberty (2015) შეაჯამეს ეს მცდელობები პროგნოზირება არჩევნები:
"ყველა ცნობილი პროგნოზირების მეთოდები ეფუძნება სოციალური მედია ვერ როდესაც დაექვემდებაროს მოთხოვნებს ნამდვილი მომავალზე ორიენტირებული საარჩევნო პროგნოზირება. ამ წარუმატებლობის, როგორც ჩანს, იმის გამო, რომ ფუნდამენტურ სოციალურ მედიაში, ვიდრე მეთოდოლოგიური და ალგორითმული სირთულეები. მოკლედ, სოციალური მედია, არ, და ალბათ არც არასდროს, გთავაზობთ სტაბილური, მიუკერძოებელი, წარმომადგენელი სურათი ელექტორატის; და ფონდის ნიმუშები სოციალური მედია საკმარისი მონაცემების დაფიქსირება ამ პრობლემების პოსტი hoc ".
დაწვრილებით ზოგიერთი კვლევის რომ გამოიწვიოს Huberty (2015) , რომ დასკვნა, და დაწეროთ ერთ გვერდზე memo, პოლიტიკური კანდიდატის, სადაც აღწერილია, თუ როგორ Twitter უნდა იყოს გამოყენებული პროგნოზირება არჩევნებში.
[ ] რა არის განსხვავება სოციოლოგი და ისტორიკოსი? მისი თქმით, Goldthorpe (1991) , მთავარი განსხვავება სოციოლოგი და ისტორიკოსი არის კონტროლი მონაცემების შეგროვება. ისტორიკოსები იძულებულნი არიან გამოიყენონ სიწმინდე, ხოლო სოციოლოგები შეუძლიათ მკერავი მათი მონაცემთა შეგროვების კონკრეტული მიზნებისათვის. დაწვრილებით Goldthorpe (1991) . როგორ არის განსხვავებაა სოციოლოგიასა და ისტორიის დაკავშირებული იდეა Custommades და Readymades?
[ ] შენობის წინა კითხვაზე, Goldthorpe (1991) მიიპყრო კრიტიკული რეაგირება, მათ შორის ერთი Nicky Hart (1994) , რომელიც დაუპირისპირდა Goldthorpe ერთგულება მკერავი გააკეთა მონაცემები. განვმარტო, პოტენციური შეზღუდვების არასტანდარტული მონაცემებით, Hart აღწერილი Affluent მუშა პროექტი, დიდი კვლევა გავზომოთ შორის ურთიერთობის სოციალური კლასის და ხმის მიცემის, რომ უძღვებოდა Goldthorpe და კოლეგებს 1960-იან წლებში. როგორც ერთი შეიძლება ველოდოთ მეცნიერის რომელიც ემხრობოდა განკუთვნილია მონაცემთა ი მონაცემები, მდიდარი მუშა პროექტის შეგროვილი მონაცემები, რომ იყო მორგებული მივმართო ცოტა ხნის წინ შემოთავაზებული თეორია, მომავალი სოციალური კლასის ეპოქაში იზრდება ცხოვრების დონე. მაგრამ, Goldthorpe და კოლეგებს რატომღაც "დაავიწყდა", რომ შეაგროვოს ინფორმაცია საარჩევნო ქცევის ქალები. აი, როგორ Nicky Hart (1994) რეფერატების მთელი ეპიზოდი:
". . . ეს [არის] რთული, რათა თავიდან ავიცილოთ იმ დასკვნამდე, რომ ქალი იყო გამოტოვებული, რადგან ეს "მკერავი გააკეთა" ნაკრებს შემოიფარგლება მიერ პარადიგმატული ლოგიკა, რომელიც გამორიცხული მდედრობითი გამოცდილება. ამოძრავებს თეორიული ხედვა კლასის ცნობიერება და ქმედება, როგორც მამრობითი preoccupations. . . , Goldthorpe და მისი კოლეგები აშენებული კომპლექტი ემპირიული მტკიცებულებები, რომელიც იკვებება და ზრუნვას საკუთარი თეორიული მოსაზრება ნაცვლად გამოვლენა მათ მოქმედი გამოცდა ადეკვატურობის ".
Hart განაგრძო:
"ემპირიული დასკვნები Affluent მუშა პროექტის გვითხრათ უფრო მეტი masculinist ღირებულებების საუკუნის შუა სოციოლოგიის, ვიდრე ისინი აცნობოს პროცესების სტრატიფიკაციის, პოლიტიკისა და მატერიალური ცხოვრება."
შეიძლება ფიქრობთ, სხვა მაგალითები, სადაც არასტანდარტული მონაცემთა შეგროვების აქვს გადახრები მონაცემების კოლექციონერი ჩაშენებული? როგორ შეადარებდით to ალგორითმული confounding? რა შედეგი შეიძლება იქონიოს როდესაც მკვლევარებმა უნდა გამოიყენოს Readymades და როდესაც მათ უნდა გამოიყენონ Custommades?
[ ] ამ თავში მე კონტრასტში მიერ შეგროვებული მკვლევარები მკვლევარები ადმინისტრაციული ჩანაწერი შექმნილია მიერ კომპანიები და მთავრობები. ზოგი ამ ადმინისტრაციული ჩანაწერები "ი მონაცემები", რომელიც მათ განსხვავებით "შექმნილია მონაცემები." მართალია, რომ ადმინისტრაციული ჩანაწერები გვხვდება მკვლევარების მიერ, მაგრამ ისინი ასევე უაღრესად შემუშავებული. მაგალითად, თანამედროვე ტექნოლოგიებით კომპანიები ატარებენ უზარმაზარი რაოდენობით დრო და რესურსები შეგროვება და curate მათი მონაცემები. ამდენად, ეს ადმინისტრაციული ჩანაწერები როგორც აღმოჩნდა, და განკუთვნილია, უბრალოდ დამოკიდებულია თქვენი პერსპექტივა (ნახაზი 2.10).
მაგალითს მონაცემთა წყაროს, სადაც ხედავს მას, როგორც ი და შექმნილია სასარგებლოა, როდესაც გამოყენებით, რომ მონაცემთა წყარო კვლევა.
[ ] In გააზრებული ესეს, Christian Sandvig და ესტერ Hargittai (2015) აღწერს ორი სახის ციფრული კვლევა, სადაც ციფრული სისტემა "ინსტრუმენტი" ან "შესწავლის ობიექტად." მაგალითად, პირველი სახის კვლევა, სადაც Bengtsson და კოლეგებს (2011) გამოიყენება მობილური ტელეფონის მონაცემები თვალყური მიგრაციის შემდეგ მიწისძვრის ჰაიტიზე 2010 წელს მაგალითად მეორე ტიპის არის, სადაც Jensen (2007) სწავლობს თუ როგორ დანერგვა მობილური ტელეფონები მთელი Kerala, India იმოქმედა ფუნქციონირების ბაზარზე თევზის. მე ეს სასარგებლოა, რადგან ეს განმარტავს, რომ კვლევების გამოყენებით ციფრული მონაცემების წყაროები შეიძლება საკმაოდ განსხვავებული მიზნები კი, თუ ისინი იმავე სახის მონაცემთა წყარო. იმისათვის, რომ უფრო გასაგები ეს განსხვავება, აღწერს ოთხი კვლევის რომ ვნახე: ორ, რომ გამოიყენოს ციფრული სისტემა, როგორც ინსტრუმენტი და ორი რომ გამოიყენოთ ციფრული სისტემა, როგორც ობიექტი შესწავლა. თქვენ შეგიძლიათ გამოიყენოთ მაგალითები ამ თავში, თუ გსურთ.