საქმიანობის

გასაღები:

  • ხარისხი სირთულის: მარტივი ადვილი საშუალო საშუალო , მძიმე მძიმე , ძალიან რთული ძალიან რთული
  • მოითხოვს მათემატიკის ( მოითხოვს მათემატიკის )
  • მოითხოვს კოდირების ( მოითხოვს კოდირების )
  • მონაცემთა შეგროვების ( მონაცემთა შეგროვების )
  • ჩემი სანიშნეები ( ჩემი ფავორიტი )
  1. [ საშუალო , ჩემი ფავორიტი ] ალგორითმული confounding იყო პრობლემა Google გრიპის ტენდენციები. დაწვრილებით ქაღალდის Lazer et al. (2014) , და დაწეროთ მოკლე, მკაფიო ელ ინჟინერი at Google განმარტების პრობლემა და სთავაზობს იდეა, თუ როგორ უნდა დააფიქსიროს პრობლემა.

  2. [ საშუალო ] Bollen, Mao, and Zeng (2011) ამტკიცებს, რომ მონაცემების Twitter შეიძლება გამოყენებულ იქნას პროგნოზირება საფონდო ბაზარზე. ეს დასკვნა გამოიწვია შექმნის hedge ფონდი Derwent Capital Markets-ინვესტირებას საფონდო ბაზარზე საფუძველზე მოპოვებული Twitter (Jordan 2010) . რა მტკიცებულება, რომ თუ გვინდა, რომ ადრე აყენებს თქვენი ფული, რომ ფონდი?

  3. [ ადვილი ] მიუხედავად იმისა, რომ ზოგიერთი საზოგადოებრივი ჯანმრთელობის ადვოკატები სეტყვა ელექტრონული სიგარეტი, როგორც ეფექტური დახმარების მოწევის შეწყვეტის, სხვები გავაფრთხილო პოტენციური რისკები, როგორიცაა მაღალი დონის ნიკოტინის. წარმოიდგინეთ, რომ მკვლევარი გადაწყვეტს საზოგადოებრივი აზრის კვლევა მიმართ ელექტრონული სიგარეტი შეგროვება ელექტრონული სიგარეტი დაკავშირებული Twitter შეტყობინება და ჩატარების განწყობა ანალიზი.

    1. რა არის სამი შესაძლო გადახრები, რომ თქვენ ხართ ყველაზე აწუხებს ამ სტატიაში?
    2. Clark et al. (2016) გაიქცა მხოლოდ ასეთი კვლევა. პირველ რიგში, ისინი შეგროვილი 850,000 tweets, რომელიც გამოიყენება ელექტრონული სიგარეტი დაკავშირებული საკვანძო სიტყვები 2012 წლის იანვრიდან დეკემბრამდე 2014 Upon მჭიდრო ინსპექცია, მიხვდნენ, რომ ბევრი ამ tweets ავტომატიზებულია (ანუ, არ წარმოებული ადამიანები) და მრავალი ამ ავტომატური tweets არსებითად სარეკლამო. მათ განვითარებული ადამიანის გამოვლენის ალგორითმი გამოყოფა ავტომატური tweets ორგანული tweets. გამოყენება ამ ადამიანის ამოცნობა ალგორითმი მათ აღმოაჩინეს, რომ 80% tweets ავტომატიზებულია. ნიშნავს თუ არა ეს დასკვნა შეცვალოს თქვენი პასუხი ნაწილი (ა)?
    3. როდესაც ისინი შედარებით განწყობა ორგანული და ავტომატური tweets მათ აღმოაჩინეს, რომ ავტომატური tweets უფრო დადებითი, ვიდრე ორგანული tweets (6.17 წინააღმდეგ 5.84). ნიშნავს თუ არა ეს დასკვნა შეცვალოს თქვენი პასუხი (ბ)?
  4. [ ადვილი ] 2009 წლის ნოემბერში, Twitter შეცვალა კითხვა tweet ყუთი "რას აკეთებ?" "რა ხდება?" (Https://blog.twitter.com/2009/whats-happening).

    1. როგორ ფიქრობთ, შეცვლის მოთხოვნა იმოქმედებს, რომლებიც Tweet ან / და რა ისინი tweet?
    2. ასახელებს ერთი კვლევითი პროექტი, რომელიც თქვენ ურჩევნია სწრაფი "რას აკეთებ?" რატომ.
    3. ასახელებს ერთი კვლევითი პროექტი, რომელიც თქვენ ურჩევნია სწრაფი "რა ხდება?" რატომ.
  5. [ საშუალო ] Kwak et al. (2010) გაანალიზებულია 41.7 მლნ მომხმარებლის პროფილები, 1.47 მილიარდი სოციალური ურთიერთობების, 4262 Trending თემები და 106 მილიონი tweets შორის 6 ივნისს და ივნისში, 2009 წლის 31 დაყრდნობით ანალიზი დაასკვნა, რომ Twitter ემსახურება, როგორც ახალი საშუალო ინფორმაციის გაცვლას, ვიდრე სოციალური ქსელი.

    1. იმის გათვალისწინებით, Kwak et al დასკვნა, თუ რა ტიპის კვლევის უზამდით Twitter მონაცემები? რა ტიპის კვლევა, რომ თქვენ არ გააკეთოს Twitter მონაცემები? რატომ?
    2. 2010 წელს, Twitter დასძინა, ვინც დაიცვას მომსახურების მიღების მორგებული წინადადება მომხმარებლებს. სამი რეკომენდაცია ნაჩვენებია დროს მთავარ გვერდზე. რეკომენდაციები ხშირად შედგენილი ერთი "მეგობარი-of-მეგობრები," და ორმხრივი კონტაქტების ასევე ნაჩვენები რეკომენდაციით. მომხმარებელს შეუძლია ამოცნობა, რომ ახალი რეკომენდაციები და ეწვევა გვერდზე აღარ სია რეკომენდაციები. როგორ ფიქრობთ, ეს ახალი ფუნქცია შეიცვლებოდა თქვენი პასუხი ნაწილი)? რატომ ან რატომ არ?
    3. Su, Sharma, and Goel (2016) შეაფასა ეფექტი, რომლებიც უნდა დაიცვას მომსახურება და აღმოჩნდა, რომ სანამ წევრებს მასშტაბით პოპულარობა სპექტრი ისარგებლა რეკომენდაციები, ყველაზე პოპულარული მომხმარებლები სარგებლობდნენ საგრძნობლად მეტი, ვიდრე საშუალო. ნიშნავს თუ არა ეს დასკვნა შეცვალოს თქვენი პასუხი ნაწილი ბ)? რატომ ან რატომ არ?
  6. [ ადვილი ] "Retweets" ხშირად გამოიყენება შევაფასებთ გავლენა და გავრცელების გავლენა Twitter. თავდაპირველად, მომხმარებლებს უნდა დააკოპირეთ და ჩასვით tweet მოეწონათ, საკვანძო ორიგინალური ავტორი / და მისი სახელური, და ხელით ტიპი "RT" ადრე tweet მიუთითებს იმაზე, რომ ეს არის retweet. შემდეგ, 2009 წელს Twitter ემატება "retweet" ღილაკს. ივნისში 2016, Twitter შესაძლებელი გახადა მომხმარებლებს retweet საკუთარი tweets (https://twitter.com/twitter/status/742749353689780224). როგორ ფიქრობთ, ეს ცვლილებები უნდა იქონიოს გავლენა, თუ როგორ გამოიყენოთ "retweets" თქვენს კვლევის? რატომ ან რატომ არ?

  7. [ საშუალო , მონაცემთა შეგროვების , მოითხოვს კოდირების ] Michel et al. (2011) აშენებული კორპუსის განვითარებადი Google ძალისხმევა დაამატა წიგნები. გამოყენებით პირველი მობილური corpus, რომელიც გამოქვეყნდა 2009 წელს და შეიცავს 5 მილიონზე მეტი digitized წიგნები, ავტორებმა გაანალიზეს სიტყვა გამოყენების სიხშირე გამოიძიოს ენობრივი ცვლილებები და კულტურული ტენდენციები. მალე Google წიგნები Corpus გახდა პოპულარული მონაცემთა წყარო მკვლევარები, და მე -2 ვერსია ბაზაში გამოიცა 2012 წელს.

    თუმცა, Pechenick, Danforth, and Dodds (2015) განაცხადა, რომ მკვლევარებმა უნდა სრულად ახასიათებს შერჩევის პროცესში corpus ადრე გამოყენებით ხატვის ფართო დასკვნები. მთავარი ისაა, რომ corpus ბიბლიოთეკა მსგავსი, რომელიც შეიცავს ერთი თითოეული წიგნი. შედეგად, ინდივიდუალური, ნაყოფიერი ავტორი შეუძლია შესამჩნევად ჩადეთ ახალი ფრაზები შევიდა Google წიგნები lexicon. უფრო მეტიც, სამეცნიერო ტექსტები წარმოადგენს უფრო არსებითი ნაწილი corpus მთელი 1900. გარდა ამისა, შედარებით ორი ვერსია ინგლისური ფანტასტიკა მონაცემების Pechenick et al. მოიპოვა მტკიცებულება, რომ საკმარისი ფილტრაცია გამოიყენება წარმოების პირველი ვერსია. ყველა მონაცემების საჭირო საქმიანობის ხელმისაწვდომია აქ: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

    1. In Michel et al. თავდაპირველი ქაღალდი (2011) , მათ გამოიყენეს 1 ვერსია ინგლისურ მონაცემები კომპლექტი, პროპაგანდისტულ სიხშირის გამოყენების წელი "1880", "1912" და "1973" და დაადგინა, რომ "ჩვენ ვართ დავიწყება ჩვენი წარსული სწრაფად ყოველ წელს "(ნახ. 3A, მიშელ და სხვ.). იმეორებს იგივე მიწის გამოყენებით 1) 1-ლი მობილური corpus, ინგლისური ნაკრებს (ისევე, როგორც ნახ. 3A, Michel et al.)
    2. ახლა იმეორებს იგივე ნაკვეთი 1 ვერსია, ინგლისური მხატვრული ლიტერატურა ნაკრებს.
    3. ახლა იმეორებს იგივე ნაკვეთი მე -2 ვერსია კორპუსს, ინგლისური ნაკრებს.
    4. და ბოლოს, იმეორებს იგივე ნაკვეთი მე -2 ვერსია, ინგლისური მხატვრული ლიტერატურა ნაკრებს.
    5. აღწერეთ განსხვავებები და მსგავსებები შორის ოთხი ნაკვეთები. ეთანხმებით თუ არა Michel et al. ორიგინალური ინტერპრეტაცია შეინიშნება ტენდენცია? (მინიშნება: გ) და დ) უნდა იყოს იგივე, რაც ფიგურა 16 Pechenick et al.)
    6. ახლა, რომ თქვენ გაიმეორა ეს ერთი დასკვნა გამოყენებით სხვადასხვა Google წიგნები კორპუსები, აირჩიეთ სხვა ენობრივი ცვლილება ან კულტურული ფენომენების წარმოდგენილი Michel et al. თავდაპირველი ქაღალდი. ეთანხმებით თუ არა მათი ინტერპრეტაცია ფონზე შეზღუდვები წარმოდგენილი Pechenick et al.? იმისათვის, რომ თქვენი არგუმენტი ძლიერი, ცდილობენ იმეორებს იმავე გრაფაში გამოყენებით სხვადასხვა ვერსიებს მონაცემებს, ზემოთ.
  8. [ ძალიან რთული , მონაცემთა შეგროვების , მოითხოვს კოდირების , ჩემი ფავორიტი ] Penney (2016) იკვლევს თუ არა გავრცელებული საჯაროობის შესახებ NSA / PRISM სათვალთვალო (ანუ, Snowden revelations) 2013 წლის ივნისში უკავშირდება მკვეთრი და მოულოდნელი შემცირება მიმოსვლის სტატიები თემებზე, რომ დააყენებს კონფიდენციალურობის შეშფოთება. თუ ასეა, ეს ცვლილება ქცევა უნდა შეესაბამებოდეს, დაშინების ეფექტს შედეგად მასობრივი თვალთვალის. მიდგომა Penney (2016) უწოდებენ შეწყვეტილი დრო სერია დიზაინი და არის დაკავშირებული მიდგომების თავი დაახლოება ექსპერიმენტი ზედამხედველობითი მონაცემები (სექცია 2.4.3).

    აირჩიოს თემის სიტყვა, Penney მოხსენიებული სია გამოიყენება აშშ დეპარტამენტის უსაფრთხოების თვალთვალის და მონიტორინგის სოციალური მედია. DHS სიაში კატეგორია გარკვეული ძიება პირობები შევიდა მთელი რიგი საკითხები, ანუ "ჯანმრთელობის შეშფოთება", "ინფრასტრუქტურის უსაფრთხოების" და "ტერორიზმი". კვლევის ჯგუფი, Penney გამოიყენება ორმოცდარვა სიტყვების დაკავშირებული "ტერორიზმთან" (ცხრილი 8 დანართი). მას შემდეგ ერთიანი Wikipedia article კალენდარი ითვლის ყოველთვიურად შესაბამისი ორმოცდარვა სტატიები მეტი ოცდაათი ორი თვის პერიოდში, იანვრის დასაწყისში 2012 წლის აგვისტოს ბოლოს 2014 გააძლიეროს მისი არგუმენტი, მან ასევე შექმნა რამდენიმე შედარებით ჯგუფების მიერ თვალთვალის სტატია შეხედულებები სხვა საკითხები.

    ახლა, თქვენ აპირებთ იმეორებს და ვრცელდება Penney (2016) . ყველა ნედლეული მონაცემები, რომ თქვენ უნდა ამ საქმიანობაში არის შესაძლებელი ვიკიპედია (https://dumps.wikimedia.org/other/pagecounts-raw/). ან შეგიძლიათ მიიღოთ იგი R პაკეტი wikipediatrend (Meissner and Team 2016) . როდესაც ვწერთ-up თქვენი პასუხები, გთხოვთ გაითვალისწინოთ, რომელიც მონაცემთა წყარო გამოყენებულია. (შენიშვნა: ეს იგივე საქმიანობა ასევე, როგორც ჩანს თავი 6)

    1. დაწვრილებით Penney (2016) და იმეორებს ფიგურა 2 რომელიც აჩვენებს გვერდზე შეხედულებები "ტერორიზმთან" გამოყენებასთან დაკავშირებული გვერდები, სანამ და შემდეგ სნოუდენი გამოცხადება. ინტერპრეტაცია დასკვნები.
    2. შემდეგი, იმეორებს Fig 4A, რომელიც ადარებს კვლევის ჯგუფის ( "ტერორიზმთან" გამოყენებასთან დაკავშირებული სტატიები) ერთად შედარების ჯგუფი გამოყენებით სიტყვები დაუხარისხებელი ქვეშ "DHS და სხვა სააგენტოები" საწყისი DHS სია (იხილეთ დანართი ცხრილი 10). ინტერპრეტაცია დასკვნები.
    3. ნაწილი ბ) შედარებით კვლევის ჯგუფი ერთი შედარების ჯგუფში. Penney ასევე შედარებით ორი სხვა შედარების ჯგუფების: "ინფრასტრუქტურის უსაფრთხოების" უზრუნველყოფის შექმნა და საკონსულტაციო სტატიები (დანართი ცხრილი 11) და პოპულარული გვერდები (დანართი ცხრილი 12). ამუშავება ალტერნატიული შედარების ჯგუფი და შესამოწმებლად, თუ დასკვნები ნაწილი ბ) მგრძნობიარეა თქვენი არჩევანი შედარების ჯგუფში. რომელი არჩევანი შედარების ჯგუფი აზრი? რატომ?
    4. ავტორი აცხადებს, რომ სიტყვა, რომელიც ეხება "ტერორიზმთან" გამოყენებულ იქნა აირჩიეთ სტატიები იმიტომ, რომ აშშ-ის მთავრობა მოიყვანა ტერორიზმს, როგორც გასაღები დასაბუთება თავისი ამჟამად მეთვალყურეობის პრაქტიკა. როგორც გამშვები ამ 48 "ტერორიზმთან" უზრუნველყოფის შექმნა და საკონსულტაციო სიტყვა, Penney (2016) ასევე ჩაატარა კვლევა MTurk ითხოვს გამოკითხულთა შეფასება თითოეული სიტყვა თვალსაზრისით მთავრობის Trouble, Privacy მგრძნობიარე და თავიდან აცილების (დანართი ცხრილი 7 და 8). იმეორებს კვლევა MTurk და შეადაროთ თქვენი შედეგები.
    5. შედეგებზე დაყრდნობით ნაწილობრივ დ) და თქვენი კითხვის სტატიაში, ეთანხმებით თუ არა ავტორის არჩევანი თემას სიტყვა კვლევის ჯგუფი? რატომ ან რატომ არ? თუ არა, რას ვარაუდობენ ნაცვლად?
  9. [ ადვილი ] Efrati (2016) დაყრნობით კონფიდენციალური ინფორმაცია, რომ "სულ გაზიარება" on Facebook უარი დაახლოებით 5.5% წლიდან წლამდე, ხოლო "ორიგინალური სამაუწყებლო გაზიარება" იყო ქვემოთ 21% -ით იმატა. ეს შემცირება განსაკუთრებით მწვავედ Facebook მომხმარებლებს ქვეშ 30 წლის ასაკიდან. ანგარიშის მიეკუთვნება შემცირება ორი ფაქტორი. ერთ-ერთი არის ზრდა რაოდენობის "მეგობრები" ადამიანებს აქვთ on Facebook. სხვა არის, რომ ზოგიერთი გაზიარება საქმიანობის ინაცვლებს შეტყობინებები და კონკურენტები როგორიცაა SnapChat. ანგარიშში ასევე გამოვლინდა რამდენიმე ტაქტიკა Facebook სცადა გაზარდოს გაზიარება, მათ შორის News Feed ალგორითმი შესწორებები, რომ ორიგინალური შეტყობინება უფრო თვალსაჩინო, ასევე პერიოდული შეგახსენებთ ორიგინალური შეტყობინება მომხმარებლებს "ეს დღე" რამდენიმე წლის წინ. რა შედეგი, ასეთის არსებობის შემთხვევაში, ჯერ ეს დასკვნები აქვს მკვლევარები, რომლებიც გსურთ გამოიყენოთ Facebook როგორც მონაცემთა წყარო?

  10. [ საშუალო ] Tumasjan et al. (2010) ცნობით, პროპორცია tweets ხსენებას პოლიტიკური პარტიის შესაბამისი პროპორციით, რომ პარტიამ გერმანიის საპარლამენტო არჩევნები 2009 (ნახაზი 2.9). სხვა სიტყვებით, აღმოჩნდა, რომ თქვენ შეიძლება გამოიყენოთ Twitter პროგნოზირება არჩევნებში. ამავე დროს, ამ სასწავლო წელს გამოიცა იგი მიჩნეული იყო ძალიან საინტერესო, რადგან, როგორც ჩანს, უნდა ვივარაუდოთ, ღირებული გამოყენების საერთო წყარო დიდი მონაცემები.

    იმის გათვალისწინებით, რომ ცუდი თვისებები დიდი მონაცემები, თუმცა, თქვენ დაუყოვნებლივ უნდა იყოს სკეპტიკურად ეს შედეგი. გერმანელები on Twitter 2009 წელს იყო საკმაოდ არასამთავრობო წარმომადგენლობითი ჯგუფი, და მხარდამჭერები ერთ-ერთი მხარის ალბათ Tweet პოლიტიკაზე უფრო ხშირად. ამდენად, თითქოს გასაკვირი, რომ ყველა შესაძლო გადახრები, რომ შეეძლო წარმოედგინა როგორმე გაბათილდება. ფაქტია, რომ შედეგების Tumasjan et al. (2010) აღმოჩნდა ძალიან კარგი უნდა იყოს ნამდვილი. დოკუმენტში Tumasjan et al. (2010) ითვლება ექვსი პარტია ქრისტიან-დემოკრატები (CDU), Christian სოციალ-დემოკრატები (CSU), SPD, ლიბერალ (FDP), The მარცხენა (Die Linke), და მწვანეთა პარტია (Grüne). თუმცა, ყველაზე აღნიშნული გერმანული პოლიტიკური პარტიის on Twitter იმ დროს Pirate პარტია (Piraten), რომ პარტია, რომელიც იბრძვის ხელისუფლების რეგულირების ინტერნეტში. როდესაც Pirate პარტია შედიოდა ანალიზი, Twitter ახსენებს ხდება საშინელი predictor არჩევნების შედეგების (ნახაზი 2.9) (Jungherr, Jürgens, and Schoen 2012) .

    ნახაზი 2.9: Twitter მოიხსენიებს, როგორც ჩანს, პროგნოზირება შედეგები 2009 გერმანიის საარჩევნო (Tumasjan et al., 2010), მაგრამ ეს შედეგი აღმოჩნდება დამოკიდებული ზოგიერთი თვითნებური და დაუსაბუთებელი არჩევანი (Jungherr, იურგენსი და Schoen 2012).

    ნახაზი 2.9: Twitter მოიხსენიებს, როგორც ჩანს, პროგნოზირება შედეგები 2009 გერმანიის საარჩევნო (Tumasjan et al. 2010) , მაგრამ ეს შედეგი აღმოჩნდება დამოკიდებული ზოგიერთი თვითნებური და დაუსაბუთებელი არჩევანი (Jungherr, Jürgens, and Schoen 2012) .

    მოგვიანებით, სხვა მკვლევართა მთელს მსოფლიოში არ გამოიყენება fancier მეთოდები, როგორიცაა გამოყენებით განწყობის ანალიზი განასხვავოს დადებითი და უარყოფითი ახსენებს პარტიების-გაუმჯობესების მიზნით უნარი Twitter მონაცემთა პროგნოზირება სხვადასხვა სახის არჩევნების (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . აი, როგორ Huberty (2015) შეაჯამეს ეს მცდელობები პროგნოზირება არჩევნები:

    "ყველა ცნობილი პროგნოზირების მეთოდები ეფუძნება სოციალური მედია ვერ როდესაც დაექვემდებაროს მოთხოვნებს ნამდვილი მომავალზე ორიენტირებული საარჩევნო პროგნოზირება. ამ წარუმატებლობის, როგორც ჩანს, იმის გამო, რომ ფუნდამენტურ სოციალურ მედიაში, ვიდრე მეთოდოლოგიური და ალგორითმული სირთულეები. მოკლედ, სოციალური მედია, არ, და ალბათ არც არასდროს, გთავაზობთ სტაბილური, მიუკერძოებელი, წარმომადგენელი სურათი ელექტორატის; და ფონდის ნიმუშები სოციალური მედია საკმარისი მონაცემების დაფიქსირება ამ პრობლემების პოსტი hoc ".

    დაწვრილებით ზოგიერთი კვლევის რომ გამოიწვიოს Huberty (2015) , რომ დასკვნა, და დაწეროთ ერთ გვერდზე memo, პოლიტიკური კანდიდატის, სადაც აღწერილია, თუ როგორ Twitter უნდა იყოს გამოყენებული პროგნოზირება არჩევნებში.

  11. [ საშუალო ] რა არის განსხვავება სოციოლოგი და ისტორიკოსი? მისი თქმით, Goldthorpe (1991) , მთავარი განსხვავება სოციოლოგი და ისტორიკოსი არის კონტროლი მონაცემების შეგროვება. ისტორიკოსები იძულებულნი არიან გამოიყენონ სიწმინდე, ხოლო სოციოლოგები შეუძლიათ მკერავი მათი მონაცემთა შეგროვების კონკრეტული მიზნებისათვის. დაწვრილებით Goldthorpe (1991) . როგორ არის განსხვავებაა სოციოლოგიასა და ისტორიის დაკავშირებული იდეა Custommades და Readymades?

  12. [ მძიმე ] შენობის წინა კითხვაზე, Goldthorpe (1991) მიიპყრო კრიტიკული რეაგირება, მათ შორის ერთი Nicky Hart (1994) , რომელიც დაუპირისპირდა Goldthorpe ერთგულება მკერავი გააკეთა მონაცემები. განვმარტო, პოტენციური შეზღუდვების არასტანდარტული მონაცემებით, Hart აღწერილი Affluent მუშა პროექტი, დიდი კვლევა გავზომოთ შორის ურთიერთობის სოციალური კლასის და ხმის მიცემის, რომ უძღვებოდა Goldthorpe და კოლეგებს 1960-იან წლებში. როგორც ერთი შეიძლება ველოდოთ მეცნიერის რომელიც ემხრობოდა განკუთვნილია მონაცემთა ი მონაცემები, მდიდარი მუშა პროექტის შეგროვილი მონაცემები, რომ იყო მორგებული მივმართო ცოტა ხნის წინ შემოთავაზებული თეორია, მომავალი სოციალური კლასის ეპოქაში იზრდება ცხოვრების დონე. მაგრამ, Goldthorpe და კოლეგებს რატომღაც "დაავიწყდა", რომ შეაგროვოს ინფორმაცია საარჩევნო ქცევის ქალები. აი, როგორ Nicky Hart (1994) რეფერატების მთელი ეპიზოდი:

    ". . . ეს [არის] რთული, რათა თავიდან ავიცილოთ იმ დასკვნამდე, რომ ქალი იყო გამოტოვებული, რადგან ეს "მკერავი გააკეთა" ნაკრებს შემოიფარგლება მიერ პარადიგმატული ლოგიკა, რომელიც გამორიცხული მდედრობითი გამოცდილება. ამოძრავებს თეორიული ხედვა კლასის ცნობიერება და ქმედება, როგორც მამრობითი preoccupations. . . , Goldthorpe და მისი კოლეგები აშენებული კომპლექტი ემპირიული მტკიცებულებები, რომელიც იკვებება და ზრუნვას საკუთარი თეორიული მოსაზრება ნაცვლად გამოვლენა მათ მოქმედი გამოცდა ადეკვატურობის ".

    Hart განაგრძო:

    "ემპირიული დასკვნები Affluent მუშა პროექტის გვითხრათ უფრო მეტი masculinist ღირებულებების საუკუნის შუა სოციოლოგიის, ვიდრე ისინი აცნობოს პროცესების სტრატიფიკაციის, პოლიტიკისა და მატერიალური ცხოვრება."

    შეიძლება ფიქრობთ, სხვა მაგალითები, სადაც არასტანდარტული მონაცემთა შეგროვების აქვს გადახრები მონაცემების კოლექციონერი ჩაშენებული? როგორ შეადარებდით to ალგორითმული confounding? რა შედეგი შეიძლება იქონიოს როდესაც მკვლევარებმა უნდა გამოიყენოს Readymades და როდესაც მათ უნდა გამოიყენონ Custommades?

  13. [ საშუალო ] ამ თავში მე კონტრასტში მიერ შეგროვებული მკვლევარები მკვლევარები ადმინისტრაციული ჩანაწერი შექმნილია მიერ კომპანიები და მთავრობები. ზოგი ამ ადმინისტრაციული ჩანაწერები "ი მონაცემები", რომელიც მათ განსხვავებით "შექმნილია მონაცემები." მართალია, რომ ადმინისტრაციული ჩანაწერები გვხვდება მკვლევარების მიერ, მაგრამ ისინი ასევე უაღრესად შემუშავებული. მაგალითად, თანამედროვე ტექნოლოგიებით კომპანიები ატარებენ უზარმაზარი რაოდენობით დრო და რესურსები შეგროვება და curate მათი მონაცემები. ამდენად, ეს ადმინისტრაციული ჩანაწერები როგორც აღმოჩნდა, და განკუთვნილია, უბრალოდ დამოკიდებულია თქვენი პერსპექტივა (ნახაზი 2.10).

    ფიგურა 2.10 სურათზე როგორც იხვი და კურდღელი; რა ხედავთ დამოკიდებულია თქვენი პერსპექტივა. სამთავრობო და საქმიანი ადმინისტრაციული ჩანაწერები როგორც აღმოჩნდა, და მიზნად; რა ხედავთ დამოკიდებულია თქვენი პერსპექტივა. მაგალითად, დარეკეთ მონაცემთა ჩანაწერი შეგროვებული სატელეფონო კომპანია გვხვდება მონაცემების პერსპექტივა მკვლევარი. მაგრამ, ეს ზუსტად იგივე ჩანაწერი შექმნილია მონაცემთა პერსპექტივა ვინმე მუშაობს ბილინგის განყოფილებაში სატელეფონო კომპანია. წყარო: ვიკიპედია

    ფიგურა 2.10 სურათზე როგორც იხვი და კურდღელი; რა ხედავთ დამოკიდებულია თქვენი პერსპექტივა. სამთავრობო და საქმიანი ადმინისტრაციული ჩანაწერები როგორც აღმოჩნდა, და მიზნად; რა ხედავთ დამოკიდებულია თქვენი პერსპექტივა. მაგალითად, დარეკეთ მონაცემთა ჩანაწერი შეგროვებული სატელეფონო კომპანია გვხვდება მონაცემების პერსპექტივა მკვლევარი. მაგრამ, ეს ზუსტად იგივე ჩანაწერი შექმნილია მონაცემთა პერსპექტივა ვინმე მუშაობს ბილინგის განყოფილებაში სატელეფონო კომპანია. წყარო: ვიკიპედია

    მაგალითს მონაცემთა წყაროს, სადაც ხედავს მას, როგორც ი და შექმნილია სასარგებლოა, როდესაც გამოყენებით, რომ მონაცემთა წყარო კვლევა.

  14. [ ადვილი ] In გააზრებული ესეს, Christian Sandvig და ესტერ Hargittai (2015) აღწერს ორი სახის ციფრული კვლევა, სადაც ციფრული სისტემა "ინსტრუმენტი" ან "შესწავლის ობიექტად." მაგალითად, პირველი სახის კვლევა, სადაც Bengtsson და კოლეგებს (2011) გამოიყენება მობილური ტელეფონის მონაცემები თვალყური მიგრაციის შემდეგ მიწისძვრის ჰაიტიზე 2010 წელს მაგალითად მეორე ტიპის არის, სადაც Jensen (2007) სწავლობს თუ ​​როგორ დანერგვა მობილური ტელეფონები მთელი Kerala, India იმოქმედა ფუნქციონირების ბაზარზე თევზის. მე ეს სასარგებლოა, რადგან ეს განმარტავს, რომ კვლევების გამოყენებით ციფრული მონაცემების წყაროები შეიძლება საკმაოდ განსხვავებული მიზნები კი, თუ ისინი იმავე სახის მონაცემთა წყარო. იმისათვის, რომ უფრო გასაგები ეს განსხვავება, აღწერს ოთხი კვლევის რომ ვნახე: ორ, რომ გამოიყენოს ციფრული სისტემა, როგორც ინსტრუმენტი და ორი რომ გამოიყენოთ ციფრული სისტემა, როგორც ობიექტი შესწავლა. თქვენ შეგიძლიათ გამოიყენოთ მაგალითები ამ თავში, თუ გსურთ.