საქმიანობის

  • სირთულის ხარისხი: მარტივია ადვილი , საშუალო საშუალო , მძიმე რთულია , ძალიან ძნელი ძალიან ძნელი
  • მოითხოვს მათემატს ( მოითხოვს მათემატიკას )
  • მოითხოვს კოდირებას ( საჭიროებს კოდირებას )
  • მონაცემთა შეგროვება ( მონაცემთა შეგროვება )
  • ჩემი რჩეულები ( ჩემი ფავორიტი )
  1. [ ძალიან ძნელი , საჭიროებს კოდირებას , მონაცემთა შეგროვება , ჩემი ფავორიტი ] ბენოიტისა და კოლეგების (2016) კვლევის ერთ-ერთი ყველაზე საინტერესო პრეტენზია პოლიტიკური მანიფესტების გულშემატკივრების შესახებ, არის ის, რომ შედეგები რეპროდუცირებადია. Merz, Regel, and Lewandowski (2016) უზრუნველყოფს მანიფესტის კორპუსს. შეეცადეთ რეპროდუცირება ფიგურა 2 from Benoit et al. (2016) მუშების გამოყენებით Amazon Mechanical Turk. როგორია თქვენი შედეგები?

  2. [ საშუალო ] InfluenzaNet პროექტში მოხალისეების პანელი ხალხს (Tilston et al. 2010; Noort et al. 2015) გრიპის მსგავსი დაავადებებთან დაკავშირებული დაავადებების, პრევალენტობის და ჯანმრთელობის დაცვის ქცევას (Tilston et al. 2010; Noort et al. 2015) .

    1. შეადარეთ და განსხვავებით დიზაინის, ხარჯების და სავარაუდო შეცდომების გავლენა InfluenzaNet, Google Flu ტენდენციები და ტრადიციული გრიპის მიკვლევა სისტემები.
    2. განვიხილოთ გადაუჭრელი დრო, როგორიც არის გრიპის რომანის ფორმა. აღწერეთ შესაძლო შეცდომები თითოეულ სისტემაში.
  3. [ რთულია , საჭიროებს კოდირებას , მონაცემთა შეგროვება ] ეკონომისტი არის ყოველკვირეული ჟურნალი. შექმენით ადამიანური გამოთვლითი პროექტი, თუ ქალთა თანაფარდობა საფრთხესთან ერთად შეიცვალა დროთა განმავლობაში.

    1. ჟურნალს შეიძლება ჰქონდეს რვა სხვადასხვა რეგიონი (აფრიკა, აზია, ევროპა, ევროპა, ლათინური ამერიკა, ახლო აღმოსავლეთი, ჩრდილოეთი ამერიკა და გაერთიანებული სამეფო) და მათ შეუძლიათ ყველაფერი გადმოიწეროს ჟურნალიდან. აირჩიე ერთ-ერთი რეგიონი და შეისწავლეთ ანალიზი. დარწმუნდით, რომ აღწერეთ თქვენი პროცედურები საკმარისი დეტალებით, რომ ისინი შეიძლება გაიმეორონ სხვის მიერ.

    ეს კითხვა შთაგონებული მსგავსი პროექტის მიერ Justin Tenuto, მონაცემთა მეცნიერი crowdsourcing კომპანია CrowdFlower: იხილეთ "დრო ჟურნალი ნამდვილად უყვარს Dudes" (http://www.crowdflower.com/blog/time-magazine-cover-data) .

  4. [ ძალიან ძნელი , საჭიროებს კოდირებას , მონაცემთა შეგროვება ] წინა კითხვაზე შენობის მშენებლობა, ახლა რვა რეგიონის ანალიზს ასრულებს.

    1. რა განსხვავებები მოიძებნა მთელს რეგიონებში?
    2. რამდენად ზედმეტი დრო და ფული გააკეთეს იმისათვის, რომ გაანალიზოთ თქვენი ანალიზი რვა რეგიონისთვის?
    3. წარმოიდგინეთ, რომ ეკონომისტი ყოველ კვირას 100 სხვადასხვა ფარავს აქვს. შეაფასეთ, რამდენი დამატებითი დრო და ფული იქნებოდა, რათა გაზარდოს თქვენი ანალიზი 100 ფურცლებს კვირაში.
  5. [ რთულია , საჭიროებს კოდირებას ] არსებობს რამდენიმე ვებსაიტი, რომ მასპინძელი ღია ზარის პროექტები, როგორიცაა Kaggle. მონაწილეობა ამ პროექტებში და აღწერეთ ის, რაც გაიგებთ იმ კონკრეტულ პროექტს და ზოგადად ღია ზარების შესახებ.

  6. [ საშუალო ] გაეცანით ჟურნალ ბოლოდროინდელ ჟურნალს თქვენს სფეროში. არსებობს თუ არა რაიმე ნაშრომი, რომელიც შეიძლება დარეგულირდეს ღია ზარის პროექტებში? Რატომ ან რატომ არ?

  7. [ ადვილი ] Purdam (2014) აღწერს განაწილებული მონაცემების შეგროვება ლონდონში. შეაჯამეთ ამ კვლევის ძლიერი და სუსტი მხარეები.

  8. [ საშუალო ] Redundancy არის მნიშვნელოვანი გზა შეფასდეს დარიცხული მონაცემების შეგროვების ხარისხი. Windt and Humphreys (2016) შეიმუშავეს და ტესტირება სისტემის შეგროვება ანგარიშების კონფლიქტის მოვლენების ადამიანი აღმოსავლეთ კონგოს. წაიკითხეთ ქაღალდი.

    1. როგორ ხდის მათ დიზაინს გამოსწორებას?
    2. მათ შესთავაზეს რამდენიმე მიდგომა, რათა შეამოწმონ თავიანთი პროექტი. შეაჯამეთ ისინი. რომელი იყო ყველაზე დამაჯერებელი?
    3. წარმოგიდგინოთ ახალი გზა, რომ მონაცემები შეიძლება გადამოწმდეს. წინადადებები უნდა შეეცადონ გაზარდონ ნდობა, რომ თქვენ გექნებათ მონაცემები ისე, როგორც ეს არის ეფექტური და ეთიკური.
  9. [ საშუალო ] კარიმ ლეხანი და კოლეგები (2013) ქმნიან ღია ზარს ახალი ალგორითმების დასაკმაყოფილებლად, რათა შეესწავლათ პრობლემური ბიოლოგიის პრობლემა. მათ მიიღეს 600-ზე მეტი წარდგენა, რომელთა 89 ნომინაციაც შედის. წარდგენის მიხედვით, 30-ს გადააჭარბა აშშ-ის ჯანმრთელობის ეროვნების ინსტიტუტის MegaBLAST- ის შესრულებას და საუკეთესო წარდგენას მიაღწია როგორც უფრო მეტი სიზუსტე და სიჩქარე (1,000-ჯერ უფრო სწრაფად).

    1. წაიკითხეთ მათი ქაღალდი და შემდეგ შეთავაზეთ სოციალური კვლევის პრობლემა, რომელიც შეიძლება გამოიყენოს იგივე ღია კონკურსში. კერძოდ, ამ ღია კონკურსის მიზანია ფოკუსირება არსებული ალგორითმის შესრულების დაჩქარებასა და გაუმჯობესებაში. თუ თქვენ ვერ იფიქრებთ მსგავსი პრობლემის შესახებ თქვენს სფეროში, სცადეთ იმის ახსნა, თუ რატომ არა.
  10. [ საშუალო , ჩემი ფავორიტი ] ბევრი ადამიანის გამოთვლითი პროექტები დამოკიდებულია Amazon Mechanical Turk- ის მონაწილეებზე. დარეგისტრირდით, რომ გახდეს Amazon Mechanical Turk- ის მუშაკი. გაატარეთ ერთი საათის განმავლობაში. როგორ აისახება ეს თქვენი აზრები ადამიანური გამოთვლითი პროექტების დიზაინის, ხარისხისა და ეთიკის შესახებ?