негізгі:
[ , ] Алгоритмдік қате Google тұмауын тенденцияларымен проблема болды. Қағазды Read Lazer et al. (2014) , сондай-ақ Google мәселені түсіндіріп және мәселені шешу қалай идеясын ұсына инженер қысқа, анық электронды хат жазу.
[ ] Bollen, Mao, and Zeng (2011) Twitter деректер қор нарығын болжау пайдалануға болады деп есептейді. Бұл ашылуы Twitter жиналған деректер негізінде қор нарығына инвестициялауға нарықтар-хедж-қорды-Derwent Capital құруға әкелді (Jordan 2010) . Қандай дәлел Сіз бұл қорға ақшаңызды киер алдында көруге келеді?
[ ] Кейбір қоғамдық денсаулық сақтау адвокаттар басқалары осындай никотин жоғары деңгейі сияқты әлеуетті тәуекелдер туралы ескертуге, темекі шегуден бас тиімді көмек ретінде электрондық темекі бұршақ Әзірге. зерттеуші электрондық темекі байланысты Twitter лауазымдарды жинау және көңіл талдау жасау арқылы электрондық темекі қарай қоғамдық пікірді зерделеуге шешім қабылдайды делік.
[ ] 2009 жылдың қараша айында, Twitter-ден Tweet терезесінде сұрақ өзгерді «Сен не істеп жатырсың?» Деген «Не болып жатыр?» (Https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) , олар Twitter бір қарағанда ақпарат алмасу жаңа құралы ретінде қызмет етеді деген қорытындыға келді көп осы талдаудың негізінде 41,7 млн пайдаланушы профильдерін, 1,47 млрд әлеуметтік қарым-қатынастар, 4262 тренд тақырыптар, және маусым 6-шы және 31-ші маусым, 2009 арасындағы 106 млн Tweets талданды әлеуметтік желі.
[ ] «Ретвитке» жиі Twitter әсер ықпалы мен таралуын өлшеу үшін пайдаланылады. Бастапқыда, пайдаланушылар және көшіруге ұнаған туитті, / оның тұтқасы бар Бастапқы авторы белгілеу, сондай-ақ қолмен ол Retweet деп көрсету үшін Tweet бұрын «RT» теріңіз тура келді. Содан кейін, 2009 жылы Twitter А «Retweet» батырмасын қосты. Жылдың маусым 2016 жылы, Twitter мүмкін пайдаланушылар өз хабарламаларды (https://twitter.com/twitter/status/742749353689780224) Retweet үшін жасалған. Егер сіз бұл өзгерістер сіз өз ғылыми-зерттеу «твиттер» қалай пайдалануға әсер ету керек деп ойлайсыз ба? Неге?
[ , , ] Michel et al. (2011) кітаптар сандылау үшін Google-дың күш туындайтын дененің салынған. 2009 жылы жарияланған және 5 млн цифрланған кітаптар астам қамтылған болатын корпусының, бірінші нұсқасын пайдаланып, авторлар лингвистикалық өзгерістер мен мәдени үрдістерді зерттеу үшін сөз қолданым жиілігін талданады. Көп ұзамай Google Books Corpus зерттеушілер үшін танымал деректер көзі болды, және деректер базасын 2 нұсқасы 2012 жылы жарыққа шықты.
Алайда, Pechenick, Danforth, and Dodds (2015) зерттеушілер толығымен кең қорытынды жасау үшін, оны пайдаланбас бұрын корпусының таңдама процесін сипаттайтын қажет екенін ескертті. басты мәселе әрбір кітабының бірін қамтитын, корпус кітапхана-тәрізді болып табылады. Нәтижесінде, жеке, бай авторы айтарлықтай Google Books лексикасы жаңа сөз тіркестерін кірістіру алады. Сонымен қатар, ғылыми мәтіндер 1900 бүкіл корпусының барған негізгі бөлігін құрайды. Сонымен қатар, ағылшын Fiction деректер екі нұсқасын, Pechenick т.б. салыстыру арқылы. жеткіліксіз сүзгілеу бірінші нұсқасын өндіру қолданылған дәлелдемелер табылған. қызмет үшін қажетті барлық деректер жерде қол жетімді: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) 2013 жылғы маусымда NSА / PRISM қадағалау (яғни, Сноуден Аян) туралы кең таралған жариялылығы құпиялылық мәселе көтеру тақырыптары бойынша Уикипедия мақалалар трафик күрт және кенеттен төмендеуімен байланысты ма зерттейді. Егер солай болса, мінез-құлық бұл өзгеріс жаппай қадағалау нәтижесінде салқындатқыш әсері сәйкес болар еді. Тәсіл Penney (2016) кейде үзіліп уақыт сериясы жобалау деп аталады және бақылау деректер (Бөлім 2.4.3) бастап эксперименттер жақындатуға туралы тарауда тәсілдерді байланысты.
тақырып кілт сөздерді таңдау үшін Penney әлеуметтік медианы қадағалау және бақылау үшін ішкі қауіпсіздік департамент, АҚШ пайдаланылатын тізіміне аталатын. DHS тізімі мәселелер ауқымының белгілі бір іздеу терминдерін санаттары, яғни «Денсаулық Концерн», «Инфрақұрылым Қауіпсіздік» және «Терроризм. (8-кесте қараңыз» терроризм «зерттеу тобы үшін, Penney байланысты қырық сегіз кілт сөздерді пайдаланылады» Қосымша). Ол содан кейін оның дәлелін нығайту үшін 2012 жылғы қаңтар басынан бастап 2014 жылғы тамыз айында соңына дейін отыз екі ай мерзім ішінде тиісті қырық сегіз Уикипедия мақалалар, бойынша ай сайын Уикипедия мақала қарау санын біріктіріледі, ол сондай-ақ, бірнеше салыстыру құрылған басқа да тақырыптар бойынша пікір-бап қадағалау арқылы топтар.
Енді, сіз тираждауға және кеңейту үшін барамыз Penney (2016) . Егер сіз осы қызмет үшін қажет болады Барлық шикізат деректер Уикипедия (https://dumps.wikimedia.org/other/pagecounts-raw/) қол жетімді. Немесе сіз R пакеті wikipediatrend оны алуға болады (Meissner and Team 2016) . Сіз жаза-дейін кезде сіздің жауап, сіз қолданылатын деректер көзі ескеріңіз. (Ескерту: Бұл сол белсенділігі, сондай-ақ 6-тарауына пайда)
[ ] Efrati (2016) , «бастапқы Хабар жүргiзудiң бөлісу» төмен 21% жыл ішінде жыл болды, ал Facebook бойынша «жалпы ортақ пайдалану» шамамен 5,5% -ға жыл сайын төмендеді екенін, құпия ақпарат негізінде, деп хабарлайды. Бұл төмендеу жасы 30 жасқа дейінгі Facebook пайдаланушылармен әсіресе өткір болды. есеп екі факторларға төмендеуі жатқызылған. One адам Facebook бар «достар» санының өсуі болып табылады. басқа кейбір ортақ пайдалану қызметі хабар алмасу үшін және осындай Snapchat сияқты бәсекелестер көшті, бұл. Баяндамада сондай-ақ Facebook бірнеше жыл бұрын Жаңалықтар таспасы алгоритм бастапқы хабарламалар көп көрнекті жасауға твики, сондай-ақ «Бұл күнге» бастапқы хабарламалар пайдаланушылардың мерзімді еске салғыштар, соның ішінде ортақ пайдалану арттыратын тырысты бірнеше тактикасын анықталды. кез келген жағдайда не салдары, осы тұжырымдар деректер көзі ретінде Facebook пайдаланғыңыз келетін зерттеушілер үшін бар?
[ ] Tumasjan et al. (2010) , саяси партияны еске твит сол үлесі партиялық 2009 жылы неміс парламенттік сайлау (сурет 2.9) алынған дауыс үлесін қанағаттандырады хабарлады. Басқаша айтқанда, бұл сіз сайлау болжауға Twitter пайдалана алады екен. ол үлкен деректер ортақ көзі үшін бағалы пайдалануды ұсынған, көрінген, өйткені бұл зерттеу жарияланды уақытта ол өте қызықты қаралды.
Big Data нашар ерекшеліктері ескере отырып, алайда, сіз бірден осы нәтижеге күмәнмен болуы тиіс. 2009 жылы Twitter туралы немістер өте емес өкілі тобы болды, мен бір партияның жақтастары жиі саясат туралы твит мүмкін. Осылайша, егер сіз елестетіп алмады барлық ықтимал ауытқулар болғанда да жою еді бұл таң қаларлық, меніңше. Шын мәнінде, нәтижелер Tumasjan et al. (2010) шындық болу үшін тым жақсы болып шықты. Өз жұмысында, Tumasjan et al. (2010) Христиан демократтар (ХДС), христиан демократтар Әлеуметтік (ХСС), SPD, Либералы (FDP), сол жақ (Linke Die), және Жасыл партиясы (Grüne): алты саяси партиялар болып саналады. Алайда, сол уақытта Twitter ең аталған неміс саяси партия Pirate партиясы (Piraten), Интернет мемлекеттік реттеу күреседі тарабы болды. Pirate Тарап талдау енгізілген кезде, Twitter сайлау қорытындылары (сурет 2.9) және қорқынышты БОЛЖАУ болып ескертеді (Jungherr, Jürgens, and Schoen 2012) .
Кейіннен, бүкіл әлем бойынша басқа да зерттеушілер партиялардың-сайлау түрлі түрлі болжау Twitter деректер қабілетін арттыру мақсатында туралы ескертулер қаларлық әдістерін-осындай оң және теріс ажырата көңіл талдау пайдалану сияқты пайдаланды (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . Мұнда әдісі Huberty (2015) сайлауды болжау осы әрекеттердің қорытындысын шығарды:
шынайы болашаққа сайлау болжау талаптарына ұшыраған кезде «әлеуметтік медиа негізінде Барлық белгілі болжау әдістері алмады. Бұл сәтсіздіктер әлеуметтік медиа іргелі қасиеттерін емес, әдістемелік немесе алгоритмдік қиындықтар салдарынан болып көрінеді. Бір сөзбен айтқанда, әлеуметтік медиа емес, және, бәлкім, электораттың тұрақты, объективті, өкілі суретті ұсынады ешқашан; және әлеуметтік медиа ыңғайлылығы үлгілері осы проблемаларды кейінгі арнайы шешу үшін жеткілікті деректер жоқ. «
Әкелуі зерттеудің кейбір Read Huberty (2015) деген қорытындыға және саяси жағдайда сипаттайтын кандидаттың және қалай Twitter сайлауын болжау үшін пайдаланылуы тиіс үшін бір бет меморандумға жазады.
[ ] Әлеуметтанушы және тарихшы арасындағы айырмашылық неде? Goldthorpe айтуынша (1991) , әлеуметтанушы және тарихшы арасындағы басты айырмашылық деректерді жинау бақылау болып табылады. Тарихшылар социологтар нақты мақсаттары, олардың деректер жинау бейімдей аласыз, ал жәдігерлерді пайдалануға мәжбүр. Read Goldthorpe (1991) . Custommades және Readymades идеясына байланысты әлеуметтану мен тарих арасындағы айырмашылық қалай?
[ ] Егер алдыңғы сұраққа сүйене, Goldthorpe (1991) Nicky хартиясы бір, соның ішінде сыни жауап бірқатар, аударды (1994) жасады деректерді бейімдеу Goldthorpe адалдығын дау. арнайы жасалған деректердің әлеуетті шектеулер нақтылау үшін, Hart Affluent қайраткері жобасын, ортасында 1960 жылы Goldthorpe және әріптестерімен өткізілді әлеуметтік класс және дауыс арасындағы қарым-қатынасты өлшеу үшін үлкен сауалнама сипатталған. Бір табылған деректер астам әзірленген деректерді жаққан ғалым күтуге болар еді ретінде, Affluent қайраткері Жоба әл-ауқатын жақсарту дәуірінде әлеуметтік таптың болашағы туралы жақында ұсынылған теориясын шешу үшін бейімделген болатын деректер жинады. Бірақ, қалай болғанда да Goldthorpe мен әріптестер әйелдер дауыс беру мінез-құлық туралы ақпаратты жинау үшін «ұмытып». Мұнда Nicky Hart әдісі (1994) бүкіл эпизод жинақтау:
«. . . ол осы «тігінші» мозаикасы әйелдер тәжірибесі шығарылған парадигматикалық логика арқылы шектелген, өйткені әйелдер назардан тыс қалғанын қорытынды болдырмау қиын [табылады]. ер қамқорлық ретінде класс сана мен іс-қимыл теориялық аян арқылы Driven. . . , Goldthorpe және оның әріптестері тамақтандырып және оның орнына жеткіліктілігі жарамды тест оларды қойылмауын өз теориялық болжамдарды дамытыла эмпирикалық дәлелдемелер жиынтығы салынған «.
Hart жалғастырды:
«Олар стратификация, саясат және материалдық өмір процестерін хабардар қарағанда Affluent қайраткері Жобаның эмпирикалық тұжырымдар ғасырдың ортасына әлеуметтану masculinist құндылықтар туралы көбірек айтады.»
Егер сіз арнайы жасалған деректер жинау оған салынған деректер коллекторының Бұрмалаушылықтар бар басқа да мысалдар ойлауға болады? Бұл қалай алгоритмдік қате үшін салыстыруға болады? Бұл олар Custommades пайдалану керек кезде зерттеушілер Readymades пайдалану және қажет кезде қандай салдары болуы мүмкін?
[ ] Осы тарауда мен компаниялар мен үкімет құрылған әкімшілік жазбалары бар зерттеушілер үшін зерттеушілер жинаған деректерді қарсы. Кейбір адамдар, олар қалай ерекшеленді, ол «, деректерді табылған» осы әкiмшiлiк жазбаларды қоңырау «жобаланған деректер.» Бұл әкімшілік жазбалар зерттеушілер табылды, бірақ олар сондай-ақ жоғары әзірленген екені рас. Мысалы, қазіргі заманғы технологиялық компаниялар өз деректерді жинау және жетекшілік уақыт пен ресурстарды зор сомасын жұмсайды. Осылайша, бұл әкімшілік жазбалар екеуі табылды және әзірленген, ол жай ғана сіздің перспективада (сурет 2.10) байланысты.
зерттеу үшін, бұл деректер көзін пайдалану кезінде табылған және жобаланған ретінде оны көріп пайдалы деректер көзі мысал қамтамасыз ету.
[ ] Ойластырылған эссе, христиан Sandvig және Eszter Hargittai (2015) сандық жүйесі «құралы» немесе сандық зерттеулер, екі түрін сипаттайды «Зерттеу нысаны.» Бірінші оқу түрінің мысал қайда Bengtsson мен әріптестер болып табылады (2011) 2010 жылы Гаитиде жер сілкінісі екінші түрдегі мысал кейін көші-қон бақылау үшін ұялы телефон деректерін пайдаланылады Jensen қайда жатыр (2007) қалай Керала бүкіл ұялы телефондардың енгізу оқиды, Үндістан балық нарығының жұмыс істеуін әсерін тигізді. ол сандық деректер көздерін пайдалана отырып, зерттеулер, олар деректер көзі түрін қолданып, тіпті егер мүлдем басқа мақсаттарға болуы мүмкін екенін түсіндіреді, себебі Мен бұл пайдалы. құралы және зерттеу объектісі ретінде сандық жүйесін пайдалану екі-ақ сандық жүйесін пайдалану екі: одан әрі осы айырмашылықты түсіндіру мақсатында, сіз көрдім төрт зерттеулер сипаттайды. Егер сіз қаласаңыз, осы тараудың мысалдар пайдалануға болады.