Bit By Bit - 관찰 행동

이 번역은 컴퓨터에 의해 만들어졌습니다. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

활동

키:

난이도 : 쉬운 중간 하드 , 열심히
(수학을 필요로 $수학이 필요합니다$ )
(코딩이 필요합니다 )
데이터 수집 ( )
내가 좋아하는 것들 ( )

[ , ] 알고리즘 혼란 구글 독감 트렌드에 문제가 있었다. 에 의해 종이 읽기 Lazer et al. (2014) , 구글의 엔지니어 문제를 설명하고 문제를 해결하는 방법에 대한 아이디어를 제공 짧은, 명확한 이메일을 보냅니다.
[ ] Bollen, Mao, and Zeng (2011) 트위터에서 데이터가 주식 시장을 예측하는데 사용될 수 있음을 주장한다. 이 발견은 헤지 펀드 - 더 웬트 자본 트위터에서 수집 된 데이터를 기반으로 주식 시장에 투자 시장이-에의 창조되었다 (Jordan 2010) . 어떤 증거 해당 펀드에 돈을 넣어 전에보고 싶은 것?
[ 일부 공중 보건 옹호자가 금연에 대한 효과적인 지원으로 전자 담배를 우박 동안, 다른 사람은 니코틴의 높은 수준과 잠재적 인 위험에 대해 경고합니다. 연구원은 전자 담배 관련 트위터 글을 수집하고 감정 분석을 실시하여 전자 담배 방향으로 여론을 공부하기로 결정 것을 상상해보십시오.
1. 이 연구에 대해 가장 걱정되는 세 가지 편견은 무엇입니까?
2. Clark et al. (2016) 바로 그러한 연구를 달렸다. 첫째, 그들은 가까이 검사시 12월 2014을 통해 년 1 월 2012 년 전자 담배 관련 키워드를 사용하여 850,000 트윗을 수집, 그들은이 트윗 많은 (즉, 인간에 의해 생성되지 않음) 자동화 된 것을 깨달았 이러한 자동화 된 트윗의 대부분은 본질적으로했다 광고. 그들은 유기 트윗에서 자동화 된 트윗을 분리하는 인간 탐지 알고리즘을 개발했다. 이 인간은 그들이 트윗의 80 %가 자동화 된 것을 발견 알고리즘을 감지 사용. 이 연구 결과는 일부의 (a)에 대한 답을 변경합니까?
3. 그들은 유기 및 자동화 된 트윗의 감정을 비교했을 때 그들은 자동화 된 트윗 유기 트윗 (5.84 대 6.17)보다 더 긍정적 인 것으로 나타났다. 이 연구 결과는의 (b)에 대한 답변을 변경할 수 있습니까?
[ ] 2009 년 11 월, 트위터는 "무엇 당신이하는거야?"에에서 트윗 상자에 질문을 변경 "무슨 일 이죠?"(https://blog.twitter.com/2009/whats-happening).
1. 당신은 어떻게 프롬프트의 변화가 사람 트윗 및 / 또는 그들이 트윗 어떤 영향을 생각 하는가?
2. 프롬프트 선호하는 하나의 연구 프로젝트 이름을 "당신이 뭐를?"이유를 설명한다.
3. 프롬프트 선호하는 하나의 연구 프로젝트 이름을 "무슨 일을?"이유를 설명한다.
[ ] Kwak et al. (2010) 가 트위터가보다 정보 공유의 새로운 매체로서 더 많은 역할을한다는 결론이 분석을 바탕으로 41,700,000 사용자 프로필, 1470000000 사회적 관계, 4262 유행 주제, 6 월 6 일 6 월 31 일 사이에 106,000,000 트윗, 2009 년 분석 소셜 네트워크.
1. 곽 등의 발견 고려할 때, 당신은 트위터 데이터와 연구의 유형을 할 것인가? 당신은 트위터 데이터와 연구의 유형은 무엇을 할 것인가? 왜?
2. 2010 년, 트위터는 추가 사용자에게 맞춤형 제안을 서비스를 따라 누가. 세 가지 권장 사항은 메인 페이지에서 한 번에 표시됩니다. 추천은 종종 "친구 - 중 - 친구"하나의에서 도출하고 상호 접촉도 추천에 표시됩니다. 사용자 추천의 새로운 세트를 참조하거나 권고의 긴 목록 페이지를 방문 새로 고칠 수 있습니다. 당신은)이 새로운 기능은 A 부분에 대한 답을 바꿀 것이라고 생각하십니까? 그 이유는 무엇?
3. Su, Sharma, and Goel (2016) 서비스를 수행하려면 누구의 효과를 평가하고 인기 스펙트럼에서 사용자가 추천 혜택을하면서, 가장 인기있는 사용자가 평균보다 실질적으로 더 이익이 있음을 발견했다. 이 발견은) 파트 B에 대한 답변을 변경할 수 있습니까? 그 이유는 무엇?
[ ] "리트 윗은"자주 영향을 측정하는 데 사용과 트위터에 미치는 영향의 확산됩니다. 처음 사용자는 복사가 좋아 트윗을 붙여, 그 / 그녀의 핸들을 원래의 저자 태그 및 수동이 리트 윗의 것을 나타 내기 위해서 트윗하기 전에 "RT"를 입력했다. 그 후, 2009 년에 트위터는 "리트 윗"버튼을 추가했습니다. 년 6 월 2016 년, 트위터는 가능 사용자가 (https://twitter.com/twitter/status/742749353689780224) 자신의 트윗을 리트 윗 할 수있었습니다. 이러한 변화는 당신이 당신의 연구에 "리트 윗"를 사용하는 방법에 영향을해야한다고 생각하십니까? 그 이유는 무엇?
[ , , ] Michel et al. (2011) 책을 디지털화하는 구글의 노력에서 신흥 코퍼스를 구축. 2009 년에 출판 5 백만 디지털화 된 책을 통해 포함 된 코퍼스의 첫 번째 버전을 사용하여, 저자는 언어의 변화와 문화 트렌드를 조사하기 위해 단어 사용 빈도를 분석 하였다. 곧 Google 도서 코퍼스 연구자들에게 인기있는 데이터 소스가되었고, 데이터베이스의 두번째 버전은 2012 년에 출시되었습니다.

그러나 Pechenick, Danforth, and Dodds (2015) 연구자가 완전히 광범위한 결론을 그리기 위해 사용하기 전에 신체의 샘플링 과정을 특성화 할 필요가 있다고 경고했다. 주요 문제는 신체 각 책 중 하나를 포함하는 라이브러리와 같은 것입니다. 그 결과, 개인으로서, 다작 저자는 눈에 띄게 Google 도서 어휘에 새로운 문구를 삽입 할 수 있습니다. 또한, 과학 교과서는 1900 년대에 걸쳐 신체의 점점 더 실질적인 부분을 구성한다. 또한,로 영어 소설 데이터 세트, Pechenick 등의 두 가지 버전을 비교. 불충분 필터링 최초 버전의 제조에 사용 된 것으로 증거. 활동에 필요한 모든 데이터가 여기에 있습니다 : http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
1. 미셸 외. 원래 논문 (2011) 들은 영어 데이터 세트의 첫 번째 버전을 사용하는 "1912"및 "1973", "1880"세월의 사용 빈도를 그려, 우리는 "결론 각 통과 년에 더 빨리 우리의 과거를 잊고 "(그림. 3A, 미셸 등.). ) 코퍼스, 그림. 3A, 미셸 등 동일 영어 세트 (1 일 버전 1을 사용하여 동일한 플롯을 복제합니다.)
2. 이제 첫번째 버전, 영어 소설 데이터 세트와 같은 플롯을 복제합니다.
3. 지금 코퍼스 영어 데이터 세트의 두 번째 버전과 동일한 플롯을 복제합니다.
4. 마지막으로, 두번째 버전, 영어 소설 데이터 세트와 같은 플롯을 복제합니다.
5. 이 네 가지 플롯 사이의 차이점과 유사점을 설명하십시오. 당신은 관측 된 추세의 미셸 외.의 원래 해석에 동의하십니까? (힌트 : c) 및 d)는 Pechenick 등의 그림 16와 동일해야합니다).
6. 이제 다른 Google 도서 말뭉치를 사용하여이 하나의 발견을 복제되었는지, 미셸 외.의 원래 논문에서 제시된 다른 언어 변경이나 문화 현상을 선택합니다. 당신은 Pechenick 등에 제시된 제한에 비추어 자신의 해석에 동의 하는가.? 당신의 인수가 강한하려면 위와 같이 설정 데이터의 다른 버전을 사용하여 동일한 그래프를 복제하려고합니다.
[ , , , ] Penney (2016) 년 6 월 2013 년 NSA / PRISM 감시 (즉, 스노 덴의 계시)에 대한 광범위한 홍보가 개인 정보 보호 문제를 제기 주제에 대한 위키 백과 문서에 대한 트래픽의 급격한 갑자기 감소와 연관되어 있는지 여부를 탐구한다. 그렇다면, 행동의 변화는 대량 감시으로 인한 냉각 효과와 일치 할 것이다. 의 방법 Penney (2016) 때때로 중단 시계열 설계라고하며 관측 데이터 (섹션 2.4.3)에서의 실험에 대해 근사 장의 방법에 관한 것이다.

화제의 키워드를 선택하려면, 페니 추적 및 소셜 미디어 모니터링을위한 국토 안보부의 미국학과에서 사용하는 목록 참조. 국토 안보부 목록이 문제, 즉 "건강 문제", "인프라 보안"및 "테러.의 범위에 특정 검색어를 분류 테러"(표 8 참조 "연구 그룹의 경우, 페니는 마흔여덟 키워드와 관련된 사용" 충수). 그는 그의 주장을 강화 8 월 2014 년 말에 2012 년 1 월 처음부터하는 삼십이개월 기간 동안 해당 마흔여덟 위키 피 디아 기사에 대한 월 단위 위키 문서 조회수를 집계, 그는 또한 여러 가지 비교를 생성 다른 주제에 문서보기를 추적하여 그룹.

지금, 당신은 복제와 확장하려고 Penney (2016) . 이 활동에 필요한 모든 원시 데이터는 위키 백과 (https://dumps.wikimedia.org/other/pagecounts-raw/)에서 사용할 수 있습니다. 아니면 R 패키지 wikipediatrend에서 얻을 수 있습니다 (Meissner and Team 2016) . 당신이 쓰는 업 할 때 응답을, 당신이 사용하는 데이터 소스주의하시기 바랍니다. (참고 :이 같은 활동은 6 장에 나타납니다)
1. 읽기 Penney (2016) 하기 전에 "테러"- 관련 페이지와 스노 덴의 계시 후 페이지 뷰를 보여줍니다 그림 2와 복제합니다. 결과를 해석한다.
2. 다음으로, DHS 목록에서 "DHS 및 기타 기관"의 분류 키워드를 사용하여 비교 그룹과 연구 그룹 ( "테러"- 관련 기사를) 비교도 4A를 복제 (부록 표 10 참조). 결과를 해석한다.
3. ) 파트 B에서 하나의 비교 그룹에 연구 그룹을 비교했다. "인프라 보안"- 관련 기사 (부록 표 11)와 인기 위키 백과 페이지 (부록 표 12) : 페니는 다른 두 비교 그룹에 비해. 대안 비교 그룹과 함께오고, 파트 B의 결과는) 비교 그룹의 선택에 민감한 경우 테스트합니다. 비교 그룹의 어떤 선택이 가장 적합한? 왜?
4. 저자는 "테러"에 관한 키워드가 미국 정부가 온라인 감시 방법의 핵심 명분으로 테러를 인용하기 때문에 위키 피 디아 기사를 선택하는 데 사용되었다고 밝혔다. 이러한 48 "테러"- 관련 키워드의 확인으로, Penney (2016) 도 정부의 문제, 개인 정보 보호에 민감한, 그리고 회피의 관점에서 각 키워드를 평가하는 응답자 요청 MTurk에 대한 설문 조사 실시 (부록 표 7, 8). MTurk에 대한 설문 조사를 복제하고 결과를 비교합니다.
5. 파트 D의 결과)와 문서의 독서를 바탕으로, 당신은 연구 그룹 주제 키워드 저자의 선택에 동의합니까? 그 이유는 무엇? 그렇지 않은 경우, 대신 어떤 제안?
[ ] Efrati (2016) "원래 방송 공유"아래로 전년 대비 21 % 년 동안 페이스 북에 "전체 공유"한 해 동안 약 5.5 %의 년 감소했다고 기밀 정보를 기반으로 보고서,. 이 감소는 30 세 미만 페이스 북 사용자들에 특히 심각했다. 이 보고서는 두 가지 요인에 감소 때문. 하나는 "친구"사람들이 페이스 북에 미칠 수의 성장이다. 다른 하나는 일부 공유 활동 메시징 및 Snapchat에서와 같은 경쟁 업체로 전환 한 것입니다. 보고서는 또한 뉴스 피드 알고리즘 원래의 게시물 더 유명하게 바뀌는뿐만 아니라, 몇 년 전 "이 날"원래 게시물 사용자의 정기 알림을 포함하여 페이스 북 공유를 강화하려했던 여러 가지 전술을 밝혔다. 이러한 연구 결과는 데이터 소스로 페이스 북을 사용하고자하는 연구자에 어떤 영향을,있는 경우가 있습니까?
[ ] Tumasjan et al. (2010) 정당을 언급 트윗의 비율이 파티는 2009 년 독일 의회 선거에서받은 표 (그림 2.9)의 비율을 일치 보도했다. 즉, 사용자가 선거 예측 센터를 사용할 수 있음을 보였다. 이 빅 데이터의 공통 소스에 대한 가치있는 사용을 제안 듯하기 때문에이 연구가 출판 된 시점에서 그것은 매우 흥미로운 간주되었다.

빅 데이터의 나쁜 기능을 감안할 때, 그러나, 당신은 즉시 결과를 의심해야한다. 2009 년 트위터에 독일인은 매우 비 대표 그룹이었고, 한 정당의 지지자들은 더 자주 정치에 대한 트윗 수 있습니다. 따라서, 당신이 상상할 수있는 모든 가능한 편견이 어떻게 든 상쇄 것이 놀라운 것 같습니다. 사실,의 결과 Tumasjan et al. (2010) 너무 좋은 사람으로 밝혀졌다. 자신의 논문에서, Tumasjan et al. (2010) 기독교 민주당 (CDU), 기독교 사회 민주당 (CSU), SPD, 자유당 (FDP) 왼쪽 (링케 다이)과 녹색당 (Grüne) : 여섯 정당을 고려했다. 그러나 그 때 트위터에서 가장 상술 독일어 정당은 해적 당 (Piraten에), 인터넷의 정부 규제 싸움 파티였다. 해적 당이 분석에 포함되었을 때, 트위터는 선거 결과 (그림 2.9)의 끔찍한 예측된다 언급 (Jungherr, Jürgens, and Schoen 2012) .

2.9 그림 : 트위터는 2009 년 독일어 선거의 결과를 예측하는 표시 언급 (Tumasjan et al. 2010) 하지만,이 결과는 어떤 임의 및 부당 선택에 따라 밝혀 (Jungherr, Jürgens, and Schoen 2012) .

이어서, 전세계 다른 연구자 사용한 애호가 방법-같은 양 및 음의 구별 심리 분석을 사용하여 같은 선거 다양한 종류의 예측 트위터 데이터의 능력을 향상시키기 위해 당사자-의 언급 (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . 여기에 방법 Huberty (2015) 선거를 예측하는 이러한 시도의 결과를 요약 :

진정한 미래 지향적 인 선거 예측의 요구받을 때 "소셜 미디어를 기반으로 모든 알려진 예측 방법은 실패했다. 이러한 실패는 오히려 방법론 또는 알고리즘 어려움보다 소셜 미디어의 기본 특성에 의한 것으로 보인다. 즉, 소셜 미디어는하지, 아마, 유권자의 안정, 편견, 대표 사진을 제공하지 않습니다 결코; 소셜 미디어의 편의 샘플은 이러한 문제를 임시을 게시 해결하기 위해 충분한 데이터가 부족합니다. "

지도 연구의 일부 읽기 Huberty (2015) 그 결론에, 그리고 트위터가 선거를 예측하는 데 사용되어야하는 경우 및 방법에 대한 정치적 후보에 한 페이지 메모를 작성합니다.
[ ] 사회 학자와 역사 학자 사이의 차이점은 무엇입니까? Goldthorpe에 따르면 (1991) , 사회 학자와 역사 학자 사이의 주요 차이점은 데이터 수집 제어입니다. 역사 학자들은 사회 학자 특정 목적에 자신의 데이터 수집을 조정할 수있는 반면 유물을 사용하도록 강제하고 있습니다. 읽기 Goldthorpe (1991) . 어떻게 사회학, 역사의 차이는 Custommades과 Readymades의 개념과 관련이?
[ ] 이전 질문에 구축, Goldthorpe (1991) 니키 하트 하나를 포함하여 중요한 응답의 수, 그린 (1994) 만든 데이터를 조정할 수 Goldthorpe의 헌신을 도전했다. 맞춤형 데이터의 잠재적 한계를 명확히하기 위해, 하트는 풍족한 노동자 프로젝트, 1960 년대 중반에 Goldthorpe와 동료에 의해 실시 된 사회 계급 투표의 관계를 측정하는 대규모 설문 조사를 설명했다. 하나가 발견 데이터에 대한 데이터를 설계 선호 학자에서 기대할 수있는 바와 같이, 풍족한 노동자 프로젝트는 생활 수준을 증가의 시대에 사회 계급의 미래에 대해 최근에 제안 된 이론을 해결하기 위해 맞춤화 된 데이터를 수집. 그러나, Goldthorpe와 동료들은 어떻게 든 여성의 투표 행위에 대한 정보를 수집하기 위해 "잊었다". 여기에 니키 하트 방법 (1994) 전체 에피소드를 요약하고 :

". . . 이 데이터 세트는 여성의 경험을 제외 패러다임 논리에 의해 제한되었다 '재단사가 만든'때문에 여성이 생략 된 결론을 피하기 어렵다 [입니다]. 남성 선취으로 계급 의식과 행동의 이론적 비전에 의해 구동. . . , Goldthorpe와 그의 동료들은 공급과 타당성의 유효한 테스트에 노출 대신 자신의 이론적 가정을 육성 경험적 증거의 세트를 구성. "

하트 계속 :

"그들이 계층화, 정치와 물질 생활의 과정을 알려보다 풍족한 노동자 프로젝트의 실험 결과는 우리에게 세기 중반 사회학의 남성적 값에 대한 자세한 말해."

당신은 맞춤형 데이터 수집이 내장 데이터 수집기의 편견을 가지고 다른 예를 생각할 수 있습니까? 어떻게 이런 일이 알고리즘 혼란에 비교 하는가? 그들은 Custommades를 사용해야 할 때이 무슨 의미를 연구자가 Readymades를 사용해야하는 경우에 대해 가지고 있는가?
[ 이 장에서는 나는 기업과 정부에 의해 작성된 관리 기록과 연구에 대한 연구자들에 의해 수집 된 데이터를 대조. 어떤 사람들은 관리 기록을 연구자들에 의해 발견 된 것은 사실이다 ". 설계 데이터"이러한 관리 기록은 그들이에 대비 "데이터를 발견"부르지 만, 그들은 또한 매우 설계되었습니다. 예를 들어, 현대 기술 회사를 수집하고 데이터를 선별하기 위해 엄청난 시간의 금액과 자원을 소비한다. 따라서, 이러한 관리 기록을 모두 발견 및 설계, 그것은 단지 당신의 관점 (그림 2.10)에 따라 달라집니다.

그림 2.10 : 사진은 오리와 토끼 모두이다 당신이 볼 당신의 관점에 따라 달라집니다. 정부와 사업 관리 기록은 모두 발견하고 설계; 당신이 볼 당신의 관점에 따라 달라집니다. 예를 들어, 휴대 전화 회사에 의해 수집 된 통화 데이터 레코드는 연구자의 관점에서 데이터를 찾을 수있다. 그러나, 이러한 동일한 기록은 전화 회사의 청구 부서에서 근무하는 사람의 데이터 관점을 설계되었습니다. 출처 : 위키 미디어 공용

연구를위한 데이터 소스를 사용하는 경우 발견 설계가 도움 모두로보고 여기서 데이터 소스의 일례를 제공한다.
[ ] 사려 깊은 에세이에서, 기독교 Sandvig와 Eszter Hargittai는 (2015) 디지털 시스템이 "악기"또는이다 디지털 연구, 두 종류의 기술 "연구의 목적을."연구의 제 1 종의 예를 어디에 벵 트손 및 동료 (2011) 두 번째 종류의 예는 2010 년 아이티 지진 후 이동을 추적하기 위해 휴대 전화 데이터를 사용하는 경우 젠슨 (2007) 케 랄라에 걸쳐 휴대 전화의 도입, 인도 물고기에 대한 시장의 기능에 영향을 방법을 연구. 이 디지털 데이터 소스를 사용하는 연구가 데이터 소스의 동일한 종류를 사용하더라도 전혀 다른 목적을 가질 수 있다는 것을 명확히하기 때문에 이것이 도움. 악기와 같은 디지털 시스템을 사용하는 두와 연구의 대상으로 디지털 시스템을 사용하는 두 : 더이 구별을 명확히하기 위해, 당신은 본 적이 사 연구에 대해 설명합니다. 당신이 원하는 경우에는이 장에서 예제를 사용할 수 있습니다.