이 책은 2005 년 컬럼비아 대학의 지하실에서 시작되었습니다. 그 당시 나는 대학원생이었고, 결국 필자의 논문이 될 온라인 실험을하고 있었다. 4 장에서 그 실험의 과학적 부분에 대해 모두 말씀 드리지만, 이제는 저의 논문이나 논문에없는 것에 대해 이야기하겠습니다. 그리고 그것은 내가 연구에 대해 어떻게 생각하는지 근본적으로 변화시킨 것입니다. 어느 날 아침, 지하실로 들어와 브라질에서 약 100 명이 밤새 내 실험에 참여했다는 것을 알게되었습니다. 이 간단한 경험은 저에게 중대한 영향을 미쳤습니다. 그 당시, 저는 전통적인 실험실 실험을하고 있던 친구가 있었고, 사람들이이 실험에 참여할 수 있도록 사람들을 모집하고, 감독하고, 지불하는 것이 얼마나 힘들 었는지 알았습니다. 하루에 10 명을 돌릴 수 있다면 좋았습니다. 그러나 온라인 실험을 통해 자고있는 동안 100 명이 참여 했습니다 . 자고있는 동안 연구를하는 것이 사실로보기에는 너무 좋을 수도 있지만 그렇지 않습니다. 기술 변화 - 특히 아날로그 시대에서 디지털 시대로의 전환 - 이제는 새로운 방식으로 소셜 데이터를 수집하고 분석 할 수 있습니다. 이 책은 이러한 새로운 방식으로 사회 조사를하는 것에 관한 것입니다.
이 책은 더 많은 데이터 과학을하고자하는 사회 과학자, 더 많은 사회 과학을하고자하는 데이터 과학자 및이 두 분야의 하이브리드에 관심이있는 사람들을 대상으로합니다. 이 책이 누구에게 주어지면, 그것은 학생과 교수를위한 것이 아니라는 말을해야합니다. 현재 저는 한 대학 (프린스턴)에서 일하고 있지만 저는 정부 (미국 센서스 국)와 기술 산업 (Microsoft Research)에서 근무했기 때문에 흥미로운 연구가 많이 있습니다. 대학. 사회 연구로하고있는 것을 생각한다면,이 책은 당신이 일하는 곳이나 현재 어떤 기술을 사용하고 있더라도 상관 없습니다.
이미 알았 듯이이 책의 톤은 다른 많은 학술 서적과 조금 다릅니다. 그건 의도적 인거야. 이 책은 2007 년부터 사회학과에서 Princeton에서 가르친 전산 사회 과학 대학원 세미나에서 나왔다. 나는이 세미나에서 에너지와 흥분을 포착하고 싶다. 특히, 나는이 책이 세 가지 특징을 갖기를 바란다 : 나는 그것이 도움이되고, 미래 지향적이며, 낙관적 이길 바란다.
도움이된다 : 나의 목표는 당신에게 도움이되는 책을 쓰는 것이다. 따라서 개방적이고 비공식적이며 모범적 인 스타일로 글을 쓸 것입니다. 왜냐하면 제가 전달하고자하는 가장 중요한 것은 사회 조사에 대한 특정한 사고 방식이기 때문입니다. 그리고 내 경험에 비추어 볼 때이 사고 방식을 전달하는 가장 좋은 방법은 비공식적으로 많은 예제가있는 것입니다. 또한 각 장의 마지막 부분에는 내가 소개하는 많은 주제에 대한보다 자세하고 기술적 인 내용으로 전환하는 데 도움이되는 "다음에 읽어야 할 내용"섹션이 있습니다. 결국,이 책이 당신을 연구하고 다른 사람들의 연구를 평가하는 데 도움이되기를 바랍니다.
미래 지향적 :이 책은 현재 존재하는 디지털 시스템 과 미래에 생성 될 디지털 시스템을 사용하여 사회 조사를하는 데 도움이됩니다. 저는 2004 년에 이런 종류의 연구를 시작했고, 그 이후로 많은 변화를 보았습니다. 그리고 나는 커리어를 통해 많은 변화를 볼 수있을 것이라고 확신합니다. 변화에 직면하여 관련성을 유지하는 요령은 추상 입니다. 예를 들어,이 책은 오늘날 존재하는 Twitter API를 사용하는 방법을 정확히 알려주는 책이 아닙니다. 대신, 큰 데이터 소스 (2 장)에서 배우는 방법을 알려줄 것입니다. 이것은 Amazon Mechanical Turk에서 실험을 실행하기위한 단계별 지침을 제공하는 책이 될 수 없습니다. 대신 디지털 시대 인프라에 의존하는 실험을 설계하고 해석하는 방법을 가르쳐 줄 것입니다 (4 장). 추상화를 통해 시간이 걸리는 주제에 대한 영원한 책이되기를 바랍니다.
낙관적 인 :이 책이 사회 과학자와 데이터 과학자가 참여하는 두 개의 공동체는 배경과 관심이 매우 다릅니다. 이 책에서 내가 이야기하는 과학 관련 차이점 외에도이 두 커뮤니티에는 서로 다른 스타일이 있음을 알게되었습니다. 데이터 과학자들은 일반적으로 흥분합니다. 유리 잔이 반으로 가득 찬 경향이 있습니다. 반면에 사회 과학자들은 일반적으로 더 비판적이다. 그들은 유리가 반쯤 비어있는 것처럼 보입니다. 이 책에서는 데이터 과학자의 낙관적 인 말투를 채택 할 것입니다. 그래서 예를 제시 할 때, 나는이 예들에 대해 내가 좋아하는 것을 말할 것입니다. 그리고 예제를 사용하여 문제를 지적하면 완벽한 연구가 없기 때문에 그렇게 할 것입니다. 이러한 문제를 긍정적이고 낙관적 인 방식으로 지적하려고 노력할 것입니다. 저는 비판적으로 비판적이지는 않을 것입니다. 저는 당신이 더 나은 연구를 할 수 있도록 비판적이 될 것입니다.
우리는 아직 디지털 시대의 사회 연구의 초기 단계에 있지만, 오해를 많이 겪었습니다.이 오해는 너무 일반적이어서 제가 여기 서언에서 다루었습니다. 데이터 과학자들로부터 저는 두 가지 공통적 인 오해를 보았습니다. 첫 번째는 더 많은 데이터가 자동으로 문제를 해결한다고 생각합니다. 그러나 사회 연구를 위해서는 내 경험이 아니야. 실제로 사회 조사의 경우 더 많은 데이터가 아닌 더 나은 데이터가 도움이 될 것입니다. 두 번째 오해는 데이터 과학자들로부터 보았을 때 사회 과학이 상식을 감싸는 멋진 이야기라고 생각하고 있습니다. 물론 사회 과학자로서 - 특히 사회 학자로서 - 나는 그것에 동의하지 않는다. 똑똑한 사람들은 오랫동안 인간의 행동을 이해하기 위해 열심히 노력해 왔으며 이러한 노력으로 얻은 지혜를 무시하는 것은 현명하지 못한 것처럼 보입니다. 제 희망은이 책이 당신에게 지혜의 일부를 이해하기 쉬운 방식으로 제공한다는 것입니다.
사회 과학자들로부터 나는 또한 두 가지 일반적인 오해를 보았습니다. 첫째, 몇몇 사람들은 몇 가지 나쁜 논문 때문에 디지털 시대의 도구를 사용하여 사회 조사의 전체 아이디어를 작성하는 것을 보았습니다. 이 책을 읽는다면, 당신은 이미 소셜 미디어 데이터를 진부하거나 잘못 (또는 둘 다) 방식으로 사용하는 수많은 종이를 읽었을 것입니다. 나도 그래. 그러나 모든 디지털 시대의 사회 연구가 나쁘다는 결론을 내리는 것은 심각한 실수입니다. 실제로 설문 조사 데이터를 진부하고 잘못 사용하는 많은 자료를 읽었을 지 모르지만 설문 조사를 사용하여 모든 조사를 취소하지는 않습니다. 설문 조사 데이터로 수행 된 훌륭한 연구가 있다는 것을 알고 있기 때문에이 책에서는 디지털 시대의 도구로 수행 한 훌륭한 연구가 있음을 보여 드릴 것입니다.
사회 과학자들이 보았던 두 번째 일반적인 오해는 현재와 미래를 혼동하는 것입니다. 우리가 설명하고자하는 디지털 시대의 사회 연구를 평가할 때 "이 연구 스타일은 현재 얼마나 잘 작동하고 있습니까?"및 "이 스타일은 얼마나 잘 될 것입니까? 연구원은 앞으로 어떻게 될 것인가? "연구원은 첫 번째 질문에 대답하도록 훈련 받았지만,이 책에서 나는 두 번째 질문이 더 중요하다고 생각한다. 즉, 디지털 시대의 사회 연구가 아직 패러다임을 변화시키는 지적 기여를하지는 못했지만 디지털 시대 연구의 개선 속도는 놀라 울 정도로 빠릅니다. 디지털 시대 연구를 나에게 너무나 흥분시키는 것은 현재 수준보다 높은 변화율입니다.
비록 마지막 단락이 당신에게 미래의 불특정 시점에 잠재적 인 재물을 제공하는 것으로 보일지라도, 나의 목표는 특정 유형의 연구에서 당신을 팔지 않는 것입니다. Twitter, Facebook, Google, Microsoft, Apple 또는 기타 기술 회사에서 개인적으로 주식을 소유하고 있지 않습니다. (공개 할 목적으로 Microsoft에서 연구 자금을 수령했음을 언급해야하지만, Google 및 Facebook). 따라서이 책 전체에서 내 목표는 신뢰할 수있는 내레이터로 남을 수있는 흥미 진진한 새로운 것들에 대해 이야기하면서 다른 사람들이 (그리고 때로는 내 자신으로) 빠져드는 몇 개의 함정에서 당신을 인도하는 동시에, .
사회 과학과 데이터 과학의 교차점을 때로는 전산 사회 과학이라고합니다. 일부는 이것이 기술 분야라고 생각하지만, 전통적인 의미의 기술 서적은 아닙니다. 예를 들어, 본문에는 방정식이 없습니다. 큰 데이터 소스, 설문 조사, 실험, 대량 공동 작업 및 윤리 등 디지털 시대의 사회 연구에 대한 포괄적 인 시각을 제공하기 위해이 서적을 작성했습니다. 이 모든 주제를 다루고 각각에 대한 기술적 세부 사항을 제공하는 것은 불가능한 것으로 판명되었습니다. 대신, 더 많은 기술적 인 자료에 대한 포인터는 각 장의 끝에있는 "다음에 읽으려는 내용"절에 나와 있습니다. 즉,이 책은 특정 계산을 수행하는 방법을 알려주는 것이 아닙니다. 오히려 사회 연구에 대한 생각을 바꾸기 위해 고안되었습니다.
과정에서이 책을 사용하는 방법
앞에서 말했듯이,이 책은 프린스턴 대학에서 2007 년부터 가르쳐 왔던 전산 사회 과학 대학원 세미나에서 부분적으로 나왔습니다. 이 책을 사용하여 코스를 가르치려는 생각을하고있을 수도 있으므로 코스에서 어떻게 성장했는지 그리고 다른 코스에서 어떻게 사용되는지 상상해 보는 것이 도움이 될 것이라고 생각했습니다.
몇 년 동안, 나는 책없이 내 코스를 가르쳤다. 나는 단지 기사 모음을 할당 할 뿐이다. 학생들이이 기사에서 배울 수 있었지만, 기사만으로는 내가 생각하기에 개념적 변화를 이끌어 내지 못했습니다. 그래서 학생들이 큰 그림을 보도록 돕기 위해 대부분의 시간을 시각, 문맥 및 조언을 제공하는 수업에서 보냅니다. 이 책은 사회적 과학이나 데이터 과학의 전제 조건이없는 방식으로 모든 관점, 맥락, 조언을 적어보기위한 제 시도입니다.
한 학기 동안의 과정에서이 책을 다양한 추가 독서와 함께 페어링하는 것이 좋습니다. 예를 들어, 그러한 코스는 실험에 2 주를 소비 할 수 있으며 실험의 설계 및 분석에서 전처리 정보의 역할과 같은 주제에 대한 읽기와 4 장을 짝을 지을 수 있습니다. 기업에서 대규모 A / B 테스트를 통해 발생하는 통계 및 계산 문제 구체적으로 메커니즘에 초점을 맞춘 실험 설계; 아마존 메카닉 터크 (Amazon Mechanical Turk)와 같은 온라인 노동 시장 참가자의 사용과 관련된 실용적이고 과학적이며 윤리적 인 문제를 다루고 있습니다. 또한 프로그래밍과 관련된 독서 및 활동과 쌍을 이룰 수 있습니다. 가능한 한 많은 페어링 중 적절한 선택은 과정 (예 : 학부, 석사 또는 박사)의 학생들, 배경 및 목표에 따라 다릅니다.
학기 길이의 과정에는 주별 문제 세트도 포함될 수 있습니다. 각 장에는 난이도에 따라 분류 된 다양한 활동이 있습니다. 쉬운 ( ), 중간 ( ), 하드 ( ), 매우 열심히 ( ). 또한 각 문제에 필요한 기술로 분류했습니다. 수학 ( ), 코딩 ( ), 데이터 수집 ( ). 마지막으로, 저는 개인적으로 좋아하는 활동 중 몇 가지 레이블을 붙였습니다 ( ). 다양한 활동을 통해 학생들에게 적합한 활동을 찾을 수 있기를 바랍니다.
강좌에서이 책을 사용하는 사람들을 돕기 위해 필자는 강의 계획서, 슬라이드, 각 장에 대해 권장되는 짝짓기 및 일부 활동에 대한 솔루션과 같은 교재 모음을 시작했습니다. 이러한 자료는 http://www.bitbybitbook.com에서 찾을 수 있습니다.