前言

這本書始於2005年,位於哥倫比亞大學的地下室。當時,我是一名研究生,我正在進行一項最終成為我論文的在線實驗。我將在第4章告訴你關於該實驗的科學部分的所有內容,但現在我將告訴你一些不在我的論文或我的論文中的內容。從根本上改變了我對研究的看法。一天早上,當我進入地下室時,我發現一夜之間有大約100名來自巴西的人參加了我的實驗。這種簡單的經歷對我產生了深遠的影響。那時,我有朋友正在進行傳統的實驗室實驗,我知道他們有多努力招募,監督和支付人們參與這些實驗;如果他們可以在一天內運行10個人,這是一個很好的進展。然而,通過我的在線實驗, 在我睡覺時有 100人參加。在你睡覺的時候做你的研究可能聽起來好得令人難以置信,但事實並非如此。技術的變化 - 特別是從模擬時代到數字時代的過渡 - 意味著我們現在可以以新的方式收集和分析社交數據。這本書是關於以這些新方式進行社會研究的。

本書適用於想要做更多數據科學的社會科學家,想要做更多社會科學的數據科學家,以及任何對這兩個領域的混合感興趣的人。鑑於這本書的用途,不言而喻,這不僅適用於學生和教授。雖然,我目前在一所大學(普林斯頓大學)工作,但我也曾在政府(美國人口普查局)和科技行業(微軟研究院)工作,所以我知道有很多令人興奮的研究發生在大學。如果你想到你正在做什麼作為社會研究,那麼這本書適合你,無論你在哪里工作或你目前使用什麼樣的技術。

正如您可能已經註意到的那樣,本書的基調與許多其他學術書籍的語氣略有不同。那是故意的。這本書出自我自2007年以來在普林斯頓大學社會學系教授的計算社會科學研究生研討會,我希望能夠從研討會中獲得一些精力和興奮。特別是,我希望這本書有三個特點:我希望它有用,面向未來,樂觀。

有幫助 :我的目標是寫一本對你有幫助的書。因此,我將以開放,非正式和示例驅動的方式撰寫。那是因為我想傳達的最重要的事情是思考社會研究的某種方式。而且,我的經驗表明,傳達這種思維方式的最佳方式是非正式的,並有很多例子。此外,在每章的最後,我有一個名為“接下來要讀什麼”的部分,它將幫助您過渡到我介紹的許多主題的更詳細和技術性的讀物。最後,我希望本書能幫助你們研究和評估他人的研究。

面向未來 :本書將幫助您使用當前存在的數字系統將來創建的數字系統進行社會研究。我在2004年開始做這種研究,從那以後我看到了許多變化,我相信在你的職業生涯中你也會看到很多變化。面對變化保持相關性的訣竅是抽象 。例如,這不會是一本教你如何使用今天存在的Twitter API的書;相反,它將教你如何從大數據源學習(第2章)。這本書不會為您提供在Amazon Mechanical Turk上運行實驗的分步說明;相反,它將教你如何設計和解釋依賴於數字時代基礎設施的實驗(第4章)。通過抽象的使用,我希望這將是一本關於及時主題的永恆的書。

樂觀 :本書所涉及的兩個社區 - 社會科學家和數據科學家 - 具有截然不同的背景和興趣。除了我在書中談到的這些與科學有關的差異之外,我還注意到這兩個社區有不同的風格。數據科學家普遍興奮;他們傾向於看到玻璃杯半滿。另一方面,社會科學家通常更為關鍵;他們傾向於認為玻璃杯是半空的。在本書中,我將採用數據科學家的樂觀基調。所以,當我舉出例子時,我會告訴你我對這些例子的喜愛。並且,當我確實指出示例的問題時 - 我會這樣做,因為沒有研究是完美的 - 我將試圖以積極和樂觀的方式指出這些問題。我不會因為批評而變得批評 - 我會變得批評,以便我可以幫助你創造更好的研究。

我們還處於數字時代社會研究的早期階段,但我看到了一些如此常見的誤解,以至於我在前言中對它們進行解決是有意義的。從數據科學家那裡,我看到了兩個常見的誤解。首先是認為更多數據會自動解決問題。然而,對於社會研究來說,這並不是我的經驗。事實上,對於社會研究而言,更好的數據 - 而不是更多的數據 - 似乎更有幫助。我從數據科學家那裡看到的第二個誤解是認為社會科學只是圍繞常識的一堆花哨的談話。當然,作為社會科學家 - 更具體地說是社會學家 - 我不同意這一點。聰明的人長期以來一直在努力去理解人類行為,忽視從這種努力中積累的智慧似乎是不明智的。我希望本書能以一種易於理解的方式為您提供一些智慧。

從社會科學家那裡,我也看到了兩個常見的誤解。首先,我看到有些人因為一些不好的論文而使用數字時代的工具來撇開社會研究的整個想法。如果您正在閱讀本書,您可能已經閱讀了大量使用社交媒體數據的文章,這些文章是平庸或錯誤的(或兩者兼而有之)。我也有。然而,從這些例子中得出結論認為所有數字時代的社會研究都很糟糕將是一個嚴重的錯誤。事實上,您可能還閱讀了大量使用調查數據的文章,這些文章是平庸或錯誤的,但您不會使用調查來撇開所有研究。那是因為你知道調查數據已經做了很多研究,在本書中我將向你展示,對數字時代的工具也做了很多研究。

我從社會科學家那裡看到的第二個常見誤解是將現在與未來混為一談。當我們評估數字時代的社會研究 - 我將要描述的研究時 - 重要的是我們提出兩個截然不同的問題:“這種研究方式現在如何運作?”和“這種風格的表現如何?”未來的研究工作?“研究人員接受了第一個問題的回答,但對於本書,我認為第二個問題更為重要。也就是說,儘管數字時代的社會研究還沒有產生大規模的,改變範式的智力貢獻,但數字時代研究的改進速度卻非常迅速。正是這種變化率 - 超過目前的水平 - 使數字時代的研究對我來說如此令人興奮。

即使最後一段似乎在未來某個未指定的時間為您提供潛在的財富,但我的目標不是在任何特定類型的研究中向您推銷。我本人並不擁有Twitter,Facebook,谷歌,微軟,蘋果或任何其他科技公司的股份(儘管為了完全披露,我應該提到我曾在微軟工作或從微軟獲得研究經費,谷歌和Facebook)。因此,在整本書中,我的目標是保持一個可信的敘述者,告訴你所有可能的令人興奮的新東西,同時引導你遠離我見過別人陷入的一些陷阱(偶爾陷入自己) 。

社會科學和數據科學的交叉有時被稱為計算社會科學。有些人認為這是一個技術領域,但這不是傳統意義上的技術書籍。例如,正文中沒有方程式。我選擇以這種方式寫這本書,因為我想提供一個全面的數字時代的社會研究視圖,包括大數據來源,調查,實驗,大規模協作和道德。事實證明,不可能涵蓋所有這些主題並提供有關每個主題的技術細節。相反,在每章末尾的“接下來要閱讀的內容”部分中給出了更多技術資料的指示。換句話說,本書並非旨在教你如何進行任何具體的計算;相反,它旨在改變您對社會研究的看法。

如何在課程中使用本書

正如我之前所說,這本書部分來自於自2007年以來我在普林斯頓大學教授的計算社會科學研究生研討會。既然你可能正在考慮使用這本書來教授一門課程,我想我可以幫助我解釋它是如何從我的課程中發展出來的,以及我是如何想像它在其他課程中使用的。

幾年來,我沒有書就教我的課程;我只是分配了一些文章。雖然學生們能夠從這些文章中學習,但僅僅文章並沒有導致我希望創造的概念上的變化。所以我會花大部分時間在課堂上提供觀點,背景和建議,以幫助學生看到全局。這本書是我試圖以一種沒有先決條件的方式寫下所有的觀點,背景和建議 - 無論是社會科學還是數據科學。

在一學期的課程中,我建議將本書與各種附加讀物配對。例如,這樣的課程可能需要花費兩週時間進行實驗,您可以將第4章與關於主題的讀數配對,例如預處理信息在實驗設計和分析中的作用;公司大規模A / B測試引發的統計和計算問題;專門針對機制的實驗設計;與使用來自在線勞動力市場的參與者相關的實際,科學和道德問題,例如Amazon Mechanical Turk。它還可以與編程相關的閱讀和活動配對。這些許多可能配對之間的適當選擇取決於課程中的學生(例如,本科生,碩士生或博士生),他們的背景和目標。

一學期課程還可以包括每週問題集。每章都有各種難度標記的活動:簡單( 簡單 ),中( 中 ),很難( 硬 ),非常努力( 很難 )。另外,我用它所需的技能標記了每個問題:數學( 需要數學 ),編碼( 需要編碼 )和數據收集( 數據採集 )。最後,我標註了一些我個人最喜歡的活動( 我的最愛 )。我希望在這些多樣化的活動中,你會發現一些適合你學生的活動。

為了幫助人們在課程中使用本書,我開始收集教學材料,如教學大綱,幻燈片,每章的推薦配對,以及一些活動的解決方案。您可以在http://www.bitbybitbook.com找到這些材料並為其做出貢獻。