無論多麼“大”的“大數據”,它可能沒有你想要的信息。
多數大數據源是不完整的,在某種意義上說,他們沒有,你將要為你的研究信息。這是比研究其他目的創建的數據的一個共同特點。許多社會科學家已經與不完全處理,如將現有的調查認為沒有問你想問題的經驗。不幸的是,不完整的問題,往往是在大數據更為極端。根據我的經驗,大數據往往缺少三種類型的信息社會研究有用:人口統計,在其他平台上的行為和數據,以實施理論建構。
所有這三種形式的不完全的一項研究Gueorgi Kossinets和鄧肯瓦中說明(2006)對社會網絡在一所大學的進化。 Kossinets和Watts開始從大學的電子郵件日誌,其中有關於誰在什麼時間發送電子郵件給誰(研究人員並沒有進入郵件內容)的精確信息。這些電子郵件記錄聽起來像一個驚人的數據,但是,他們,儘管他們的規模和粒度,根本不完整。例如,郵件日誌不包括有關學生的人口特徵,如性別和年齡數據。此外,郵件日誌不包括有關通過其它媒體,如電話,短信,或面對面的交談面對通信信息。最後,郵件日誌不直接包括有關的關係,在許多現有理論的理論結構的信息。在本章後面,當我談到的研究策略,你會看到Kossinets和Watts是如何解決這些問題。
3種不完整的,不完整的數據,以實施理論結構問題是解決最難的,在我的經驗,它往往是偶然的數據科學家忽視。粗略地說, 理論結構是抽象的概念,社會科學家研究,但不幸的是,這些結構往往不能明確界定和衡量。例如,假設試圖實證檢驗的看似簡單的要求,人們誰更聰明賺更多的錢。為了測試這種說法,你需要衡量的“情報”。但是,什麼是智慧?例如, Gardner (2011)認為,其實有八個不同形式的智力。並且,是否有程序,可以準確地測量任何這些形式的智力的?儘管心理學家巨額的工作,這些問題還沒有明確的答案。因此,即使一個相對簡單的索賠,人誰更智能掙更多的錢,可很難憑經驗估計,因為它是很難的數據,以實施理論建構。社會科學家的理論構造,是重要的,但難以操作包括“規範”,“社會資本”和“民主的其他例子。”打電話的理論結構和數據結構效度之間的比賽(Cronbach and Meehl 1955)而且,隨著結構的這份名單表明,結構效度是一個問題,社會科學家已經為此奮鬥了很長一段時間,甚至當他們與已收集研究的目的數據的工作。當收集的研究比其他目的的數據時,結構效度的問題更具挑戰性(Lazer 2015) 。
當你正在閱讀的研究論文,一是快速而有效的方法來評估有關構想效度的擔憂是取紙,通常是在構造的角度表達的主要主張,以及所使用的數據方面重新表達出來。例如,考慮兩個假設的研究,聲稱顯示,越來越聰明的人賺更多的錢:
在這兩種情況下,研究人員可以斷言,他們已經表明,更聰明的人賺更多的錢。但是,在第一項研究的理論結構是公由數據操作性,並且在第二它們不是。此外,這個例子表明,更多的數據並不會自動解決的結構效度的問題。是否涉及上百萬鳴叫,一個十億鳴叫,或一萬億鳴叫,你應該懷疑研究2的結果。對於研究人員來說並不熟悉的結構效度的思路,表2.2提供了那些操作性使用數字跟踪數據理論結構研究的一些例子。
數字跟踪 | 理論建構 | 引文 |
---|---|---|
從一所大學的電子郵件記錄(僅元數據) | 社會關係 | Kossinets and Watts (2006) Kossinets and Watts (2009) De Choudhury et al. (2010) |
在微博上的社交媒體帖子 | 公民參與 | Zhang (2016) |
從公司郵件日誌(元數據和完整文本) | 文化適應在一個組織 | Goldberg et al. (2015) |
雖然投入運作理論結構的不完整數據的問題是相當困難的解決,也有以不完整的人口統計信息和其他平台上的行為不完整信息的問題三種常見的解決方案。第一個是實際收集你需要的數據;我會告訴你在第3章的的那個例子,當我告訴你有關的調查。不幸的是,這種數據收集不總是可能的。第二個主要的解決辦法是做什麼數據科學家稱之為用戶屬性的推理和什麼樣的社會科學家們稱之為歸集 。在這種方法中,研究人員使用它們對一些人的信息來推斷其他人的屬性。第三個可能的解決方案的由Kossinets和使用的一個瓦-是多個數據源相結合。這個過程有時被稱為合併或記錄鏈接 。我最喜歡這個過程比喻,提出在有史以來記錄聯動第一篇論文的第一段(Dunn 1946) :
“每個人在世界上創造生命的一本書。這本書開始出生和死亡結束。其網頁是由生活中的原則事件的記錄。記錄鏈接是給組裝此書頁成卷的過程中的名字“。
這段話寫於1946年,在那個時候,人們認為生命之書可能包括重大的生活事件,如出生,結婚,離婚和死亡。然而,現在關於人這麼多的信息被記錄,生命之書可能是一個令人難以置信的詳細的畫像,如果這些不同的網頁(即我們的數字的痕跡),可以綁定在一起。人生這本書可能是研究人員一個很好的資源。但是,生命之書也可稱為廢墟的數據庫 (Ohm 2010)它可以用於各種不道德的目的,下面我談一談低於大數據來源收集信息的敏感性質描述的多並在第6章(倫理)。