[閱讀筆記] 數據、謊言與真相,透過數據分析揭露人們的真面目

lies 1 - [閱讀筆記] 數據、謊言與真相,透過數據分析揭露人們的真面目說謊的人,要吞一千根針喔 …

看完這本書,想起林宥嘉《說謊》這首歌,就如同歌詞裡寫的「人生已經如此的艱難,有些事情就不要拆穿」。總是有許多說不出口的理由,讓我們說謊,也總是要等到那些夢幻泡泡破滅的時候,才願意坦承面對 …


當你面對 Google 的時候,你會說謊嗎?

我們都希望能透過搜尋引擎找到想要資料,所以願意說出秘密以換取答案。

而在搜尋的過程中,我們所處的環境、使用的裝置類型、在甚麼時間所下的關鍵字等資訊,都將成為珍貴的搜尋紀錄,收進 Google 的檔案櫃裡,成為大數據的一份子

人會說謊,但大數據不會

我很喜歡這本書的副標,作者大量的利用 Google 所提供的工具 Google Trend 搜尋趨勢, 從 Google 這個超級無敵大的檔案櫃裡翻找線索,分析人們的搜尋紀錄,釐清事情之間的因果關係。

同時也結合許多數據集來做實驗,比如成人網站 Pornhub 的搜尋紀錄、維基百科的名人錄,或者是 Facebook 粉絲專頁的按讚數據。

這些資料都是傳統科學家無法觸及的,也讓我想起心理學中許多的殘忍實驗,其中一個就是著名的電狗狗「習得無助」實驗。透過不斷的電擊,想要看看狗狗是不是會因為幾次逃離失敗之後,覺得自己無法控制不被電擊這件事,於是產生消極的行為,就此放棄「狗」生 …

如果當時有辦法收集自然數據,是不是就可以避免這些可憐的實驗狗被電擊、或是白老鼠被開腸破肚呢?

有了這些新時代的數據,我們都像是吃了誠實豆沙包,很積極的提供各種資訊給搜尋引擎,這當然要歸功於現代科技帶來的良善環境:

提供一個具有隱匿性、不會被追蹤的網路介面,讓使用者為了尋求答案而不說謊。

這些大企業才有辦法透過這些資料發掘出商機,找到更多賺錢的機會,社會科學、心理學、經濟學等等專家才有辦法利用這些資料,直接窺探人們的內心,更進一步的了解世界如何運轉

這本書從數據面來找答案,但光從 Google Trend 拿到的資料還是有限,或許有些重要的資訊被我們忽略了。作者也坦言這樣的分析方式有所限制,不過我們可以看出事情的大方向,從中翻轉一些我們僵化的認知。

當然,我自己也對於一些分析結果抱持懷疑的態度,比如 Google Trend 沒有性別資訊(作者是依照不同關鍵字來做區隔)、要觀察那些關鍵字、關鍵字的同義問題,比如 Apple 可以是蘋果或是蘋果電腦,雖然可以透過類別設定避免這個狀況發生,但感覺還是不穩呀。

我簡單的在 Google Trend 比較養寵物關鍵字的搜尋聲浪。

像最近養青蛙很紅,出現了一個高峰,而養貓養狗的比例,遠高於養老鼠。但我觀察了關鍵字們的相關搜尋,養狗這個關鍵字居然出現「男友要自己從狗養起」?

原來,這是一本漫畫書名。

googletrend - [閱讀筆記] 數據、謊言與真相,透過數據分析揭露人們的真面目

接著,我就書中幾個重要的議題與大家分享。


大數據提供的四種力量

說到大數據,每個人劈頭要問的問題肯定是多大的數據才叫大數據,而這個問題也是多方爭論不休,我自己則是覺得有價值的數據就可以稱之為大數據,拿著一堆無用的垃圾資料,總比資料量少但看得出意義的抽樣統計來的好吧。

所以這本書也沒提大數據的定義,反倒直接從好處起頭,向大家說明大數據帶來的四種力量,分別有:

  • 提供新類型的數據
  • 提供誠實的數據
  • 允許我們把焦點放在人口中的小子集
  • 允許我們進行很多因果關係的實驗

同時,作者也說

數據分析應該用在傳統預測成果很差的領域,能夠更容易找到被忽略的要素,創造出驚人的預測效果

我想這部分還滿直觀的,想起以前教授常說「機器學習只是一個工具,重點是我們怎麼使用他」、「很多科學突破往往都是在生活中獲得靈感,找到機會就要應用」,隨著深度學習的大肆崛起,很多研究都開始了跨領域的嘗試,像是 Google 使用機器學習節省電費協助人類發現行星

當然,我們知道要找出數據分析可以戰勝傳統做法的領域很重要,但在數據蒐集上會遇到許多困難。

比如以前的醫學診斷紀錄都是手寫文件,要將這些資料數位化會是個漫長的挑戰。而另一方面,那些科技巨頭所掌握的海量資料也不容易分享出來,普通人無從取得,更別說分析了,沒辦法像作者身為 Google 資料分析師那樣,有那麼多資源呀!

我們面臨的是一場資訊不對等的戰爭,需要善用眼前的工具,找出一些突破口。

這裡,我先列出書中提到的有用工具以及資料集,有興趣的朋友可以繼續專研:

雖然我們拿不到 Pronhub 的資料,但可以逛逛網站呀 XDDD 下圖取自於 Pronhub Insight 的報告。可以看出今年冬季奧運舉辦在韓國,所以大家搜尋韓片的比例明顯提升。

pronhubinsight - [閱讀筆記] 數據、謊言與真相,透過數據分析揭露人們的真面目

我哪有說謊?但數據就是可以拆穿人性

以前我總以為 Google Trend 只是個好玩的工具,沒想到有許多研究都是基於這樣的搜尋資料進行分析,觀察些社會議題,或是針對未來事件做預測。書中除了舉出有趣的例子,也提供相關論文佐證,雖然我已經脫離菸酒生的生活,但不免也翻了幾篇長長知識 (雖然也沒看懂甚麼XDD)

美國同性戀的比例、美國大選得得票分布、暴力電影上映後凶殺案的發生比率等等,滿多問題看起來並不那麼直接相關,但從搜尋紀錄卻可以看出某些線索。

比如從 AOL 洩漏出來了去識別化搜尋紀錄中,可以發現一個人如果頻繁的搜尋「同志測驗」、 「同志情色影片」等等關鍵字,那麼我們可以推測他很有可能是同性戀。

又比如從搜尋「 黑鬼 」這個關鍵字來推測美國哪些地區的人們帶有種族歧視的比率較高,進一步推測出總統大選的選情,最後作者也說明了預測結果跟後來川普的得票分布呈現高度相關。

讓我感到意外的則是暴力電影上映後,犯罪案居然會下降?

照裡說看完應該熱血沸騰,想要模仿劇中的角色才是,可是根據分析,暴力電影會吸引那些潛在的危險份子前往電影院,而不是去酒吧喝酒鬧事,數據也顯示,暴力電影上映的周末,酒精犯罪事件變得異常的少。

另一個有趣的研究則是深深地打動我心,就跟美國影集《黑鏡》第三季第一集《急轉直下》所描繪的世界如出一轍,現實中也是如此吧

我們盡力的在社群網站中包裝自己,讓一切看起來是如此美好

作者以美國兩間規模、訂閱數差不多的雜誌進行比較,分是《大西洋雜誌》以及《國家詢問周刊》,前者走的是知性路線,後者則是以八卦新聞著名。

根據他的調查,《大西洋雜誌》粉專的按讚數居然是《國家詢問周刊》的 27 倍阿,想想看你是不是也會去某些專頁按讚,以顯現出自己的格調呢?

如果你點了某某正妹美女粉絲頁,就好像給人輕浮的感覺。

其實還有很多有趣的例子值得細細品味,就等著大家去翻翻書吧!

這裡只是想強調,從大數據中可以看出人的醜陋面,畢竟很多事情都不是我們會輕易透漏的,就算是電話民調、路邊的問卷調查,我們也會因為避免談論敏感議題、或是因為自己的面子而隱藏內心的想法,這些東西不外乎就是政治犯罪呀。


A/B 測試以及自然實驗

我們都想要知道產品或廣告有沒有深得人心,所以會透過一些方法進行測試,撇除傳統的問卷調查外,我們可以透過數據進行 A/B 測試或是利用大自然給予的機會進行自然實驗

對於 A/B 測試大家應該都不陌生,他原先稱作隨機對照實驗 (Randomized Controlled Trial),就是以前我們理化課常用的手法,隨機將待測物分為實驗組與對照組。接著我們控制操縱變因,觀察兩者之間會不會產生不同結果,最後推論出他們的因果關係。

這樣的實驗方式,在數位化時代特別好用,以前傳統實驗做不到的, 現在只要按一個按鍵就能立即取得結果。而這也大量的被應用在網站設計、數位廣告投放之中。

比如 Google Adsense 裡面就提供了廣告實驗的功能,系統會自動測試並選出合適的廣告型態,提升訪客的點擊率。

例如下圖這個例子,我們針對「Learn more」按鈕的樣式進行 A/B 測試,最後發現使用者更喜歡點選有箭頭的綠色組合。

A B testing simple example - [閱讀筆記] 數據、謊言與真相,透過數據分析揭露人們的真面目

比較有趣的反倒是自然實驗,比如說超級盃足球賽。

那些電視廣告的時段都是預先買好的,廣告商並不會知道他買下的這個時段是哪兩國的球隊進行比賽,但卻形成天然的 A/B 測試環境,可以根據賽後的銷售量進行分析。

此外也可以看出超級盃廣告到底有沒有效果,數據當然是表明效果超級好,所以儘管廣告費高昂,大家也是爭著搶。


大數據做不到的事情與道德問題

大數據真的是萬靈丹嗎?

作者點出了大數據做不到的事情,那就是股市預測。想要從股市獲利,最快的當然就是內部消息拉,但如果你想要從 Google Trend、新聞事件看出線索,我認為是慢了半拍,畢竟這些都是人們事後寫出來的,就算想要搶快也不會比華爾街的那些光纖線路還要快 XDD

而這之中又牽扯到一件事情,那就是維度的詛咒 (Curse of Dimensionality) 或者說維度災難。

當你要解決的問題太過於複雜(維度太高),但你現有的觀察數據又不足的時候,你可能以為你找到了答案,卻發現那只不過是機率分布下的自然現象。

就好像我們想要用二維空間的眼光去理解三維世界,那就是不可能的事情嘛,你以為一顆球固定在 X-Y 平面的一個位置,卻不知道他其實正沿著 Z 軸不斷的上下移動。

另一個部分就是大數據延伸出來的道德問題了。

書中也提到 2002 年由湯姆克魯斯主演的電影 《關鍵報告》,劇中的犯罪防治局建立起一套預知系統,可以讓警察搶在犯罪發生前制伏嫌犯,到底該說這是神預測呢?還是侵犯人思考的權利呢?畢竟嫌犯還沒有真正要下手呀。

以後執法機關是不是可以分析搜尋紀錄,防止犯罪發生?或者政府可以根據的你搜尋紀錄,替你貼上標籤,藉此提供不同的福利政策?

好比芝麻信用,他分析了你在網路上的所有行為,幫你做出一個信用評等,你如果不配合就會喪失很多權力與好處,這時候該怎麼辦?

網路是把雙面刃,我們透過他獲取知識,同時也靠他取得無窮盡私密性的數據。

在這個數位時代,隱私已經不是甚麼祕密,但我們還是應該持續關注相關消息,就算在網路上充斥著無數謊言,我們也該保護自己,勇於捍衛自己的隱私權

比如開啟無法追蹤的無痕模式、盡量使用訪客身分不綁定自己的帳號、多多使用無法被追蹤的網路 …

哈哈,講起來越來越像是一個秘密駭客囉,不過說真的,便利與隱私只能選一個的時候,你想回去過原始人的生活嗎?還是將就一下呢?不如善用現有的資源,也加入數據分析的行列吧!

現在就去 Google Trend 一下!


好書推薦

Jerry
Jerry

樂於分享的軟體工程師,曾在新創與大型科技公司實習,獲得黑客松競賽冠軍,擔任資安研討會講者。長期熱衷於資訊安全、雲端服務、網路行銷等領域,希望將科技知識分享給更多人。內容轉載請來信:jlee58tw@gmail.com

發表回應