Facebook Pixel
訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

巨量資料極具價值,但也不能忽略人性

《大數據》作者麥爾荀伯格 首度訪台論壇

王怡棻
user

王怡棻

2014-06-30

瀏覽數 14,700+

巨量資料極具價值,但也不能忽略人性
 

本文出自 2014 / 7月號雜誌 小米,社群之王

雖然當天室外陰雨霏霏,卻擋不住台灣讀者的熱情,現場上千個座位一早就座無虛席。現任牛津大學網路研究所教授的麥爾荀伯格,是享譽全球的大數據專家,寫過上百篇大數據專論與八本專書。若說「大數據」一詞是經由他廣為流傳,並不為過。

一出版就熱銷 橫掃全球書市

他撰寫的《大數據》一書,2013年一出版就橫掃全球各大書市。登上美國亞馬遜「資訊管理」及「電腦文化」暢銷雙榜第一名,在台灣則長踞誠品、金石堂、博客來排行榜,被選為2013年博客來商業理財年度之最與2014年國家文官學院每月一書。

1966年生於奧地利的麥爾荀伯格,從小就展現過人天賦。出身於一個山區小村落,曾代表學校參加奧林匹亞物理競賽,14歲時自學電腦軟體研發,表現更是傑出。由於擔任學校校刊編輯,他還自己研發了一套校刊訂報系統。20歲時創辦防毒軟體公司,一度是奧地利最受歡迎的防毒軟體。

雖曾順應父親要求,大學就讀法律系,並拿到哈佛法律學位,但繞了一圈後,他還是回到自己最終愛的電腦科學領域。現在的他不但是微軟、世界經濟論壇等知名機構的顧問,更是「大數據」最佳詮釋者。以下是當天演講精華摘要:

分析過往航線 準確預測票價

談大數據可先從幾個故事講起。有個故事是發生在華盛頓大學電腦系伊茲奧尼(Oren Etzioni)教授身上。伊茲奧尼很節儉,從小就知道東西要在最便宜的時候買。有一回,他要搭飛機去參加婚禮,為了搶便宜,他早早就訂好了機票。

上飛機後,自以為買到最便宜機票的他,興沖沖問隔壁乘客機票買多少錢,沒想到比他買的還便宜。不信邪的他又問另一邊乘客,竟然也比他便宜。他好奇問對方何時買機票的,對方回答竟是「前天」。伊茲奧尼很不高興,竟開始一項研究,取名「哈姆雷特計畫」,處理的是機票「買」與「不買」(to buy or not to buy)的決定,來與莎士比亞名劇中哈姆雷特「To be or not to be」的名言對比。

他向旅行社索取了大筆的訂位資料,過去旅行社不認為這些資料有價值,但他卻挖到寶。他找出每個航班、每個座位的票價,再用大數據分析,找出航空公司制訂票價的模型,進而預測機票票價。

之後他創了一家新興公司Farecast,當使用者選好路線與班機後,系統會告訴他什麼時候買機票最便宜,準確率高達七成,幫很多人省下大筆金錢。Farecast的創立背後是靠大數據,其實Google的成功也是因為大數據。大數據顧名思義就是數據很多,事實上也是如此。

類比跨入數位 資料量爆炸

15年前,科學家就用天文望遠鏡蒐集太空資訊,然而,它過去10年蒐集的資訊,還不如2000年麻省理工學院研發的天文望遠鏡一個月蒐集的多,而且2016年將啟用的新一代天文望遠鏡,過去10年的資料量只需要5天就能收集到。

又如11年前發現的基因圖譜,每個人的基因各不相同,一開始要定序必須花非常多的時間,現在只要花兩三天、1000美元就能完成。網路公司也是,Twitter、YouTube每天產生、處理大量資料,Google每天處理的資料量,更是國會圖書館的100倍,非常驚人。

回到人類歷史來看,上一次的資料大爆發是由於印刷術的關係,當時情況是,53年增加2倍,現在則是20年增加100倍。為什麼有這麼大的轉變?主要原因在於資料形式,由「類比」走向了「數位」。

就以統計來看,2000年還有3/4資料是類比形式,現在類比剩不到1%。數位不但易於儲存也易於分析,促成了大數據時代的來臨。量大就會產生質變,這正是大數據的重要威力。比方為一隻奔馳的賽馬拍照,拍一張就是一張照片,但當用一秒16張的速度連拍,串起來就變成一部影片。

數據量遽增 容許部分不精確

大數據有三個主要特色,第一就是剛才提到的「巨量」,此外還有「雜亂」及「相關性」。大數據的「巨量」不只是數量大,還可以有新發現。大數據第二個特色是「雜亂」。過去資料有限,必須非常精確,但是現在資料收集成本陡降,就能容忍資料的雜亂。比方過去只有10組資料,每筆正確性都要斤斤計較,當現在有1萬筆資料,即使其中一半有錯誤,也不嚴重。

不必找因果 要找出相關性

大數據第三個特色,同時也是最有威力的地方,是「相關性」。 透過資料找的不是「因果」,而是「相關性」。在巨量資料時代,不需要想「為什麼」(why),而應該想「能發現什麼事」(what)。比方,美國大型量販賣場沃爾瑪(Walmart)有儲存顧客消費資料,透過大數據分析後發現,每當颶風來臨前,不只是手電筒、電池等防災用品賣得好,連草莓口味的果漿土司(Pop-tarts)也賣得非常好。

人們為什麼會去買果漿土司並不重要,重要的是,颶風來時,沃爾瑪就把庫存的果漿土司統統搬出來,結果馬上大賣,尤其草莓口味更是暢銷。人們習慣找原因,想解釋到底為什麼發生這件事,但結果往往是自欺欺人。就像我母親從小就跟我說,冬天要戴手套否則會感冒,到現在我們都知道感冒是因為病毒傳染,但母親看到我還是講一樣的話。因果的思維根深柢固。

遠見陪你智慧行,閱讀有禮送好箱

1950年代美國政府就嘗試以機器來做翻譯,當時他們手上有大筆的俄文資料,很想知道文件內容是什麼,裡面有沒有國防機密,於是他們找來了電腦科學家幫忙。電腦科學家把200多條文法規則放入電腦,以為把文件統統輸入就能翻譯出來。但可惜的是,電腦科學家總是過度樂觀,電腦沒有成功翻譯出來,這個10億美元計畫宣告失敗,翻譯沒有這麼簡單。

事情後來因為IBM出現轉機,IBM發現,或許不應該要電腦懂「為什麼」,而應該讓它知道「發生什麼事」。只要統計出一個語言最常翻譯成另一個語言的什麼詞彙即可。於是他們把加拿大國會,許多英語、法語並列的3億筆文件放入電腦,跑出模式,比之前翻譯的結果好很多,但接下來仍無重大突破。

數量重於品質 翻譯功力大增

又過了10年,Google把所有歐盟多語文件、跨國公司多語網站、書籍的不同語言版本,甚至電視、錄影機有不同語言的使用手冊,不管翻譯良莠,統統放進資料庫分析。現在已經可以比較流利的翻譯,比方,我想知道台灣讀者對我的書有什麼意見,我(看不懂中文)就找到網頁,再放進Google翻譯,就能知道大約在講什麼。

大數據還可以幫助弱勢。比方早產兒很容易受到感染,藥效常來不及,安大略理工大學的麥克蕾格(Carolyn McGregor)博士就與IBM合作,利用感應器收集早產兒身上各種生命跡象的數據。在累積很多資訊之後,發現病徵出現前24小時,孩子若狀況很平和,那才是警訊,必須儘快治療。

可重複使用資料 創造新價值

大數據核心價值,就是能夠重複使用資料,並且從中創造出新價值。比方交通資訊服務公司INRIX,為什麼能告訴通勤的人怎麼走不塞車?原來,1億用戶都是它的感應器,每天收集各地的交通資料就能分析。又如一家荷蘭電信公司發現天氣與訊號強度有關,從訊號強度能夠預測氣象,於是就發展出氣象轉播台的服務,比當地氣象局還要準確!

很多人或許知道2011年創的「Duolingo」,這是個用遊戲方式學外語的APP,它累積大量資料後,知道大家是怎麼學語文,哪些文法最難懂?最常犯哪些錯?從中找出最有效的學習方法,形成一波教育革命!

大數據現在是無所不在,例如美國標靶百貨(Target)可以用顧客購買資訊,來預測消費者是否懷孕。但也因為功能太強大,開始有人擔心會不會變成老大哥(big brother),會不會像電影《關鍵報告》一樣,還沒做事就被抓起來?所以要很小心。

我的結論是,大數據可以改變決策模式,但也有其挑戰,重點是我們怎麼使用它。資料只是真實世界影子,但也不能忘了謙卑與人性。

產官學親臨請益 觀點精彩交鋒

善用數據力量 也要滿足人性需求

在專題演講後,《遠見雜誌》安排麥爾荀伯格與教育部長蔣偉寧、新北市長朱立倫、IBM全球企業諮詢服務部大中華區商業分析和新興市場副總裁兼合夥人詹森凱利(Jason Kelley),對大數據觀點進行交流。

此次論壇,三位與談貴賓有許多想法和麥爾荀伯格請益,形成觀點與問答的精彩交鋒。做為麥爾荀伯格的書迷,教育部長蔣偉寧在讀《大數據》一書時曾廢寢忘食,讀到凌晨4點,他不但買了50本書送給學生與重要同仁,在會場聽到麥爾荀伯格9月還將有新書出版《Learning with Big Data》,談大數據如何應用在教育,更興奮的表示希望先睹為快。

教育〉開科系培養相關專家

在論壇上,蔣偉寧部長由教育的角度,請教在大數據來臨下,大專院校應該如何做好準備?同時也好奇大數據在眾多優勢背後,是否有風險或缺點。「巨量資料分析能力愈來愈重要,大學應該有這類的碩博士學位,」麥爾荀伯格表示,目前巨量資料專家並不多,因此有很多機會,在市場需求下,這類專家肯定愈來愈多。

在潛在風險方面,他最擔心的則是「資料獨裁」,也就是賦予資料過多重要性,卻忽略了人性部分。「面對資料要帶批判眼光,不能照單全收!」他提醒,資料不可能完美無缺,在信任與不信任間,必須取得平衡。否則很可能會走向全然揚棄的極端。他認為,應該要有適當的法律政策架構,讓巨量資料良性發展。

政策〉找出人民最關切議題

聽了麥爾荀伯格的答覆,蔣偉寧進一步詢問,政府應該如何把大數據分析工具,應用在公共政策上?麥爾荀伯格快人快語表示,政府將是大數據發揮作用最大的地方,可以用數據分析結果做為基礎,進行公共政策的決策。比方紐約前市長彭博,就找了大數據專家,協助分析哪些房屋過於老舊,容易發生火災。

同樣高度關注大數據議題的新北市長朱立倫,則是從市政角度請教麥爾荀伯格。「在台灣往往都是根據民調決定市政方向,但是民意如流水,變化很大,如何適當使用大數據分析?」他問。「民調讓我們了解民眾的想法,但無法預測未來,」麥爾荀伯格不諱言,政治人物應該做的,是用大數據找出人民關切的核心議題,進而了解人民的行為想法。

同時間,要懂得用淺顯易懂的語言跟人民溝通,不要像學者一樣使用高深莫測的詞彙。此外,還要有明確的願景,不能辜負民意託付。「政治人物要有能力承擔風險,不要畏懼做對的事!」麥爾荀伯格堅定地說。

你可能也喜歡

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務