Facebook Pixel
訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

數據科學的盲點與極限

【AD Partner】

遠見編輯部
user

遠見編輯部

2014-11-11

瀏覽數 18,450+

數據科學的盲點與極限
 

喜歡這篇文章嗎 ?

登入 後立即收藏 !

大數據(Big Data),或譯為巨量 / 海量資料,過去是數據科學家(Data Scientist)的專業術語,現今已是產官學界眾人都掛在嘴邊的名詞。從魔球(Money Ball)在職業棒球上的應用,到 Netflix 運用串流影音數據推出紙牌屋(House of Cards),乃至商業、政治、氣象,我們因為看到了大數據分析的驚人成功而爭相投入,但常常忽略了隱藏其中的風險和迷思。

一、資訊超載

Nate Silver 所著作的「精準預測(The Signal and the Noise)」一書中,點出資訊超載(Information overload)現象是投入大數據分析領域要面臨的最大門檻之一。根據作者書中統計,15世紀古騰堡(Gutenberg)改良印刷術使之工業化以來,人類資訊傳播速度開始大幅提升,而如今因為網際網路技術的發達,人類目前每天會製造超過250萬兆位元(2,500 PB)的資料,過去兩年製造的資料佔了人類歷史累積資料量的九成以上,呈現幾何級數的增長。

資訊超載所造成的最直接問題,就是數據處理的成本上升。以目前硬體儲存成本已經非常低廉的情況下(約 0.04 USD/GB),光是儲存前述每日 2500 PB 的資料,就需要超過一億美元,而數據的傳輸、處理、與應用分析皆需投入的大量資本與人力。

資料來源:https://www.zdnet.com/

就數據科學的理論層面而言,因為無法事前知道哪些數據具備有意義的高應用價值,所以通常會選擇盡可能地儲存所能收集到的資料,但在實務面因為營運成本考量(大數據的廣義定義),全面性的數據收集與分析往往不可行,同時數據過多所造成的雜訊(noise)也會使分析結果打折扣。然而事前規劃受限制的收集面向與範疇,如此又一定程度上違背了資料採礦(Data mining)的原則,使得欲投入大數據領域者陷入兩難。

二、預測的主觀性

大至天災、人禍、經濟、政治,小至保險、投資、博弈,人類從占卜、觀星到目前發展成熟的數據科學,預測(Prediction)始終都是最重要的目的,只要預測的結果能產生一定程度以上的正確性,數據和數據模型就有了存在的價值。

遠見陪你智慧行,閱讀有禮送好箱

這就牽涉到所謂「客觀的」預測是否存在的討論。精準預測的作者 Nate Silver 抱持否定態度,認為所有的預測都是主觀的,即便數據都是由外部產生,但數據模型(model)和數據解讀結果,都必然存在着人為的主觀判斷。自我實現(Self-fullfilling)和自我取消(Self-defeating)是預測存在主觀性的論證。

自我實現的預測,指得是事前預測的行為,會促使預測結果實現,例如選舉民調,投票日前某位候選人民調的大幅上升或落後,會使支持者產生樂觀或悲觀的情緒,進而提升或降低該候選人的得票率,因此民主制度下的選舉通常會有投票前十日(或一段時間內)禁止媒體公佈民調的規定,亦即所謂的封關民調。

自我取消的預測,則剛好相反。最明顯的例子就是流行性疾病預報,當國家衛生機構依據溫度、環境因子、全國病例等數據,預估今年冬天流行感冒患者將會大幅增加時,民眾會因為害怕疾病而嚴加防範(注意保暖、外出戴口罩等),使得疾病預報的準確性降低了。

三、失誤的代價

2007年出版的「黑天鵝效應(The Balck Swan)」一書中,已經充分論述了離群值(outlier)所帶來的巨大衝擊。就一般的統計理論而言,離群值因為發生的機率微小,且對模型的影響程度不高,一般會忽略這種離群事件所造成的誤差。但正是這種微小誤差的累積,造成美國 911 攻擊事件、金融海嘯、以及日常生活中所發生的諸多大小意外。

以金融海嘯的源頭──次級房貸(Subprime Mortgage Loan)而言,根本問題出在於雷曼兄弟這類的信評機構(Rating agency),根據模型所包裝成的衍生性金融商品,很大程度低估了潛在的違約風險(default risk)。當市場上已經發行了大量的高風險商品時,即使違約機率很低,然而一旦發生所造成的連鎖傷害就會非常巨大,也就是後來的 2008-2009 金融海嘯。如下圖所示,如以加權平均方式計算,資產整體的違約率只有 3.7%,但事實上隱含了一定比重的高風險資產。

對企業的行銷長(CMO)而言,廣告行銷費用投入所取得的數據回餽,也同時面臨到數據效益評估、預測價值、以及風險控管的問題,而在數位廣告大行其道的今日更顯重要。廣告數據管理平台 DMP 能否與廣告需求方平台DSP 串聯,進行即時的成效回餽,並針對關鍵參數進行廣告成效優化,已成為廣告主採用的必要條件。

作者簡介:

林毅祥(TK)為ADPartner 創辦人兼任CEO,2012年於台灣率先引進Facebook sPMD服務與Facebook手機廣告,2013年與海外技術夥伴合作開發需求方廣告平台 ALL X DSP,可進行PC、手機、平板跨屏投放,並串接大陸主流網路媒體,成為台灣唯一可同時投放兩岸的跨境廣告平台,2014年進一步推出 ALL Data DMP,成為同時整合 DSP 與 DMP 的廣告技術公司。企業使命:成為廣告主真誠的ADPartner,致力於提昇台灣數位廣告產業之國際競爭力。

延伸閱讀

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務