回到頂端
|||
熱門: 關八 世足 分屍

2014大數據峰會:想淘金 得將巨量資料變情報

NOWnews/ 2014.05.12 00:00

記者甘偉中/上海報導

自人類有文化以來,就不斷在記錄資料,資料量也一直在增長。不過這幾年,突然出現巨量資料(Big Data, 也有人稱海量資料、大數據)這個詞,不禁令人摸不著頭腦,到底多大的資料量才算巨量,和以前有什麼不同呢?

全中國規模最大的巨量資料高峰會「Teradata大數據峰會」,5月8、9日在上海舉辦,台灣和沛科技創辦人暨執行長翟本喬,受邀參加這場盛會,並擔綱其中一場主題演講,對巨量資料的理念與應用,做了深入簡出的說明。

維基百科對巨量資料的定義,牽涉到四個V:量(Volume,資料量相對巨大)、速度(Velocity,要在短時間內處理好)、多變(Variety,資料型態複雜且可能會變化),真實性(Veracity,並非所有的資料都是正確的)。

也就是說巨量資料不只量非常大,還包含複雜的資料型態,也會有錯誤的資料在內,但是又必須在很短的時間內,從這麼多資料中萃取出有價值的部份。

如果你看不懂以上說明也無所謂,翟本喬說,只要是DB2/Oracle/MSSQL/MySQL,這些傳統資料庫無法處理的資料,就叫做巨量資料。

不只是這樣,他接著說明,還有就是思維上的改變。傳統計算科學的思維是:讓我的電腦快一千倍,這個問題就解得出來;巨量資料時代的思維是:讓我的資料多一千倍,這個問題才解得出來。

他以大家熟悉的電腦翻譯為例,傳統的方法是利用字典、文法規則、例外資料庫等,來比對文章內容;初期效果不錯,但後來發現,語言的用法是會變的,例外越來越多,這樣的方法不會進步。

後來演變為統計翻譯,把每篇文章不同語言的翻譯放在一起比較,如果發現某個詞在很多篇文章中都對應到其他語言相同的一個詞,那麼就可以認為,這兩個詞有很大的機會是表示相同的意思。

使用這個方法,初期效果不佳,但會越練越強、自動成長,而且不懂該語言也能翻譯;而採用統計翻譯的方式,就會需要非常大量的數據,越多越準。

從系統架構上來看,以往儲存資料的設備與進行分析的設備是分開的,但在巨量資料的情況下,資料儲存和分析必須在同一個設備內,因為這樣才會快,因為搬移巨量資料需要的時間太長了。

巨量資料所保存的內容,也是有分層次的,翟本喬進一步說明。這些存在儲存設備裡面最原始的資料,叫做storage(儲存);透過系統介面,可以看得到的,是data(資料);而data裡面,人看得懂的,叫做information(資訊);information裡面,可以實際被應用上的,才能稱為intelligence(情報)。

整個巨量資料系統的目的,就是在萃取出有價值的情報。

而要能看出巨量資料中資訊所在,知道如何把資訊轉成情報,最終運用這些情報獲利的人,並不是IT技術人員,而是在各個領域的專家們。他最後以應用角色上的差異,來說明巨量資料和以往的不同。

社群留言