2014大數據峰會：想淘金　得將巨量資料變情報

記者甘偉中／上海報導

自人類有文化以來，就不斷在記錄資料，資料量也一直在增長。不過這幾年，突然出現巨量資料（Big Data, 也有人稱海量資料、大數據）這個詞，不禁令人摸不著頭腦，到底多大的資料量才算巨量，和以前有什麼不同呢？

全中國規模最大的巨量資料高峰會「Teradata大數據峰會」，5月8、9日在上海舉辦，台灣和沛科技創辦人暨執行長翟本喬，受邀參加這場盛會，並擔綱其中一場主題演講，對巨量資料的理念與應用，做了深入簡出的說明。

維基百科對巨量資料的定義，牽涉到四個V：量（Volume，資料量相對巨大）、速度（Velocity，要在短時間內處理好）、多變（Variety，資料型態複雜且可能會變化），真實性（Veracity，並非所有的資料都是正確的）。

也就是說巨量資料不只量非常大，還包含複雜的資料型態，也會有錯誤的資料在內，但是又必須在很短的時間內，從這麼多資料中萃取出有價值的部份。

如果你看不懂以上說明也無所謂，翟本喬說，只要是DB2/Oracle/MSSQL/MySQL，這些傳統資料庫無法處理的資料，就叫做巨量資料。

不只是這樣，他接著說明，還有就是思維上的改變。傳統計算科學的思維是：讓我的電腦快一千倍，這個問題就解得出來；巨量資料時代的思維是：讓我的資料多一千倍，這個問題才解得出來。

他以大家熟悉的電腦翻譯為例，傳統的方法是利用字典、文法規則、例外資料庫等，來比對文章內容；初期效果不錯，但後來發現，語言的用法是會變的，例外越來越多，這樣的方法不會進步。

後來演變為統計翻譯，把每篇文章不同語言的翻譯放在一起比較，如果發現某個詞在很多篇文章中都對應到其他語言相同的一個詞，那麼就可以認為，這兩個詞有很大的機會是表示相同的意思。

使用這個方法，初期效果不佳，但會越練越強、自動成長，而且不懂該語言也能翻譯；而採用統計翻譯的方式，就會需要非常大量的數據，越多越準。

從系統架構上來看，以往儲存資料的設備與進行分析的設備是分開的，但在巨量資料的情況下，資料儲存和分析必須在同一個設備內，因為這樣才會快，因為搬移巨量資料需要的時間太長了。

巨量資料所保存的內容，也是有分層次的，翟本喬進一步說明。這些存在儲存設備裡面最原始的資料，叫做storage（儲存）；透過系統介面，可以看得到的，是data（資料）；而data裡面，人看得懂的，叫做information（資訊）；information裡面，可以實際被應用上的，才能稱為intelligence（情報）。

整個巨量資料系統的目的，就是在萃取出有價值的情報。

而要能看出巨量資料中資訊所在，知道如何把資訊轉成情報，最終運用這些情報獲利的人，並不是IT技術人員，而是在各個領域的專家們。他最後以應用角色上的差異，來說明巨量資料和以往的不同。

2014大數據峰會：想淘金　得將巨量資料變情報

編輯精選

全聯驚見神祕ATM機台「有超強大功能」網曝影片大讚：過程超療育

屏東熱博彩稻插秧活動暨屏東飯湯節

南投縣府與暨大推動「南投農好」品牌，甄選特色伴手禮

縣府與暨大推動南投農好品牌甄選特色伴手禮

探秘鐵道迷必訪的雲林虎尾！舊時光百年鐵道軌跡之旅

休假到宜蘭閒適僻靜！宜蘭IG私房景點推薦！

110-111年度「城鎮風貌及創生環境營造計畫」　雲林獲全國頂尖榮譽

台東知本跨年暖湯音樂會王中平等多位藝人與您一起迎接跨年初雪

宜蘭 Uber 好用嗎？宜蘭有哪些叫車軟體？宜蘭出遊叫車指南！

AuntStellaxVenchi開心果巧克力軟餅乾全台限量上市

即時新聞

推薦新聞

社群留言

台北旅遊新聞

2014大數據峰會：想淘金 得將巨量資料變情報

編輯精選

即時新聞

推薦新聞

社群留言

2014大數據峰會：想淘金　得將巨量資料變情報