【WIRED特刊】美國《WIRED》前總編輯Chris Anderson：聽誰的？資料說了算！數字真的會說話

Photo:hanspetermeyer.ca/ Flickr

在Big Data出現以前，沒有科學模型，科學家也不敢貿然提出看法。如今Big Data與數學運算，取代了模型，成為科學家穿越未知的利器。

「雖然有些模型是有用的，但所有模型某種意義上都是錯的！」統計學家波克斯（George Box）30年前的名言雖說得不錯。

但直到Google等企業開始運用Big Data，人們才不必再為了理解周遭世界，忍受使用並不完美的模型，無論是宇宙方程式或人類行為理論，它們雖不完美，但在此之前，人們別無選擇。

我們正置身「拍位元時代」

60年前，電腦讓資訊可讀；20年前，網路讓資訊普及；10年前，首部搜尋引擎整合全世界的資訊成為單一資料庫。現在，Google等企業優遊於史上資料最豐富的時代，可針對特定的問題，精準擷取資料，揭開謎底。大型資料庫化身勾勒人類行為的實驗室，這些都到Big Data問世後才成為可能，它們是「拍位元時代」（拍位元，Petabyte，PB）的產物。

「拍位元時代」之所以不同，是因為「規模」被重新定義。以前，磁碟片儲存千位元、硬碟儲存百萬位元、磁盤陣列儲存兆位元。一旦進入拍位元時代，如此大規模的資料只能儲存在雲端。

在這段演進過程中，規模從檔案夾、檔案櫃發展至圖書館，而進入拍位元後，我們再也找不到適合的比喻。

在拍位元規模裡，資訊不只是三維或四維分類法，更多超越人們理解範圍的數據出現了。採取的處理策略也完全不同以往，不再追求將資料全數呈現，而是先以數學方式看待資料，做為日後分析應用的基礎。

逃不出「數學運算」的如來神掌

例如Google就是以應用數學征服了廣告界，證明只要能改良「資料」與「分析工具」，就有機會勝出。

Google無法一一說明每個網頁流量高低差異的成因，但數據資料若能真實反映使用情形，那也就夠了。所以，縱然Google無法精通各種語言，卻依然具備部分「翻譯」功能，理論上，只要資料量充足，克林貢語（編按：電影《星艦奇航記》外星族克林貢族的語言）也能輕易被翻譯為波斯語。

換句話說，就算不知道廣告或網頁的內容，數學還是能將相關的兩樣東西，串連起來。

2012年3月召開的歐萊禮新興科技研討會上，Google研究部門主管諾維（Peter Norvig）進一步引申波克斯的名言，「所有模型某種意義上都是錯的，就算徹底捨棄模型還是可以成功。」

從現在起，Big Data與應用數學將逐漸取代各種工具，語言學、社會學等人類行為理論的解釋權被削弱，分類法、存在論、心理學也不再是解釋行為成因的權威觀點。對於已經發生的行為，現在能以前所未有的精準工具追蹤、衡量，只要掌握夠多資料，數字會說明一切。

顛覆科學模型的「關聯」

發展Big Data的最終目標，並非為尋找更有效的廣告方法，而是為了建立科學方法。

科學方法的基礎，是可被反覆驗證的假設。過往建立的模型，通常是科學家先有「系統」的想法，經過測試後，再由實驗證明理論模型是否成立，這是科學界數百年來延襲的規則。

在科學訓練中，關聯不等於因素，不能只因X與Y相關就下定論，一切或許只是巧合；必須進一步瞭解讓兩者產生相關的背後機制。一旦模型建立，連結資料群組會更具信心，否則，資料不過是成堆的片段資訊罷了。

然而，面對龐大資料，這套「假設──模型──驗證」的科學方法，適用難度更高。以物理學為例，牛頓提出的模型很接近真實，雖然與原子狀態不符，仍相當有用；百年前，以統計為基礎的量子力學，描繪的樣貌更貼近現實，但仍舊是不完美的模型，無法更細膩呈現真實。

過去數十年，物理學之所淪為N次元巨大模型的揣測理論，是因為我們不知該如何驗證假設不實，包括受限於能量太巨大、加速器太昂貴等因素。

生物學也面臨類似問題，課本裡以看似嚴謹的孟德爾遺傳學，闡述顯性及隱性基因，其實比牛頓定律更簡化，無論是發現基因與蛋白質的互動關係，或是超基因學發展，都挑戰DNA決定一切的論點，甚至有證據顯示環境能影響遺傳特徵。簡而言之，隨著生物學不斷發展，會發現模型無法解釋的事物愈來愈多。

現在，更好的方法出現了，拍位元讓我們瞭解「關聯便已足夠」。不需要先假設，也不必尋覓模型，只需直接分析資料。將數據匯入史上最大的運算系統，利用演算式找出科學無法歸納的模式。

認識世界的新途徑

最佳案例為文特（J. Craig Venter）的霰彈定序法，借助高速排序系統與超級電腦分析資料，排序單位可以從個別有機體，一直擴大到整個生態系。他自2003年起為海洋生物排序，追溯庫克船長當年登陸澳洲東岸與夏威夷群島旅程；繼而在2005年著手大氣生物排序，發掘出數千種過去一無所知的細菌及生物。

如果聽到「發現新物種」，腦海中立刻浮現達爾文與雀鳥圖樣，那麼你對科學的認知可能還停留在過去。

文特對自己所發現的物種，所知有限，不清楚物種的樣貌、活動狀態或形態，甚至缺乏完整的基因體，只因為與資料庫現有基因序列完全相異，即顯示為新物種。

這些新序列或許與已熟知的其他物種有關，文特即可藉以推論新物種的特性，例如會以某種方式將陽光轉化為能量，或是源於共同祖先，但除此之外，這些物種對文特而言，就等於大量的資料，不過，只要運用Google等級的運算系統，文特對生物學進展的貢獻，將遠遠超越同輩。

這種思維逐漸成為主流，2012年2月，美國國家科學基金會推出「群組探索」（Cluster Exploratory）計畫，與六所試辦大學合作，使用Google及IBM開發的大規模分散式運算平台，平台擁有1600組處理器、數兆位元記憶體、數百兆位元儲存空間，搭配IBM Tivoli、Google File System開源碼版本、MapReduce等多種軟體。

初期獲得資助的研究案，包括腦部及神經系統模擬，以及其他介於人腦及軟體之間的生物學研究。

學習使用如此巨大的電腦或許不易，但未來的潛力卻也充滿想像，Big Data與數據分析工具都提供了認識世界的新途徑，當關聯超越因果，縱然沒有一致模型、一致理論，甚至完全沒有機械詮釋方式，科學也能持續進步。

人類沒有理由依戀老方法，現在該思考的是，Google還有那些思維是值得科學界學習的？

【WIRED特刊】美國《WIRED》前總編輯Chris Anderson：聽誰的？資料說了算！數字真的會說話

即時新聞

推薦新聞

社群留言

台北旅遊新聞