Photo:hanspetermeyer.ca/ Flickr
在Big Data出現以前,沒有科學模型,科學家也不敢貿然提出看法。如今Big Data與數學運算,取代了模型,成為科學家穿越未知的利器。
「雖然有些模型是有用的,但所有模型某種意義上都是錯的!」統計學家波克斯(George Box)30年前的名言雖說得不錯。
但直到Google等企業開始運用Big Data,人們才不必再為了理解周遭世界,忍受使用並不完美的模型,無論是宇宙方程式或人類行為理論,它們雖不完美,但在此之前,人們別無選擇。
我們正置身「拍位元時代」
60年前,電腦讓資訊可讀;20年前,網路讓資訊普及;10年前,首部搜尋引擎整合全世界的資訊成為單一資料庫。現在,Google等企業優遊於史上資料最豐富的時代,可針對特定的問題,精準擷取資料,揭開謎底。大型資料庫化身勾勒人類行為的實驗室,這些都到Big Data問世後才成為可能,它們是「拍位元時代」(拍位元,Petabyte,PB)的產物。
「拍位元時代」之所以不同,是因為「規模」被重新定義。以前,磁碟片儲存千位元、硬碟儲存百萬位元、磁盤陣列儲存兆位元。一旦進入拍位元時代,如此大規模的資料只能儲存在雲端。
在這段演進過程中,規模從檔案夾、檔案櫃發展至圖書館,而進入拍位元後,我們再也找不到適合的比喻。
在拍位元規模裡,資訊不只是三維或四維分類法,更多超越人們理解範圍的數據出現了。採取的處理策略也完全不同以往,不再追求將資料全數呈現,而是先以數學方式看待資料,做為日後分析應用的基礎。
逃不出「數學運算」的如來神掌
例如Google就是以應用數學征服了廣告界,證明只要能改良「資料」與「分析工具」,就有機會勝出。
Google無法一一說明每個網頁流量高低差異的成因,但數據資料若能真實反映使用情形,那也就夠了。所以,縱然Google無法精通各種語言,卻依然具備部分「翻譯」功能,理論上,只要資料量充足,克林貢語(編按:電影《星艦奇航記》外星族克林貢族的語言)也能輕易被翻譯為波斯語。
換句話說,就算不知道廣告或網頁的內容,數學還是能將相關的兩樣東西,串連起來。
2012年3月召開的歐萊禮新興科技研討會上,Google研究部門主管諾維(Peter Norvig)進一步引申波克斯的名言,「所有模型某種意義上都是錯的,就算徹底捨棄模型還是可以成功。」
從現在起,Big Data與應用數學將逐漸取代各種工具,語言學、社會學等人類行為理論的解釋權被削弱,分類法、存在論、心理學也不再是解釋行為成因的權威觀點。對於已經發生的行為,現在能以前所未有的精準工具追蹤、衡量,只要掌握夠多資料,數字會說明一切。
顛覆科學模型的「關聯」
發展Big Data的最終目標,並非為尋找更有效的廣告方法,而是為了建立科學方法。
科學方法的基礎,是可被反覆驗證的假設。過往建立的模型,通常是科學家先有「系統」的想法,經過測試後,再由實驗證明理論模型是否成立,這是科學界數百年來延襲的規則。
在科學訓練中,關聯不等於因素,不能只因X與Y相關就下定論,一切或許只是巧合;必須進一步瞭解讓兩者產生相關的背後機制。一旦模型建立,連結資料群組會更具信心,否則,資料不過是成堆的片段資訊罷了。
然而,面對龐大資料,這套「假設──模型──驗證」的科學方法,適用難度更高。以物理學為例,牛頓提出的模型很接近真實,雖然與原子狀態不符,仍相當有用;百年前,以統計為基礎的量子力學,描繪的樣貌更貼近現實,但仍舊是不完美的模型,無法更細膩呈現真實。
過去數十年,物理學之所淪為N次元巨大模型的揣測理論,是因為我們不知該如何驗證假設不實,包括受限於能量太巨大、加速器太昂貴等因素。
生物學也面臨類似問題,課本裡以看似嚴謹的孟德爾遺傳學,闡述顯性及隱性基因,其實比牛頓定律更簡化,無論是發現基因與蛋白質的互動關係,或是超基因學發展,都挑戰DNA決定一切的論點,甚至有證據顯示環境能影響遺傳特徵。簡而言之,隨著生物學不斷發展,會發現模型無法解釋的事物愈來愈多。
現在,更好的方法出現了,拍位元讓我們瞭解「關聯便已足夠」。不需要先假設,也不必尋覓模型,只需直接分析資料。將數據匯入史上最大的運算系統,利用演算式找出科學無法歸納的模式。
認識世界的新途徑
最佳案例為文特(J. Craig Venter)的霰彈定序法,借助高速排序系統與超級電腦分析資料,排序單位可以從個別有機體,一直擴大到整個生態系。他自2003年起為海洋生物排序,追溯庫克船長當年登陸澳洲東岸與夏威夷群島旅程;繼而在2005年著手大氣生物排序,發掘出數千種過去一無所知的細菌及生物。
如果聽到「發現新物種」,腦海中立刻浮現達爾文與雀鳥圖樣,那麼你對科學的認知可能還停留在過去。
文特對自己所發現的物種,所知有限,不清楚物種的樣貌、活動狀態或形態,甚至缺乏完整的基因體,只因為與資料庫現有基因序列完全相異,即顯示為新物種。
這些新序列或許與已熟知的其他物種有關,文特即可藉以推論新物種的特性,例如會以某種方式將陽光轉化為能量,或是源於共同祖先,但除此之外,這些物種對文特而言,就等於大量的資料,不過,只要運用Google等級的運算系統,文特對生物學進展的貢獻,將遠遠超越同輩。
這種思維逐漸成為主流,2012年2月,美國國家科學基金會推出「群組探索」(Cluster Exploratory)計畫,與六所試辦大學合作,使用Google及IBM開發的大規模分散式運算平台,平台擁有1600組處理器、數兆位元記憶體、數百兆位元儲存空間,搭配IBM Tivoli、Google File System開源碼版本、MapReduce等多種軟體。
初期獲得資助的研究案,包括腦部及神經系統模擬,以及其他介於人腦及軟體之間的生物學研究。
學習使用如此巨大的電腦或許不易,但未來的潛力卻也充滿想像,Big Data與數據分析工具都提供了認識世界的新途徑,當關聯超越因果,縱然沒有一致模型、一致理論,甚至完全沒有機械詮釋方式,科學也能持續進步。
人類沒有理由依戀老方法,現在該思考的是,Google還有那些思維是值得科學界學習的?
更多【WIRED特刊】精彩的內容,請看:Etu知意圖負責人蔣居裕:在精準取悅中失衡的你;大陸美團網為何能殺出紅海成為「中國團購王」?關鍵在「社群媒體+Big Data」