【Fred專欄】一人性感,還是整個團隊性感? — 也談 Data Scientist

WIRED.tw/Fred Chiang 2013.04.22 00:00
話說,自從 Harvard Business Review 在 2012 年 10 月以《Data Scientist: The Sexiest Job of the 21st Century》為題,發表了一篇以 LinkedIn 成效顯著的 “People You May Know” 會員推薦功能發展開頭的專文,為世人說明關於這群善於挖掘 Big Data 價值的巨星人物 —— Data Scientist (資料科學家) 的種種。出版之後,迅即吸引許多的關注與討論,包含:媒體到處尋找 Data Scientist 的故事;企業審視要內訓還是外求 Data Scientist,以便創造更多的商業價值;學術單位探討要如何設計課程,以便培養更多的 Data Scientist。

另外,更多人在自問:我算是他們說的 Data Scientist 嗎?我能成為一個 21 世紀最性感的工作者嗎?

事實上,Data Analyst (資料分析師) 存在世界已久,他們跟 Data Scientist 有何不同?只是資歷深淺的差異嗎?

這可能是一個典型的 Data Analyst 人才技能與經驗需求:

[Sensor Data Analyst]

• Advanced data analysis skills

• Advanced Excel and Macros

• Strong appreciation of the value of insight in driving sound decisions

• Solid experience of translating data into actionable insight will all be essential

• Data mining tools experience:

o SAS, SPSS, GIS, Pitney Bowes, Portrait Miner or any other

o Business Objects

這可能是一個典型的 Data Scientist 人才技能與經驗需求:

[Data Scientist]

• Ph.D. in Computer Science, Math or Statistics

• Extensive programming and system design experience, ability to work with big data with minimal engineering support

• Strong experience with distributed system such as Hadoop/MapReduce, streaming data processing, distributed caches, and NoSQL databases

• Solid background in data mining, algorithms, statistical analysis, computational NLP and/or machine learning with at least 5 years experience

• Proven track record of solving challenging problems in both academia and industry

• Excellent verbal and written communication skills

• Self-motivation and an ability to handle multiple competing priorities in a fast-paced environment

• Ability to work both independently and collaboratively within a team

• Data Scientist 直接要求更高的學歷,而且是要資訊工程、數學、或統計學科。

• Data Scientist 要有處理 Big Data 的技能,包含 Hadoop Ecosystem 的駕馭能力。

• Data Scientist 需具備良好的口語與寫作溝通能力。


1. 學歷養成

Data Scientist 當然不一定非得是博士不可,但我的一位博士朋友說得好:PhD 的價值是貴在訓練過程,從發現問題到解決問題;而並非在擁有艱深難懂的知識。

2. 程式設計

從過去結構化的資料庫或資料倉儲中挖掘資料的價值,必須被延伸到半結構化或非結構化的資料,所以熟悉 Hadoop 這樣的 Big Data 處理技術平台,進一步利用 Hadoop Ecosystem 不同的軟體組件做多結構化資料的探勘與分析,就成了必備的新式技能。

3. 跨界溝通

一個 Data Scientist 當然不可能熟知所有的領域知識 (Domain Knowledge),往往是憑著一身的數理統計、電腦科學好本領,與不同領域的專家合作,一起發覺、定義、與解決各種面向的問題。即使是在同一個企業中,也必須面向 Business User、IT、Decision Maker、甚至是客戶、市場大眾,來做橫向或縱向的溝通。就也就是為何有人說 Data Scientist 必須是一個好的「Story Teller」的原因。

如此說來,我們不難想像,一個能夠充分發揮價值 Data Scientist 的養成,會是多麼地困難。如果有幸能夠有之,當然他會如巨星般閃耀,絕對是英雄榜的候選人物。


太新的倡議與概念,有人贊聲、推波,當然也會有人出來異議、反思。在今年二月的《Data Scientists Not Required: Big Data Is About Business Users》這篇文章中,作者 Kathryn Kelly 女士說了一句非常聳動的話:"The data scientist concept will die”。

她的觀點是從 Business User 的角度來看,Big Data 應該從技術基礎架構與專業分析師的手中解放出來,更容易地被企業的其他角色親近與客製。實踐的手段是建置應用 (Application),而非僅仰賴少數 Data Scientist 或 Data Analyst 這種同時能寫程式、建分析模式、問對問題的專家。

同一個月稍晚,在 Strata Conference 2013, Santa Clara 大會中,正在哥倫比亞大學開辦 Data Sciences 課程的 Rachel Schutt 博士,也以《Next-Gen Data Scientists

為題,直陳 "No one person can be the perfect data scientist, so we need teams":

與其期待一個同時擅長統計 (Statistics)、數學 (Mathematics)、資訊工程 (Computer Science)、機器學習 (Machine Learning)、資料視覺化 (Data Visualization)、溝通 (Communication)、領域知識 (Domain Expertise) 的 Data Scientist,不如冀望於專業團隊。

無論意見為何,至少目前並沒有人否定 Data Scientist 的價值。事實上,坊間正流傳著一則則來自 Google、Facebook、LinkedIn、Netflex、Amazon、Kaggle 等公司 Data Scientist 如巨星般崛起的故事 (可以參考 Wired.tw 最近的兩篇報導:《你不能不知的最夯人才「資料科學家」 – 他們正在搖滾未來的IT產業!》、《你不能不知的最夯人才「資料科學家」 – 他們是從資料庫中挖掘21世紀文藝復興的奇才!》)。只是這種集數種學科專業,還能跨界溝通的傑出人才,物種稀缺,供給數量遠不及於各行業的需求。

破解之道,是在將期望從一人英雄身上卸載,代之以 Data Science 分工團隊的組合,這樣也許更有可能實現 Data Scientist 角色的價值。

強健的 Data Scientists 心理素質

Data Scientist 與 Data Science 團隊成員,不能只有專業技能,素質與態度,也是是否能夠發揮角色價值的重要條件。

Rachel Schutt 博士列舉出了 16 項重要的心理素質,如:

• 破層思考 (Thinking about thinking; meta-cognition)

• 舊學為體,新勢為用 (Applying past knowledge to new situations)

• 思考與溝通力求清晰與準確 (Thinking and communicating with clarity and precision)

• 發覺幽默之處 (Finding humor)

• 開放持續學習 (Remain open to continuous learning)


Data Scientist 果真是超級性感的成功人士啊。無誤。


