商傳媒|記者許方達/綜合報導
OpenAI靠推出聊天機器人ChatGPT爆紅全球;不過,近來公司面臨兩大難題,分別是ChatGPT流量直線下滑,另一項則是有研究證實「GPT-4明顯變笨」。
根據數據公司SimilarWeb統計,ChatGPT在5至6月份的全球流量下降9.7%,獨立訪客減少5.7%,使用者在網站上停留的時間,更在5月份下降了8.5%。此外,ChatGPT的流失率(即停止使用服務的使用者比例)飆升到20%左右。
圖片來源:SimilarWeb
更棘手的是GPT-4變笨的疑慮,近日一份以「How Is ChatGPT′s Behavior Changing over Time?」為題的論文依「數學問題、敏感問題、寫程式能力和視覺推理能力」,分別對GPT-4及GPT-3.5進行測試。
其中在「數學能力」部分,研究人員給予兩大模型同樣500道「判斷給定整數是否為質數」的問題,測試結果顯示:GPT-4在3月時共答對488道題目,到了6月只答對12題,成功率直接從97.6%「劣化」至2.4%。對照之下,GPT-3.5在3月時的答題正確率僅7.4%,6月竟大幅提升至86.8%。
圖片來源:翻攝自Santiago推特
當研究人員透過經典的「Let’s think step by step」辦法,來引導GPT-4解出正確答案時,6月的GPT-4已不再嘗試給出中間步驟,而是直接回答「yes」或「no」。
不止如此,當研究人員要求ChatGPT寫code或進行視覺推理測試時,GPT-4的程式撰寫能力也明顯下降。對於50道簡單等級的LeetCode題,在3月時,GPT-4給的答案有高達52%可不經更改直接執行;到了6月份,可成功執行的答案僅剩10%。
圖片來源:翻攝自arXiv
這份論文的作者包括:史丹佛華裔教授James Zou、學生Lingjiao Chen,還有柏克萊計算機科學教授Matei Zaharia以及AI數據公司Databricks的CTO。
由於GPT-4沒有開源,James Zuo表示,「我們也不知道模型本身、神經架構或是訓練數據哪個環節,產生了怎麼樣的變化。當我們調整大型語言模型,以提高其在某些任務上的性能時,實際上可能會產生很多意想不到的後果,這實際上可能會損害該模型在其他任務上的性能」。
論文最後以longitudinal drifts「縱向飄移」形容模型能力隨著更新和時間變化造成的「不穩定性」,儘管還是沒有找出ChatGPT變笨的確切原因,但已在學術界引起廣泛討論。