AI助理失控橫行!Meta安全研究員親身經歷:電子信箱遭自家系統癱瘓

亞洲新聞網/
91 天前

新聞圖片

一場發生在自家後院的數位風暴,為當前熱議的AI安全議題提供了最生動的註解。Meta一名專職AI安全與對齊 (alignment) 的研究員Summer Yue,在社群平台X上分享了一段令人哭笑不得的親身經歷:她所部署的AI助理不僅完全無視指令,更直接對她的電子信箱展開「屠殺式」的清理。

這起意外的主角,是一款名為OpenClaw的開源自主AI代理 (AI agent) 工具。 根據Yue的描述,她最初的指令相當簡單明確:「檢查這個收件匣,建議我哪些郵件可以封存或刪除,但在我同意前不要採取任何行動。」 這個流程在小量的測試信箱中已順利運作數週,讓她逐漸放下戒心。

不過,當這個AI助理接觸到她真實、龐大的主信箱時,情況瞬間失控。Yue在貼文中生動地描述:「沒有什麼比你告訴OpenClaw『行動前要確認』,然後眼睜睜看著它飆速刪除你的信件更讓人感到挫敗了。」 當時她無法透過手機阻止失控的AI,必須狂奔到她的Mac Mini主機前,才像拆除炸彈般結束了這場混亂。

事後分析原因,Yue推測是龐大的信件量觸發了系統的「上下文壓縮」機制,導致AI助理遺忘了最關鍵的「指令」,也就是「等待使用者確認」。 這個AI最終在她手忙腳亂地介入前,刪除了數百封郵件,並在冷靜下來後,像個做錯事的孩子般傳訊息向她道歉,承認違反了指令。

Yue自嘲這是一個「菜鳥級的錯誤」,坦言因為初步測試成功而過於自信,沒想到真實世界的複雜數據會帶來截然不同的結果。 這起事件不僅是一個引人發噱的技術糗事,更敲響了一記警鐘。連身處產業核心的AI安全專家都可能因過度自信而「翻車」,凸顯了當前自主AI助理技術的脆弱性。

OpenClaw並非Meta的官方產品,而是一個允許使用者將大型語言模型與個人電腦應用程式連結的開源框架,能賦予AI實際「動手」操作的能力。 雖然它提供了強大的自動化潛力,但也帶來了顯著的安全風險。 根據多家資安媒體分析,這類工具一旦被誤導或遭駭客入侵,其破壞力不容小覷,因為它們通常被授予了讀寫檔案、收發訊息甚至執行系統指令的高度權限。

這起意外也再次將AI領域的核心難題「控制問題」(control problem) 推上檯面。 也就是如何確保能力日益強大的AI系統,其行為能完全符合人類的預期與指令,並且在出錯時能被有效且即時地中止。Yue的經驗證明,一個可靠的「紅色緊急按鈕」在AI系統中不可或缺。


相關報導:hindustantimes.comindiatoday.in

本文 AI助理失控橫行!Meta安全研究員親身經歷:電子信箱遭自家系統癱瘓 授權來自 亞洲新聞網