【王烈堂專欄】AI正為美國軍方進行間諜活動

在一次試運行中,太平洋海軍陸戰隊部隊不僅使用生成式人工智慧來收集情報,還對其進行解讀。常規情報工作只是個開始。(In a test run, a unit of Marines in the Pacific used generative AI not just to collect intelligence but to interpret it. Routine intel work is only the start.)
去年大部分時間,美國海軍陸戰隊第15遠徵部隊約2,500名軍人乘坐三艘艦船穿越太平洋,在韓國、菲律賓、印度和印尼附近海域進行訓練演習。同時,在船艦上,一項實驗正在展開:負責整理外國情報並向上級匯報可能存在的當地威脅的海軍陸戰隊員首次使用生成式人工智慧來完成這項工作,測試五角大廈一直資助的領先人工智慧工具。詹姆斯·奧唐納 James O'Donnell發表在最新一期《麻省理工技術評論》(MIT Technology Review) 的<生成式人工智慧正在學習為美國軍方進行間諜活動>( Generative AI is learning to spy for the US military)指出,兩名官員說,他們使用新系統幫助搜尋了在其行動的各個國家收集的數千份開源情報(非機密文章、報告、圖像、影片),而且其速度比使用舊的手動分析方法要快得多。例如,克里斯汀·恩澤瑙爾上尉說,她使用大型語言模型來翻譯和總結外國新聞來源,而威爾·洛登上尉則使用人工智慧來幫助撰寫他向指揮官提供的每日和每週情報報告。
9900 萬美元的軍事間諜
「我們仍然需要驗證來源,」洛登說。但該部隊的指揮官鼓勵使用大型語言模型,他說,“因為它們在動態情況下可以提供更高的效率。”
他們使用的生成式人工智慧工具是由國防科技公司 Vannevar Labs 打造的,該公司於 11 月獲得了五角大樓面向初創企業的國防創新部門授予的價值高達 9900 萬美元的生產合同,目標是將其情報技術推廣到更多軍事單位。該公司由美國中央情報局和美國情報界的資深人士於 2019 年創立,與 Palantir、Anduril和 Scale AI 等公司一樣,成為美國軍方擁抱人工智能的主要受益者——不僅在無人機和自動駕駛汽車等物理技術方面,而且在軟體方面,人工智慧正在徹底改變五角大樓收集、管理和解釋戰爭和監視數據的方式。
分析社交媒體資料並突破中國等國家的防火牆
儘管美國軍方自 2017 年以來一直在開發電腦視覺模型和類似的人工智慧工具(例如Maven 專案中使用的工具),但生成式人工智慧(可以進行類似人類對話的工具,例如 Vannevar Labs 建構的工具)的使用代表著一個較新的領域。
該公司將現有的大型語言模型(包括來自 OpenAI 和微軟的一些模型,以及該公司自己的一些客製化模型)應用於該公司自 2021 年以來一直在收集的大量開源情報。收集這些資料的規模令人難以想像(這也是 Vannevar 的產品與眾不同的很大一部分原因):每天,180 個國家/地區都會收集 80 種不同語言的 TB 級資料。該公司表示,它能夠分析社交媒體資料並突破中國等國家的防火牆以獲取難以獲取的資訊;它還使用難以在線獲取的非機密數據(由地面人員收集),以及秘密監視無線電波以檢測非法航運活動的物理感測器的報告。
追踪無證移民信息的數據庫
然後,Vannevar 建立了人工智慧模型來翻譯資訊、偵測威脅和分析政治情緒,並透過與 ChatGPT 類似的聊天機器人介面提供結果。其目的是為客戶提供有關國際芬太尼供應鏈和中國在菲律賓保護稀土礦物的努力等各種主題的重要資訊。
Vannevar Labs 首席技術長 Scott Philips 表示:“作為一家公司,我們真正的重點是收集數據、理解這些數據並幫助美國做出正確的決策。”
這種方法對美國情報機構尤其有吸引力,因為多年來,世界一直被大量數據所淹沒,超出了人類分析師的解讀能力。這個問題促使 Palantir 公司於 2003 年成立,該公司市值超過 2000 億美元,以其強大而有爭議的工具而聞名,其中包括一個幫助移民和海關執法局搜索和追踪無證移民信息的數據庫。
2019 年,Vannevar 看到了使用當時剛出現的大型語言模型作為資料難題的新解決方案的機會。該技術不僅可以使人工智慧收集數據,還可以透過分析與他人進行互動交流。
對於太平洋地區的部署非常有用
事實證明,Vannevar 的工具對於太平洋地區的部署非常有用,Enzenauer 和 Lowdon 表示,雖然他們被指示要始終仔細檢查人工智慧的工作,但他們並沒有發現不準確性是一個重大問題。恩澤瑙爾定期使用該工具來追蹤任何提及該部隊演習的外國新聞報道,並進行情緒分析,以檢測文本中表達的情緒和觀點。判斷一篇外國新聞文章是否反映了對該部隊的威脅或友好觀點是她在以前的部署中必須手動完成的一項任務。
「大部分的工作都是手工完成——研究、翻譯、編碼和分析數據,」她說。 “這肯定比使用人工智慧要耗費更多時間。”
不過,恩澤瑙爾和洛登表示,其中也存在一些問題,其中一些問題會影響大多數數位工具:艦船的網路連線大部分時間都不穩定,限制了人工智慧模型合成外國情報的速度,特別是涉及照片或影片時。
五角大廈兩年內投入 1 億美元
隨著首次測試的完成,該部隊指揮官肖恩·戴南上校在二月份與記者的電話會議上 表示這確實是整個美國軍隊全速前進的方向。去年 12 月,五角大廈表示將在未來兩年內投入 1 億美元用於專門針對生成式人工智慧應用的試點。除了 Vannevar 之外,它還與微軟和 Palantir 合作,這兩家公司正在合作開發利用機密資料的人工智慧模型。 (當然,美國並不是唯一採取這種做法的國家;值得注意的是,以色列一直在使用人工智慧來整理訊息,甚至產生加薩戰爭中的目標名單,這種做法受到了廣泛批評。)
忽略了該技術的更多基礎缺陷
或許不令人意外的是,五角大廈以外的許多人都在警告該計劃的潛在風險,其中包括研究機構 AI Now Institute 的首席人工智慧科學家 Heidy Khlaaf,她在領導人工智慧系統的安全審計方面擁有專業知識。她表示,急於將生成式人工智慧納入軍事決策的做法忽略了該技術的更多基礎缺陷:“我們已經意識到 LLM 的準確性非常低,尤其是在需要精確度的安全關鍵型應用中。”
Khlaaf 補充道,即使人類「仔細檢查」人工智慧的工作,也沒有理由認為它們能夠發現每一個錯誤。她說:「『人機迴路』並不總是一種有意義的緩解措施。」當人工智慧模型依賴數千個數據點得出結論時,“人類不可能真正篩選出如此多的信息來確定人工智慧的輸出是否有誤。”
她關注的一個特殊用例是情緒分析,她認為這是「一種高度主觀的指標,即使是人類也很難僅根據媒體進行適當評估」。
人工智慧很難識別更微妙的宣傳類型
如果人工智慧感知到人類分析師無法察覺的針對美軍的敵意,或者系統錯過了真正存在的敵意,軍方可能會做出錯誤的決定或不必要地升級局勢。
情感分析確實是人工智慧尚未完善的一項任務。 Vannevar 技術長 Philips 表示,該公司已經建立了專門的模型來判斷一篇文章是否親美,但《麻省理工技術評論》無法對其進行評估。
蘭德公司高級工程師克里斯·穆頓 (Chris Mouton) 最近測試了生成式人工智慧是否適合這項任務。他評估了領先的模型,包括 OpenAI 的 GPT-4 和經過微調以執行此類智慧工作的舊版本 GPT,以比較它們與人類專家相比如何準確地將外國內容標記為宣傳。 「這很難,」他說,並指出人工智慧很難識別更微妙的宣傳類型。但他補充說,這些模型在許多其他分析任務中仍然有用。
容易受到虛假信息活動、機器人網絡和蓄意操縱
克拉夫表示,萬尼瓦爾方法的另一個限制是開源情報的實用性值得商榷。穆頓表示,開源數據可能“非常特別”,但克拉夫指出,與通過偵察或竊聽收集的機密情報不同,開源數據暴露在開放的互聯網上,這使得它更容易受到虛假信息活動、機器人網絡和蓄意操縱的影響,正如美國陸軍警告的那樣。
對穆頓來說,現在最大的懸而未決的問題是,這些生成式人工智慧技術是否只是分析師使用的眾多調查工具之一,或者它們是否會產生決策所依賴和信任的主觀分析。 “這是爭論的焦點,”他說。
大家都同意的是,人工智慧模型是可以訪問的——你可以向它們詢問有關複雜智能的問題,它們會用簡單易懂的語言回答。但為了提高效率,什麼樣的缺陷是可以接受的,這仍然存在爭議。