基於人工智慧(AI)的醫療決策系統的開發和商業化,遠遠超出了我們對其對臨床醫生價值的理解。儘管適用於多種形式的醫學,但我們重點關注透過生態有限推理的概念來描述放射科醫生的診斷決策,回顧臨床醫生決策和醫學人工智慧模型決策之間的差異,並揭示這些差異如何對集成人工智慧構成根本性挑戰進入放射學。卡洛琳‧塞姆勒教授博士Carolyn Semmler發表在最新一期《柳葉刀》(The Lancet) 的<臨床醫師的醫療人工智慧:失去的認知視角>(Medical artificial intelligence for clinicians: the lost cognitive perspective)
研究認為臨床醫生是情境驅動的、智力足智多謀的決策者,而人工智慧模型是情境剝離的、相關的決策者,並討論了由於這種能力失調而產生的對臨床醫生與人工智慧互動的誤解。我們概述了臨床醫生與人工智慧互動的未來研究如何更好地解決決策的認知考慮因素,並用於增強人工智慧模型在高風險醫療決策環境中的安全性和可用性。
AI醫療決策超過350個系統獲得美國聯邦藥物管理局的批准
基於人工智慧(AI)的醫療決策系統被許多放射科使用,有超過350個系統獲得美國聯邦藥物管理局的批准。然而,人工智慧決策系統的發展和商業化速度遠遠超過了我們對其對臨床醫生價值的理解,技術進步和臨床價值之間的差距被描述為人工智慧鴻溝。技術和後勤問題以及臨床實施的挑戰是造成這種人工智慧鴻溝的潛在因素。儘管先前已經對其他高風險環境中的技術實施進行了研究,例如提高飛機駕駛艙的自動化程度,以了解和改進使用,評估臨床醫生的人工智慧實施情況仍然是醫療人工智慧研究中被忽視的領域。
大多數人工智慧模型都用於根據醫學影像資料做出診斷決策
人機關係描述了人類決策與技術一起產生的複雜且有時不合邏輯的結果,例如過度依賴、依賴不足和不知所措。目前,臨床醫生和人工智慧之間尚未充分探索的關係過於依賴自我報告的表面分析。為了更好地解決人類實施面臨的一些挑戰並最終彌合人工智慧鴻溝,我們利用認知科學和人為因素研究領域以前未應用的觀點,對臨床背景下的人類決策進行理論和實證理解。
我們描述了臨床醫生和人工智慧之間的主要區別,強調了隨之而來的知識差距和圍繞它們組合的誤解。我們使用放射學作為專業領域的案例研究領域,因為目前大多數人工智慧模型都用於根據醫學影像資料做出診斷決策,並且它是醫學認知中研究最深入的領域。然而,我們希望這些原則適用於所有形式的醫學推理,因此可以互換使用術語放射科醫生和臨床醫生。我們希望這種方法能為臨床醫生更好地引導人工智慧的使用,並為人工智慧開發人員提供指導,讓這項技術充分發揮其潛力。
臨床推理基於線索利用
放射科醫師透過觀察臨床環境的線索來進行診斷。線索是引導臨床醫生注意力並提示使用稱為內部認知線索的抽象知識表示的感覺信號。臨床環境中充滿了放射科醫生用於診斷的感官線索,即使新手觀察者無法注意到這些線索。例如,乳房X光照片上的結節亮度可能表明存在特定類型的腫瘤,或者成像請求表上列出的特定症狀可能會影響放射科醫生尋找特徵的敏感度。
憑藉經驗,放射科醫生可以了解哪些線索引導他們關注環境中與臨床最相關的資訊。這種使用領域相關資訊的能力稱為線索利用這是專業知識的標誌。這種專業知識使放射科醫生能夠從臨床場景中快速提取要點或基本特徵,同時保持高度準確,指導特定臨床特徵的後續處理和分析。其他涉及快速提示利用的類似過程包括臨床格式塔的概念,其中體徵和症狀的特定模式直觀地表明醫療緊急情況或異常。事實上,壓縮並利用周圍環境來簡化手頭任務的決策方法與更複雜的方法一樣有效——這一原則在認知科學中被稱為生態理性。
理性在認知科學中被稱為一種形式推理,但推理是有限度的
理性在認知科學中被稱為一種形式推理,是一種假設的最佳決策方法。從歷史上看,關於所謂良好決策的假設依賴於傳統理性的觀點,即理想的人類推理應該符合邏輯和機率的抽象數學規則。例如,通常鼓勵臨床醫生在診斷患者時遵循貝葉斯規則,其中根據先前因素估計疾病的後驗機率並測試敏感性和特異性。
然而,人類受到感官、認知和時間的限制。16因此,人類實際上並沒有在推理時進行最佳化(即,在給定完美且完整的資訊的情況下爭取單一最佳可能的決策),而是在這個過程中,他們僅根據可用資訊做出足以完成任務的決策。16在不做出更糟糕的決策的情況下獲得滿足是可能的,因為理性依賴環境,環境決定了哪些決策是理性的或好的。
例如,在臨床醫生熟悉的臨床環境中,大多數可能的決定很容易被丟棄;運動後腿部酸痛的健康患者不太可能患有晚期惡性腫瘤,臨床醫生可以完全忽略這種可能性,除非出現相反的相關證據。透過這種方式,環境及其線索透過限制可能的決策來減少可能決策的數量,並允許臨床醫生快速考慮較小範圍的潛在決策。因此,人類可以根據上下文做出有效的決策,而不是完全了解所有可能的選擇和結果。
透過生態理性,臨床背景指導臨床醫生尋找什麼線索,這就是為什麼眾所周知,專家決策者使用的資訊比非專家少,即使用主旨訊號。有針對性的資訊使用很重要,因為人類將所有資訊來源整合到決策中的處理能力有限,與新的深度學習系統不同,新的深度學習系統比人類受資訊處理限制的限制要少得多,並且允許將大量資訊納入每個決策中。然而,人工智慧系統也不具備忽略無關線索來簡化決策的明確能力,這使得它們的決策者與臨床醫生有著本質上的不同。人工智慧模型不能像鼓勵臨床醫生質疑他們所學內容的有效性一樣質疑其資料集:臨床環境中的一種實踐稱為認知謙遜。儘管我們認識到這是臨床醫生和人工智慧決策的簡化,但這種能力上的差異幾乎肯定在當前的醫療保健和人工智慧開發中有效。
此外,當我們區分臨床醫生和使用理性的人工智慧模型時,我們認識到人類是不完美的,並且保留了一些基於種族、性別等的不公正判斷。於非虛假關聯是人工智慧和臨床醫生之間的一個重要區別。這種決策的不匹配在很大程度上尚未被探索,但這表明人工智慧與臨床醫生決策的整合比目前公認的要複雜得多。
AI 模型擺脫臨床背景
與生態有限認知模型(該模型認為理性和最優決策植根於環境有效的推論)一致,有限理性描述了臨床醫生透過節儉使用資訊來獲得準確結果的能力。我們引入去界的概念來指稱這個過程的反面,在這個過程中,曾經植根於一些有效的外部線索的決策轉而通過所有可用的信息做出,即使這對於臨床醫生來說不是認知上最佳的、可理解的或可見的。
這種對無關資訊的使用可以理解為任務與臨床背景的脫界,並發生在兩個階段:標記和建模。在標記過程中使用人工輸入,專家將他們的決策提煉為一個簡單的、通常是存在或不存在病理學的二元指標,並在此過程中丟棄了指導決策的絕大多數臨床背景。關於哪些線索重要的顯著資訊遺失了,剩下的就是最終的專家決策本身(即標籤)。從這裡開始,人類輸入結束並過渡到建模階段,其中向人工智慧系統提供輸入(例如醫學圖像)和描述專家決策的標籤的組合,然後引導人工智慧系統學習從一個到另一個的映射——從影像中預測標籤(例如,產生診斷)。建模階段可以看作是標記的逆過程,目標是以完美的保真度重建決策過程。第二階段也可以被視為一種有針對性的過濾形式,其中人工智慧透過選擇對任務最有用的圖像特徵來學習丟棄輸入圖像中最不重要的資訊。
人工智慧並不是完全傳統意義上的理性
特徵是透過反覆試驗來學習的,這是一個基於先前輸出錯誤(稱為損失函數)的嚴格數學最佳化過程,通常可以最小化總體錯誤率。然而,這個過程主要由無指導的最佳化組成——人工智慧會學習任何根據給定的特定訓練資料集的輸入來預測標籤的任務有用的模式,無論這些環境線索是否生態合理,或者是否會被人類專家輕易丟棄。因此,模型會發現並合併任何可以減少損失並與診斷相關的特徵,從而使影像與原始標籤的生態特徵脫節。
這種兩步驟的人工智慧發展過程造成了人工智慧與人類決策者之間的不匹配,實際上凸顯了生態理性與傳統理性之間的差異。然而,人工智慧並不是完全傳統意義上的理性,因為它存在於不完全資訊的背景下。模型本身的好壞取決於它們的訓練資料。
有了這種理解,人工智慧模型產生的決策不再完全基於生態上有效的推論。相反,這些決策會被從訓練資料中學到的未知線索所稀釋,該模型發現這些線索在數學上有助於提高其準確性,但在臨床上可能無效。人工智慧模型的決策不受資料集限制,而不是臨床上有用的界限:它們使用訓練資料中與標籤相關的任何特徵。研究表明,隨著人工智慧模型變得更加準確,它們與人類決策過程的一致性變得越來越差。這種不匹配對黑盒問題和模型可解釋性產生了後續影響(請參閱有關可解釋性的部分)。
邊界不匹配:對決策的影響
臨床醫師與人工智慧互動的複雜性在於這兩個獨立實體的組合,而這兩個實體的能力或邊界不符。人工智慧系統提供給臨床醫生的決策遵循與人類不同的邏輯,使臨床醫生無法輕鬆了解該決策中遺失或納入了哪些資訊。要獲得這種理解幾乎是不可能的,而且人工智慧系統使用的線索通常無法完全確定。35這種不匹配為臨床決策帶來了漏洞,例如預測人工智慧錯誤或識別人工智慧偏見的能力有限。在不完全了解人工智慧決策過程的情況下,臨床醫生必須面臨一個艱難的選擇,要么避免過度依賴,即不加批判地接受人工智慧輸出及其潛在陷阱,要么避免過度依賴,即完全避免人工智慧輸出。以下部分概述了目前臨床醫生與人工智慧互動的方法如何忽視這種邊界不匹配。
XAI 領域廣泛涵蓋人工智慧技術開發和實施
該領域的研究經常試圖透過臨床醫生-人工智慧團隊的想法將人工智慧和臨床醫生融合在一起透過類人的溝通來實現人類團隊中的信任和理解。然而,這些決策者之間的不匹配可以理解為對人類團隊典型功能的破壞。透過共享相同的決策機制,人類可以在溝通和解釋的基礎上可靠地判斷他人的決策。因此,人與人之間的信任是這種共同理解的自然建立的結果。然而,人工智慧臨床醫生團隊並沒有這種共同的理解,這一點在可解釋人工智慧 (XAI) 領域中表現得最為明顯。
XAI 領域廣泛涵蓋人工智慧技術開發和實施,旨在向人類使用者提供人工智慧過程的一些解釋。過去幾年,人工智慧在高風險環境中的快速實施導致政策制定者呼籲透明且可解釋的演算法決策過程,以提高人類的理解力。儘管人工智慧對使用者來說是可以理解的,這一點很重要,但考慮到人工智慧和臨床醫生的決策受到不匹配的目標(即數學優化與臨床護理)和邏輯(即,相關推理與生態推理)。因此,由於缺乏共識,解釋的嘗試從根本上失敗了。
XAI 在改善決策方面的價值高度不一致
由於共享人類能力和認知機制,人類團隊可以依賴彼此的解釋,而人工智慧則擁有不同且通常難以理解的能力。如果沒有支撐人類與人工智慧之間互動的共享能力,可解釋性就無法複製人與人之間交流的可靠生態品質。儘管存在這種差異,但使用者經常以高度擬人化或類似人類的方式討論和理解人工智慧,其中系統似乎能夠像人類一樣進行溝通、思考和表達情感,從而產生誤導。這些誤解與醫療人工智慧系統作為工具只能促進決策而不是取代決策的信念相矛盾。因此,XAI 與解釋深度的錯覺聯繫在一起,XAI 可能會因為誤解 AI 功能而導致用戶對 AI 的理解不準確和過度自信。
XAI 在改善決策方面的價值高度不一致,與理論認知理解相距甚遠,並且與一些實驗中人工智慧輔助決策的惡化有關。即使從技術角度來看,臨床系統中的人工智慧解釋也只提供了導致輸出的演算法過程的近似值,僅呈現了底層解釋複雜性的一部分。我們認為,臨床醫生對人工智慧使用的研究必須超越可觀察到的共享行為,轉變為對人工智慧背景下認知的理解。我們建議 Marr 提出的行為分析的三個層次同樣可以應用於人機互動的研究。
行為層面是人類與人工智慧互動最外層的視圖
首先,行為層面是人類與人工智慧互動最外層的視圖,研究他們作為一個具有集體目標的團隊的可觀察行為。觀察到的結果包括信任、確定性、任務表現和可解釋性。儘管有用,但該層級幾乎無法提供超出觀察的洞察力,並且無法與產生特定結果的認知過程聯繫起來。即使關注認知偏差,例如自動化偏差(定義為過度依賴、依賴不足或降低對錯誤的警覺性而濫用技術輔助工具的偏差),也只是描述而不是解釋認知。其次,認知層面透過隔離決策背後的半可觀察認知過程(例如注意力、記憶、認知負荷和校準),更深入地了解人類心理機制。這些過程只能在一定程度上觀察到;它們可以透過精心設計的實驗來推斷,這些實驗以理論為基礎,在不同的背景下分離和檢查這些過程。
一個例子可能是一個實驗,參與者在人工智慧的幫助下完成一項任務,並在小組之間操縱注意力負荷,以調查人工智慧的使用是否受到注意力負荷增加的影響。第三,認知模型層次透過數學模型以相互關聯的形式研究這些過程,從而補充認知層次。這些模型的發展和測試是為了考慮認知過程的生物和環境限制,從而更全面地理解人類認知。這些模型可以讓人們理解認知的複雜性,並用有關神經生理限制的新知識重新評估它們。例如,可以在一個模型中研究任務期間的認知注意力,該模型還考慮了不斷變化的決策閾值和反應時間。醫療人工智慧的一個例子可能是一個認知模型,該模型研究醫生先前對特定病理的發生機率(已知會影響決策閾值)在使用人工智慧處理更困難的病理病例時如何影響醫生的注意力能力。該模型將允許研究人工智慧如何改變病理學患病率的早期分佈,從而改變臨床醫生對某些病例的關注,這可用於在其專業知識範圍內改善人工智慧的使用。
對認知科學的全面理解來發展AI輔助醫療決策的新理論
將研究擴展到第二級和第三級將探索臨床決策背後的可觀察因素和潛在因素如何在人工智慧使用的背景下發生變化和適應。這項研究將讓我們認識到臨床決策本身如何根據臨床經驗、環境壓力、患者互動和結果而變化和適應。在現代人工智慧(例如航空自動駕駛儀)出現之前,在探索自動決策輔助對人類使用者的影響時,認知方法至關重要。例如,眾所周知,GPS 導航、地形顯示和飛機駕駛艙進一步技術輔助的引入導致了飛行員的分心和困難增加。這些影響已透過行為方式進行了探索(透過對飛行員信任和認知負荷的觀察研究);57認知上(透過對不同條件下注意力的研究);並以模型形式(發展機械理解,例如漂移擴散模型)。然而,與目前的人工智慧相比,這些早期的技術更容易理解,自主性和擬人化程度較低,並且對核心專家任務的核心作用較小。在法律和政策制定環境中,圍繞臨床醫生和人工智慧之間互動的責任正在引起人們的廣泛興趣。因此,對認知科學的全面理解對於發展人工智慧輔助醫療決策的新理論至關重要。這種理解對於制定標準和法規非常重要,以確保未來濫用事件不可避免且責任不明確的情況下的系統安全。人工智慧在醫學領域具有巨大的潛力,透過結合本觀點中概述的考慮因素,我們可以更好地確保它造福臨床醫生和患者。
結論和未來研究的要點
儘管通常將臨床醫生和人工智慧視為一個協同團隊,但這種觀點具有誤導性。人類團隊依賴成員之間對其任務的共同理解和共享的認知機制。然而,人類與人工智慧團隊是不匹配的:臨床醫生在生態上是有限的,他們的決策受到他們的知識和環境的限制,而人工智慧是數據集有限的,因為它在訓練數據中學習任何有用的相關性,且不受上下文的限制。因此,全面了解人工智慧使用背景下的臨床認知對於醫療人工智慧的安全開發和實施是必要的。隨著基於深度學習的技術變得更加自主並脫離人類理解的範圍,同時也被誤導性地描述為類人介面,因此非常需要改變臨床醫生在人工智慧使用背景下的認知方式。這種變化需要以下內容:了解認知決策是模型開發(即影像標記)和模型使用(即臨床醫生解釋)的關鍵部分;強調人類和人工智慧在評估各自決策時的根本差異;透過將研究重點從純粹的觀察方法擴展到探索人工智慧使用背景下人類決策的認知、環境和神經生理學方面,承認決策的內部複雜性。