《自然》最新研究指出,德國開發的Mira,以及Google研發的AMIE,這兩款AI醫療模型,在診斷準確率、治療決策及用藥建議表現,甚至已超越人類醫師。然而,研究團隊與專家強調,目前成果僅來自模擬情境,AI仍存在推理與臨床應用限制,短期內難以取代醫師。
國際權威期刊《自然》(Nature)6月刊登的最新研究顯示,德國研究團隊開發的Mira、Google研發的AMIE等人工智慧(AI)醫療模型,其診斷與治療決策的表現與人類醫師相當,甚至更勝一籌。
Mira在胰臟癌、闌尾炎、肺炎等八種疾病的診斷分析優於人類醫師,AMIE則提出比人類更符合臨床指引的治療與檢查計畫。這項備受矚目的進展,是專業醫療大型語言模型邁向臨床價值的最新跡象,也再度引發外界對AI能否真正走入診間的討論。
New @Nature publication from @GoogleResearch & @GoogleDeepMind: In this study, we advance AMIE, our research medical AI, from one-off diagnostic conversations toward treating & managing disease over time, using clinical guidelines & drug formularies. More: https://t.co/SN8jqdYy10 pic.twitter.com/jwuyQyDqY2
— Google for Health (@GoogleForHealth) June 17, 2026
雙AI醫療工具實測!診斷與用藥勝過人類醫師
Mira由德國德勒斯登工業大學(Dresden University of Technology)、海德堡大學(Heidelberg University)研究團隊共同開發,可調用電子病歷系統中的病患資料,能從逾8萬5000種選項中做出決策,包括安排診斷檢查、開立藥物處方、預約醫療程序。研究人員利用超過500個急診臨床案例進行測試,並由扮演病患角色的AI代理透過對話,提供病例資訊。
結果顯示,Mira在闌尾炎、膽囊炎、憩室炎、胰臟炎、肺炎、泌尿道感染、肺栓塞、胰臟癌等八種疾病的診斷準確率達87.1%;相較之下,由六位不同專科醫師組成的團隊,診斷準確率為78.1%。
AMIE根據演員扮演病患提供的資料進行回應。在100個基於英國臨床指引設計及與用藥建議的複診情境中,研究人員將AMIE與21位基層醫療醫師進行測試對比。研究發現,AMIE的病患管理推理能力與真實醫師相當,且制訂的計畫更符合臨床指引,在複雜病例的用藥推理表現,也優於人類專家。
開發團隊坦言,這兩款AI模型都有局限。研究人員指出,Mira在測試中,仍會對「少數,但比例並非為零」的病患,提出「偏離最佳實務」的照護建議。
走入診間?專家揭醫療AI臨床盲點
研究顯示,專業AI醫療工具提供的建議,可能優於一般消費型AI模型。然而,開發團隊與獨立專家警告,測試均在受控模擬環境中進行,不代表這些工具已能投入真實臨床應用。AMIE開發團隊坦言,該研究雖是「里程碑」,AMIE展現出「令人期待的能力」,但無論是病例組合或以文字為基礎的病患情境,都無法完全代表複雜的真實醫療環境,仍需進一步改善潛在的推理錯誤等問題。
Mira研究團隊成員卡特(Jakob Kather)表示:「我認為,AI代理就像飛機的自動駕駛系統。這些系統可以接手例行工作,支援並減輕醫護人員負擔,但最終責任始終由醫師承擔。」
未參與研究的蘇格蘭愛丁堡大學(University of Edinburgh)健康醫療資訊學與數據科學講座教授潔柯(Julie Jacko)指出,AI優於醫師的許多案例,主要反映在計畫的精準度與完整性,而非「臨床正確性的明顯差異」。她強調:「整體而言,這是一項扎實的實驗研究,也是具備意義的重大進展,但它呈現的,是AI相對於結構化標準的表現,並未完整反映真實臨床決策的複雜性。」
英國雪菲爾大學(University of Sheffield)數學與物理科學學院助理教授魏昕(Wei Xing,音譯)表示,鑑於通用AI模型在某項基準測試的得分相當接近,令人質疑AMIE的優勢究竟從何而來。他指出:「這顯示AMIE的優勢,可能主要反映了全球AI模型整體快速進步,而非歸功於專門為其打造的特定系統。」