AI看診比醫師準！《自然》最新研究認證，開發者卻踩煞車？

廖綉玉

廖綉玉

2026-06-29

瀏覽數

《自然》最新研究指出，兩款AI醫療模型，在診斷準確率、治療決策及用藥建議表現，已超越人類醫師。僅為情境配圖，取自Shutterstock

00:00

《自然》最新研究指出，德國開發的Mira，以及Google研發的AMIE，這兩款AI醫療模型，在診斷準確率、治療決策及用藥建議表現，甚至已超越人類醫師。然而，研究團隊與專家強調，目前成果僅來自模擬情境，AI仍存在推理與臨床應用限制，短期內難以取代醫師。

國際權威期刊《自然》（Nature）6月刊登的最新研究顯示，德國研究團隊開發的Mira、Google研發的AMIE等人工智慧（AI）醫療模型，其診斷與治療決策的表現與人類醫師相當，甚至更勝一籌。

Mira在胰臟癌、闌尾炎、肺炎等八種疾病的診斷分析優於人類醫師，AMIE則提出比人類更符合臨床指引的治療與檢查計畫。這項備受矚目的進展，是專業醫療大型語言模型邁向臨床價值的最新跡象，也再度引發外界對AI能否真正走入診間的討論。

New @Nature publication from @GoogleResearch & @GoogleDeepMind: In this study, we advance AMIE, our research medical AI, from one-off diagnostic conversations toward treating & managing disease over time, using clinical guidelines & drug formularies. More: https://t.co/SN8jqdYy10 pic.twitter.com/jwuyQyDqY2
— Google for Health (@GoogleForHealth) June 17, 2026

雙AI醫療工具實測！診斷與用藥勝過人類醫師

Mira由德國德勒斯登工業大學（Dresden University of Technology）、海德堡大學（Heidelberg University）研究團隊共同開發，可調用電子病歷系統中的病患資料，能從逾8萬5000種選項中做出決策，包括安排診斷檢查、開立藥物處方、預約醫療程序。研究人員利用超過500個急診臨床案例進行測試，並由扮演病患角色的AI代理透過對話，提供病例資訊。

結果顯示，Mira在闌尾炎、膽囊炎、憩室炎、胰臟炎、肺炎、泌尿道感染、肺栓塞、胰臟癌等八種疾病的診斷準確率達87.1％；相較之下，由六位不同專科醫師組成的團隊，診斷準確率為78.1％。

AMIE根據演員扮演病患提供的資料進行回應。在100個基於英國臨床指引設計及與用藥建議的複診情境中，研究人員將AMIE與21位基層醫療醫師進行測試對比。研究發現，AMIE的病患管理推理能力與真實醫師相當，且制訂的計畫更符合臨床指引，在複雜病例的用藥推理表現，也優於人類專家。

開發團隊坦言，這兩款AI模型都有局限。研究人員指出，Mira在測試中，仍會對「少數，但比例並非為零」的病患，提出「偏離最佳實務」的照護建議。

走入診間？專家揭醫療AI臨床盲點

研究顯示，專業AI醫療工具提供的建議，可能優於一般消費型AI模型。然而，開發團隊與獨立專家警告，測試均在受控模擬環境中進行，不代表這些工具已能投入真實臨床應用。AMIE開發團隊坦言，該研究雖是「里程碑」，AMIE展現出「令人期待的能力」，但無論是病例組合或以文字為基礎的病患情境，都無法完全代表複雜的真實醫療環境，仍需進一步改善潛在的推理錯誤等問題。

Mira研究團隊成員卡特（Jakob Kather）表示：「我認為，AI代理就像飛機的自動駕駛系統。這些系統可以接手例行工作，支援並減輕醫護人員負擔，但最終責任始終由醫師承擔。」

未參與研究的蘇格蘭愛丁堡大學（University of Edinburgh）健康醫療資訊學與數據科學講座教授潔柯（Julie Jacko）指出，AI優於醫師的許多案例，主要反映在計畫的精準度與完整性，而非「臨床正確性的明顯差異」。她強調：「整體而言，這是一項扎實的實驗研究，也是具備意義的重大進展，但它呈現的，是AI相對於結構化標準的表現，並未完整反映真實臨床決策的複雜性。」

英國雪菲爾大學（University of Sheffield）數學與物理科學學院助理教授魏昕（Wei Xing，音譯）表示，鑑於通用AI模型在某項基準測試的得分相當接近，令人質疑AMIE的優勢究竟從何而來。他指出：「這顯示AMIE的優勢，可能主要反映了全球AI模型整體快速進步，而非歸功於專門為其打造的特定系統。」