
新文推薦
香港理工大學(xué)團(tuán)隊(duì):DeepSeek-R1在雙語復(fù)雜眼科推理任務(wù)中的表現(xiàn)優(yōu)于Gemini 2.0 Pro以及OpenAI的o1和o3-mini模型
(點(diǎn)擊英文標(biāo)題可直接瀏覽、下載論文)
Pusheng Xu, Yue Wu, Kai Jin, Xiaolan Chen, Mingguang He, Danli Shi*
香港理工大學(xué)眼科視光學(xué)院
近日,香港理工大學(xué)眼科視光學(xué)院何明光, 施丹莉團(tuán)隊(duì)在 “Advances in Ophthalmology Practice and Research” 期刊發(fā)表了題為“DeepSeek-R1 outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in bilingual complex ophthalmology reasoning” 的研究論文。香港理工大學(xué)許普生研究助理為論文第一作者,施丹莉助理教授為論文通訊作者。
01
論文導(dǎo)讀
Highlight
近年來,以 OpenAI 的 GPT 系列和 Google 的 Gemini 系列為代表的大語言模型 (LLM),在自然語言理解與推理領(lǐng)域取得了顯著突破。其在醫(yī)學(xué)領(lǐng)域,如個(gè)性化健康咨詢、臨床決策支持、手術(shù)規(guī)劃和遠(yuǎn)程醫(yī)療等方面展現(xiàn)出巨大潛力。然而,將這些模型真正融入臨床工作流程,仍需經(jīng)過嚴(yán)格的性能驗(yàn)證與安全性評(píng)估。
在眼科學(xué)領(lǐng)域,已有研究嘗試?yán)么笳Z言模型整合海量醫(yī)學(xué)文獻(xiàn)、臨床指南及患者數(shù)據(jù),以期輔助醫(yī)生實(shí)現(xiàn)更精準(zhǔn)的診斷與決策。遺憾的是,現(xiàn)有模型的表現(xiàn)尚難以滿足臨床應(yīng)用的實(shí)際需求。
近期,DeepSeek 團(tuán)隊(duì)發(fā)布了其強(qiáng)大的開源模型——DeepSeek-R1。該模型在多項(xiàng)通用基準(zhǔn)測試中展現(xiàn)出與 OpenAI o1相當(dāng)?shù)膶?shí)力。那么,它在復(fù)雜的眼科專業(yè)推理任務(wù)中表現(xiàn)如何呢?
本研究收集了130道為中國眼科正高職稱考試設(shè)計(jì)的案例分析多選題,并將其翻譯成英文版本,構(gòu)建中英文雙語測試集。系統(tǒng)評(píng)估了DeepSeek-R1, Gemini 2.0 Pro, OpenAI的o1和o3-mini在這些復(fù)雜眼科案例分析題上的推理表現(xiàn),并深入剖析了模型的推理邏輯與錯(cuò)誤根源。
本研究的主要發(fā)現(xiàn)包括:
1. DeepSeek-R1總體準(zhǔn)確率最高。在中文題目上,DeepSeek-R1 準(zhǔn)確率高達(dá) 0.862,顯著優(yōu)于 Gemini 2.0 Pro (0.715, P < 0.001)、OpenAI o1 (0.685, P < 0.001)和o3-mini (0.692, P < 0.001)。在英文題目上,DeepSeek-R1 準(zhǔn)確率為 0.808,雖與 Gemini 2.0 Pro (0.746, P = 0.115) 的差異未達(dá)到統(tǒng)計(jì)學(xué)顯著水平,但仍顯著優(yōu)于OpenAI o1 (0.723, P = 0.027)和o3-mini (0.577, P < 0.001)。
2. 四個(gè)模型展現(xiàn)出相似的推理邏輯。在診斷問題上,推理錯(cuò)誤的主要原因?yàn)楹鲆曣P(guān)鍵陽性病史和關(guān)鍵陽性體征;而在管理問題上,推理錯(cuò)誤的主要原因?yàn)閷?duì)醫(yī)療數(shù)據(jù)的解讀不當(dāng)和過度推薦非一線診療方案。
02
論文圖表
Fig. 1. 研究概述。
Tab 1. DeepSeek-R1與其他三個(gè)大語言模型在雙眼復(fù)雜眼科推理任務(wù)的總體準(zhǔn)確率。
引用本文
1. Xu P, Wu Y, Jin K, Chen X, He M, Shi D. DeepSeek-R1 outperforms Gemini 2.0 Pro, OpenAI o1, and o3-mini in bilingual complex ophthalmology reasoning. Adv Ophthalmol Pract Res. 2025;5(3):189-195
03
作者介紹
通訊作者
施丹莉,香港理工大學(xué)助理教授(研究),主要研究方向?yàn)檠劭茢?shù)字健康、生成式人工智能、多模態(tài)人工智能,以及人工智能的臨床轉(zhuǎn)化。
研究領(lǐng)域:施教授專注于生成式AI、多模態(tài)AI智能體、眼科數(shù)字生物標(biāo)志物和自主診所研究,在npj Digital Medicine、JAMA Ophthalmology 等頂級(jí)期刊發(fā)表多篇論文,開發(fā)了FFA-GPT、EyeGPT等創(chuàng)新眼科AI系統(tǒng)。
第一作者
許普生,香港理工大學(xué)研究助理。
文編 | 許普生
編排 | 丁思敏
審核 | 王凱軍
浙江大學(xué)醫(yī)學(xué)院附屬第二醫(yī)院眼科中心 浙江大學(xué)眼科醫(yī)院