一個都不能用？62個AI算法被指存在重大問題，劍橋團(tuán)隊：都不具有新冠臨床診斷價值

ainet.cn 2021年03月22日

　　2020 年，新冠肺炎肆虐全球。為了能協(xié)助醫(yī)生快速而精確地篩查潛在患者，各國的計算機(jī)科學(xué)家們發(fā)布了上千種機(jī)器學(xué)習(xí)算法，并聲稱這些算法能根據(jù)胸部 X 光片、CT 圖像診斷或預(yù)測新冠肺炎。

　　然而，近日由劍橋大學(xué)領(lǐng)銜的一項最新研究卻發(fā)現(xiàn)，這些算法存在著算法偏見和不可重復(fù)性等重大問題，并不具有臨床價值。

　　當(dāng)?shù)貢r間 3 月 15 日，這篇名為 “Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans” 的論文發(fā)表于自然子刊《自然機(jī)器智能》(Nature Machine Intelligence)上。

(來源：Nature Machine Intelligence)

　　這項由劍橋大學(xué)科學(xué)家們領(lǐng)導(dǎo)完成的研究，涵蓋了從 2020 年 1 月 1 日到同年 10 月 3 日內(nèi)所有科學(xué)論文和預(yù)印本提到的相關(guān)機(jī)器學(xué)習(xí)算法。同一時間段內(nèi)，在 BioRxiv、medRxiv 和 arxiv 上刊登的所有手稿以及 EMBASE 和 MEDLINE 的所有條目也被納入了研究范圍。

　　在 2212 篇用機(jī)器算法診斷新冠肺炎的論文中，研究人員最終確定了 62 篇質(zhì)量相對較高的論文進(jìn)行討論，其中 37 篇論文為深度學(xué)習(xí)算法，23 篇論文為傳統(tǒng)的機(jī)器學(xué)習(xí)算法，2 篇為混合算法。

　　但遺憾的是，由于算法偏見和不可重復(fù)性等問題，沒有一個具有潛在的臨床應(yīng)用價值。

　　論文第一作者、劍橋大學(xué)應(yīng)用數(shù)學(xué)和理論物理系博士邁克爾(Michael Roberts)在接受采訪時表示：“任何機(jī)器學(xué)習(xí)算法(的應(yīng)用價值)都取決于訓(xùn)練它所使用的數(shù)據(jù)，特別是對于像新冠肺炎這樣的新流行病來說，數(shù)據(jù)的多樣性是至關(guān)重要的?！?/FONT>

算法偏見和不可重復(fù)性

　　一般來說，算法偏見是指算法在數(shù)據(jù)集構(gòu)建、目標(biāo)制定與特征選取、數(shù)據(jù)標(biāo)注等環(huán)節(jié)中產(chǎn)生的信息偏差，導(dǎo)致算法失去公平和準(zhǔn)確性。在這項研究中，劍橋大學(xué)人員使用 “預(yù)測性算法的偏見風(fēng)險評估工具”(PROBAST)，從參與者、預(yù)測因素、結(jié)論和分析等四個方面系統(tǒng)性地評估了 62 個算法的偏見性風(fēng)險。結(jié)果發(fā)現(xiàn)，有 55 個算法在至少一個方面有較高的算法偏見。

　　拿參與者舉例，研究人員認(rèn)為從公共數(shù)據(jù)集里獲得的胸部 X 光片和 CT 影像具有選擇性偏見，因?yàn)闊o法確認(rèn)患者是否真的新冠肺炎呈陽性。又比如，相當(dāng)一部分算法采用了兒童的相關(guān)影像作為 “非新冠肺炎” 對照組。事實(shí)上相比于成人，兒童感染新冠肺炎的幾率要小得多。因此這種設(shè)計上的偏差會讓算法產(chǎn)生很大的偏見。

　　除了算法偏見以外，算法的性能，也就是預(yù)測結(jié)果的可重復(fù)性，也是劍橋大學(xué)在這項研究中關(guān)注的重點(diǎn)之一。一般來說有兩種方法來驗(yàn)證算法的性能，即內(nèi)部驗(yàn)證和外部驗(yàn)證。內(nèi)部驗(yàn)證是指測試數(shù)據(jù)與開發(fā)數(shù)據(jù)屬于相同來源;外部驗(yàn)證是指測試數(shù)據(jù)屬于不同來源。研究人員發(fā)現(xiàn)，在 62 篇論文中，有 48 篇只考慮了內(nèi)部驗(yàn)證，有 13 篇使用了外部測試數(shù)據(jù)集(其中 12 篇使用了真正的外部測試數(shù)據(jù)集，1 篇使用了與訓(xùn)練算法完全相同的數(shù)據(jù)來進(jìn)行測試)。

　　對此，論文作者劍橋大學(xué)醫(yī)學(xué)院博士路德(James Rudd)指出：“在新冠疫情初期，人們對信息的渴求是如此強(qiáng)烈，以至于一些論文無疑是倉促出版的。但是，如果你的算法只是基于一家醫(yī)院的數(shù)據(jù)之上的話，那么它很可能不適用于另一個城市的某家醫(yī)院。這些數(shù)據(jù)需要多樣性，最好是國際化的。否則，當(dāng)你的機(jī)器學(xué)習(xí)算法被更廣泛地測試時肯定是要失敗的?！?/FONT>

　　在這篇論文中，研究人員特別指出了 “科學(xué)怪人數(shù)據(jù)集”(Frankenstein datasets)的問題。“科學(xué)怪人數(shù)據(jù)集” 是指從不同的數(shù)據(jù)集合并而成并重新命名分布的數(shù)據(jù)集，這樣的數(shù)據(jù)集涉及到復(fù)雜的數(shù)據(jù)來源重復(fù)問題。例如，訓(xùn)練某算法的數(shù)據(jù)集集合了 N 個子集而成，但算法開發(fā)人員沒有意識到其中一個子集還包含了其他子集的成分。這種對數(shù)據(jù)集的重新打包雖然實(shí)用，但會不可避免地導(dǎo)致算法在相同或重疊的數(shù)據(jù)集上進(jìn)行訓(xùn)練，進(jìn)而出現(xiàn)問題。

圖 | 用于模型測試的圖像數(shù)量

　　除了算法偏見和預(yù)測結(jié)果的不可重復(fù)性之外，這些論文的另一個普遍問題是缺乏放射科醫(yī)生和臨床醫(yī)生的參與。羅伯茨認(rèn)為：“不論你是使用機(jī)器學(xué)習(xí)來預(yù)測天氣或研究疾病如何發(fā)展，確保不同領(lǐng)域的專家一起參與并保持溝通是非常重要的，這樣才能專注于研究正確的問題?！?5 點(diǎn)建議

　　毫無疑問，機(jī)器學(xué)習(xí)算法在醫(yī)療方面有著巨大潛力和廣闊的市場前景。在過去的一年間，全球范圍內(nèi)的算法開發(fā)人員也為抗擊新冠肺炎做出了巨大的努力。

　　出于嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度，劍橋大學(xué)研究人員對 2020 年相關(guān)機(jī)器算法文獻(xiàn)的系統(tǒng)性問題給出了 5 點(diǎn)建議：

　　(1)用于算法開發(fā)的數(shù)據(jù)使用和常見陷阱;(2)評估被訓(xùn)練算法;(3)預(yù)測模型的可重復(fù)性;(4)手稿中的文獻(xiàn);(5)同行評議過程。

　　其中，他們尤其強(qiáng)調(diào)需要謹(jǐn)慎使用公共數(shù)據(jù)庫。由于數(shù)據(jù)來源和 “科學(xué)怪人數(shù)據(jù)集” 的原因，公共數(shù)據(jù)庫會導(dǎo)致高風(fēng)險的算法偏見。他們認(rèn)為，算法開發(fā)人員應(yīng)該著眼于廣泛采用不同人群的統(tǒng)計數(shù)據(jù)，這是一個經(jīng)常被忽視但卻非常重要的偏見性來源。除此之外，外部數(shù)據(jù)的檢驗(yàn)也必不可少，任何用于診斷或預(yù)測的模型都必須足夠穩(wěn)健，以便為目標(biāo)人群的任意樣本得出可靠結(jié)果。

　　論文還指出，清楚地認(rèn)識到新冠肺炎檢測相關(guān)的人工智能算法與明確的臨床需求之間需求關(guān)系是技術(shù)轉(zhuǎn)化的關(guān)鍵。因此，開發(fā)人工智能算法需要臨床專業(yè)知識和計算機(jī)知識的互補(bǔ)，同時也需要高質(zhì)量的醫(yī)療數(shù)據(jù)。

　　盡管研究人員在新冠肺炎 AI 模型中發(fā)現(xiàn)了缺陷，但研究人員表示，通過一些關(guān)鍵的修改，機(jī)器學(xué)習(xí)可以成為抗擊這種流行病的強(qiáng)大工具。在未來的臨床場景中，被改進(jìn)的算法可以更好地被驗(yàn)證。

　　參考資料：https://www.nature.com/articles/s42256-021-00307-0

　　文章來源于學(xué)術(shù)頭條，作者劉芳

（轉(zhuǎn)載）

標(biāo)簽：AI算法

我要反饋