
責(zé)任編輯:admin123 閱讀量:4330次 發(fā)表時(shí)間:2022-01-18 18:01:50
ROC曲線來歷:相傳在第二次世界大戰(zhàn)期間,雷達(dá)兵的任務(wù)之一就是死死地盯住雷達(dá)顯示器,觀察是否有敵機(jī)來襲。理論上講,只要有敵機(jī)來襲,雷達(dá)屏幕上就會(huì)出現(xiàn)相應(yīng)的信號,但是實(shí)際上,有時(shí)如果有飛鳥出現(xiàn)在雷達(dá)掃描區(qū)域時(shí),雷達(dá)屏幕上有時(shí)也會(huì)出現(xiàn)信號。這種情況令雷達(dá)兵煩惱不已:如果過于謹(jǐn)慎,凡是有信號就確定為敵機(jī)來襲,顯然會(huì)增加誤報(bào)風(fēng)險(xiǎn);如果過于大膽,凡是信號都認(rèn)為飛鳥,又會(huì)增加漏報(bào)的風(fēng)險(xiǎn)。為了研究每個(gè)雷達(dá)兵預(yù)報(bào)的準(zhǔn)確性,雷達(dá)兵的管理者匯總了所有雷達(dá)兵的預(yù)報(bào)特點(diǎn),特別是他們漏報(bào)和誤報(bào)的概率,并將這些概率畫到一個(gè)二維坐標(biāo)里面。由于每個(gè)雷達(dá)兵的預(yù)報(bào)標(biāo)準(zhǔn)不同,且得到的敏感性和特異性的組合也不同。將這些雷達(dá)兵的預(yù)報(bào)性能進(jìn)行匯總后,雷達(dá)兵管理員發(fā)現(xiàn)他們剛好在一條曲線上,這條曲線就是我們經(jīng)常在醫(yī)學(xué)雜志上看見的ROC曲線。

ROC曲線(receiver operating characteristic curve):即接受者操作特性曲線。我們根據(jù)學(xué)習(xí)器的預(yù)測結(jié)果,把閾值從0變到最大,隨著閾值的增大,學(xué)習(xí)器預(yù)測正例數(shù)越來越少,直到最后沒有一個(gè)樣本是正例。在這一過程中,每次計(jì)算出靈敏度和特異性,分別以它們?yōu)闄M、縱坐標(biāo)作圖,就得到了ROC曲線。
AUC面積(area under curve):為ROC曲線下與坐標(biāo)軸圍成的面積,這個(gè)面積數(shù)值 ≤ 1。由于ROC曲線一般都處于y = x這條直線的上方,所以AUC的取值范圍在0.5和1之間。我們往往使用AUC值作為模型的評價(jià)標(biāo)準(zhǔn)是AUC值越大,對應(yīng)的模型效果更好。
準(zhǔn)確率(accuracy)=(TP+TN)/(TP+TN+FP+FN),即被預(yù)測正確的樣本與所有預(yù)測樣本的比。
靈敏度(sensitivity)= TP /(TP+FN)×100%,即正確判斷陽性的概率。
特異性(specificity)= TN /(FP+TN)×100%,即正確判斷陰性的概率。
陽性預(yù)測值(PPV)= TP /(TP+FP)×100%,即被正確預(yù)測的陽性樣本與所有預(yù)測為陽性樣本的比。
陰性預(yù)測值(NPV)= TN /(FN+TN)×100%,即被正確預(yù)測的陰性樣本與所有預(yù)測為陰性樣本的比。
AUC面積用于模型性能的判斷
AUC值為ROC曲線所覆蓋的區(qū)域面積,顯AUC越大分類器分類效果越好。
AUC = 1,是完美分類器,采用這個(gè)預(yù)測模型時(shí),能得出完美預(yù)測。絕大多數(shù)預(yù)測的場合,不存在完美分類器。
0.5 < AUC < 1,優(yōu)于隨機(jī)猜測。這個(gè)模型設(shè)置合適的閾值,能有預(yù)測價(jià)值。
AUC = 0.5,跟隨機(jī)猜測一樣(例:丟硬幣),模型沒有預(yù)測價(jià)值
AUC < 0.5,比隨機(jī)猜測還差,但只要總是反預(yù)測結(jié)果而行,模型就優(yōu)于隨機(jī)猜測。
