一文詳盡系列之模型評估指標
點選上方“Datawhale”,選擇“星標”公眾號
第一時間獲取價值內容
準確率、精確率、召回率、F1值
準確率(Accuracy):正確分類的樣本個數佔總樣本個數, 精確率(Precision):預測正確的正例資料佔預測為正例資料的比例, 召回率(Recall):預測為正確的正例資料佔實際為正例資料的比例, F1 值(F1 score):
實際正類 | 實際負類 | |
---|---|---|
P-R、ROC、AUC
P-R 曲線:橫軸召回率,縱軸精確率。 ROC(receiver operating characteristic curve接收者操作特徵曲線):採用不分類閾值時的TPR(真正例率)與FPR(假正例率)圍成的曲線,以FPR為橫座標,TPR為縱座標。如果 ROC 是光滑的,那麼基本可以判斷沒有太大的overfitting。 AUC(area under curve):計算從(0, 0)到(1, 1)之間整個ROC曲線一下的整個二維面積,用於衡量二分類問題其機器學習演算法效能的泛化能力。其另一種解讀方式可以是模型將某個隨機正類別樣本排列在某個隨機負類別樣本之上的概率。
實際正類 | 實際負類 | |
---|---|---|
閾值 | ||||
MSE、RMSE、MAE、R2
MSE(Mean Squared Error) 均方誤差, RMSE(Root Mean Squared Error) 均方根誤差, MAE(Mean Absolute Error) 平均絕對誤差, ,決定係數,
MSE 和 RMSE 可以很好的反應迴歸模型預測值和真實值的偏離成都,但如果存在個別離群點的偏離程度非常大時,即使其數量非常少也會使得RMSE指標變差(因為用了平方)。解決這種問題主要有三個方案:
如果認為是異常點時,在資料預處理的時候就把它過濾掉;
如果不是異常點的話,就提高模型的預測能力,將離群點產生的原因建模進去;
此外也可以找魯棒性更好的評價指標,如:, 。
餘弦距離的應用
非負性:
對稱性: 三角不等式: 給出反例: 因此有:
A/B測試
離線評估無法消除模型過擬合的影響,因此得出的離線評估結果無法完全替代線上評估結果; 離線評估無法完全還原線上的工程環境,如:資料丟失、標籤缺失等情況; 某些評估指標離線狀態下無法評估,比如:使用者點選率、留存時長、PV 訪問量等。
提出問題(給出零假設和備選假設,兩個假設互補); 收集證據(零假設成立時,得到樣本平均值的概率:p 值); 判斷標準(顯著水平 ,0.1% 1% 5%); 做出結論(p<=,拒絕零假設,否則接受)。
已知一個總體均數; 可得到一個樣本均數及該樣本標準差; 樣本來自正態或近似正態總體。
建立假設 ,即先假定兩個總體平均數之間沒有顯著差異; 計算統計量 T 值,對於不同型別的問題選用不同的統計量計算方法; 根據自由度 ,查 T 值表,找出規定的 T 理論值並進行比較。理論值差異的顯著水平為 0.01 級或 0.05 級; 比較計算得到的t值和理論T值,推斷髮生的概率,依據給出的T值與差異顯著性關係表作出判斷。
建立虛無假設 ,即先假定兩個平均數之間沒有顯著差異; 計算統計量 Z 值,對於不同型別的問題選用不同的統計量計算方法; 比較計算所得 Z 值與理論 Z 值,推斷髮生的概率,依據 Z 值與差異顯著性關係表作出判斷。
設 A 代表某個類別的觀察頻數,E 代表基於 計算出的期望頻數,A 與 E 之差稱為殘差; 殘差可以表示某一個類別觀察值和理論值的偏離程度,但如果將殘差簡單相加以表示各類別觀察頻數與期望頻數的差別,則有一定的不足之處。因為殘差有正有負,相加後會彼此抵消,總和仍然為 0,為此可以將殘差平方後求和; 另一方面,殘差大小是一個相對的概念,相對於期望頻數為 10 時,期望頻數為 20 的殘差非常大,但相對於期望頻數為 1000 時 20 的殘差就很小了。考慮到這一點,人們又將殘差平方除以期望頻數再求和,以估計觀察頻數與期望頻數的差別。
零假設 H0:性別與收入無關。 確定自由度為 (3-1)×(2-1)=2,選擇顯著水平 α=0.05。 求解男女對收入與性別相關不同看法的期望次數,這裡採用所在行列的合計值的乘機除以總計值來計算每一個期望值,在單元格 B9 中鍵入“=B5*E3/E5”,同理求出其他值。
利用卡方統計量計算公式計算統計量,在單元格 B15 中鍵入 “=(B3-B9)^2/B9”,其餘單元格依次類推,結果如下所示:
最後得出統計量為 14.32483,而顯著水平為 0.05 自由度為 2 卡方分佈的臨界值為 5.9915。 比較統計量度和臨界值,統計量 14.32483 大於臨界值 5.9915,故拒絕零假設。
https://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C
相關文章
- 迴歸模型-評估指標模型指標
- 語音識別 (ASR) 模型測試 之 評估指標探索模型指標
- 機器學習筆記之效能評估指標機器學習筆記指標
- 評估指標與評分(上):二分類指標指標
- 【機器學習】--模型評估指標之混淆矩陣,ROC曲線和AUC面積機器學習模型指標矩陣
- 機器學習之模型評估機器學習模型
- 迴歸預測評估指標指標
- 分類演算法的評估指標演算法指標
- 工程團隊的10大評估指標指標
- 【推薦系統】評估指標總結指標
- IQA+不懂︱影像清洗:影像質量評估(評估指標、傳統檢測方法)指標
- 演算法金 | 必會的機器學習評估指標演算法機器學習指標
- 一文解碼語言模型:語言模型的原理、實戰與評估模型
- JavaScript之this指標深入詳解JavaScript指標
- AI 模型常見的評價指標彙總AI模型指標
- opencv-9-影像噪聲以及評估指標 PSNR 與SSIMOpenCV指標
- 評估智慧對話機器人的7大資料指標機器人大資料指標
- 流量渠道資料分析方法與價值評估指標體系指標
- 如何評估大語言模型模型
- 六種GAN評估指標的綜合評估實驗,邁向定量評估GAN的重要一步指標
- 「技術綜述」一文道盡R-CNN系列目標檢測CNN
- 直擊RSAC 2022:如何綜合評估威脅情報指標指標
- 詳解 常量指標和指標常量指標
- 一文弄懂pytorch搭建網路流程+多分類評價指標PyTorch指標
- 指標詳解指標
- 二分類問題中混淆矩陣、PR以及AP評估指標矩陣指標
- 機器學習演算法筆記之7:模型評估與選擇機器學習演算法筆記模型
- 一文讀懂野指標指標
- 詳盡可能性模型(轉載)模型
- GNN 模型評估的一些陷阱GNN模型
- GNN模型評估的一些陷阱GNN模型
- 模型評估與改進:交叉驗證模型
- 效能優化-使用 RAIL 模型評估效能優化AI模型
- O'Reilly Report:評估機器學習的模型機器學習模型
- 理夫斯“UP”評估模型(轉載)模型
- 沃爾夫“PFA”評估模型(轉載)模型
- 深入理解Go系列一之指標變數Go指標變數
- Android 動畫詳盡教程 [詳盡!詳盡!]Android動畫