top of page

K次交叉驗證

K-Fold Cross Validation

由於我們的資料集樣本數相當有限,所以在模型訓練過程,準確率Accuracy一直是很不穩定的,另外在訓練時也難以藉由少量的驗證集去評估模型,因此我們使用 K-Fold 交叉驗證,希望在模型的評估上掌握更全面的視角。

下圖為模型經由 K-Fold 交叉驗證訓練後得到的一些重要資訊。

 

現在除了經由 Accuracy 指標去評估模型外,又多了 Precision(精確率)、Recall(召回率)、F1-score(F1分數)這些指標可以來衡量,然而發現模型訓練後得到的 Precision 平均值及 Recall 平均值都差不多,無法比較其差異性,因此我們可以直接從 F1-score 平均值(Precision和Recall 的調和平均值)去觀察,可以瞭解到它的值並不算特別高,還有進步的空間。另外從標準差(STD)也可以看出模型在不同的訓練週期上表現波動較大,因此仍需謹慎評估模型的穩定性

K-fold cross validation.png

Accuracy = 正確預測數/總預測數
Accuracy 用於評估分類模型的效能,其中涉及預測用於輸入資料的正確標籤。要將 Accuracy 用作分類模型的衡量指標,資料集應該是平衡的,這意味著每個類別的資料點數量大致相等。如果資料不平衡,就要轉向 Precision、Recall 和 F1-Score。


Precision = TP / (TP + FP)
Precision
 表示有多少被分類為第 1 類的資料點實際上就是第 1 類?


Recall = TP / (TP + FN)
Recall 表示屬於第 1 類的資料點有多少被識別正確?


F1-Score是 Precision 和 Recall 的調和平均值,這使得它對較小值敏感。這意味著如果 Precision 或 Recall 中的一個顯著低於另一個,則會對 F1-Score 產生更明顯的影響。

    重點:對較小值的敏感度使得 F1-Score

對於不平衡的資料集非常實用!

 

當資料集不平衡時,Precision 和 Recall 值變化更大!與資料集為 50/50 相比,效能指標採用更激進的值,並且由於影響力增加,兩者中較小的值都會降低 F1-Score。

bottom of page