動画⇩
https://youtu.be/yGfidadqdOw
前回、XGBoostを用いたモデルを作成しましたが、今回はその評価結果を分析していきます。モデルの精度を測るために、いくつかの指標を算出し、それぞれの意味と今後の改善策を考察しました。
1. モデルの評価指標
Mean Squared Error(MSE)
MSEは予測値と実測値の差を二乗して平均した指標です。ただし、二乗することで誤差が大きくなりすぎるため、実際の評価にはあまり向いていないと考えています。
Root Mean Squared Error(RMSE)
RMSEはMSEの平方根をとることで、元のスケールで誤差を表現できる指標です。今回のRMSEは15,979円となりました。これは、利益が0円の場合でも平均して-15,000円から+15,000円の誤差が生じる可能性を示しています。
Mean Absolute Error(MAE)
MAEは誤差の絶対値の平均で、今回の値は2,096円でした。RMSEと比較するとかなり小さい値となっており、大きな誤差がいくつか存在する可能性を示唆しています。
決定係数(R²スコア)
R²スコアはモデルの説明力を表し、1に近いほど良いとされます。今回のスコアは0.9558であり、かなり高い精度を示しています。
RMSE / 平均値
RMSEをデータの平均値で割った値で、今回の結果は0.91。つまり、誤差が平均値とほぼ同じ程度存在していることを意味します。
RMSE / 標準偏差
RMSEを標準偏差で割った値で、1未満ならモデルの予測が安定していると判断されます。今回の結果では1未満であり、安定した予測ができていることが確認できました。
2. 今後の改善策
モデルの予測精度は高い一方で、一部の誤差が大きいという問題点が見えてきました。その要因として考えられるのが、説明変数の数が多すぎる点です。現時点では30個ほどの説明変数を使用していますが、適切に特徴量を選別することで誤差の低減が期待できます。
次回は、SHAP(Shapley Additive Explanations)を活用して、どの特徴量がモデルの予測にどれだけ影響を与えているかを分析し、重要な特徴量を絞り込んでいきたいと考えています。
今後もXGBoostのチューニングを進め、より精度の高いモデルを目指していきます。最後までお読みいただきありがとうございました。次回もぜひお楽しみに!