Random Forestを用いた高度なデータ分析

記事

IT・テクノロジー

2023/08/04 10:29

Pythonの機械学習ライブラリであるscikit-learn（sklearn）は、アルゴリズムの実装からデータセットの提供まで、高度なデータ分析を行うための機能が多数備わっています。今回はその中から、アンサンブル学習の一種であるランダムフォレストを使用し、グリッドサーチと交差検証によるハイパーパラメータチューニング、さらには特徴量の重要度を可視化する方法について紹介します。

１．Random Forestとは

ランダムフォレストは、アンサンブル学習の一種で、多数の決定木を生成し、その予測結果の多数決で最終的な予測を行う方法です。各決定木はデータセットの一部の特徴量から構築され、個々の決定木がデータの異なる側面を学習することで、全体として過学習を抑えつつ精度の高いモデルを構築します。

ランダムフォレストは特徴量の重要度を算出できるという利点もあります。これは、各決定木で利用される特徴量とその特徴が予測にどれだけ寄与したかを評価することで得られます。

では、具体的な実装を見てみましょう。

２．データの準備

まずはsklearn.datasetsからirisデータセットをロードします。このデータセットは4つの特徴量を持つ150のサンプルで、アヤメの3つの品種に分類されます。

from sklearn import datasets

# irisデータセットのロード
iris = datasets.load_iris()
X = iris.data
y = iris.target

３．データセットの分割

データセットはtrain_test_split関数を使用し、訓練用とテスト用に分割します。test_size=0.2と設定することで、全データの20％をテストデータとし、80％を訓練データとします。

from sklearn.model_selection import train_test_split

# データセットを訓練用とテスト用に分割

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

４．モデルの作成と訓練

RandomForestClassifierのインスタンスを作成します。次に、チューニングしたいパラメータのリストを設定し、GridSearchCVのインスタンスを作成します。GridSearchCVは与えられたパラメータの全ての組み合わせでモデルを訓練し、最適なパラメータを自動で見つけ出します。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

# RandomForestClassifierのインスタンスを作成
rfc = RandomForestClassifier(random_state=42)

# チューニングしたいパラメータの設定
parameters = {'n_estimators':[10, 50, 100], 'max_depth':[2, 4, 6, 8, 10]}

# GridSearchCVのインスタンスを作成
clf = GridSearchCV(rfc, parameters, cv=5)

# モデルの訓練
clf.fit(X_train, y_train)

５．モデルの評価

テストデータを使用してモデルの予測を行い、classification_report関数を用いてモデルの性能を評価します。この関数は、精度（Precision）、再現率（Recall）、F値（F1-score）など、分類問題の評価に必要な各種指標を計算します。

from sklearn.metrics import classification_report

# テストデータを使って予測
y_pred = clf.predict(X_test)

# モデルの性能を評価
print(classification_report(y_test, y_pred))

コマンドに以下の数値が出力されます。

６．特徴量の重要度の可視化

最後に、ランダムフォレストの特性を利用して、特徴量の重要度を可視化します。feature_importances_属性を使用することで、各特徴量が予測にどれだけ寄与しているかを確認することができます。

import matplotlib.pyplot as plt
import pandas as pd

# 特徴量の重要度を可視化
feature_imp = pd.Series(clf.best_estimator_.feature_importances_, index=iris.feature_names).sort_values(ascending=False)

# 特徴量の重要度をプロット
plt.figure(figsize=(12, 6))
plt.title("Feature importances")
plt.bar(feature_imp.index, feature_imp.values, color="b", align="center")
plt.show()

特徴量の重要度をプロットした図が出力されます。