ROC 曲線は、モデルの性能評価に使われている。ROC 曲線は、予測結果から計算される false positive rate を横軸に、true positive rate を縦軸に点をプロットし、それを線でつないだグラフである。点の数が多くなると、線が滑らかな曲線のように見えるので、曲線と呼ばれている。
data:image/s3,"s3://crabby-images/c900f/c900f70477b014ad522710ce84a7efa57fb29879" alt="ROC曲線"
予測モデルが出力するスコアに基づいて、スコアの高い順にデータを並べ替える。次に、スコアに対して閾値を設けて、閾値を超えた場合に positive、閾値以下の場合に negative と判定する。判定結果と教師ラベルを比較し TPR および FPR を計算する。以下に ROC 曲線を描く例を示す。
まず、予測結果をスコア順に並べて、最も高いスコアの上に閾値を置く。閾値以下はすべて negative であるので、この場合、予測結果は TN または FN しかない。これらの値を元に TPR および PFR を計算し、それを座標上にプロットする。
data:image/s3,"s3://crabby-images/e0a92/e0a92d32a896fd9c400d4dfb7ee858cc609ff034" alt="ROC曲線(ステップ 1)"
次に、閾値を最高スコアと 2 番目に大きいスコアの間に移動する。そして、同様にして TPR および FPR を計算して、座標上にプロットする。
data:image/s3,"s3://crabby-images/fd7e9/fd7e93e22aeb8e618e9e8ef96d490e8295d181f5" alt="ROC曲線(ステップ 2)"
このように閾値を少しずつずらしながら、点をプロットする。
data:image/s3,"s3://crabby-images/9c832/9c832fc45dab536d01d1155f8da9aa68783994e8" alt="ROC曲線(ステップ 3)"
data:image/s3,"s3://crabby-images/7d1d0/7d1d075687b20d07714c8bfd343a5447fac6f3dc" alt="ROC曲線(ステップ 4)"
data:image/s3,"s3://crabby-images/7fdc1/7fdc11d3dd1492d28e71bfc8ead752e24530eb6d" alt="ROC曲線(ステップ 5)"
data:image/s3,"s3://crabby-images/a8c65/a8c658213238fd97fb0b12cc8080abd82f09e3e4" alt="ROC曲線(ステップ 6)"
data:image/s3,"s3://crabby-images/a63bc/a63bca9cdc1570e8509da9a983f59215c67ef64f" alt="ROC曲線(ステップ 7)"
data:image/s3,"s3://crabby-images/816a5/816a54295172062ed6016619db5d7fb37985d800" alt="ROC曲線(ステップ 8)"
data:image/s3,"s3://crabby-images/2c7c5/2c7c54a9da369f8c9e0110c8b0bb906655141a76" alt="ROC曲線(ステップ 9)"
data:image/s3,"s3://crabby-images/3d6d8/3d6d8a5f8b493b445aeffc8aca0b07f13b1a30b7" alt="ROC曲線(ステップ 10)"
data:image/s3,"s3://crabby-images/fc653/fc65384ceee91a6e6421cb95188ac42802c9a851" alt="ROC曲線(ステップ 11)"
最後にすべての点を線で結ぶことで、ROC 曲線が描かれる。ROC 曲線の下の部分の面積を AUC とよび、AUC が 1 に近づくほどモデルの性能が良いとされる。
data:image/s3,"s3://crabby-images/c900f/c900f70477b014ad522710ce84a7efa57fb29879" alt="ROC曲線"
scikit-learn で ROC 曲線を描く方法
次のコードは、乳がんデータの疾患に対する予測モデルを SVM とロジスティック回帰の 2 つの方法で作成し、2 つのモデルの ROC 曲線を描く例である。ROC 曲線の座標を計算するためのスコアが必要なため、SVM モデルを作成するときに、probability=True
を指定する必要がある。
data:image/s3,"s3://crabby-images/ce4a0/ce4a0de925486a35773dcb43461e4b39472bd282" alt="scikit learnモジュールを使って ROC 曲線を描く方法"