レビュー分析 (Review Analysis)

レビュー分析の主要なメトリックとその計算方法

レビュー分析(Review Analysis)APIは、与えられたフレーズの感情(ラベル)を各カテゴリ(タイプ)について識別します。

感情ラベルは、数値的または質的である場合があります。

例1)-2、-1、0、1、2

例2)Negative、Neutral、Positive

パフォーマンスメトリック

レビュー分析は、モデルのパフォーマンスを測定するために4つのメトリックを使用します。

  • Precision(精度)

  • Recall(再現率)

  • F1スコア

  • Accuracy(正解率)

パフォーマンスを計測するには

レビュー分析のモデルパフォーマンスを計測するために、混同行列を介してモデルによる予測結果と正解を比較します。

1. 正解 (Ground Truth)

正解とは、モデルの予測結果を比較または評価するための参照点の用語です。これは、モデルが予測する正しい検証済みのラベルまたは結果を指します。

各カテゴリにPOSITIVE、NEUTRAL、NEGATIVEの3つのラベルのうちの1つを設定できます。

タイプのラベルを指定しない場合、ラベルはNONEに設定されますが、パフォーマンスメトリックテーブルではNONEラベルは表示されません。

トレーニングされたモデルがテストサンプルデータを通じて返した推論結果は以下の通りです。

2. 予測結果 (Inference Result)

予測結果とは、トレーニングされたモデルによってテストデータが処理された結果として生産される推論結果を指します。

正解と予測結果のテーブルから、各カテゴリの混同行列を作成できます。

3. 混同行列 (Confusion Matrix)

たとえば、タイプ3の混同行列テーブルは次のようになります。

混同行列を使用して、[テーブル4]の従来のパフォーマンスメトリック、つまりPrecision、Recall、F1スコア、Accuracyを簡単に計算できます。

メトリックの計算方法

モデル履歴ページとメトリックの詳細ページで、それぞれメトリック値を計算

以下のように各タイプカテゴリーごとにメトリックを確認できます。これらのメトリックは、モデル履歴ページの各モデルの「詳細」ボタンを押すことで確認できます。

1. Precision(精度)

Precisionは、モデルの正確さを測定するメトリックです。カテゴリー全体の正解予測数に対するそのカテゴリーの正しい予測数の比率、つまり単一行の合計から値を計算できます。この例では、POSITIVEラベルのPrecisionは次のようになります。

100 * TRUE POSITIVE / POSITIVE PREDICTION = 100 * 2 / (2 + 0 + 2 + 0) = 50%

「メトリックの詳細」ウィンドウの左上隅のドロップダウンメニューからPOSITIVEラベルを選択すると、この値を確認できます。

NEUTRALのPrecisionは、サポート(真のサンプル数)が0であるため、0です。また、NEUTRALのPrecisionが0である理由は、正しい予測のカウントが0であるためです。ただし、NONEのPrecisionは100%です。

これらの値を使用して、すべてのラベルの重み付き平均精度を計算できます。

(50 * 2 + 0 * 0 + 0 * 2 + 100 * 3) / (2 + 0 + 2 + 3) = 57.1%

次に、モデルごとに全体的なメトリックを確認できます。「モデル履歴」ページのメトリック値は、カテゴリーごとの重み付き平均です。すべてのカテゴリーが同じサポートを持っているため、それらの単純な数値平均を取ることができます。

例えば、この例のモデルの全体的な精度は、次のようになります。

(57.1 + 52.4 + 42.9) / 3 = 50.8%

2. Recall(再現率)

Recallは、モデルがカテゴリーを識別する能力を測定するものです。この値は、そのカテゴリーの正しい予測数をそのカテゴリーのサンプル数、つまり単一列の合計で割った比率から計算できます。この例では、POSITIVEラベルのRecallは次のようになります。

100 * TRUE POSITIVE / POSITIVE LABELS = 100 * 2 / (2 + 0 + 0 + 0) = 100%

NEUTRALのRecallはサポートがないため0です。NEGATIVEのRecallも0ですが、理由は異なります。モデルがNEGATIVEラベルを見つけることができなかったためです。言い換えると、NONEのRecallは100%です。

これらの結果を使用して、すべてのラベルの加重平均再現率を計算できます。

(100 * 2 + 0 * 0 + 0 * 2 + 100 + 3) / (2 + 0 + 2 + 3) = 71.4%

3. F1スコア (F1 Score)

PrecisionとRecallは、モデルの異なる側面を表しています。Precisionだけが必要な場合や、Recallだけが必要な場合があります。両方の良いPrecisionとRecallを持つモデルが必要な場合には、次の定義に従うF1スコアが最も一般的なメトリックの1つです。

2 * precision * recall / (precision + recall).

この例では、POSITIVEラベルのF1スコアは

2 * 50 * 100 / (50 + 100) = 66.7%

NEUTRALとNEGATIVEのF1スコアは0ですが、NONEのF1スコアは100です。

これらの結果を使用して、すべてのラベルの加重平均F1スコアを計算します。

(66.7 * 2 + 0 * 0 + 0 * 2 + 100 * 3) / (2 + 0 + 2 + 3) = 61.9%

4. Accuracy(正解率)

Accuracyは、正しい予測の数をすべてのサンプルの数で割った比率を計算できます。上部左隅のメニューから「ALL」を選択すると、Accuracyの値が表示されないことに気付くでしょう。これは、これらの状況では値を定義できないことを意味します。ただし、「ALL」を選択すると、Accuracyの値が表示されます。

この例では、Type 3カテゴリーのAccuracyは、

100 * (2 + 0 + 0 + 3) / 7 = 71.4%

推論根拠と信頼度レベル

ダッシュボードやインファレンスページのデータ領域には、レビュー文の列の右側に「詳細を見る」アイコンがあります。

このアイコンをクリックすると、モデルが抽出したカテゴリ別の推論の根拠となったフレーズ(ハイライト表示)と、該当する推論の信頼度値を確認できるレイヤーウィンドウが表示されます。

信頼度は、モデルの予測がどの程度信頼できるかを示す尺度です。0から1までの値を2桁まで出力し、値が高いほど、該当する推論の信頼度が高いと判断できます。

上記の例文のカテゴリ別の推論根拠と信頼度を分析すると、文中のフレーズに基づいて「ぴット」カテゴリのスコアが2行目で1と算出されたため、以下のようになります。

  • 根拠となったフレーズ:「ピットがうまくフィットしてうれしいです。」信頼度:0.84(89%)

ただし、TYPEカテゴリのテストデータサンプル数が比較的少ない場合、カテゴリ別の推論の信頼度値が低めに表示されることがあります。

Last updated