固有表現抽出(Named Entity Recognition)

固有表現抽出の主要なメトリックとその計算方法

固有表現抽出(Named Entity Recognition) APIは、自然言語のテキストから、人物、組織、場所、その他の特定のタイプのエンティティなど、意味のあるキーワード（エンティティ）を抽出します。

パフォーマンスメトリック

固有表現抽出は、モデルのパフォーマンスを測定するために3つのメトリックを使用します。

1. Precision (精度 )

Precisionは、モデルがどれだけ正確かを測定します。正しい予測と予測の比率から値を計算できます。

2. Recall(再現率)

Recallは、モデルがカテゴリを見つける能力を測定します。正しい予測とサンプルの数の比率から値を計算できます。

3. F1スコア

PrecisionとRecallは、モデルの異なる側面を示します。いくつかの状況では、Precisionが高くてRecallを気にしないモデルが必要であったり、逆の状況もあります。PrecisionとRecallが共に良好なモデルが必要な場合には、単一のメトリックが役立ちます。その目的のために、以下の定義でF1スコアは最も有名なメトリックの1つです。

F1 Score = 2 * Precision * Recall / (Precision + Recall)

固有表現抽出では、次の2つの理由から、正確度はパフォーマンス指標として使用されません。そのため、「N/A」の値として表示されます。

1.データの不均衡：ほとんどのNERデータセットでは、非エンティティトークン（一般的な単語など）の数がエンティティトークンよりもかなり多くなっています。そのため、モデルはすべてのトークンを非エンティティと予測するだけで高い正確度を達成できます。そのため、データの不均衡のために正確度はモデルのパフォーマンスを適切に反映しません。 2.分類エラーの重要性：固有表現抽出では、エンティティの種類を正確に分類することが重要です。たとえば、人名を組織名として誤って分類することは重大なエラーです。しかし、正確度は単に予測が正しい答えに一致するかどうかを評価するだけで、エンティ

メトリックの計算方法

固有表現抽出のトレーニングは、ユーザーが選択したテストセットで成功裏に終了すると、評価ステップをトリガーします。例として、2つのフレーズを選び、モデルの評価を行います。

以下の画像2のメトリックの詳細ページには、各表現のモデルのパフォーマンスが表示されています。トレーニングセットで見つかる2つの表現のみを切り取りました。

ダッシュボードには、フレーズA142に6つのTECHNOLOGY関連の表現が含まれ、フレーズA128には3つのCOUNTRY関連の表現が含まれていることが表示されています。これらの数値は、メトリック詳細ページのサンプル列にも表示されます。

Inferenceタブページでは、モデルの推論結果を確認できます。

TECHNOLOGYの表現の混同行列は、TECHNOLOGY関連の表現が正しい表現であるフレーズA142のみを使用して作成できます。A142の推論結果には3つのTECHNOLOGY関連の表現があり、すべて正しい表現です。しかし、結果から3つのTECHNOLOGY関連の表現が欠落しています。したがって、真陽性は3、偽陰性は3です。

まず、以下のように各エンティティごとにパフォーマンスメトリックを計算できます。

上記の混同行列と前のセクションの方程式から、Precision、Recall、F1スコアを計算できます。

Precision(精度) = TP / (TP + FP) = 3 / (3 + 0) * 100 = 100%
Recall(再現率) = TP / (TP + FN) = 3 / (3 + 3) * 100 = 50%
F1スコア(F1-score) = 2 * Precision * Recall / (Precision + Recall) = 2 * 100 * 50 / (100 + 50) = 66.7%