ドキュメント検索のモデルのトレーニング

ドキュメント検索クエリの精度を向上させるために、データをアップロードして、モデルをトレーニングさせることが可能です。ナレッジベースでのドキュメント検索の利用方法についてはこちらのユーザーガイドをご参照ください。

モデルをトレーニングする理由

AlliのDocument Searchは、事前にトレーニングされたAIモデルを使って文書から情報を抽出する仕組みになっています。 Alliは非常に精度が高いのですが、高性能なAIモデルを開発するには、十分な量の関連データでモデルをトレーニングすることが重要です。これは、最初にトレーニングデータを追加し、その後モデルを再トレーニングすることで行われます。初期学習が完了したら、テストデータを与えてモデルの精度を検証する必要があります。このステップでは、モデルがお客様の特定のニーズに対して、正確で適切な答えを出すことができることを確認します。モデルの性能が満足できない場合は、追加データによる再トレーニングや、以前のモデルに戻すことが必要です。本資料では、その方法について説明します：

モデルのバージョンを管理する
トレーニングデータの追加
そのデータを活用するために、モデルの再トレーニングを行う
テストデータを追加して精度メトリクスを表示する

トレーニングに用いるデータを複数追加することで、さらに良い結果を得ることが可能です。

モデルの管理方法について

トレーニングデータ、モデルのバージョン、テストデータを管理するには、「ナレッジベース」→「ドキュメント」→「歯車マーク」を開いてください。

モデルのバージョンを管理する

ここでは、モデルのバージョン名を変更したり、必要に応じて説明を付けたり、回答精度や文書のヒット精度の指標を表示したりすることができます。それらの指標は、Test Dataを追加することで入力されます。

トレーニングデータの管理

ここでは、トレーニングデータを手動で入力したり、既存のエントリーを修正/削除したりすることができます。トレーニングデータのアップロードをクリックすると、トレーニングデータを一括でアップロードすることもできます。質問と文書のペアは一意であるため、同じ質問と文書のタイトルを持つ2つのエントリーを持つことができないことに留意してください。

▼管理画面より手動で入力する場合

トレーニングデータ用の質問を入力する
適切な回答が存在する文書を提示すること
AIにその文書を検索させ、答えの可能性を探る
答えを選んでください
今回のトレーニングデータを提出した後に、もう一つトレーニングデータを追加する
トレーニングデータの追加を確定またはキャンセルする

▼トレーニングデータをアップロードする場合

アップロードするファイルには、1列目に「質問」、2列目に「文書名」、3列目に「回答」のラベルを付けてください。 “質問 “と “文書タイトル “は必須項目です。正しいフォーマットのサンプルファイルは、「トレーニングデータのアップロード」ウィンドウからダウンロードすることもできます。ファイルをアップロードすると、Alliは失敗した行を報告します。 (異なる行で失敗しても、適切にフォーマットされ、重複しない行はすべて追加されます。)

未回答の質問から直接トレーニングデータを追加することもできます。質問内容のみを、トレーニングデータに追加できないことに注意してください。

トレーニングデータの準備ができたら、モデルを再トレーニングして効果を確認する必要があります。ドキュメントページに戻り、”AIデータの管理” -> “モデルの再調整 “をクリックします。

トレーニング中は、自由に他の機能を利用することが可能です。トレーニングが完了すると、「トレーニング中」のバーが消えます。

モデルのトレーニングが遅いと判断された場合、トレーニング状況の中で文書検索の割り当てリソースがどうなっているかを確認することができます。さらにリソースが必要な場合は、担当のカスタマーサクセスにご相談ください。

テストデータの管理

ここでは、テストデータを手動で入力したり、既存の項目を修正・削除したりすることができます。テストデータのアップロードをクリックすると、テストデータを一括でアップロードすることもできます。質問と文書のペアは一意であるため、同じ質問と文書のタイトルを持つ2つのエントリーを持つことができないことに留意してください。テストデータは、トレーニングデータで再トレーニングした後に、モデルの性能をベンチマークする方法です。

テストデータ用の質問を入力する
適切な回答が存在する文書を提示すること
AIにその文書を検索させ、答えの可能性を探る
答えを選んでください
今回のテストデータを提出した後に、もう一つテストデータを追加する
テストデータの追加を確定またはキャンセルする

アップロードされたファイルには、1列目に「質問」、2列目に「文書名」、3列目に「回答」のラベルを付けてください。 “質問 “と “文書タイトル “は必須項目です。正しいフォーマットのサンプルファイルは、「テストデータのアップロード」ウィンドウからダウンロードすることもできます。ファイルをアップロードすると、Alliは失敗した行を報告します。 (異なる行で失敗しても、適切にフォーマットされ、重複しない行はすべて追加されます。)

トレーニング設定

トレーニング設定を変更することが可能です。これらは、[ドキュメント]ページの設定アイコンをクリックし、[モデルトレーニング設定]タブにて設定できます。

各設定について簡単に説明します。

検索時にドキュメント名を反映：オンにすると、Alliはドキュメント検索を実行するときにドキュメントのタイトル（ファイル名）を考慮します。
ドキュメント名の影響度：ドキュメント検索のドキュメント名の影響度を変更できます。この設定を適用するには、[検索時にドキュメント名を反映]がオンになっている必要があります。回答には質問のキーワードが含まれていなくても、微調整されたモデルであれば、その質問や類似の質問に対する回答を持つ特定のドキュメントを識別することができます。文書のタイトルの重さが重いと、この方法で回答した場合のスコアが変わってきます。
ドキュメントごとに抽出する回答候補の最大数：この設定は、1つのドキュメントから抽出される結果の最大数を決定します。デフォルトは0、つまり文書ごとの制限はありません。
類似した検索結果を除去：類似のドキュメント検索結果がある場合、非表示にすることができます。全ての類似した結果、ハッシュタグが同一の場合の結果、または同じドキュメントから抽出された結果を除去することが可能です。

ドキュメント検索を最適化するその他の方法

検索結果からの顧客フィードバックやクエリトレーニングからのエージェントフィードバックを使用して、ドキュメント検索をさらに改善することもできます。詳細については、以下のユーザーガイドを参照してください。

ドキュメント検索の一般的な説明については、以下のユーザーガイドを参照してください。

前へアップロードされたドキュメントからの直接回答次へドキュメント

最終更新 11 か月前