ダッシュボードでRetrieverのパフォーマンス改善機能をご利用いただけます。
Retrieverとは、質問に対して関連性のあるドキュメントを取り出す役割を果たしています。
Retriever設定では、アップロードした文書とユーザーの質問の類似性を高めるようにモデルをトレーニングしたり、プロジェクトにアップロードされている文書と質問タイプに合わせてRAGの最適な設定をすることができる機能です。Retrieverの性能向上により、より正確な回答を生成することができます。
この機能を使用するためには、まずナレッジベース> Retrieverの設定タブに移動し、「Retrieverのパフォーマンス改善」ボタンをクリックしてください。
Retrieverのパフォーマンス改善は直接ファイルをアップロードし、リクエストボタンを押していただければ完了です。
パフォーマンス改善のリクエスト後にAllganize担当者によって実行され、実行結果による性能改善度は最終レポート「ダウンロード」を通じて確認することができます。
レトリーバートレーニングは、アップロードした文書とユーザーの質問の類似性を高めるようにモデルをトレーニングする機能です。
この機能は、与えられた文書セットを理解し、ユーザーの質問に適した文書を見つけるモデルを訓練します。これにより、ユーザーが求める情報をより正確に検索し、効果的に活用できるようになります。
※パフォーマンス改善のリクエスト時に、トレーニングもONにした場合、データ数によっては完了までに日数を要しますのでご注意ください。またトレーニングにはクレジットが消費されます。
Retrieverの最適化は、プロジェクトにアップロードされている文書と質問に合わせてRAGの最適な重みを見つけることができる機能です。最適化のみを実施する場合、RetrieverのトレーニングはOFFにし、直接アップロードでデータを入力し、リクエストボタンを押してください。
パフォーマンス改善のリクエスト後に、Allganize担当者によって「回答の根拠となったドキュメントに付与されたフィードバック」とアップロードされたデータセットを利用して最適化が実行され、実行結果による性能改善度は最終レポート「ダウンロード」を通じて確認することができます。
会話履歴からエージェントが回答の根拠となるページに対してフィードバックを与えた履歴を集計したデータです。 直接アップロードするデータセットと一緒に最適化が実行されますので、より多くの精度向上を望めます。
'サンプルファイルをダウンロード'を通じて、どのような内容のファイルをアップロードすべきかテストデータを確認することができます。サポートしているファイル形式はxls、xlsx、csvです。
ファイルの基本構成は、 ①質問 ②質問に該当する回答を含むファイル名(ファイルの拡張子含む) ③ページ番号 で構成されています。 同じ質問に対して3つの文書が存在する場合には、質問と該当のドキュメントを3行に分けて記載してください。
データセットの数は50個以上作成することを推奨します。 データセットが少ない場合には、このオプションを使用してLLMモデルを使用してアップロードされたデータ+集計されたフィードバックデータと同様のパターンの質問データセットを自動的に生成することができます。 ただし、このオプションを使用する場合は、追加クレジットが発生します。
※データセットの数が50個未満でも最適化リクエストは可能ですが、データが多ければ多いほどRetrieverの最適化に良い影響を与えます。
実際に最適化リクエストをしてみましょう。
データセットファイルをアップロードした後(Retrieverの最適化のみの場合はトレーニング機能はOFF)、'次へ'ボタンを押すと
トレーニングデータ数(ONにしてリクエストした場合はデータ数が表示される)
集計されたフィードバックデータ数
アップロードされたデータセットファイル名
必要な推定クレジット
が表示されます。内容を確認した後、「OK」ボタンを押すと
最適化リクエストが完了します。リクエストを行った後、担当のカスタマーサクセスへ、リクエストを送信した旨をご連絡ください。その後カスタマーサクセス担当がRetrieverの最適化作業を行います。この作業には2~3営業日かかる場合があります。
最適化リクエスト後のダッシュボード上でのキャンセルはできませんので、キャンセルをご希望の場合もカスタマーサクセス担当者にご連絡ください。
最適化が完了した後は以下のような画面が表示されます。
最適化を要求したバージョンが表示されます。1次最適化後、追加最適化を要請した時は、V1 > V2 > V3のようにバージョンがアップグレードされて表示されます。
最適化リクエストを送信した時刻が表示されます
トレーニングに使われたページ数が表示されます
アップロードしたデータセットのファイル名が表示されます
反映されたフィードバックデータの数が表示されます
実際の最適化が完了した時刻が表示され、最適化前の精度と最適化後の精度を確認することができます。さらに ダウンロードボタンから最終レポートを受け取ることができます。
改善作業が完了すると、ダッシュボードで最適化前と最適化後のパフォーマンスを一目で比較することができ、5. 最適化の結果をダウンロードすることで、レトリーバーのどの部分が改善されたかを把握することができます。
最終レポートには、
①最終精度、変化した設定値
②使用されたデータ数
④実際のデータセットが含まれます
生成型回答の正確な性能評価と改善度は実際のチャット画面上で確認してください。