ガードレール

ガードレール機能とは?

ガードレールは、ユーザーが入力したメッセージに有害なコンテンツや不適切なコンテンツが含まれているかどうかを事前に確認し、ブロックするセキュリティ機能です。問題が検出されたコンテンツはLLMに送信されず、より安全で信頼できるサービス環境を提供します。

ガードレールタイプ

Alliでは、次の3種類のガードレールを提供しています。

1. キーワードベースのガードレール

事前に登録した特定の単語またはフレーズに基づいてコンテンツを検出します。

  • 活用例:特定の単語、禁止語、内部政策上使用不可表現など

  • キーワードはデフォルトでは提供されません。新しいキーワードを追加するには、新しいガードレールを作成する必要があります。

2. 正規表現ベースのガードレール

正規表現を使用して特定の形式の入力値を検出します。

  • 利用例:電話番号、住民登録番号、特定のコードパターンなど

  • Alliでデフォルトとして提供されている正規表現は変更できず、有効/無効の調整のみが可能です。

  • 追加の編集や新しいパターンが必要な場合は、新しいガードレールを作成する必要があります。

3. AIベースのガードレール

入力されたコンテンツをAIが自動分析して有害かどうかを判断します。カテゴリ別に検証強度設定が可能です。

カテゴリー

  • 暴力

  • 性的

  • 自傷行為

  • ヘイト

AIベースのガードレールは新規作成が不可能で、組み込みの項目のみを調整および編集できます。

キーワードベースのガードレールを追加する

右上の+追加ボタンをクリックしてキーワードベースを選択します。

①ガードレールをON。

有効にすると、プロジェクト内のLLMを活用するアプリに対応するガードレールが適用されます。

②名前

ガードレールの名前を入力します。

③キーワード

ブロックするキーワードを登録します。複数のキーワードを同時に登録することもできます。登録できるキーワードの数に制限はありません。

④説明(オプション)

ガードレールの説明を入力します。

Conversationアプリ利用時にブロックされた場合の挙動

実際の動作はアプリのテストとアプリの実行時に確認できます。事前に指定したキーワードが検出されると、送信ボタンが無効になり、警告メッセージが表示され、ユーザーは新しいメッセージを入力するように指示されます。

正規表現ベースのガードレールの修正と追加方法

デフォルトで提供される正規表現の編集

Alliでは、合計3つの正規表現が提供されます。組み込みの正規表現は、有効または無効のいずれかを選択できます。

  1. 組み込みの特定の正規表現を有効にするには、[編集]ボタンをクリックします。

  1. ガードレールを有効にするかどうかを選択したら、[OK]ボタンを押して設定をプロジェクトに適用します。

正規表現を追加する

  1. 右上の+追加ボタンをクリックして正規表現ベースを選択します。

①ガードレールをON。

有効にすると、プロジェクト内のLLMを活用するアプリに対応するガードレールが適用されます。

②名前

ガードレールの名前を入力します。

③正規表現

正規表現検証サービスなどを活用し、社内で活用したい正規表現を作成します

④説明(オプション)

ガードレールの説明を入力します。


正規表現の使用例

正規表現(Regex)は、特定のパターンの文字列を検出またはフィルタリングするために使用されます。ガードレール設定時に入力されたメッセージが正規表現パターンと一致する場合は、該当するルールが適用されます。

1. 特定の単語が含まれているかどうかを確認する

  • メッセージに禁止ワードという文字列が含まれていることを検出します。

2. 複数の単語のいずれかが含まれている場合

  • 禁止ワード1、、、禁止ワード2禁止ワード3いずれかが含まれていると検出します。

3.大文字と小文字を区別せずに検出

  • badword、、、BadWordなどBADWORD大文字と小文字に関係なく検出します。

4. 数値パターンの検出(例:電話番号)

  • 090-1234-5678形式の電話番号を検出します。

5. メールアドレスの検出

  • 一般的なメールアドレス形式を検出します。

6. 特定の文章で始まる場合

  • メッセージがお問い合わせしたいがで始まる場合にのみ検出します。

7. 特定の文章で終わる場合

  • メッセージ電話番号を知りたいがで終わる場合にのみ検出します。

正規表現ベースの注意事項

  • 正規表現はコンテキストを理解せずにパターンベースでのみ動作します。

  • 過度に包括的なパターンを使用すると、通常のメッセージも一緒に検出される可能性があるため、注意が必要です。

  • 正規表現は非常に多様なパターンを表現できるため、必要に応じて正規表現の例示資料を探すことをお勧めします。

AIベースのガードレールを修正する方法

AIベースのガードレールは新規作成できず、組み込みの4つのカテゴリの設定を変更できます。

編集したいAIベースのガードレールを選択します。

①ガードレールをON

有効にすると、プロジェクト内のLLMを活用するアプリに対応するガードレールが適用されます。

②検証レベル

検証レベルは、低/中/高の中から選択することができ、これはAI判断基準を使用します。

事前に設定したAIベースのガードレールの検証レベルに応じて、AIがメッセージ内容を分析してポリシー違反の可能性があると判断した場合、メッセージ送信ボタンが無効になり、警告メッセージが表示されます。この場合、ユーザーは新しいメッセージを入力するように指示されます。 AIベースの評価の特性上、前後の文脈や単語の組み合わせ、メモリによって判断結果が変わることがあります。したがって、結果を明確に二分法的に区別したり、100%の精度を保証することはできないことに必ず注意してください。

フィルタの照会

  1. フィルタ機能により、ガードレールを項目別に区切って確認できます。

  2. また、プロジェクト内に反映されたガードレールに適用するか未適用かを区別して確認することもできます。

ガードレール機能が利用可能な範囲

ガードレールは、LLMにメッセージが配信される時点でコンテンツを検出してフィルタリングする方法で動作します。したがって、すべてのノードで適用されるのではなく、実際にLLMを呼び出す特定のノードでのみ使用されます。

たとえば、次のような場合にガードレールが適用されます。

  • 回答の生成 ノードユーザーがメッセージを入力し、そのメッセージをモデルに送信して回答を生成する場合

  • 質問するノード+ LLM実行ノード質問するノードからユーザー入力を受け取り、その内容に基づいてLLM実行ノードを介してモデルを呼び出す場合

  • ディープリサーチ ユーザーがメッセージを入力すると、内部的に LLM 呼び出しが発生するリサーチおよび分析操作

逆に、LLM 呼び出しが発生しないノードではガードレールが動作しないことに注意してください。

回答生成ノード
質問応答ノード+LLM実行ノード
Deep Researchノード

最終更新