Microsoft OneDriveで文書をインデックスするのと同様に、Alliは、指定されたHTMLページからテキストデータをクロールし、ドキュメント化し、ナレッジベースに追加することができます 。
まず、ナレッジベース>ソース設定に移動します。 ナレッジベースの可能なソースとして、OneDriveとHTMLドキュメントが表示されます。 [HTMLドキュメント]タブの[追加]ボタンをクリックして開始します。
ポップアップが表示されますので、データをクロールするHTMLドキュメントのURLを入力します。指定したページは、必ずパブリックページでなければならないという点に注意してください。また、ドキュメントの名前を決定する方法を選択することもできます。ドキュメントの名前は、URLを使用するか、HTMLドキュメントのタイトル、または直接名前を指定することができます。
「下位URLの正規表現」の下にある「下位URLを使用」にチェックを入れると、URL欄に入力したページに貼られたリンクのページ内容をインデックスすることができます。
正規表現を利用して、クロールしたいページを指定してください。
例2)https://example.allganize.ai/のページ内でhttps://example.allganize.ai/productを含むページをインデックスを作成する場合
この設定の場合は、「https://example.allganize.ai/product_alli 」や「https://example.allganize.ai/product/alli」など、https://example.allganize.ai/ ドメインの下にある「product」で始まるすべてのリンクをクロールします。
下位URL 機能を使用する場合、メイン URL のコンテンツはインデックスされないのでご注意ください。
[保存]ボタンをクリックすると、「HTMLドキュメント」セクションに追加したアイテムが表示されます。ドキュメント名を表示するには、そのまま待つか、[今すぐ取り込む]をクリックします。なお、インポートデータが多い場合は時間がかかることがあります。ステータス トグルがオンの場合、UTC午前0時毎に自動更新が行われドキュメントを最新の状態に保ちます。
作成されたドキュメントは、[ドキュメント]タブに保存されます。
6/17/2024: HTMLソースの下位表現の説明を追加しました。