HTMLドキュメントに接続する

Microsoft OneDriveで文書をインデックスするのと同様に、Alliは、指定されたHTMLページからテキストデータをクロールし、ドキュメント化し、ナレッジベースに追加することができます 。

まず、ナレッジベース>ソース設定に移動します。 ナレッジベースの可能なソースとして、OneDriveとHTMLドキュメントが表示されます。 [HTMLドキュメント]タブの[追加]ボタンをクリックして開始します。

ポップアップが表示されますので、データをクロールするHTMLドキュメントのURLを入力します。指定したページは、必ずパブリックページでなければならないという点に注意してください。また、ドキュメントの名前を決定する方法を選択することもできます。ドキュメントの名前は、URLを使用するか、HTMLドキュメントのタイトル、または直接名前を指定することができます。

「下位URLの正規表現」の下にある「下位URLを使用」にチェックを入れると、URL欄に入力したページに貼られたリンクのページ内容をインデックスすることができます。

正規表現を利用して、クロールしたいページを指定してください。

例1)https://example.allganize.ai/ページ内のリンクで、 https://example.allganize.ai/○○と続くページすべてのインデックスを作成する場合

例2)https://example.allganize.ai/のページ内でhttps://example.allganize.ai/productを含むページをインデックスを作成する場合

この設定の場合は、「https://example.allganize.ai/product_alli 」や「https://example.allganize.ai/product/alli」など、https://example.allganize.ai/ ドメインの下にある「product」で始まるすべてのリンクをクロールします。

下位URL 機能を使用する場合、メイン URL のコンテンツはインデックスされないのでご注意ください。

[保存]ボタンをクリックすると、「HTMLドキュメント」セクションに追加したアイテムが表示されます。ドキュメント名を表示するには、そのまま待つか、[今すぐ取り込む]をクリックします。なお、インポートデータが多い場合は時間がかかることがあります。ステータス トグルがオンの場合、UTC午前0時毎に自動更新が行われドキュメントを最新の状態に保ちます。

作成されたドキュメントは、[ドキュメント]タブに保存されます。

アップデート

6/17/2024: HTMLソースの下位表現の説明を追加しました。

最終更新

Logo