Web クロール
Web クロール・コレクションを追加して、Web サイトをクロールし、そのページ・コンテンツを分析し、意味のある情報を保管します。 1 つ以上の基本 Web ページ URL を指定し、Web クロールがたどるリンク・ページの数を構成します。 Web サイトと同期する頻度を構成して、コレクション内のデータを最新の状態にする方法を制御できます。
ウェブクロールコレクションを作成する前に、ウェブサイトの所有者に連絡を取り、クロールの許可を得てください。 現在、Discovery の管理されたデプロイメントでは、https://www.ibm.com をクロールできません。
IBM Cloud IBM Cloud のみ
この情報は、管理対象デプロイメントにのみ適用されます。 インストール済みデプロイメントから Web サイトへの接続について詳しくは、 Web クロール を参照してください。
クロールされる文書
以下のタイプの Web コンテンツに接続できます。
- 公開 Web サイト
- 認証を必要とする民間企業の Web サイトまたはその他のサイト
- 企業ファイアウォールの背後にある Web サイト
コンテンツの初期クロール中に、検索設定に一致するすべての Web サイト・ページがクロールされ、コレクションの文書索引に追加されます。 クロールは、 「開始 URL」 フィールドで指定した Web ページで開始します。 コレクションがリンクをたどるように構成されている場合、クロールは、開始ページと同じサブツリーを共有する開始ページ上のリンクをたどります。 例えば、 https://www.example.com/banking/faqs.html
を指定すると、 https://www.example.com/banking/
で始まる URL を持つリンクがクロールされます。 https://www.example.com/banking
を指定すると、 https://www.example.com/
で始まる URL を持つリンクがクロールされます。
クロールはセキュア・サブディレクトリーにアクセスできません。 例えば、クロールされることを期待しているサブディレクトリ( https://www.example.com/banking/pdfs
など)がクロールされていない場合は、ウェブブラウザから直接サブディレクトリ( URL )にアクセスできるかどうかを確認してください。 アクセスできない場合は、クロールでアクセスできません。
後続のスケジュールされた再クロール中に、完全な再クロールが実行され、変更がコレクションに反映されます。 外部 Web サイトから後で削除された Web サイト・ページからコレクションに追加された文書は、コレクションから削除されません。 ただし、2022年4月以降に作成されたコレクションでは、ウェブクロール構成から先頭の URL を削除すると、関連するドキュメントがすべて削除されます。 削除されたドキュメントには、最初の URL のウェブページの内容に基づいてコレクションに追加されたインデックス付きドキュメント、および最初の URL がリンクしていたウェブページから派生したドキュメントが含まれます。 インデックスされたドキュメントの数を制限することはできません。他の設定を変更することで、例えば、既存の URL を変更して、以前よりも範囲を限定したパスを含めるようにしたり、追跡するリンクの最大数を0に減らしたりしても、インデックスされたドキュメントの数を制限することはできません。 URL を削除することによってのみ、それに関連付けられているインデックス化されたドキュメントを削除することができます。
Web クローラーは、 JavaScript を使用してコンテンツをレンダリングする Web ページをクロールできますが、クローラーは Web サイト全体ではなく、個々のページで最適に機能します。 動的 URL を使用するサイトはクロールできません。ブラウザーで Web ページのソース・コードを表示してもコンテンツが表示されない場合、サービスはそれをクロールできません。
認証が必要なWebサイトとそうでないWebサイトを含むURLグループをクロールしたい場合は、認証タイプごとに異なるコレクションを作成することを検討する。 コネクターは Cookie ベースのクロールをサポートしていません。
すべての Discovery データ・ソース・コネクターは読み取り専用です。 クロール・アカウントに付与されている許可に関係なく、 Discovery は、元のデータ・ソースのコンテンツの書き込み、更新、削除を行うことはありません。
以下の表は、 Discovery がクロールできるオブジェクトを示しています。
クロールされるオブジェクト |
---|
Web サイト、Web サイトのサブディレクトリー |
ファイアウォールでホストされているウェブサイトに接続するための前提ステップ
ファイアウォールの内側でホストされているWebサイトに接続する場合は、IBM Cloud Satellite® ConnectorをDiscoveryの外側に設定します。 詳細については、Satellite コネクタの概要を参照してください。
IBM® Secure Gateway for IBM Cloud® は非推奨となっている。 Secure Gatewayを使用している既存のコレクションは、サポート終了日までにIBM Cloud Satellite®コネクタに移行できます。 詳細は、Secure Gateway 非推奨の日付と非推奨の詳細を参照してください。
貴重なコンテンツは、多くの場合、会社の社内 Web サイトに保管されます。 通常、このようなイントラネット Web サイトには、オフィス・ネットワークに接続されているコンピューターから、または VPN 接続を介してのみアクセスできます。 Satelliteコネクタを使用することで、Webクローラとこのタイプの内部サイトとの間で、持続的でより安全な接続を確立できます。
Satellite コネクタを設定するには、以下の手順を実行します:
- Satellite コネクターを作成する。 詳細については、コネクタの作成を参照してください。
- コネクタエージェントを実行する。 詳細については、Connectorエージェントの実行を参照してください。
- Connector エンドポイントを作成および管理する。 詳細については、Connectorエンドポイントの作成と管理を参照してください。
制限
Satelliteコネクタを使用する際の制限は以下のとおりです:
- Satelliteコネクタは、新しいWebクロール・コレクションを作成するときにのみ構成できます(コレクション作成後は変更できません)。
- Connect to on-premises network が More connection settings の
On
に設定されている場合、すべてのシードURLは同じドメインでなければなりません。 - URL が SSL を使用している場合(
https://
)、基本認証と絶対 URL を使用できます。 - URL が HTTP (
http://
) を使用する場合、以下の制限が適用されます- Satelliteコネクタを使用する場合、基本認証は使用できません。コネクタ。
- クロールされたウェブページに絶対 URL、例えば
http://<seed_url_domain>/sample.html
がある場合、リンク先のページはクロールされません。
データ・ソースへの接続
Web クロール・コレクションを構成するには、以下のステップを実行します。
-
ナビゲーション・ペインから、 「コレクションの管理」 を選択します。
-
新しいコレクションをクリックします。
-
「データ・ソースに接続する必要があります」 の横にあるリンクをクリックします。 フィールドで 「Web クロール」 をクリックし、 「次へ」 をクリックします。
-
コレクションに名前を付けます。
-
Web サイト上のコンテンツの言語が英語でない場合は、該当する言語を選択します。
サポートされる言語のリストについては、言語サポートを参照してください。
-
オプション: 同期化のスケジュールを変更できます。
詳しくは、 クロール・スケジュール・オプション を参照してください。
-
クロールしたいウェブサイトの URL を指定してください。
-
クロールしたいサイトにログインが必要な場合は 、Basic認証を
On
に設定し、ページの URL を 「Starting URL 」フィールドに追加し 、「Add」 をクリックします。サイトへのアクセス権限を持つユーザー名とパスワードを追加し、 「資格情報の保存」 をクリックします。 コレクションごとに指定できる資格情報のセットは 1 つのみです。
例えば、
https://cloud.ibm.com
を最初の URL として指定し、 IBMid を認証情報として追加することができます。サイトの特定のセクションからクロールを開始する場合は、 「開始 URL」 フィールドに指定します。 サブセクションのドメイン名は、以前に指定した URL のドメインと一致している必要があります。
例えば、最初の URL を
https://cloud.ibm.com/unifiedsupport/supportcenter
に変更するかもしれません。 -
クロールしたいすべての公開ウェブページについて、ウェブサイトのルートページの URL を 「開始URL」フィールドに追加し 、「追加」 をクリックします。 複数のスタートページを追加することもできる。
URL の最後のスラッシュ (
/
) がクロールするサブツリーを決定します。https://www.example.com/banking/faqs.html
を指定すると、例えばhttps://www.example.com/banking/
で始まるすべての URL がクロールされます。https://www.example.com/banking
を指定すると、https://www.example.com/
で始まるすべての URL がクロールされます。デフォルトでは、クロールが開始 URL から追跡する連続リンクの数は
2
です。 ホップ数を変更したり、クロールから除外する Web サイト・セクションをリストしたりするには、編集アイコンをクリックします。-
許可される最大ホップ数は
20
である。 -
除外する URL パスを指定するには、サイトパスを追加します。 例えば、 URL が
https://example.com
の場合、https://example.com/pricing
を除外するには、/pricing/
と入力します。指定したサイト・パスを含む Web アドレスのセクションはすべて除外されます。 例えば、
/licenses/
を指定すると、特にページhttps://example.com/products/licenses/europe
が除外されます。 -
クロールを1つのページに制限したい場合は、 URL を 「開始URL」フィールドに追加します。 例えば、
https://www.example.com/banking/faqs.html
です。 編集アイコンをクリックして、 「フォローするリンクの最大数 (Maximum number of links to follow)」 を0
に設定します。
クロール設定のクロールスイッチャー(Execute JavaScript during crawl switcher )で制御されていた動的なウェブサイトのウェブクロール機能は、非推奨となり、2025年9月までに削除される予定です。 詳細は リリースノートを 参照。
-
-
クロールする Web サイトが、表示される前に JavaScript を使用してページ・コンテンツをカスタマイズする場合は、追加のステップを実行する必要があります。
URL を入力し 、Addをクリックした後、 URL を
をクリックして編集します。 クロールスイッチャーの「 JavaScript を実行」 を「オン」 に設定し 、「保存」 をクリックします。
JavaScript 処理を有効にすると、ページのクロールにかかる時間が 3 倍から 4 倍になります。 ページはそのコンテンツを動的にレンダリングするため、これが必要であることが分かっている個々の Web ページでのみ使用してください。 タイムアウト・メッセージが表示される場合、またはコレクションにコンテンツを追加せずにクロールが終了する場合は、クロールに含まれる Web ページの数を減らしてください。 例えば、 「開始 URL」 フィールドにクロールする正確なページを指定し、 「たどるリンクの最大数」 を 0 に設定できます。
-
ファイアウォールでホストされているウェブサイトに接続するには、最初にIBM Cloud Satelliteコネクタを設定します。
Satelliteコネクタの詳細を指定します。
詳細を指定するには、以下の手順を実行する:
- *「その他の接続設定 (More connection settings)」*を展開し、 「オンプレミス・ネットワークへの接続 (Connect to on-premises network)」 を
On
に設定します。 - 接続タイプとして IBM Cloud Satellite® Connector を選択します。 デフォルトでは、このオプションは選択されています。
- Satellite コネクタエンドポイント URL を指定してください。
Satellite - *「その他の接続設定 (More connection settings)」*を展開し、 「オンプレミス・ネットワークへの接続 (Connect to on-premises network)」 を
-
-
オプション: 別の Web アドレスを 「開始 URL」 フィールドに追加します。
単一コレクションの開始 URL の数は 100 未満でなければなりません。 多数の Web サイトをクロールする必要がある場合は、 を参照して、多数のサイトをクロールする必要があります。 制限は何ですか?
クロールされる Web ページの数は 250,000 に制限されているため、Web クローラーは指定されたすべての Web サイトをクロールするとは限りません。
URL ごとにクロールされる子 URL の数は 10,000 に制限されています。 クロール対象 URL の中に含まれる子 URL の数が 10,000 個を超えると、クローラーは子 URL 内のコンテンツを処理できません。
-
コレクションに追加するファイルのタイプを制限する場合は、包含または除外するファイル・タイプのファイル拡張子をリストすることができます。
Web サイト・ページの URL の末尾が .htmlでない場合は、包含フィルターの代わりに除外フィルターを使用します。 除外するファイル拡張子を少なくとも 1 つ追加する必要があります。
サポートされるファイル・タイプのリストについては、 サポートされるファイル・タイプ を参照してください。
-
Web クロールでサイト上のイメージからテキストを抽出する場合は、 *「その他の処理設定 (More processing settings)」*を展開し、 「光学式文字認識 (OCR) の適用 (Apply optical character recognition (OCR))」 を
On
に設定します。OCR が有効になっていて、文書に画像が含まれている場合、処理にかかる時間が長くなります。 詳しくは、 光学式文字認識 を参照してください。
-
「完了 (Finish)」 をクリックします。
コレクションは迅速に作成されます。 データはコレクションに追加されるため、処理にかかる時間が長くなります。
進行状況を確認するには、「アクティビティー」ページに移動します。 ナビゲーション・ペインで、 「コレクションの管理」 をクリックし、コレクションをクリックして開きます。
たくさんのサイトをクロールする必要があります。 私の限界は?
サービスは、 Discovery サービス・インスタンスごとに合計 500 個のクローラー接続をサポートできます。 Web クロールを除くすべてのデータ・ソースは、それぞれ 1 つのクローラー接続を使用します。 Web クロールの場合、5 つの開始 URL ごとに 1 つの接続が必要です。 例えば、10 個の開始 URL を追加すると、Discovery は、追加の 5 個の URL をサポートするために必要な追加のクローラー接続を生成します。 したがって、使用できる開始 URL の最大数は、サービス・インスタンスで構成されている他のデータ収集によって異なります。 制限は自分で計算できます。
URL の初期限度額を計算するには、以下の手順に従ってください
-
サービス・インスタンス内の他のデータ・ソース・コレクションの数を計算します。これは、このプロジェクトと、同じ Discovery インスタンス内の他のすべてのプロジェクトを意味します。
例えば、1 つのプロジェクトに 2 つの IBM Cloud オブジェクト・ストア・コレクションがあり、別のプロジェクトに 2 つの Salesforce コレクションと 1 つの SharePoint Online コレクションがあるとします。 この例では、他のデータ・ソース・コレクションの総数は 5 です。
-
クローラー接続の最大許容数 (500) から他のデータ・ソース・コレクションの数を減算します。
例えば、500-5 = 495 です。
-
残りの部分に 5 を乗算して、使用できる開始 URL の総数を判別します。
例えば、495 x 5 = 2,475 です。
この例で最大許容数の開始 URL を使用するには、25 個の Web クロール・コレクションが必要になります。これは、各コレクションで最大 100 個の開始 URL を構成できるためです。 ただし、許可されている絶対最大数を使用するようにインスタンスを構成しないでください。 その後、1 つ以上のデータ・ソースがこのサービス・インスタンス内のプロジェクトに追加されると、インスタンスが正常にクロールできる開始 URL の数に影響します。
クローラーの問題のトラブルシューティング
- 403 禁止エラーが返される
- クロールする Web サイトによって、特定の名前付きエンティティーのセットを除くすべてからの要求がブロックされる場合があります。 可能な場合は、サイトの許可リストにクローラーを追加します。 クローラーの識別ヘッダーは
User-Agent: IBM-AppConnect/V1
です。