Web クロール
ウェブサイトをクロールする。 公開ウェブサイトや認証が必要なウェブサイトをクロールできる。
IBM Cloud Pak for Data IBM Software Hub
この情報は、インストールされたデプロイメントにのみ適用されます。 管理配置から Web サイトをクロールする方法の詳細については、Web クロール を参照してください。
クロールされる文書
- ウェブサイトの内容はHTMLファイルとして処理されます。
- Web クローラーは、JavaScript を使用してコンテンツをレンダリングする動的 Web サイトをクロールしません。 ブラウザーで Web サイトのソース・コードを表示することにより、JavaScript の使用を確認できます。
- ソースが再クロールされると、新しい文書が追加され、更新された文書は最新バージョンに変更され、削除された文書はコレクションのインデックスから削除されます。
- すべてのDiscoveryデータ・ソース・コネクタは読み取り専用です。 クロールアカウントに付与された権限に関係なく、Discovery は、元のデータソースのコンテンツを書き込んだり、更新したり、削除したりすることはありません。
前提条件ステップ
認証が必要なウェブサイトに接続したい場合は、そのサイトにアクセスするために必要な認証情報を知っておく必要があります。
-
ベーシック認証を必要とするウェブサイトについては、以下の情報を入手してください:
- ユーザー名
- ウェブサイトで接続したいコンテンツにアクセスできるユーザーのユーザー名。
- パスワード
- ユーザー名に関連付けられたパスワード。
-
Windows NT LAN Manager (NTLM) 認証を必要とするウェブサイトについては、以下の情報を入手してください:
- ユーザー名
- ウェブサイトで接続したいコンテンツにアクセスできるユーザーのユーザー名。
- パスワード
- ユーザー名に関連付けられたパスワード。
- NTLM ドメイン・ネーム
- サイトを認証するユーザの NTLM ドメイン名。
- NTLMホスト名
- NTLM サーバーのホスト名。
-
フォームベースの認証が必要なウェブサイトの場合、以下のオプションからアクセス方法を選択します:
-
直接アクセス:ログインページを表示せずにフォームを送信します。
- フォームアクション URL
- フォームが送信された際に、フォームデータを送信する先となる URL。 例えば、
/action_page.php
です。 - 必須フィールド
- フォームで提供されなければならないフィールド値を見つける。
-
間接的なアクセス:ログインページを取得し、フォームフィールドに入力する。 以下の情報をメモしておき、後で提供できるようにしておくこと:
- フォームログイン URL
- URL ウェブサイトのログインページの。
- フォーム名
- ログインフォームの名称。
- 必須フィールド
- ログインフォームで提供されなければならないフィールド値を見つける。
-
ウェブクロールデータソースへの接続
認証が必要なウェブサイトと必要でないウェブサイトを含むURLのグループをクロールしたい場合は、認証の種類ごとに異なるコレクションを作成することを検討してください。
Discovery プロジェクトから、以下の手順を完了してください
-
ナビゲーションペインから、コレクションの管理を選択します。
-
新しいコレクションをクリックします。
-
ウェブクロールをクリックし、次へをクリックします。
-
コレクションに名前をつける。
-
ウェブサイトの言語が英語以外の場合は、適切な言語を選択してください。
サポートされる言語のリストについては、言語サポートを参照してください。
-
オプション:同期スケジュールを変更します。
ウェブ・クロール・データ・ソースは、週に1、2回しか更新されないウェブサイト用に設計されている。 すべてのウェブサイトの更新を確実に収集するには、クロールが毎週行われるようにスケジュールを設定します。
詳しくは、クロールスケジュールのオプション をご覧ください。
-
クロールする場所を指定するセクションで、ウェブサイト URL を 「開始URL」フィールドに追加し 、「追加」 をクリックします。 開始URLを追加し続ける。
クローラがクロールを開始するURL。 デフォルトでは、ウェブクロールはサブツリーをクロールでき、シードのみに指定されたパスからURLをクロールできます。 完全な URL を使用します (例:
http://www.example.com/
)。 Web クロールの開始 URL には、クロール対象に関して次の 2 つの制約があります。- 開始 URL と同じドメイン名をクロールします。
- これは、
/
「開始 URL」内の末尾のスラッシュ () までを含む、すべての URL コンテンツをクロールします。 開始 URL にサブツリーがある場合、**「開始 URL」**にその URL が指定されていなければ、Web クロールはそのサブツリーをクロールしません。
-
URL が HTTPS で始まる場合 : 詳細設定セクションで、 証明書スイッチャーを無視する をオンに設定し、対象ウェブサイト上のすべての SSL 証明書を無視します。
-
オプション:認証設定をクリックして、1つまたは複数の開始URLに適用する認証タイプを指定します:
-
URL を選択してください。
-
以下のオプションから認証タイプを選択してください
- 基本認証
- NTLM認証
- フォーム認証
-
基本認証の場合は、以下の詳細を入力してください:
- ユーザー名
- ウェブサイトで接続したいコンテンツにアクセスできるユーザーのユーザー名。
- パスワード
- ユーザーに関連付けられたパスワード。
-
NTLM認証については、以下の詳細を記述する:
- ユーザー名
- ウェブサイトで接続したいコンテンツにアクセスできるユーザーのユーザー名。
- パスワード
- ユーザーに関連付けられたパスワード。
- NTLM ドメイン・ネーム
- 認証中のユーザーに属するNTLMドメイン名。
- NTLMホスト名
- NTLM サーバーのホスト名。
-
FORM認証の場合は、以下の詳細を入力してください:
-
**「フォーム・タイプ (Form type)」**で、以下のいずれかのオプションを選択します。
- 直接
- ログインページを取得したくない場合は、このオプションをクリックします。
- 間接
- ログインページを取得し、ログインフォームのパラメータを入力したい場合は、このオプションをクリックします。
-
ダイレクトを選択した場合は、以下の欄に記入してください:
- フォームアクションURL
- フォームを送信するために必要なフォームアクション URL。
- フォーム方式
- GET と指定する。
-
Indirect を選択した場合は、以下のフィールドに記入してください:
- フォームのログインURL
- 間接フォームタイプを選択した場合は、このフィールドは必須です。
- フォーム名
- 間接フォームタイプを選択した場合は、このフィールドは必須です。
- フォーム方式
- POST を指定してください。
-
フォームパラメータセクションでは、フォームパラメータのキーと値のペアのリストを表示します。
キー と値のフィールドを記入し 、+ をクリックして1つまたは複数のフォームパラメータを追加します。
-
-
-
オプション: データ・ソース・サーバーへのアクセスにプロキシ・サーバーを使用している場合は、プロキシ設定セクションで、プロキシ設定を有効にするスイッチを
On
に設定します。 以下のフィールドに値を追加する:- ユーザー名
- プロキシサーバーが認証を必要とする場合に、プロキシサーバーとの認証に使用するプロキシサーバーのユーザー名。
- パスワード
- プロキシサーバーが認証を必要とする場合に、プロキシサーバーとの認証に使用するプロキシサーバーのパスワード。
- プロキシサーバーのドメイン
- ホストが存在するドメイン。 すべてのドメインをクロールする場合はこのフィールドにアスタリスク (
*
) などのワイルドカードを指定できます。パターンに一致するドメインをクロールする場合は先行アスタリスクを指定できます (*.server1.bar.com
など)。 - プロキシサーバーのホスト名またはIPアドレス
- LANを使用してサーバーにアクセスする場合はホスト名、プロキシサーバーとして使用するサーバーのIPアドレスを入力します。
- プロキシー・サーバーのポート番号
- プロキシサーバー上で接続したいネットワークポート。
-
オプション: 詳細設定の以下の項目を入力してください
- 使用するコードページ
-
ウェブサイトページの文字エンコーディングを指定します。 指定がない場合は、
UTF-8
のデフォルト値が使用されます。中国のウェブサイトをクロールする場合は、
UTF-8
を指定してください。 - URL パス深度
-
クロールするサイトパスのレベル。
例えば、
https://www.example.com
の開始 URL とパス深度4
を指定すると、クローラーはhttps://www.example.com/some/more/examples/index.html
というページにアクセスします。このページは、ルート URL から4階層離れたパスに位置しています。正の値のみ入力可能。 指定されていない場合、デフォルト値は
5
です。 許容されるパスの最大深度は20
です。 - 最大ホップ数
-
先頭から連続するリンクの数 URL。
指定されていない場合、デフォルト値は
5
です。 クローラーがたどれるリンクの最大数は20
です。 ホップを許可しない場合は、0
と入力してください。 - robots.txtを無視する
-
クローラーが、robots.txtファイルに記述されている許可と拒否のルールを無視したい場合は、この設定を有効にします。
サイトは通常、クロール結果を向上させるためにこのファイルを使用することを覚えておいてほしい。 たとえば、robots.txtファイルを使って、重複した情報がクロールされるのを防いだり、下書きのコンテンツが読まれるのを防いだり、クロールを遅らせてサイトに負荷がかからないようにしたりします。
- ドメインをクロールするルール
-
クローラーのクロールを許可または禁止するドメイン名を指定します。
ドメイン名では大文字と小文字が区別され、ワイルドカード文字(*)はドメイン名のどこにでも使用できます。
ルールの順番は重要だ。 クローラは、候補 URL に一致する最初のルールを適用します。 デフォルトのルールであるforbid domain *は、すべてのウェブのクロールを禁止し、ドメインルールのリストの最後になければならない。
例えば、以下のような種類のルールを定義できる:
-
ibm.comドメイン全体を除外するには:
forbid domain www.ibm.com
-
ibm.com
で終わるドメインをクロールする:allow domain *.ibm.com
-
server
で始まるIBMドメインのポート443
だけをクロールするには:allow domain server*.ibm.com:443
-
- URL 接頭辞をクロールするルール
-
クロールを許可または禁止したい HTTP と HTTPS のプレフィックスを指定します。
ワイルドカード文字(*)は、 URL 内に1回または複数回出現します。
ルールの順番は重要だ。 クローラは、候補 URL に一致する最初のルールを適用します。
例えば、以下のような種類のルールを定義できる:
-
このドメインのパブリック・ディレクトリのページをクロールする:
allow prefix http://*.ibm.com/public/*
-
このドメイン上の他のすべてのディレクトリを除外する:
forbid prefix http://*.ibm.com/*
-
- 高度なクローラー・プロパティ
-
IBM サポートの指示がある場合のみ使用してください。
-
オプション: ターゲットウェブサイト上のSSL証明書を無視したい場合は、証明書を無視するスイッチを
On
に設定します。このオプションは、 HTTPS のURLのみに適用されます。
-
クローラーにサイト上の画像からテキストを抽出させたい場合は、その他の処理設定を展開し、光学式文字認識(OCR)を適用を
On
に設定します。OCRが有効で、文書に画像が含まれている場合、処理に時間がかかります。 詳しくは、光学式文字認識 をご覧ください。
-
「完了 (Finish)」 をクリックします。
コレクションは素早く作られる。 データがコレクションに追加されるため、処理に時間がかかる。
進捗状況を確認したい場合は、アクティビティページにアクセスしてください。 ナビゲーションペインから、コレクションの管理をクリックし、クリックしてコレクションを開きます。