この文書は、IBM Watson® Knowledge Studio 上の IBM Cloud® に関するものです。 以前のバージョンの Knowledge Studio on IBM Marketplace 向けの資料を参照するには、このリンクをクリックしてください。
ワークスペースの作成
カスタム・モデルを作成する最初のステップは、ワークスペースを作成することです。
このタスクについて
作成して使用するモデルごとに、モデルの作成に必要な成果物およびリソースを含むワークスペースを 1 つ作成します。 その後、モデルをトレーニングして、外部サービスにデプロイして使用できるカスタム・モデルを生成します。
ワークスペースを作成する前に、以下の質問に回答してください。
-
どのようなタイプのモデルを作成しますか?
- 機械学習モデル: 統計的手法を使用して、文書内のエンティティーおよび関係を見つけます。 このタイプのモデルは、データ量の増加に適応できます。
- ルール・ベース・モデル: 宣言的手法を使用して、文書内のエンティティーを見つけます。 このタイプのモデルは、予測可能性が高く、理解および保守が容易です。 ただし、新しいデータから学習することはしません。 探すように教えられたパターンを見つけるだけです。
- 詳細ルール・モデル: ルール・ベース・モデルよりも詳細にテキスト分析をカスタマイズできます。 手順については、詳細ルール・モデルの作成を参照してください。
1 つのルール・ベース・モデルと 1 つの機械学習モデルの両方を含んでいる 1 つのワークスペースを作成することもできます。
-
どのようなサービスがモデルを使用するようになりますか?
カスタム・モデルと共に使用できる他の Watson サービスについては、『Watson サービスの統合』を参照してください。
手順
ワークスペースを作成するには、以下のステップを実行します。
-
Knowledge Studio アドミニストレーターとしてログインし、**「ワークスペースの作成 (Create Workspace)」**をクリックします。
プロジェクト管理者の役割を持つユーザーは、ワークスペースの作成を除いて、ほとんどすべての作業を実行できます。 アドミニストレーターが最初にワークスペースを作成し、そのワークスペースにプロジェクト管理者を割り当てる必要があります。
-
ワークスペースに名前を付けます。 分野の内容またはモデルの目的を反映する短い名前を付けてください。 必要であれば後でワークスペース名を変更できます。
-
ワークスペース内の文書の言語を指定します。 ワークスペースに追加する文書、および、作成またはアップロードする辞書は、指定する言語でなければなりません。
-
オプション: 当アプリケーションで使用されるトークナイザーをデフォルトの機械学習ベースのトークナイザーから変更する場合は、**「詳細オプション (Advanced Options)」セクションを展開し、「辞書ベースのトークナイザー (Dictionary-based tokenizer)」**を選択します。
デフォルトのトークナイザーは、辞書ベースのトークナイザーよりも高度です。デフォルトのトークナイザーは、ソース文書の言語で行われた統計的学習に基づき、機械学習を使用してソース文書内のトークンを識別します。 より自然な言語パターンや微妙なニュアンスを持つ言語パターンを理解しているため、より高い精度でトークンを識別できます。 辞書ベースのトークナイザーは、言語規則に基づいてトークンを識別します。 詳しくは、『トークナイザー』を参照してください。
-
オプション: プロジェクト管理者をワークスペースに追加したい場合、**「詳細オプション (Advanced Options)」**セクションを展開し、プロジェクト管理者として追加するユーザーの名前をリストから選択します。 アドミニストレーターは、後でワークスペースを編集して、プロジェクト管理者を追加または削除できます。
インスタンスの「ユーザー・アカウント管理 (User Account Management)」ページからプロジェクト管理者の役割に割り当てたユーザーの名前のみが表示されます。 ユーザーの追加について詳しくは、『チームのアセンブル』を参照してください。
ライト・プランのサブスクリプションをお持ちの場合は、このステップをスキップしてください。 他のユーザーを追加することはできないため、プロジェクト管理者の役割に誰かを割り当てることはできません。 別個のプロジェクト管理者は必要ありません。 アドミニストレーターとして、通常はプロジェクト管理者が実行する作業をすべて実行できます。
-
「作成」 をクリックします。
次のタスク
ワークスペースが作成されたら、ワークスペース・リソースの構成を開始できます。
ワークスペースの説明またはワークスペース名を変更するため、または、後でプロジェクト管理者を追加または削除するために、アドミニストレーターはワークスペースを編集できます。 Knowledge Studio ホーム・ページから、ワークスペースのタイル上にある**「メニューの表示 (Show menu)」アイコンをクリックし、「編集 (Edit)」**メニュー・オプションを選択します。
関連概念:
関連リファレンス:
トークナイザー
トークナイザーは、文字をトークンにグループ化し、トークンをセンテンスにグループ化します。 トークンは単語とゆるやかに等価です。
トークナイザーが文書のトークンを識別するために実行する必要がある処理は、文書の言語によって異なります。 英語では、多くの場合トークンは、センテンス内の空白で区切られた語数と等しくなります。 ただし、必ず 1 対 1 で単語と一致するわけではありません。状況によっては、他のテキスト要素がトークンと見なされます。 例えば、センテンスの末尾にある句読点は 1 つのトークンと見なされ、縮約形は多くの場合 2 つのトークンに展開されます。 空白文字を使用しない中国語などの言語では、もっと複雑な統計的アルゴリズムがトークンを識別するために使用されます。
トークン化のプロセスは重要です。なぜなら、ユーザーがグランド・トゥルース・エディターでアノテーション付けのために強調表示できる文字グループがこれによって決定されるためです。 エンティティー・メンションおよび関係メンションのアノテーションは、トークン境界に位置合わせされるのが一般的であり、センテンス内でラベル付けされる必要があります。つまり、センテンス境界をまたがってはなりません。
サポートされるタイプ
Knowledge Studio では以下のトークナイザーがサポートされています。
-
機械学習ベースのトークナイザー (デフォルト)
これは、ソース文書の言語で行われた統計的学習に基づいてソース文書内のトークンを識別する、より高度なトークナイザーです。 このトークナイザーは、より自然な言語パターンや微妙なニュアンスを持つ言語パターンをキャプチャーするトークンを検出します。 このトークナイザーをカスタマイズすることはできません。
-
辞書ベースのトークナイザー
このトークナイザーは言語辞書に基づきます。 ソース文書言語の規則に従っているトークンが検出されます。 上級者のみがこのトークナイザーをカスタマイズできます。
ワークスペースを作成するときに、使用するトークナイザーを選択する必要があります。 後で別のトークナイザーに切り替えることはできません。 最良の結果を得るには、デフォルトのトークナイザーを使用してください。 決定論的辞書メカニズムを介してトークナイザーの動作を変更したい上級ユーザーのみが、辞書ベースのトークナイザーを選択できます。 その後、新しいエントリーを辞書に追加することによってカスタマイズできます。 ただし、辞書に新しい単語を追加するという変更が機械学習モデルに意図しない影響を与える可能性があるため、カスタマイズは慎重に行う必要があります。
入力、出力、および制限の要約
モデル開発の各段階は、それぞれ異なる入力を必要とし、異なる出力を生成します。
次の表は、モデル開発プロセスの各段階について、実行する標準的なアクティビティー、サポートされる入力ファイル・フォーマット、生成される可能性のある出力、 および、サイズ制限またはその他の要件を要約しています。
すべてのモデル・タイプ
表 1: すべてのモデル・タイプ| タスク | 標準的な使用法 | サポートされる入力フォーマット | サポートされる出力フォーマット | 制限と要件 | | --- | --- | --- | --- | --- | | タイプ・システム管理 | タイプ・システムを作成するか、既存のタイプ・システムをアップロードして変更します。 対象分野のエンティティー・タイプおよび関係タイプを定義します。 タイプ・システムの視覚化を見ることはできません。|
- Knowledge Studioのワークスペースからダウンロードした JSONファイル
- Human Annotation Tool (HAT) からダウンロードした ZIP ファイル
- UTF-8 形式の CSV ファイル
- 別のワークスペースからダウンロードした辞書の ZIP
- UTF-8 形式の CSV ファイル
- UTF-8 形式の CSV ファイル
- 別のワークスペースで使用するための辞書の ZIP
- CSV 用語項目ファイル当たり 1 MB
- CSV 読み取り専用辞書ファイル当たり 16 MB
- 辞書当たり 15,000 項目 (読み取り専用辞書を除く)
- ワークスペース当たり 64 辞書
機械学習モデル
表 2:機械学習モデル| タスク | 標準的な使用法 | サポートされる入力フォーマット | サポートされる出力フォーマット | 制限と要件 | | --- | --- | --- | --- | --- | | 文書管理 | 文書の小さな代表的なサブセットをアップロードします。ヒューマン・アノテーター、機械学習モデル、またはUIMA分析エンジンによって以前に追加されたアノテーションを含む文書をアップロードします。アノテーションの高価値文書を計算するためにIBM Watson Explorerからコーパス全体を取り込むことはできません。|
- UTF-8 形式の CSV ファイル
- UTF-8 形式のテキスト
- HTML
- PDF ファイル (スキャンされたファイルおよびパスワード保護されたファイルはサポートされていません)
- Microsoft Word DOC ファイルまたは DOCX ファイル (パスワード保護されたファイルはサポートされていません)
- 別のワークスペースからダウンロードされた文書を含む ZIP ファイル
- UIMA CAS XMI 形式の文書を含む ZIP ファイル
- 文書当たり 40,000 文字
- ワークスペース当たり 10,000 文書
- ワークスペース当たり 1,000 文書セット (アノテーション・セットを含む)
- ファイルごとに 5 MB、アップロードごとに 200 MB (TXT、PDF、DOC、DOCX、および HTML ファイル)
IBM Watson Explorerからコーパスを再注釈することはできません。| 生ドキュメント。
注: 人間がすでに注釈をつけた文書に、あらかじめ注釈をつけないでください。そうしないと、人間による注釈の作業が失われてしまいます。|部分的に注釈をつけた文書|なし| | 文書注釈|人間注釈の管理。 実体、関係、共参照連鎖に注釈を付けてグランドトゥルースを作成する
- ワークスペースごとに256個のアクティブなアノテーション・タスク
- ワークスペース当たり 1 機械学習モデル
- ワークスペース当たり 10 モデル・バージョン
- ワークスペースの最大数は、デプロイメントによって決まります。
- 月ごとに実行できるトレーニング・アクションの最大数は、デプロイメントによって決まりますす。
- ZIPファイル
ルール・ベース・モデル
表 3:ルール・ベースのモデル| タスク | 標準的な使用法 | サポートされる入力フォーマット | サポートされる出力フォーマット | 制限と要件 | | --- | --- | --- | --- | --- | | ルール・エディター | クラス、正規表現、およびルールを定義するための文書を作成するか、ルール・エディターにアップロードします。|
- プレーン・テキスト (エディターで追加されるもの)
- UTF-8 形式の CSV ファイル
- すべての文書セットからコピーされる
- ワークスペース当たり 1 ルール・ベース・モデル
- 文書当たり 5,000 文字
- ワークスペース当たり 100 文書
- 文書タイトルの最大サイズは 256 文字です
- ワークスペース当たり 200 ルール
- ワークスペース当たり 400 クラス
- ワークスペース当たり 100 正規表現グループ
- 正規表現グループ当たり 100 正規表現項目
- 正規表現項目当たり 1,000 文字
- ワークスペース当たり 5 ルール・ベース・モデル・バージョン
- PEARファイル