IBM Cloud Docs
创建工作空间

本文档适用于 IBM Watson® Knowledge Studio 上的 IBM Cloud®。 要查看 Knowledge Studio Marketplace 上 IBM 先前版本的文档,请单击此链接

创建工作空间

构建定制模型的第一步是创建工作空间。

关于本任务

对于要构建和使用的每个模型,请创建一个工作空间以包含构建模型所需的工件和资源。 然后,可以对模型进行训练,以生成可以部署到外部服务以供使用的定制模型。

在创建工作空间之前,请先回答以下问题:

  • 要创建哪种类型的模型?

    • 机器学习模型:使用统计方法在文档中查找实体和关系。 此类型的模型可以随着数据量的增长而调整。
    • 基于规则的模型:使用声明式方法在文档中查找实体。 此类型的模型可预测性更强,也更易于理解和维护。 但是,这种模型不会从新数据进行学习。 它只能用被教导的方式进行查找。
    • 高级规则模型:提供比基于规则的模型更深入的文本分析定制。 有关指示信息,请参阅创建高级规则模型

    您还可以创建一个工作空间来包含一个基于规则的模型和一个机器学习模型。

  • 哪些服务将使用该模型?

    有关定制模型可用于的其他 Watson 服务的信息,请参阅 Watson 服务集成

过程

要创建工作空间,请完成以下步骤:

  1. 以 Knowledge Studio 管理员身份登录,然后单击创建工作空间

    具有“项目经理”角色的人员可以执行除创建工作空间以外的几乎所有任务。 管理员必须初始创建工作空间,并为该工作空间分配项目经理。

  2. 为工作空间命名。 选择可反映领域内容或模型用途的短名称。 如果需要,日后可以更改工作空间名称。

  3. 确定工作空间中文档的语言。 添加到工作空间的文档以及创建或上传的字典必须采用您指定的语言。

  4. 可选:如果要更改应用程序使用的缺省基于机器学习的记号化器,可以展开高级选项部分,然后选择基于字典的记号化器

    缺省记号化器比基于字典的记号化器更高级;它通过机器学习根据源文档语言中已执行的统计学习,识别源文档中的记号。 它能够更精确地识别记号,因为它理解语言的更自然、更细致的模式。 基于字典的记号化器根据语言规则来识别记号。 有关更多详细信息,请参阅记号化器

  5. 可选:如果要将项目经理添加到工作空间,请展开高级选项部分,然后从列表中选择要添加为项目经理的人员的姓名。 管理员日后可以通过编辑工作空间来添加或除去项目经理。

    这将仅显示在实例的“用户帐户管理”页面中为其分配“项目经理”角色的人员的姓名。 有关添加用户的更多信息,请参阅组建团队

    如果您有轻量套餐预订,请跳过此步骤。 您无法添加其他用户,因此也无法为任何人分配“项目经理”角色。 您无需单独的项目经理。 作为管理员,您可以执行项目经理通常会执行的所有任务。

  6. 单击创建

后续操作

创建工作空间后,即可以开始配置工作空间资源。

要更改工作空间描述或工作空间名称,或者日后要添加或除去项目经理,管理员可以编辑工作空间。 在 Knowledge Studio 主页中,单击工作空间磁贴上的显示菜单图标,然后选择编辑菜单选项。

相关概念

从其他工作空间上传资源

相关参考

语言支持

记号化器

记号化器用于将字符组成记号,再将记号组成句子。 一个记号大致相当于一个词。

记号化器为了识别文档记号而必须执行的操作将根据文档语言而有所不同。 在英语中,记号通常等同于句子中用空格分隔的单词。 但是,记号并不总是与单词一一对应;其他文本元素在某些情况下会被视为记号。 例如,句子末尾的标点符号会被视为记号,而缩略词通常会展开为两个记号。 在不使用空格的语言(例如,中文)中,将使用更复杂的统计算法来识别记号。

记号化过程用于确定用户可在参考标准编辑器中为注释突出显示的字符组,因此非常重要。 实体和关系提及项的注释通常与记号边界对齐,并且必须在句子内进行标注;这些注释不能跨越句子边界。

支持的类型

Knowledge Studio 支持以下记号化器:

  • 基于机器学习的记号化器(缺省)

    这是一种更高级的记号化器,用于根据源文档语言中已执行的统计学习来识别源文档中的记号。 此记号化器可查找用于捕获语言的更自然、更细致模式的记号。 无法定制此记号化器。

  • 基于字典的记号化器

    此记号化器基于语言字典, 用于查找符合源文档语言规则的记号。 只有高级用户才能定制此记号化器。

创建工作空间时,必须选择要使用的记号化器。 日后无法切换到其他记号化器。 为了获得最佳结果,请使用缺省记号化器。 仅当高级用户希望通过确定性字典机制来修改记号化器行为时,才可选择基于字典的记号化器。 然后,可以通过向字典添加新条目来对记号化器进行定制。 但是,执行定制时必须谨慎,因为向字典添加新词时,这些更改可能会以意外的方式影响机器学习模型。

输入、输出和限制摘要

模型开发的不同阶段需要不同的输入并生成不同的输出。

下表总结了模型开发过程中每个阶段执行的典型活动、支持的输入文件格式、可生成的输出以及任何大小限制或其他需求。

所有模型类型

表 1: 所有模型类型

任务 典型用法 支持的输入格式 支持的输出格式 限制和需求
类型系统管理 创建类型系统或上载和修改现有类型系统。 针对领域定义实体类型和关系类型。 您无法看到类型系统的可视化。
  • 从 Knowledge Studio 工作空间下载的 JSON 文件。
  • 从 Human Annotation Tool (HAT) 下载的 ZIP 文件
JSON 为避免人工注释的视觉超负荷,请定义不超过 50 个实体类型和 50 个关系类型。 上载类型系统的文件大小限制: 20 MB
字典管理 以只读方式上载 CSV 字典文件或从另一个工作空间下载的字典的 ZIP。 创建新字典,然后上载术语条目的 CSV 文件或向其添加术语条目。 字典文件:
  • UTF-8 格式的 CSV 文件
  • 从其他工作空间下载的字典 ZIP
术语条目文件:
  • UTF-8 格式的 CSV 文件
  • UTF-8 格式的 CSV 文件
  • 要在其他工作空间中使用的字典 ZIP
文件大小限制:
  • 每个 CSV 术语条目文件 1 MB
  • 每个 CSV 只读字典文件 16 MB
  • 每个字典 15,000 个条目(只读字典除外)
  • 每个工作空间 64 个字典

机器学习模型

表 2: 机器学习模型

任务 典型用法 支持的输入格式 支持的输出格式 限制和需求
文档管理 上载一小部分具有代表性的文档上载包含人工注释者,机器学习模型或 UIMA 分析引擎先前添加的注释的文档您无法从 IBM Watson 资源管理器中摄入整个语料库以计算注释的高价值文档。
  • UTF-8 格式的 CSV 文件
  • UTF-8 格式的文本
  • HTML
  • PDF 文件(不支持扫描文件和受密码保护的文件)
  • Microsoft Word DOC 或 DOCX 文件(不支持受密码保护的文件)
  • 包含从其他工作空间下载的文档的 ZIP 文件
  • 包含 UIMA CAS XMI 格式文档的 ZIP 文件
文档的 ZIP 归档文件
  • 每个文档 40,000 个字符
  • 每个工作空间 10,000 个文档
  • 每个工作空间 1,000 个文档集(包括注释集)
  • 每个文件 5 MB,每次上传 200 MB(TXT、PDF、DOC、DOCX 和 HTML 文件)
预注释 使用字典或 IBM Watson® Natural Language Understanding 预注释器来提供人员注释的起点。

不能从 IBM Watson Explorer 重新注释语料库。
原始文档。

: 请勿对人工注释者已注释的文档进行预注释,否则您将丢失人工注释者完成的工作。
部分注释的文档
文档注释 管理人工注释。 注释实体,关系和指代链以创建参考标准 注释任务 参考标准
  • 每个工作空间 256 个活动的通知任务
训练和优化 训练受监督的机器学习模型,以从非结构化文本中抽取特定于域的信息。 评估和改进受监督的机器学习模型。 无法创建半监督或未监督的机器学习模型。 您无法执行广泛的功能部件工程。 不适用 机器学习模型
  • 每个工作空间 1 个机器学习模型
  • 每个工作空间 10 个模型版本
  • 最大工作空间数由部署确定。
  • 每月可执行的最大训练操作数由您的部署确定。
发布 导出机器学习模型以用于在其他 Watson 应用程序中执行文本抽取。 不适用
  • ZIP 文件

基于规则的模型

表 3: 基于规则的模型

任务 典型用法 支持的输入格式 支持的输出格式 限制和需求
规则编辑器 创建文档或将文档上载到要从中定义类,正则表达式和规则的规则编辑器。
  • 纯文本(在编辑器中添加)
  • UTF-8 格式的 CSV 文件
  • 从“所有文档集”中复制的内容
  • 每个工作空间 1 个基于规则的模型
  • 每个文档 5,000 个字符
  • 每个工作空间 100 个文档
  • 文档标题的最大大小为 256 个字符
  • 每个工作空间 200 个规则
  • 每个工作空间 400 个类
  • 每个工作空间 100 个正则表达式组
  • 每个正则表达式组 100 个正则表达式条目
  • 每个正则表达式条目 1,000 个字符
  • 每个工作空间 5 个基于规则的模型版本
发布 发布基于规则的模型,以用于在其他 Watson 应用程序中执行模式识别。 不适用
  • PEAR 文件
基于规则的模型当前只能导出到 IBM Watson Discovery