本文档适用于 IBM Watson® Knowledge Studio 上的 IBM Cloud®。 要查看 Knowledge Studio Marketplace 上 IBM 先前版本的文档,请单击此链接。
引导注释
通过对工作空间中的文档进行预注释,可简化人工注释者的工作。 预注释器是 Knowledge Studio 字典、基于规则的模型或机器学习模型,您可以运行预注释器来自动查找并注释提及项。
预注释使人工注释者的工作更轻松,因为它涵盖简单注释操作,并为文档注释工作做好准备。
用于对文档进行预注释的方法绝不会限制您可以使用所生成模型的方式。 例如,仅仅因为使用 Natural Language Understanding 服务来对文档进行预注释,并不意味着您必须将构建的最终机器学习模型部署到 Natural Language Understanding 服务。
预注释方法
以下预注释器可用:
-
Natural Language Understanding
一种预注释器,可用于在文档中自动查找实体的提及项。 如果源文档有一般知识主题,那么此预注释器是不错的选择。 如果要处理侧重于特定领域(如专利法研究)的高度专业化文档,那么字典预注释器或基于规则的模型可能是更好的选择。
-
字典
使用您提供的且与某个实体类型关联的术语字典,可在文档中查找该实体类型的提及项。 此选项最适用于具有独特或专业化术语的领域,因为此预注释器不会以机器学习预注释器的分析方式来分析使用术语的上下文,而是依赖于该术语的足够不同来确定可辨别的含义,与使用该术语的上下文无关。 例如,将 asbestos 识别为矿物实体类型,要比确定 squash 的实体类型更容易,后者可以指蔬菜、运动或表示挤压某物的动词。
字典预注释器不会识别实体子类型。 人工注释者通过使用预注释的文档执行注释任务,可以为每个预注释的提及项指定实体子类型。
-
机器学习
使用机器学习模型自动对文档进行注释。 仅当已使用 Knowledge Studio 创建了机器学习模型时,此选项才可用。 如果添加了文档集,那么可以运行先前创建的机器学习注释器来对新文档进行预注释。 如果新文档集类似于最初训练机器学习注释器时使用的文档,那么这可能是进行预注释的最佳选择。
-
规则
使用基于规则的模型自动对文档进行注释。 仅当已使用 Knowledge Studio 创建了基于规则的模型时,此选项才可用。 如果文档包含可以从中派生意义的记号的常用模式,那么此模型可能是不错的选择。 它可以通过标识同时在文档中找到的字典术语的类类型,包含字典预注释器的某个功能(如果启用)。
或者,可以上传已注释的文档,并使用这些文档开始训练机器学习模型。 不能对上传的已注释文档运行预注释器,否则将从这些文档中除去现有注释,并替换为仅由预注释器生成的注释。
运行多个预注释器
Knowledge Studio 允许一次运行多个预注释器。 首先,您需要准备要使用的预注释方法。 有关更多信息,请参阅以下各部分:
配置预注释器的顺序
使用多个预注释器时,会保存对某个文本范围所做的第一个注释以用于结果,即使顺序中后面的其他预注释器尝试对相同文本范围进行注释也是如此。 这不适用于人工注释,人工注释都会保留,而不考虑预注释顺序。
例如,假设示例文本为 IBM Watson
。 如果顺序中排在第一位的字典将 IBM
标注为Organization
实体类型,那么顺序中排在第二位的机器学习模型无法将 IBM Watson
注释为Software Brand
实体类型,因为这会覆盖对 IBM
所做的更早注释。
可以在机器学习模型 > 预注释页面上的顺序列中查看预注释器的当前顺序。 要更改顺序,请完成以下步骤。
- 单击顺序设置。
- 单击上移和下移箭头** 按钮,以将预注释方法移至顺序中更早或更晚的位置。
- 单击保存。
- 双击预注释页面上的顺序列,以确保它与您所需的顺序相匹配。
运行预注释器
- 准备好预注释方法并且已配置预注释器的顺序后,单击运行预注释器。
- 选择要使用的预注释器,然后单击下一步。
- 如果要在运行预注释器之前擦除先前预注释器所做的现有注释,请选择擦除先前的预注释结果。 但即使选择了此项,也会保留人工注释。
- 选择要预注释的文档集。
- 单击运行。
使用 Natural Language Understanding 对文档进行预注释
可以使用 Natural Language Understanding 服务对添加到语料库的文档进行预注释。
开始之前
确定 Natural Language Understanding 预注释器是否有可能为您的用例增加价值。 查看支持的 Natural Language Understanding 服务实体类型和子类型的列表,以确定它们与类型系统中的类型之间是否存在自然重叠。 如果是,请继续执行此过程。 否则,请选择其他预注释器来使用。
关于本任务
Natural Language Understanding 是通过自然语言处理来提供文本分析的服务。 使用 Natural Language Understanding 预注释器时,它会调用 Natural Language Understanding 服务以在文档中查找和注释实体。
必须通过将 Natural Language Understanding 实体类型映射到已添加到 Knowledge Studio 类型系统的相应 Knowledge Studio 实体类型,指定希望服务查找的实体类型。 仅会查找并注释映射的实体类型的提及项。
过程
要使用 Natural Language Understanding 服务对文档进行预注释,请完成以下步骤:
-
以 Knowledge Studio 管理员身份登录,然后选择工作空间。
-
转至机器学习模型 > 预注释页面。
-
单击 Natural Language Understanding 行中的溢出菜单按钮,然后单击映射实体类型。
- Natural Language Understanding 实体类型的下拉列表会使用 Natural Language Understanding 服务识别到的实体类型进行预填充。
- 必须至少映射一种实体类型。
- 不能将 Natural Language Understanding 实体类型映射到 Knowledge Studio 实体角色,而只能映射到 Knowledge Studio 实体类型。
- 可以将多个 Natural Language Understanding 实体类型映射到一个 Knowledge Studio 实体类型,反之亦然。 例如,允许以下映射:
表 1. 实体类型的样本映射
Watson Knowledge Studio 实体类型 Natural Language Understanding 实体类型 工程师
科学家人员 位置 城市
国家或地区 -
在映射了要应用的所有实体类型后,转至机器学习模型 > 预注释页面。 单击运行预注释器。
-
选择 Natural Language Understanding,然后单击下一步。
在映射至少一种实体类型之后,Natural Language Understanding 注释器才可用。
-
或运行预注释器,选择 擦除先前的预注释结果。 但即使选择了此项,也会保留人工注释。
-
选中要对其进行预注释的每个文档集的对应复选框。
如果是第一次运行此预注释器,请先验证该预注释器是否可以按预期找到所映射实体的提及项。 创建一个文档集,其中包含来自每个不同数据源的一个或多个代表性文档。
-
单击运行。
如果要对预注释器执行验证检查,那么打开已注释的文档并复查已添加的注释。 确保创建了足够数量的准确注释。 如果注释准确,那么可以对更多和更大的文档集再次运行该注释器。 如果注释不准确,那么考虑将不同的 Natural Language Understanding 实体类型映射到您的类型。 如果这些类型不自然重叠,说明 Natural Language Understanding 预注释器并不是最适合您使用的预注释器。
预注释会应用于单个文档,而不考虑文档可能属于的各种文档集。 在所选文档集和未选文档集之间重叠的文档将在这两个文档集内进行预注释。
个结果
由 Natural Language Understanding 服务预注释的文档所生成的参考标准不能直接在 Knowledge Studio 外部使用。 您可以下载参考标准(不可读格式)以将其从一个 Knowledge Studio 工作空间移至另一个工作空间。 您可以继续开发参考标准,并使用它来构建机器学习模型或基于规则的模型,这些模型可以部署用于 Knowledge Studio 外部的服务。
下载使用 Natural Language Understanding 预注释的文档时,这些文档都会隐藏为不可读格式。 而且,这些文档中的所有注释也都会隐藏,包括人工注释者添加到文档的注释。
相关信息:
使用字典对文档进行预注释
为了帮助人工注释者开始处理其注释任务,您可以创建字典,并使用该字典对添加到语料库的文档进行预注释。
关于本任务
当人工注释者开始处理已预注释的文档时,可能有若干提及项已经基于字典条目使用实体类型进行了标记。 人工注释者可以更改或除去预注释的实体类型,也可以将实体类型分配给未注释的提及项。 通过字典进行的预注释不会对关系和指代进行注释。 关系和指代必须由人工注释者进行注释。
此任务显示如何创建可编辑的字典。 如果要上传文档并使用只读字典对其进行预注释,请单击创建字典按钮旁边的菜单图标,然后选择上传字典。
过程
要创建可编辑的字典并对文档进行预注释,请执行以下步骤:
-
以 Knowledge Studio 管理员身份登录,然后选择工作空间。
-
选择资产 > 字典页面。
-
单击创建字典,输入名称,然后单击保存。
-
从实体类型列表中,选择要与字典关联的实体类型。
您还可以在机器学习模型 > 预注释页面中将实体类型与字典相关联。 单击该页面中“字典”行中的溢出菜单按钮,然后单击映射实体类型。
-
为字典添加条目或上传包含字典术语的文件。
-
转至机器学习模型 > 预注释页面。
-
单击运行预注释器。
-
选择字典,然后单击下一步。
-
如果要在运行预注释器之前擦除先前预注释器所做的现有注释,请选择擦除先前的预注释结果。 但即使选择了此项,也会保留人工注释。
-
选中要对其进行预注释的每个文档集的对应复选框,然后单击运行。
预注释会应用于单个文档,而不考虑文档可能属于的各种文档集或注释集。 在所选文档集和未选文档集之间重叠的文档将在这两个文档集内进行预注释。
相关信息:
使用机器学习模型对文档进行预注释
可以使用现有机器学习模型对添加到语料库的文档进行预注释。
关于本任务
注释了 10 到 30 个文档后,可以基于这些数据来训练机器学习模型。 不要在生产中使用此类最低限度训练的模型。 但可以使用此类模型对文档进行预注释,以帮助加快对后续文档的人工注释。 例如,如果在训练机器学习模型后向语料库添加了文档,那么可以使用该模型对新的文档集进行预注释。 切勿对已由人工注释的文档运行预注释器。 预注释器会除去人工注释。
过程
要使用现有机器学习模型对文档进行预注释,请执行以下操作:
-
以 Knowledge Studio 管理员身份登录,然后选择工作空间。
-
转至机器学习模型 > 预注释页面。
-
单击运行预注释器。
-
选择机器学习模型,然后单击下一步。
-
如果要在运行预注释器之前擦除先前预注释器所做的现有注释,请选择擦除先前的预注释结果。 但即使选择了此项,也会保留人工注释。
-
选中要对其进行预注释的每个文档集的对应复选框,然后单击运行。
预注释会应用于单个文档,而不考虑文档可能属于的各种文档集或注释集。 在所选文档集和未选文档集之间重叠的文档将在这两个文档集内进行预注释。
使用基于规则的模型对文档进行预注释
可以使用现有基于规则的模型对添加到语料库的文档进行预注释。
过程
要使用基于规则的模型对文档进行预注释,请完成以下步骤:
-
以 Knowledge Studio 管理员身份登录,然后选择工作空间。
-
转至机器学习模型 > 预注释页面。
-
单击该页面中“基于规则的模型”行中的溢出菜单按钮,然后单击映射实体类型和类,将您在 Knowledge Studio 类型系统中定义的实体类型映射到一个或多个基于规则的模型类。
您还可以通过选择基于规则的模型 > 版本 > 基于规则的模型选项卡来打开映射页面。
-
对于要映射的每个实体类型,单击编辑。
- 类名列的下拉列表会使用与基于规则的模型关联的类进行预填充。
- 必须至少将一个实体类型映射到类。
-
在机器学习模型 > 预注释页面上,单击运行预注释器。
至少将一种实体类型映射到类后,“基于规则的模型”选项才可用。
-
如果要在运行预注释器之前擦除先前预注释器所做的现有注释,请选择擦除先前的预注释结果。 但即使选择了此项,也会保留人工注释。
-
选择要对其进行预注释的文档集或注释集。
-
单击运行。
预注释会应用于单个文档,而不考虑文档可能属于的各种文档集。 在所选文档集和未选文档集之间重叠的文档将在这两个文档集内显示为已预注释。
上传预注释的文档
通过上传由非结构化信息管理体系结构 (UIMA) 分析引擎预注释的文档,可以快速启动模型训练。
预注释的文档必须为 UIMA 公共分析结构的 XMI 序列化格式 (UIMA CAS XMI)。 上传的 .zip 文件必须包含 UIMA TypeSystem 描述符文件以及用于将 UIMA 类型映射到 Knowledge Studio 类型系统中实体类型的文件。
UIMA CAS XMI 是一种标准格式的 Apache UIMA。 针对如何通过 IBM Watson Explorer 中已分析集合来创建正确格式的文件,提供了若干准则。 如果使用其他 Apache UIMA 实现,请针对您的用途调整这些准则。 无论以何种方式创建 XMI 文件,有关创建类型系统映射文件和 .zip 文件的需求,对所有方式都是相同的。
如果将导入的文档分配给人工注释者,那么这些文档会在参考标准编辑器中显示为已预注释,并且可能已对若干提及项进行注释。 因此,人工注释者有更多时间专注于将注释准则应用于未标记的提及项。 或者,可以绕过人工注释步骤,而使用预注释的文档来立即开始训练和评估机器学习模型。
从 Watson Explorer Content Analytics 导出已分析的文档
可以导出在 IBM Watson Explorer Content Analytics 中已搜寻并分析的文档,然后将已分析的文档作为 XMI 文件上传到 Knowledge Studio 工作空间。
过程
要从 Watson Explorer Content Analytics 集合中获取已分析的文档,请执行以下步骤:
-
在 Web 浏览器中打开 Content Analytics 管理控制台。
-
在“集合”视图上,展开要从中导出文档的集合。 在“解析和索引”窗格中,确保解析和索引过程正在运行,然后单击导出已分析文档的内容和元数据的箭头图标。
-
在已分析文档导出选项区域中,选择将文档导出为 XML 文件,选中启用 CAS 作为 XMI 格式导出复选框,指定要写入所导出数据的输出路径,然后单击确定。
-
停止并重新启动集合的解析和索引服务,然后执行下列其中一个步骤:
- 如果在文档高速缓存中,集合包含有要用于训练机器学习模型的已建立索引的文档,请重新启动完全索引构建。
- 如果集合未包含要用于训练机器学习模型的已建立索引的文档,请上传文档,至少配置一个搜寻器来搜寻这些文档,然后启动该搜寻器。
-
在导出区域中,检查导出请求的状态。 进度会指示导出的文档数。
-
转至在配置导出选项时指定的输出文件夹。 将文档导出为 XML 文件时,输出文件夹名称基于执行导出时的时间戳记。 输出文件夹包含 XMI 文件 (
*.xmi
) 和 UIMA TypeSystem 描述符文件 (exported_typesystem.xml
)。
后续操作
必须定义 UIMA 类型和 Knowledge Studio 实体类型之间的映射。 此外,还必须创建一个 .zip 文件,其中包含将已分析的数据上传到 Knowledge Studio 工作空间所需的所有文件。
相关信息:
从 Content Analytics Studio 导出已分析的集合
可以从 Watson Explorer Content Analytics Studio 导出已分析文档的集合,并将已分析的文档作为 XMI 文件上传到 Knowledge Studio 项目。
过程
要从 Content Analytics Studio 集合中获取已分析的文档,请执行以下步骤:
- 启动 Content Analytics Studio 并打开 Studio 项目。
- 右键单击包含要用于训练机器学习模型的文档的文件夹,然后选择分析集合。
- 选择 UIMA 管道配置文件。
- 转至“集合分析”视图,然后单击“集合分析”视图中的保存图标。 指定要将保存的结果写入的文件夹,并指定文件名。
- 打开指定的文件夹。 已保存文件的文件扩展名为
.annotations
。 - 将
.annotations
文件复制到本地文件系统,并将文件扩展名从.annotations
重命名为.zip
。 - 解压缩该 .zip 文件中的所有文件。 解压缩的内容包括 XMI 文件 (
*.xmi
)、UIMA TypeSystem 描述符文件 (TypeSystem.xml
) 和其他文件。
后续操作
必须定义 UIMA 类型和 Knowledge Studio 实体类型之间的映射。 此外,还必须创建一个 .zip 文件,其中包含将已分析的数据上传到 Knowledge Studio 工作空间所需的所有文件。
将 UIMA 类型映射到实体类型
将 XMI 文件上传到 Knowledge Studio 工作空间之前,必须定义 UIMA 类型与 Knowledge Studio 实体类型之间的映射。
开始之前
Knowledge Studio 工作空间中的类型系统必须包含要将 UIMA 类型映射到的实体类型。
过程
要将 UIMA 类型映射到 Knowledge Studio 实体类型,请执行以下步骤:
-
在包含 UIMA TypeSystem 描述符文件(例如,
cas2di.tsv
或exported_typesystem.xml
)的文件夹中创建名为TypeSystem.xml
的文件。 -
使用文本编辑器打开
cas2di.tsv
文件。 该文件中的每一行都指定一个映射。 映射的格式取决于您要映射哪个注释器的注释:-
可以使用基本格式来创建映射:
UIMA_Type_Name[TAB]WKS_Entity_Type
以下示例定义由 Watson Explorer Content Analytics 中的命名实体识别注释器生成的 UIMA 类型与 Knowledge Studio 类型系统中定义的实体类型之间的映射:
com.ibm.langware.Organization ORGANIZATION com.ibm.langware.Person PERSON com.ibm.langware.Location LOCATION
另一个示例定义由 Watson Explorer Content Analytics Studio 中创建的定制注释器所生成的 UIMA 类型与 Knowledge Studio 实体类型之间的映射:
com.ibm.Person PERSON com.ibm.Date DATE
-
可以基于 Watson Explorer Content Analytics 中的“模式匹配器”注释器或“字典查找”注释器中使用的构面来创建映射。 在文本分析规则文件 (
*.pat
) 中,构面表示为类别属性。 要定义映射,请使用以下语法:com.ibm.takmi.nlp.annotation_type.ContiguousContext:category={FACET_PATH}[TAB]{WKS_ENTITY_TYPE}
以下示例(适用于模式匹配程序注释器和字典查找注释器)定义类别 $.mykeyword.product 与 Knowledge Studio 实体类型 PRODUCT 之间的映射:
com.ibm.takmi.nlp.annotation_type.ContiguousContext:category=$.mykeyword.product PRODUCT
-
后续操作
必须创建一个 .zip 文件,其中包含将已分析的数据上传到 Knowledge Studio 工作空间所需的所有文件。
相关信息:
将 UIMA CAS XMI 文件上传到工作空间
要使用下载的已预注释文档来训练模型,必须创建一个 .zip 文件,其中包含上传 XMI 文件所需的所有文件,然后将该 .zip 文件上传到 Knowledge Studio 工作空间。
开始之前
上传该 .zip 文件之前,请确保 Knowledge Studio 工作空间中的类型系统包含已将 UIMA 类型映射到的实体类型。
UIMA 分析引擎允许注释跨多个句子。 在 Knowledge Studio 中,注释必须位于单个句子的边界内。 如果上传的 XMI 文件包含跨多个句子的注释,那么这些注释不会显示在参考标准编辑器中。
过程
要将预注释的文档上传到 Knowledge Studio 工作空间,请执行以下步骤:
-
创建一个 .zip 文件,其中包含 Knowledge Studio 所需的所有文件。
-
选择包含 XMI 文件、UIMA 类型系统描述符文件和
cas2di.tsv
文件的文件夹,或者选择该文件夹中的所有文件。 -
创建一个包含所有文件的 .zip 文件。 确保
cas2di.tsv
和 UIMA 类型系统描述符文件存储在该 .zip 文件的根目录中。 这些文件不能存储在该 .zip 文件的子文件夹中,否则 Knowledge Studio 将无法读取这些文件,因而不会导入任何内容。在 Windows 中,可以右键单击并选择发送到 > 压缩(zipped)文件夹。
-
-
将该 .zip 文件上传到 Knowledge Studio 工作空间。
- 以 Knowledge Studio 管理员或项目经理身份登录,打开要向其添加文档的工作空间,然后打开资产 > 文档页面。
- 单击上传文档集。
- 拖动所创建的 .zip 文件,或者单击以找到并选择该文件。
- 选中相应复选框以指示 .zip 文件包含 UIMA CAS XMI 文件。
- 单击上传。