IBM Cloud Docs
添加文档以进行注释

本文档适用于 IBM Watson® Knowledge Studio 上的 IBM Cloud®。 要查看 Knowledge Studio Marketplace 上 IBM 先前版本的文档,请单击此链接

添加文档以进行注释

要训练机器学习模型,必须将包含主题知识的文档(例如,期刊文章或其他特定于行业的文本)添加到工作空间。

关于本任务

此部分仅描述如何添加文档以进行注释。 要为基于规则的模型定义规则,请添加或上传文档,通过这些文档,可以提取模式以定义为规则。 有关更多信息,请参阅添加用于定义规则的文档

文档

要训练机器学习模型,您需要收集对于领域内容具有代表性并且对应用程序价值很高的文档。

尽量确保您的训练文档对于您的领域的相关内容真正具有代表性;即,这些文档包含可以进行注释的许多相关提及项。 要选择最佳文档,请遵循以下准则:

  • 尽量提供一组总大小约 300,000 字的文档。 对于复杂类型系统,请提供更多字数,而对于较简单的系统,请提供较少字数。
  • 将每个文档限制为一页或两页内容(最好每个文档少于 2,000 字但接近 1,000 字)。 此外,在模型开发的早期阶段,将每个文档限制为只有几个段落也是一种良好的做法。 人工注释者可以标记长文档中的提及项和关系,但尝试跨多个页面标记指代可能会遇到不便。
  • 确保文档中的数据在所有可能的实体类型、子类型和角色以及这些项之间的关系中分布。 最终目标是文档集合中的每种实体类型至少有 50 个注释,每种关系类型也至少有 50 个注释。
  • 同样,文档应该代表应用程序将涵盖的主题广度,但对于出现频率有偏差的实体类型和关系类型,请尝试至少获取每种类型的 50 个范例,对于其中包含的提及项往往是短语的实体类型,请尝试获取更多范例。
  • 为训练创建的集合必须至少包含 10 个已注释文档。

准备好创建和训练模型时,可以将添加到工作空间的文档划分为用作训练数据、测试数据和盲区数据的多个集合。 不同的数据集对于评估模型性能很重要。

可以通过以下方式添加文档。 有关支持的文档类型和大小限制的更多信息以及其他信息,请参阅创建工作空间 > 输入、输出和限制的摘要

  • UTF-8 格式的两列 CSV 文件
  • UTF-8 格式的文本文件
  • HTML 文件
  • PDF 文件(不支持扫描文件和受密码保护的文件)
  • Microsoft Word DOC 或 DOCX 文件(不支持受密码保护的文件)
  • 包含从 Knowledge Studio 工作空间下载的文档的 .zip 文件
  • 包含 UIMA CAS XMI 格式文件的 .zip 文件

CSV 文件

可以从本地机器上传包含样本文本的两列 CSV 文件。 请一次上传一个 CSV 文件。 CSV 文件中的第一列指定文档的文件名。 文件中的第二列包含文档文本。 有关所需格式的示例,请参阅 documents-new.csv 教程样本文件中的 外部链接图标 文件。

PDF 文件

在某些情况下,无法从 PDF 中抽取文本,具体取决于 PDF 的创建方式。 通常,无法从没有映射到 Unicode 字符的嵌入字体中抽取文本。 如果不确定是否可以抽取 PDF 中的文本,可以尝试复制 PDF 中的文本,然后将其粘贴到文本编辑器中。 如果看到的字符与 PDF 本身显示的不同,那么文本抽取可能会失败。

格式化文档

格式化文档转换为纯文本时,格式的丢失可能会导致词的记号化质量差。 例如,如果 DOCX 文件中的表行包含不以句点结尾的单元格值,那么这些值可能会转换为一个句子。 另一个示例,如果 PDF 文档包含在行尾通过连字符连接的超长单词,那么该单词可能会转换为两个单词。 在这种情况下,除非对文件进行预处理以修复格式限制,否则文档可能不适合用于机器学习。

来自其他 Watson Knowledge Studio 工作空间的文档

如果先前从 Knowledge Studio 工作空间下载了文档,那么可以上传已下载的 .zip 文件。 通过一个选项,可以指定是否要将参考标准注释包含在导入的文件中。

对文档进行注释后,已注释文档将以 JSON 格式存储。 这些文件中的标记语言显示如何对原始文档文本进行解析和记号化,并包含人工注释者添加的所有注释的元素。 要随时间推移提高模型准确性,可以将这些文件上传到其他工作空间,从而保留所有现有注释。 人工注释者可以在这些文档中修改、删除和添加注释,也可以绕过人工注释而直接使用这些文件来创建训练、测试和盲区文档集,以评估和提高模型性能。

UIMA CAS XMI 文件

为了帮助训练模型,可以上传由 UIMA 分析引擎预注释的文档。 预注释的文件必须为 UIMA 公共分析结构的 XMI 序列化 (UIMA CAS XMI) 格式,并组合成 .zip 文件。 例如,可以上传已在 IBM Watson Explorer 集合中注释的文档。

人工注释者可以在这些文档中修改、删除和添加注释,也可以绕过人工注释而直接使用这些文件来创建训练、测试和盲区文档集,以评估和提高模型性能。 有关如何创建这些文件以及对于上传文件的需求的更多信息,请参阅上传预注释的文档

使数据匿名

如果要构建针对数据优化的模型,但出于隐私原因又不想将数据按原样上传到 Knowledge Studio,那么可以先去除文档中的所有个人可标识信息 (PII),然后使用这些匿名化的文档来训练模型。 不要编辑这些信息或将其整个替换为变量。 为了获得最佳结果,请将真实信息替换为相同类型的虚构信息。

例如,如果要保护的 PII 是客户名称,那么不要编辑每个名称或将每个名称替换为变量(例如 USER_NAME),而是将每个名称替换为使用各种典型名称语法样式的虚构名称,例如 Jane DoeMr. SmithDietrichDr. Jones, PhD。 请考虑编写一个脚本,用于连接各种名字和姓氏,连接头衔和姓氏,以及单独添加姓氏,以创建可插入到文档中来替换真实用户名实例的虚构名称。 目标是尽可能逼真地模拟源文档中的真实值。 如果在文档中使用了相同文本 (USER_NAME) 或编辑了文本,那么您基本上是将模型训练为预期所有名称都具有相同的值或对所有名称进行编辑。 模型在运行时用于新文档,并且遇到采用各种变异形式的从未见过的名称时,您希望模型能够将其识别为名称。

向工作空间添加文档

要训练模型,必须将对于领域内容具有代表性的文档添加到工作空间。

关于本任务

最佳做法是从相对较小的文档集合开始。 使用这些文档来训练人工注释者(如果工作空间涉及人工注释)并优化注释准则。 小型文档可帮助人工注释者识别整个文档中的指代链。 随着注释准确性的提高,可以向语料库添加更多文档,从而加大训练工作的深度。

过程

要向工作空间添加文档,请执行以下操作:

  1. 以 Knowledge Studio 管理员或项目经理身份登录,然后选择工作空间。

  2. 选择资产 > 文档 > 文档集选项卡。

  3. 单击上传文档集以将文档添加到语料库。

  4. 上传下列其中一种受支持格式的文档。 有关支持的文档类型和大小限制的更多信息以及其他信息,请参阅创建工作空间 > 输入、输出和限制的摘要

    关于从其他工作空间下载的文档 .zip 文件的说明

    导入已注释文档时,会对其重新记号化。 此过程可能会更改 Knowledge Studio 视为句子边界的内容。 因为注释是按句子定义的,所以某些注释在此过程中可能会失效。 从其他工作空间上传文档后,请快速复查注释以解决任何不一致情况。

    • 如果先前从 Knowledge Studio 工作空间下载了文档,请拖动包含已下载文档的 .zip 文件,或者单击以找到并选择该文件。 如果要包含在下载之前添加到文档的注释,请确保在单击上传之前选择包含参考标准的选项。 将仅导入在下载文档之前升级为参考标准的注释。
    • 在上传参考标准注释之前,必须将类型系统从原始工作空间上传到当前工作空间。 有关更多信息,请参阅从其他工作空间上传资源

    有关 UIMA CAS XMI 格式文档的 .zip 文件的说明

    • 如果先前下载了 UIMA CAS XMI 格式的已注释文档,那么可以上传包含已分析内容的 .zip 文件。 指定这就是要上传的内容类型后,单击上传。 有关如何创建这些文件以及对于上传文件的需求的更多信息,请参阅上传预注释的文档

  5. 添加文档后,单击文档名称以预览文档,并验证内容是否看起来正常。 例如,验证文本文件是否为 UTF-8 格式,文档中是否没有任何变音符或字符规范化问题,然后检查是否有不恰当的句子中断。 如果存在问题,那么可能需要在将文件添加到语料库之前,先对这些文件进行预处理。 您希望在开始字典或人工注释之前,文档尽可能没有问题且格式正确。

后续操作

在开始任何人工注释任务之前,请先将语料库划分为多个文档集,并将文档集分配给人工注释者。

管理员和项目经理可以直接注释文档集,而无需创建注释任务。

删除文档

如果您确定某个文档不代表对模型有用的标准行业文本,那么可以删除该文档。

要删除文档,请选择适用于您的情况的选项:

删除未与注释任务关联的文档

如果要删除的文档未与注释任务相关联,请完成以下步骤来删除该文档。

过程

以 Knowledge Studio 管理员身份登录,然后选择工作空间。

  1. 选择资产 > 文档 > 文档集选项卡。
  2. 选择包含要删除的文档的文档集。 文档集将打开。
  3. 找到要除去的文档,然后单击删除

删除与注释任务关联但人工注释尚未开始的文档

如果要删除的文档与注释任务相关联但人工注释尚未开始,请完成以下步骤来删除该文档。

过程

  1. 以 Knowledge Studio 管理员身份登录,然后选择工作空间。

  2. 删除注释任务:

    1. 打开机器学习模型 > 注释页面。 单击注释任务选项卡。
    2. 找到与文档相关联的注释任务,单击任务上的显示菜单图标,然后单击删除
  3. 按照删除未与注释任务关联的文档中的描述来删除文档。

  4. 删除文档后,请重新创建注释任务并关联相同的注释集,现在该注释集内少了一个文档。

删除与注释任务关联且人工注释已开始的文档

如果要删除的文档与注释任务相关联且人工注释已开始,请完成以下步骤来删除该文档。

如果正在进行人工注释,请勿删除任务,否则将丢失正在进行的工作。

过程

  1. 告知人工注释者忽略集合中不需要的文档。
  2. 在其他文档上的所有注释工作都已完成,并且人工注释者提交所有文档以将该集合添加到参考标准之后,请复审并接受提交的文档
  3. 解决所有注释冲突
  4. 当所有文档都是参考标准的一部分并且任务完成后,请按删除与注释任务关联但人工注释尚未开始的文档中的描述删除任务。
  5. 按照删除未与注释任务关联的文档中的描述来删除文档。

您可以通过下载文档集并查看 gt 文件夹中的文档来确认其余文档上的注释未丢失。

数据模型

本主题中的图概括了 Knowledge Studio 系统中文档的流程以及语料库、注释任务和参考标准中文档之间的差异。

语料库包含已划分为文档集的文档:

  • 文档只不过是一些文本字符串。
  • 文档集是指向一组文档的指针。 文档集不包含文档本身的副本。
  • 某些文档集可以指向单个文档,您可以通过在创建注释集时指定的重叠参数来控制这种设置。

该图显示了指向三个文档的两个文档集。 文档在两个集之间进行分配。 图 1. 此图显示了指向三个文档的两个文档集。 文档在两个集之间进行分配。

参考标准包含添加到文档中的注释(提及项、关系和指代提及项)。 参考标准对于每个文档均是单一的。

此图说明参考标准由添加到文档 1 ,文档 2 和文档 3 等的注释组成。 图 2. 此图说明参考标准由添加到文档 1 ,文档 2 和文档 3 等的注释组成。

创建注释任务时,将为添加到该任务的注释集内的每个文档创建注释的副本。 人工注释者对文档进行注释。 这些注释彼此隔离,并且与参考标准隔离。 注释任务是一个时间性概念,存在的目的是允许人工注释者对隔离空间中的文本进行注释。 相比之下,参考标准是永久、单一的。

此图说明项目经理创建注释集并将其分配给注释任务。 人工注释者 Dave 和 Phil 对集内分配给他们的文档进行注释。 图 2. 此图说明项目经理创建注释集并将其分配给注释任务。 人工注释者 Dave 和 Phil 对集内分配给他们的文档进行注释。

项目经理核准注释任务中的注释集之后,与其他注释集不重叠的文档中的注释将成为参考标准。 对于注释集之间重叠的文档(在本示例中由文档 2 代表),项目经理必须对冲突进行裁定并解决冲突。 重叠文档中的注释在通过裁定进行核准后,才能成为参考标准。

然后,参考标准用于训练和测试机器学习模型,也可以用作下一次模型开发迭代的基础。 要在新迭代中使用参考标准,必须创建新的注释任务。

此图显示由两个人工注释者添加的注释如何成为参考标准。 一个文档(标注为文档 2)被两位人工注释者注释。 此重叠文档中的注释必须先经过裁定,才能成为参考标准。 图 3。 此图说明了由两个人工注释者添加的注释如何成为参考标准。 一个文档(标注为文档 2)被两位人工注释者注释。 此重叠文档中的注释必须先经过裁定,才能成为参考标准。