IBM Cloud Docs
注释文档

本文档适用于 IBM Watson® Knowledge Studio 上的 IBM Cloud®。 要查看 Knowledge Studio Marketplace 上 IBM 先前版本的文档,请单击此链接

注释文档

本部分中的信息帮助被要求对行业文档进行注释的主题专家使用参考标准编辑器来完成任务。

工作空间访问权

在其他人创建工作空间并向您授予访问权之前,您看不到任何工作空间。

在管理员将您添加到 Knowledge Studio 的实例时,您会添加到人工注释者角色。 您无法使用该角色创建工作空间。 要获取工作空间访问权,管理员必须创建工作空间。 然后,管理员或该管理员为工作空间关联的项目经理必须执行以下步骤:

  1. 创建注释集并将您与其相关联。
  2. 创建任务以指定您对集合内的文档进行注释。

在向您分配注释任务之后,您才能看到该工作空间。

如果您受邀参与 Knowledge Studio 工作空间,但在“工作空间”页面中看不到任何工作空间,请联系邀请您的人员,并请该人员执行必需的步骤。

注释最佳实践

这些注释最佳实践在您开始对文档进行注释时可提供一些指导和示例。

  • 对所有文档进行完全注释。

    机器学习也会学习否定示例(即未注释的内容),而不仅仅学习注释的内容。 因此,请明智判断进行注释的内容,但请把注释工作做完整。 如果仅对集合中 10 个文档的前 5 个进行仔细注释,那么后 5 个文档中未捕获的注释将教导模型忽略这些文档中遗漏的任何实体或关系提及项。 您可能会最终丧失通过对前 5 个文档执行的彻底工作所获得的任何收益。

  • 注释一致性至少与注释正确性一样重要。

    有关注释准则的某些决策是任意的,例如,是否应将汽车装饰线视为型号名称的一部分,例如,CamryCamry LX。 项目团队认可某个策略并始终依据该策略进行注释,远远比具体选择哪个策略更重要。

  • 仅在字记号边界上标注实体提及项,因为提及项检测搜索作用于字记号级别的详细程度。

  • 尽可能标注限于一个或两个相邻字的实体提及项。

    这样做并非总是可行或者轻松。 请考虑下列示例:

    • 源文档包含一个句子,针对将使用类型系统的应用程序的用途,我们想要注释该句子中的问题及其原因。

      The electronic module was burnt because the wrong voltage was applied.
      

      用户可能倾向于如下注释问题和原因:

                  [PROBLEM]                           [CAUSE]
      
      [The electronic module was burnt] [because the wrong voltage was applied].
      

      但是,将如此长的短语注释为实体类型并不是好的做法。 请改为查找重要的实体,并通过定义关系提及项来标识彼此之间的关联方式。

             [LOCATION]          [SYMPTOM]                [CAUSE]
      
      The [electronic module] was [burnt] because the [wrong voltage] was applied.
      
                    ^---isStatusOf--| |------causedBy-------^
      
    • 源文档包含您想要注释的一个拆分动词。 如何将非相邻文本注释为单个实体类型? 您可以对每个实体提及项进行注释,并使用关系提及项将它们标识为彼此相关。

                [EVENT_ANSWER]      [EVENT_ANSWER]
      
      All of the phones were ringing, but he knew he should [pick] the red phone [up] first.
      
                          ^----splitType-----^
      
  • 避免重叠提及项,这是两个不同的实体类型标签,应用于文档中的单个短语。 例如,对于句子 She donated her father's journals to the JFK Library.,如果针对单个短语 JFKJFK LibraryPERSON 注释 JFK Library=LOCATION=,将导致提及项重叠。 在此句中,术语的使用与 library 更相关,而不是与 person 相关,因此只应该应用后一个注释。

    解译此类结构需要机器学习模型的多次并行调用,因为提及项检测仅在每个字记号上查找是否有单个标签或无标签。

  • 确定团队将如何处理行文中的列表和复数。 例如,KLUE 类型系统有 PERSONPEOPLE 实体类型,这两者区分单数和复数。 您可以选择按照以下某种方式来注释列表 Barack, Michelle, Malia, and Sasha Obama

    • 将列表中的每个项注释为单数实体提及项(BarackMichelleMaliaSasha Obama 每个均是 PERSON 提及项)
    • 将整个短语注释为一个复数实体提及项(Barack, Michelle, Malia, and Sasha Obama 是单个 PEOPLE 提及项)。

    其中任何一种方法并不必然比另一种方法更好。 请确保您的团队选择其中一个方法,并将其一致地应用于文档中发生的任何列表。

  • 在提及项指示相同的现实世界实体时将使用指代。 在不同实体之间将使用关系。 因此,任何两个提及项都不应同时通过指代和关系进行连接。

使用参考标准编辑器进行注释

当人工注释者对文档进行注释时,会在参考标准编辑器中打开该文档。 参考标准编辑器是人工注释者用于向文本应用标签的直观工具。

人工注释的目标是标注提及项、关系和指代的提及项,以便训练机器学习模型在未查看的文本中检测这些模式。 至少使用该工具来对实体提及项进行注释。 如果将使用生成的模型的应用程序不需要查找并抽取指代和关系提及项,那么您无需对指代和关系提及项进行注释。

词语索引是一种可选工具,可由人工注释者用于加速重复提及项的注释。

选择要在手动注释文档时使用的方式:

  • 提及项方式

    在此方式中,人工注释者将类型系统中所定义的实体类型与文本中有意义的字或短语相关联。 例如,人员名称的所有提及项都可与名为 PERSON 的实体类型相关联。 提及项注释是必需的,并且必须在将关系类型和提及项注释为指代之前出现。

    人工注释者可选择使用词语索引工具来确保在整个文档内以及在各个注释集之间使用相同实体类型对相同文本进行注释。

  • 关系方式

    在此方式下,人工注释者通过关联关系类型(如类型系统中定义)来连接提及项。 例如,提及项 John Smith 可能通过关系类型 IBM 连接至提及项 employedBy。 关系类型注释是可选的,并且可在将提及项注释为指代之前或之后出现。

  • 指代方式

    在此方式下,人工注释者识别表示相同事物的提及项,从而帮助在字不同时确保注释中的一致性。 例如,第一句中的提及项 IBM、提及项 International Business Machines 和后一句中的提及项 IBM 指示相同的事物,并且全部会由相同实体类型进行标注,例如,ORGANIZATION。 将提及项注释为指代是可选的,并且可在对关系类型进行注释之前或之后出现。

使用编辑器的技巧

  • 随时保存您的工作。
  • 如果出错,可以按 Ctrl+Z 撤销先前的操作。 要在撤销操作后重做该操作,请按 Ctrl+Y。 您可以撤销在编辑当前文档时执行的前 10 个操作。 一旦您关闭文档,就会丢失这些操作。 这些操作必须按照倒序撤销,并且您必须切换至执行操作时所处的方式才能进行撤销。 您无法撤销和重做词语索引工具操作。

对实体提及项进行注释

要对实体提及项进行注释,人工注释者将选择文档中的文本字符串,然后应用最恰当地描述文本字符串所表示的内容的标签。 可应用的标签是在工作空间的类型系统中定义的实体类型。

关于本任务

在开始对文档中的实体提及项进行注释之前,最好阅读整个文档。 这样做有助于在注释时记住整个上下文,并可帮助洞察实体提及项相互之间的可能相关方式以及在整个文档中未来可能需要指代的提及项。

在打开文档进行注释时,您可能想要首先使用词语索引工具来对重复实体提及项进行注释,然后对单个实体提及项进行注释。 然后,您可以按照任何想要的顺序或者根本不按任何顺序对关系提及项和指代进行注释。 实体提及项注释是必需的。 是否还要对关系提及项和指代进行注释则取决于模型的用途以及领域需求。 但是,除非您标识了指代,否则每个实体提及项被视为表示一个不同的实体。

提示

  • 请记住,实体提及项越短越适合训练,因为机器学习模型更易于识别较短的模式和添加正确的注释记号。

  • 如果选择将基于字典的记号化器与工作空间配合使用,并且想要处理训练数据中的复合术语和标点符号,那么可以将这些术语添加到字典并创建字典注释器以对出现的实例进行预注释。 例如,为避免对包含标点符号的术语进行断句,请向字典添加诸如 Yahoo! 和 Dr. 之类的术语。 同样,如果您的训练数据包括带连字符的单词或字母数字缩略词(如 Hi-CMS-60-70),请将这些术语添加到字典中。 要对出现的实例进行注释,而不考虑大小写,请以小写形式(例如 hi-c)添加术语。 要注释变体,请将变体作为表面形式添加(MS-60-70MS 60 70)。

    重要信息:如果使用缺省记号化器,那么请勿使用此方法。

过程

要对文档中的实体提及项进行注释:

  1. 以人工注释者(或分配有文档进行注释的管理员)身份登录。 此时将显示包含分配给您的任务的工作空间。

  2. 打开工作空间,单击机器学习模型 > 注释,然后单击注释任务选项卡。 此时将显示分配给您的注释任务。

  3. 打开要处理的注释任务。 此时将显示分配给您的注释集。

  4. 单击注释以打开要处理的注释集。 此时将显示注释集内的文档。

  5. 打开要注释的文档。 缺省情况下,文档以提及项方式打开,该方式用于注释实体提及项。

  6. 开始注释实体提及项。

    1. 单击文本中的词,该词识别为类型系统中特定实体类型的提及项。 对于包含多个词的实体提及项,单击另一个词或者拖动选择框边缘以选择多个词或复合词。

    2. 从右侧窗格中选择要应用的实体类型,或者输入实体类型的键盘快捷键。

      如果注释准则先前已连接到该工作空间,而您需要帮助来选择正确的注释进行应用,请单击查看准则。 根据在托管准则的站点上所设置的访问许可权,您或许能够在打开这些准则后对其进行更新,例如添加澄清和示例。

    3. 避免创建重叠提及项。 但是,如果需要有效的重叠提及项,请单击替换以更轻松地进行添加。 在将多个标签应用于一个实体提及项时,将发生重叠。 请查看以下建议:

      • Sub-Saharan 注释为单个提及项,而不仅仅是 SaharanSub
      • 请勿针对 PERSONJFK International Airport* 中的 JFK 引用创建重叠 * 注释。 整个 JFK International Airport 提及项应仅标注为 FACILITY
      • 对于文本 CEO,请勿为 PERSONCEO* 创建 * 注释,为 PEOPLECEOs* 创建 * 注释。 仅将 CEOs 注释为 PEOPLE 实体类型。

      通常,存在太多重叠提及项意味着注释准则不明确,需要进行改进以提供有关如何处理源数据中复合词的更好示例。

    4. 要除去刚才添加的注释,请按 Ctrl+Z 撤销该操作。 要稍后除去实体提及项,可左键单击提及项并按 Delete 键,或者单击查看详细信息,然后单击分配给该提及项的实体类型旁边的 X

  7. 根据类型系统,您或许能够配置实体提及项的属性,例如,指定实体角色或子类型或者提及项类或类型。 如果是这样,请选择提及项,然后单击属性视图

  8. 随时单击保存以保存您的工作。

后续操作

注释完文档中的所有实体提及项、关系提及项和指代后,在适合的情况下,将文档状态从正在进行更改为已完成,然后单击保存并关闭文档。

注释完所有文档并将它们标记为已完成后,注释集状态更改为已提交。 这就是项目经理如何得知他们可开始评估文档的注释者间一致性,然后拒绝文档,或者接受文档并将它们提升为参考标准。

对重复提及项进行注释

您可以选择使用词语索引工具来一次标注提及项的多次出现。 此工具支持您在整个文档内以及在各个注释集之间使用相同实体类型对相同文本进行注释。 使用该工具可帮助确保多个文档之间注释的一致性。 例如,您可以通过提及项方式逐个标注提及项 encryption 的每个出现实例,或者您可以使用词语索引工具来标注提及项 encryption 的所有出现实例。 无论采用何种方式,模型都会学习应用于提及项的实体类型。

关于本任务

虽然词语索引工具是可选的,但是最好先使用词语索引工具在一个文档内或多个文档之间对提及项进行注释,然后再开始在各个文档中对提及项进行注释。 在使用词语索引工具将实体类型应用于提及项时,系统将实体类型应用于所有匹配的提及项,覆盖分配给匹配提及项的任何现有实体类型。 为避免冲突,在词语索引工具应用新实体类型时,将从现有实体类型中除去属性(例如,角色或子类型)。

过程

要对重复提及项进行注释:

  1. 以人工注释者(或分配了要注释的文档的管理员或项目经理)身份登录。 此时将显示包含分配给您的任务的工作空间。
  2. 打开工作空间,然后单击机器学习模型 > 注释。 单击注释任务选项卡。 此时将显示分配给您的注释任务。
  3. 打开要处理的注释任务。 此时将显示分配给您的注释集。
  4. 单击注释以打开要处理的注释集。 此时将显示注释集内的文档。
  5. 打开要注释的文档。 缺省情况下,文档以提及项方式打开,该方式用于注释实体提及项。
  6. 如果尚未添加任何注释,请至少添加一个注释。 选择一个表示类型系统中实体类型提及项的词或短语,并为其分配相应的类型。 单击保存以保存注释。
  7. 选择想要注释的重复文本的单次出现实例,然后单击词语索引
  8. 选择想要将选中的实体类型应用于的文档。 您可以在已分配给您进行注释的所有文档、您已开始进行注释的所有文档或您尚未开始进行注释的所有文档中创建注释。
  9. 单击预览以查看将添加的注释。

如果要在范围更大的上下文中查看注释,请单击图标以预览文档内容或在新窗口中打开文档。

  1. 单击 应用并复审 以将所选实体类型应用于所选文档中的提及项。 您仍有机会预览将添加的注释。 如果某个注释在特定上下文中不准确,那么可以通过单击“编辑”图标,然后除去针对提及项分配的实体类型,从而除去该出现实例。
  2. 对注释列表感到满意后,单击返回至参考标准编辑器

个结果

提及项在文档中已注释。 无法一次性除去通过词语索引添加的提及项集。 必须逐一除去每个提及项。

将提及项注释为指代

要将提及项注释为相同实体的指代,人工注释者将选择指示相同事物的提及项的每个出现实例。 指代可帮助模型识别到以下情况:通过不同方式引用的实体将与相同实体相关联,例如,美国州的名称及其缩写、公司名称及其首字母缩略词,或者人员的姓名以及指示该人员的代词。

开始之前

您必须先在文档中对提及项进行注释,然后才能识别指代。

关于本任务

将提及项注释为指代时,系统将创建指代链。 该链为您提供一种方式来查看上下文中的所有提及项,并验证所有出现实例是否一起属于相同实体。 例如,“Barack”、“Michelle”、“he”和“she”全都属于相同实体类型 PERSON,但是“Barack”和“he”是一个实体,而“Michelle”和“she”是另一个实体。 在此示例中,您将创建两个指代链。

在创建指代链时,您必须选择已由相同实体类型标记的提及项。 但是,在某些情况下,您可能想要在相同指代链中包含不同类型的提及项。 为此,必须创建多个链,然后合并这些链。 例如,考虑人们如何逐渐使用简称来避免文本中出现重复内容。 在交通事件报告中,对车辆的首次引用可能为“2004 Honda Accord Sedan”。 之后,作者可能将该车辆称为“Accord”,再后来,就将其简单称为“vehicle”。 如果类型系统包含车辆制造商、型号和类型等条目,那么可以为每个实体类型创建多个指代链,然后将其合并以创建整合的链。 合并的链可帮助训练机器学习模型以识别到所有这些提及项均指示相同事物。

组合不同实体类型的提及项的另一种方式是创建包含一种实体类型的提及项的链。 然后,您可以单击另一个实体类型的提及项,随后单击您所创建的链以将该提及项添加到该链。

根据注释准则,如果动词提及某个操作的相同实例,那么您可能想要针对动词和名词创建指代链。 例如,如果动词“encrypts”的两个提及项指示 encryption 的相同出现实例,那么您可以指代这些提及项。 但如果“encrypts”的一个引用是一般引用,或者如果这两个出现实例指示 encryption 的两个不同操作,那么不应进行指代。 如果两个不同的动词指示某个操作的相同出现实例,那么您可能想要指代这些提及项。 例如,在语句“He encrypted the document, and after that processing he sent the file ...”中,可指代提及项“encrypted”和“processing”,因为它们指示某个操作的相同实例。

最重要的是一致性。 决定想要对指代进行注释的方式,然后在注释准则中明确指定规则并随附示例。

过程

要将提及项注释为指代:

  1. 以人工注释者(或分配了要注释的文档的管理员或项目经理)身份登录。 此时将显示包含分配给您的任务的工作空间。

  2. 打开工作空间,然后单击机器学习模型 > 注释。 单击注释任务选项卡。 此时将显示分配给您的注释任务。

  3. 打开要处理的注释任务。 此时将显示分配给您的注释集。

  4. 单击注释以打开要处理的注释集。 此时将显示注释集内的文档。

  5. 打开要注释的文档。 缺省情况下,文档以提及项方式打开,该方式用于注释实体提及项。

  6. 单击指代

  7. 创建指代链:

    1. 在文档中移动,并单击表示相同事物且使用相同实体类型标注的每个提及项。 例如,单击每个出现的 IBMInternational Business MachinesIBM Corp.,假设所有这些提及项都具有实体类型 ORGANIZATION
    2. 双击要添加到链中的最后一个提及项。 在侧面板中创建了指代链。 链名称与您选择的第一个提及项匹配。
    3. 要突出显示某个链中的所有提及项以在上下文中查看这些提及项,请在侧面板中将鼠标指针悬停在该链的名称上。
  8. 单个提及项列表显示文档中已注释但尚未添加到链的术语。 如果您注意到列表中的某个提及项属于某个链,那么可在此处将其添加到链中。

    1. 从侧面板的单个提及项列表中,单击该提及项。
    2. 从提及项描述下面的下拉列表中,选择表示想要将提及项添加到的链的编号。
    3. 单击合并以将提及项添加到链,然后单击确定

    这将从单个提及项列表中除去该提及项,并在文档中该提及项下方显示它现在所属的链的编号。

  9. 您可以使用以下方法来撤销工作:

    • 要除去您刚才添加的指代链,请按 Ctrl+Z 撤销该操作。
    • 要稍后除去指代链,请从指代链侧面板中,单击想要除去的链旁边的 X
    • 要从链中除去单个提及项,请单击指代标识以打开一个窗口,其中显示链中的提及项的列表,然后单击想要除去的提及项旁边的 X
  10. 随时单击保存以保存您的工作。

后续操作

注释完文档中的所有实体提及项、关系提及项和指代后,在适合的情况下,将文档状态从正在进行更改为已完成,然后单击保存并关闭文档。

注释完所有文档并将它们标记为已完成后,注释集状态更改为已提交。 该状态就是项目经理如何得知他们可开始评估文档的注释者间一致性,然后拒绝文档,或者接受文档并将它们提升为参考标准。

对关系进行注释

要对关系提及项进行注释,人工注释者将查找句子中两个实体提及项之间关系的文本证据,然后应用最恰当地描述关系类型的标签。 可应用的标签是在工作空间的类型系统中定义的关系类型。

开始之前

您必须先在文档中对实体提及项进行注释,然后才能定义它们之间的关系类型。

关于本任务

仅当文本显式描述两个实体提及项之间的关系时,才可以定义关系提及项。 显式文本证据可能包括所有格、主谓宾结构或同位语。 例如,在以下句子中,在 ownedBydog 之间添加 owner 关系提及项无效。

NOT VALID: The dog got a treat from its owner.

有效的关系提及是在 itsowner之间,因为这是句子的这一部分,其中文本明确定义了狗与其所有者之间的关系。 Owner 可能是家庭所有者,也可能是其他某个狗的所有者,但此文本明确表示句子开头提到的同一只狗归此人所有。

VALID: The dog got a treat from its owner.
                                |ownedBy^

两个实体提及项和定义它们之间关系类型的文本必须存在于一个句子中,这一要求可能看起来很严格。 但是,请记住,如以上示例所示,只要您同时在文档中标识了指代,就可在包含充当比较非正式的实体提及项的词(例如代词)的句子中识别关系提及项。 例如,Mary is a scientist. She works for IBM. 中的第二句包含 Mary 和 IBM 之间 employedBy 关系的有效文本证据。 指代 She 被理解为 PERSON 实体类型 Mary 的引用。 MaryShe 之间指代的标识以及 SheIBM 之间关系提及项的标识一起完全捕获此关系。 对关系提及项进行注释的正确方式如下所示:

Mary [#1] 是一名科学家。 [#1] 适用于 IBM
                         |----employedBy----^

其中,下标 [#1] 指示 MaryShe 都是文档中第一个指代链的成员。

过程

要对文档中的实体提及项之间的关系提及项进行注释:

  1. 以人工注释者(或分配了要注释的文档的管理员或项目经理)身份登录。 此时将显示包含分配给您的任务的工作空间。

  2. 打开工作空间,然后单击机器学习模型 > 注释。 单击注释任务选项卡。 此时将显示分配给您的注释任务。

  3. 打开要处理的注释任务。 此时将显示分配给您的注释集。

  4. 单击注释以打开要处理的注释集。 此时将显示注释集内的文档。

  5. 打开要注释的文档。 缺省情况下,文档以提及项方式打开,该方式用于注释实体提及项。

  6. 单击关系

  7. 要对关系进行注释,请执行以下操作:

    1. 单击文本中的实体提及项,然后单击第二个实体提及项。

    2. 从右侧窗格中选择要应用的关系类型,或者输入关系类型的键盘快捷键。 可用关系类型的列表受选择的第一个实体提及项约束,并进一步受第二个实体提及项约束。 在某些情况下,只保留一种关系类型;您仍必须显式选择关系类型进行应用。

      如果注释准则先前已连接到该工作空间,而您需要帮助来选择正确的注释进行应用,请单击查看准则。 根据在托管准则的站点上所设置的访问许可权,您或许能够在打开这些准则后对其进行更新,例如添加澄清和示例。

  8. 要除去您刚才添加的关系提及项,请按 Ctrl+Z 撤销该操作。 要稍后除去关系提及项,可左键单击关系类型并按 Delete 键,或者单击关系类型旁边的 X

  9. 随时单击保存以保存您的工作。

后续操作

注释完文档中的所有实体提及项、关系提及项和指代后,在适合的情况下,将文档状态从正在进行更改为已完成,然后单击保存并关闭文档。

注释完所有文档并将它们标记为已完成后,注释集状态更改为已提交。 这就是项目经理如何得知他们可开始评估文档的注释者间一致性,然后拒绝文档,或者接受文档并将它们提升为参考标准。

相关信息