本文档适用于 IBM Watson® Knowledge Studio 上的 IBM Cloud®。 要查看 Knowledge Studio Marketplace 上 IBM 先前版本的文档,请单击此链接。
注释设置
必须由了解行业知识及其语言的用户对文档进行注释。
执行以下任务以支持人工注释者访问工作空间:
-
邀请主题专家加入您正在使用的 Knowledge Studio 实例。
-
将人工注释者与您希望他们注释的一个或多个注释集相关联。
-
创建任务,用于分配人工注释者以对集内的文档进行注释。
在您将任务明确分配给人工注释者之后,他们才能在登录 Knowledge Studio 时看到您的工作空间。
用户(人工注释者)需要熟悉注释文档,其中包含有关如何对文档进行注释的详细信息。
模型生命周期
使用 Knowledge Studio 创建的模型是可以插入到自然语言处理 (NLP) 管道中的软件组件。
通过 Knowledge Studio,可以创建、评估和改进新领域的模型。 模型会将注释(元数据)添加到出现在自然语言内容中的文本。 注释用于标识领域内容中相关实体的提及项、这些实体之间的关系以及这些提及项如何指代同一实体;应用程序可以使用注释来自动分析和处理文本。 应用程序用户能够在自然语言上下文中抽取含义、发现洞察和获取答案,从而受益于此级别的分析。
模型的创建是一个迭代的多步骤过程,涉及多个阶段:知识管理、参考标准生成、模型开发、模型评估和运行时部署。
端到端领域适应
下图概述了这五个模型开发阶段之间的交互以及每个阶段发生的典型活动。
图 2。 总结模型开发的五个阶段以及每个阶段的活动。
知识管理
此阶段(在 Knowledge Studio 外部执行)是指选择、收集、保留和维护与特定领域相关的内容的过程。 管理可使数据增值;它将数据转换为可信的信息和知识。
参考标准生成
此阶段是指使用 Knowledge Studio 工具和最佳实践来生成已检查数据的集合,这些数据可用于使 Watson 解决方案适应特定领域。 这种已检查数据称为参考标准或黄金标准文档,其准确性至关重要,因为参考标准中的错误会导致依赖于该参考标准的应用程序中出现错误。
指导 Watson 学习有关新领域的内容时,一个基本的部分涉及为其提供有关领域内容中的相关实体、这些实体之间的关系以及实体如何相互指代的知识。 收集这些知识包含以下活动:
-
请求领域主题专家创建以下资源,或确定可以针对您的领域进行复用或修改的现有资源:
- 注释准则和示例,用于帮助人工注释者了解如何对领域内容中的词和段落进行注释。
- 类型系统,用于定义可以通过文本分析在领域内容中发现的特定于领域的类型(对象)和功能(数据分类)。 类型系统可控制人工注释者可以向文档添加的注释类型。
- 术语字典,其中的术语被视为领域内容中的等效术语。
-
创建对于领域内容具有代表性的文档语料库。
-
根据添加到 Knowledge Studio 工作空间的字典对文档进行预注释。 创建机器学习模型后,可以使用该模型对添加到语料库的新文档进行预注释。 预注释是在提供机器学习模型进行注释之前,机器对文档注释到尽可能多的程度的过程。 预注释通过将一些人工注释创建操作替换为仅验证机器注释的正确性,可以减少人工注释的工作量。
-
在人工注释者之间划分文档,然后由人工注释者使用 IBM Watson® Knowledge Studio 参考标准编辑器工具将注释手动添加到小型文档集。
-
比较人工注释结果并解决冲突。 在此阶段中需要进行裁定,以确保准确、一致注释的文档升级为参考标准,从而可用于训练和测试机器学习模型。
模型开发
此阶段是指使用 Knowledge Studio 工具来创建模型。 在确定参考标准后,可以使用人工注释结果来对用于自动向文档的大型集合(例如,包含数百万个文档的集合)添加注释的算法进行训练。
模型评估
此阶段是指使用 Knowledge Studio 工具来优化模型并提高性能。 模型生成的结果会根据参考标准文档的测试集合进行评估。 准确性分析用于识别注释错误的原因。 空余空间分析可帮助评估哪些错误需要重点关注,以及模型优化可以产生最大影响的地方。 可以反复进行调整以提高性能,直到达到令人满意的准确度。
模型部署
此阶段是指导出使模型能够在机器学习运行时环境中运行的组件,并使模型可供其他 Watson 认知应用程序访问。 例如,可以部署机器学习模型以供 IBM Watson® Natural Language Understanding 服务或 IBM Watson® Discovery 服务使用,或者导出模型以在 IBM Watson Explorer 中使用。
创建注释任务
要使人工注释者可以开始向文档添加注释,注释过程管理者必须先创建注释任务。
管理员和项目经理可以直接注释参考标准文档集。 请参阅直接注释文档集。
关于本任务
注释任务指定要对哪些文档进行注释。 要比较人工注释者的执行情况并了解他们应用注释准则的一致程度,您必须至少在任务中包含两个人工注释者。 此外,必须有一定百分比的文档出现在添加到任务的所有注释集内(创建注释集时指定重叠百分比)。
要点
- 注释任务是一个时间性概念,存在的目的是允许人工注释者对隔离空间中的文本进行注释。 它还用于确保仅将核准的注释升级为参考标准。
- 一个注释集一次只能包含在一个活动任务中。 要将一个任务中的注释集添加到其他任务,必须先删除该注释集在其中处于活动状态的任务。
- 如果删除人工注释者的用户帐户,也会影响其注释。 系统将删除文档中已分配给该用户但未升级为参考标准的所有注释。
- 在创建人工注释任务后,如果类型系统或参考标准编辑器设置发生更改,那么必须决定是否将更改传播到该任务。 类型系统更改可能会影响注释;人工注释者可能需要复查并更新其文档。
- 如果字典发生更改,这些更改不会反映在当前注释任务中。 要将资源更改应用于参考标准,必须创建新的注释任务。
- 每个工作空间最多可以有 256 个注释任务。
过程
要创建注释任务,请执行以下操作:
-
以 Knowledge Studio 管理员身份登录,然后选择工作空间。
-
选择机器学习模型 > 注释页面,然后单击注释任务选项卡。
-
单击添加任务。
-
指定描述性任务名称,然后选择必须完成该任务的日期。
-
如果没有注释集可用,请单击创建注释集。
-
对于基本集,请选择要划分为注释集的文档集或注释集。
-
对于重叠值,请指定要包含在每个注释集内的文档的百分比。 除非两个或更多人工注释者对相同文档进行注释,否则无法计算注释者间一致性分数。 例如,如果为包含 30 个文档的语料库指定 20% 的重叠值,并且将该语料库划分为 3 个文档集,那么所有人工注释者都将对 6 个文档 (20%) 进行注释。 其余 24 个文档会分配给 3 个人工注释者(每人 8 个)。 因此,每个注释者将收到 14 个要注释的文档 (6+8)。
计划用于训练机器学习模型的注释集必须至少包含 10 个已注释文档。
-
从人工注释者列表中选择用户名。
-
命名注释集。
作为随工作空间进展而评估人工注释者工作的良好做法,您可能希望创建注释集名称以标识分配给该注释集的人工注释者。 创建注释集之后,即无法更改注释集名称。
注释集名称最长不能超过 256 个字符。
-
单击生成。
-
-
这将在可用集下显示可用注释集的列表,以及分配给这些注释集的人工注释者的姓名。 要向注释任务添加可用集,请单击添加到任务。
-
确保要包含在任务中的所有注释集都显示在所选集下,然后单击保存以创建任务。
后续操作
创建任务后,可以返回到机器学习模型 > 注释页面上的注释任务选项卡,以查看每个人工注释者的进度。 此外还可以完成以下任务:
- 检查注释集之间重叠的已核准文档,以解决注释冲突。
- 打开任务以向其添加注释集。 确保添加的注释集包含与原始注释集内的文档重叠的文档。
在主导航的设置选项卡中,可以指定以下信息:
- 指定用于在参考标准编辑器中使用颜色和键盘快捷键的首选项。
- 指定注释者间一致性阈值,然后打开一个任务来查看多个人工注释者对相同文档进行注释的一致程度。
- 指定用于将注释准则连接到参考标准编辑器的 URL。
配置参考标准编辑器首选项
项目经理可以指定用于在参考标准编辑器中使用颜色和键盘快捷键的首选项。
过程
要指定用于使用参考标准编辑器的可视首选项,请执行以下操作:
-
以 Knowledge Studio 管理员身份登录,然后选择工作空间。
-
在左侧导航中,选择设置 > 文档注释设置。
-
选择实体类型或关系类型选项卡。
-
选择要更改的实体类型或关系类型,然后单击编辑键盘快捷键和颜色。 对于每种类型,可以定义:
- 键盘快捷键,这意味着用户可以输入
<key>将类型标签应用于高亮显示的文本。 例如,如果将o定义为ORGANIZATION的键盘快捷键,那么用户可以选择文本,然后按o键将ORGANIZATION实体类型应用于突出显示的文本。 如果指定的是大写字母,则用户必须按Shift+<key>。 - 文本颜色。 确保文本颜色与背景色形成对比,以便文本在进行标注后可见。
- 背景色。 这是标签的颜色,在对实体进行注释之后应用于实体。
注释文档时,人工注释者可以使用键盘快捷键来快速添加注释。 此外,注释标签和文本颜色有助于人工注释者在将注释添加到文档后立即识别出类型。
- 如果有您不希望人工注释者分配给提及项的实体或关系类型,那么可以向参考标准编辑器隐藏这些类型,这将缩短并简化用户看到的类型选项列表。 要执行此操作,请取消选中相应类型的活动复选框。
分配新的快捷键和颜色时,可以预览更改。
- 键盘快捷键,这意味着用户可以输入
-
还可以更改缺省的选择内容突出显示颜色。 突出显示颜色是在人工注释者选择文本后在文本周围显示的边框的颜色。 缺省颜色是浅蓝色,但您可以在选择内容突出显示选项卡上更改颜色,以便更容易识别所选文本的边界。
设置 IAA 阈值
为了帮助决定是接受还是拒绝注释文档集,您可以指定注释者间一致性阈值。 该阈值可帮助您根据系统计算的 IAA 分数来比较注释者间一致性优劣。
关于本任务
要比较不同的人工注释者如何对相同文档进行注释,请指定求值阈值。 如果一个人工注释者所做的注释与另一个人工注释者所做的注释差异之大导致分数较低,那么这意味着这两个注释者不一致。 这种不一致需要进行调查并予以解决。
过程
要设置注释者间一致性阈值,请执行以下操作:
- 以 Knowledge Studio 管理员身份登录,然后选择工作空间。
- 选择设置 > IAA 设置选项卡。
- 指定 0 和 1 之间的值(例如
.5或.8),然后单击保存。
连接到注释准则
为项目创建注释准则后,可以配置 Knowledge Studio 以连接到这些准则。 为了帮助选择要应用的正确注释,人工注释者可以在注释文档时复查这些准则。 如果管理员在解决重叠文档中的注释冲突时需要帮助,也可以复查这些准则。
过程
要将参考标准编辑器和裁定工具连接到注释准则,请执行以下操作:
- 以 Knowledge Studio 管理员身份登录,然后选择工作空间。
- 选择设置 > 注释准则选项卡。
- 指定托管准则位置的 URL。
- 单击保存。 系统会将参考标准编辑器和裁定工具连接到注释准则。 根据创建准则时授予用户的访问许可权,人工注释者和工作空间管理员或许能够在打开这些准则后对其进行更新,例如添加澄清和示例。
注释准则
对于如何记录准则并没有规定的格式,但重要的是准则包含详细示例。 人工注释者需要了解哪个实体类型要应用于给定上下文的提及项,并且知道哪些关系类型对于给定的提及项对有效。 从领域内容中提取的示例通常是传达选择正确注释选项的最佳方法。
注释准则并不是静态的。 随着项目的发展,您可能会发现准则中有不准确地捕获到的提及项和关系的实例。 您还可能会发现多个人工注释者之间存在不一致,他们以不同的方式解释准则。 通过在出现相应情况时更新准则,可以帮助随时间变化提高注释的准确性和一致性。
要使文档能够被视为参考标准,必须先解决不同人工注释者对相同文档进行注释的方式所产生的任何冲突。 解决冲突的主要方法是讨论引起混淆的原因,从而帮助人工注释者从错误中吸取教训。 改进和澄清准则可帮助减少冲突数量,并帮助确保准确、一致注释的文档升级为参考标准。
为了帮助管理准则,您可能希望将可能会变成长文档的内容划分成多个部分,例如实体注释准则、关系注释准则以及提及项指代方式注释准则。 在一个区域所做的更改必须进行评估,并与在其他区域所做的更改进行协调。 例如,如果添加了实体类型,请复查关系类型注释准则,并指定新的实体类型可以如何与其他实体类型相关联。
注释准则示例
大多数注释准则需要大量详细信息和示例,以确保人工注释者能以一致方式对文本进行注释。
此处提供的示例是一个简单的准则,专为包含交通事件报告的小型领域而创建。
任务目标
- 作为项目成员,请熟悉手动注释和机器学习模型优化的迭代过程。
- 使用参考标准编辑器对汽车领域中的文档进行注释,然后使用注释来训练机器学习模型。 对实体类型和关系类型进行注释,并根据需要指代实体。
准则表示法
-
方括号 [ ] 当注释的内容少于整个引文时,标明要注释的范围。
根据需要包含否定含义,例如
[no injuries]ACCIDENT_OUTCOME。 类型系统不使用实体类来表示否定。
实体类型
类型系统不使用实体子类型或角色,也不使用提及项类型或类。
| 实体类型 | 准则 | 示例 |
|---|---|---|
| ACCIDENT_OUTCOME | 事故的后果。 适用于人类(例如 death)和汽车(例如 dented)。 可以包含“towed”和“air bag deployment”作为严重损坏的指示,包含“transported | |
| to hospital"(但不包含 funeral home)作为受伤严重程度的指示。 可以包含否定。 | “[伤亡]”、“[受伤]”、“[全损]”、“[无伤亡]”、“因[损坏无法]使用而[被拖走]”、[未被拖走]、“安全气囊[未展开]”(安全气囊本身必须是 PART_OF_CAR,通过 sufferedFrom 与此 ACCIDENT_OUTCOME 相关),以及严重程度指示。 | |
| 条件 (condition) | 天气或道路情况;现场中可能会影响事故发生可能性的一个方面,可能每天都不同,但与汽车或驾驶员无关。 可以为驾驶员错误或机械故障,并且必须显示为有问题。 应该排除 STRUCTURE。 |
“干燥”、“下雨”、“施工”、“交通繁忙”、“白天”,但不包括“草地”或“醉酒”。 “爆胎”、“过度矫正”(如转向)、“睡着”、“醉酒”、“[未能通过][弯道]结构”、“[离开]车道”或路肩,但不包括“试图超车”,除非此短语伴随“没有足够的空间”或类似内容,也不包括“离开道路”,后者属于事件。 |
| INCIDENT | 实际提及碰撞,或者汽车动作明确不当且可能具有破坏性,例如行驶至道路之外,或者其他一些具有破坏性的事件,例如汽车着火。 不要相互指代不同的动作(如“impacted”、“pushed rearward”和“came to final rest”),即便这些动作密切关联。 将结构排除在范围之外;例如,“[停]在[沟渠]中的结构”或“与[护栏][保持接触的]结构”。 |
|
| MANUFACTURER | 制造车辆的公司 | Toyota、Mazda、General Motors |
| MODEL | 特定类型的汽车,由特定制造商制造。 排除任何额外术语/裁切线指示符,如“LX”或“SE”(例如,只对短语“Xterra SE”注释“Xterra”)。 | Camry |
| MODEL_YEAR | 作为汽车名称一部分的车型年份。 | '99、2001 |
| PART_OF_CAR | 车辆内部或外部的部件,与是否在事件中具体涉及无关。 排除此类部件的功能列表。 包括对部件在汽车中位置的指示,或对仅指汽车一部分而不涉及特定部件的指示。 可以是复数。 可以包括车辆中的位置规范,例如“[驾驶员安全气囊]”、“[RF门]”(即右前)、“[RR] 乘客”、“[LF和RF安全气囊]”、“[第一排被动/自动约束装置]”、“具有EDR功能的[安全系统]”。 包括拖船、油船等,但半挂车(具有不同的年份/车型/制造商)除外。 |
横截面、前平面、轮胎、方向盘、气囊等 |
| PERSON | 报告中事故现场中描述的任何人(可能是车辆的驾驶员或乘客/乘坐者、行人或目击者)。 不要注释形容词,因此不要注释“一位 [69 岁的老人]开车”,但要注释“一位 69 岁的[男性]开车”。 可以是复数,例如“LR 和 RF [乘员]”。 >在没有“动物”实体类型的情况下,使用“人”(PERSON)来标记参与/造成碰撞的野生动物,因为它们的移动能力使其更像“人”(PERSON)而不是“结构”(STRUCTURE)。 注意:“乘客安全气囊”是汽车的一个部件,并不意味着有人在场。 |
|
| STRUCTURE | 道路上、道路附近或属于道路一部分的结构。 包括可能与事故形态相关的特定道路形容词;省略其他形容词。 | [双车道、双向道路]、[左侧车道]、东[行车道]、2 英尺[沟渠]、[右侧车道线]、[出口匝道]、[电线杆]、[树]、陡峭下坡[路堤] |
| VEHICLE | 对除 MODEL、MANUFACTURER 和 MODEL_YEAR 以外的车辆内容的引用。 可以是复数,在这种情况下,不太可能使用指代,也不存在任何部分和组的关系。 | “[卡车]”、“[汽车]”、" [V1] 's" |
关系类型
类型系统使用关系类型,而不使用关系类或关系的其他属性。 否定不是通过关系类来编码的,而是通过提及的外延来编码的,例如,[没有住户PERSON] [住院ACCIDENT_OUTCOME],这两个提及由关系类型 sufferedFrom 链接。
| 第一次提及项的可能实体类型 | 关系类型 | 第二次提及的可能实体类型 |
|---|---|---|
| 车辆、型号、制造商 2 | hasProperty | MANUFACTURER、MODEL、MODEL_YEAR |
| PERSON | occupantOf | 车辆、车型、制造商、车型年份 1,汽车部件、结构 |
| 人、汽车部件、结构、车辆、车型、制造商、车型年份 1 | sufferedFrom | ACCIDENT_OUTCOME |
| VEHICLE | driveUnder | CONDITION、ACCIDENT_CAUSE |
| PART_OF_CAR | locatedOn | 车辆、型号、制造商、车型_年份 1 |
| ACCIDENT_OUTCOME | outcomeOf | INCIDENT |
| INCIDENT | causedBy | 条件,事故原因 (提醒:要求提供因果关系的文字证据) |
| INCIDENT | impactPoint | 被撞或卷入事故的人员、汽车部件、结构、车辆、制造商、型号或车型 1。 ,结构的 impactPoint 不包括仅仅指定不涉及该结构的撞击位置,因此不适用于两辆车在[十字路口]相撞的结构,但适用于车辆撞上[堤坝]的结构。 |
表注释
- 表示法 VEHICLE/MODEL/MANUFACTURER/MODEL_YEAR 是指车辆的提及项。 最后三项分别针对文本中表述“the Accord”、“the Honda”或(可能比较罕见)“the '99”等类似内容的情况。 四种实体类型存在优先顺序,因此在“the driver of the '99 Honda Accord”中,关系将是 driver(作为 PERSON)occupantOf Accord(作为 MODEL),在这种情况下,Accord 具有与 Honda 和 '99 的 hasProperty 关系。
- 只有当 MODEL 和 MANUFACTURER 作为名词出现时(指代车辆),才能作为 hasProperty 的第一个自变量。 MODEL 可具有与 MANUFACTURER 和 MODEL_YEAR 的 hasProperty 关系,如“the '99 Honda Accord drove”中所示。 MANUFACTURER 只能具有与 MODEL_YEAR 的 hasProperty 关系,如“the '99 Honda drove”中所示。