IBM Cloud Docs
定义定制实体

定义定制实体

通过创建实体抽取器,向 Discovery 传授对您的业务很重要的术语。

实体抽取器 是一种机器学习模型,用于识别和标记您指示对业务需求或用例很重要的术语。 创建实体抽取器时,您将决定要查找和抽取的信息的内容和作用域。 您的抽取器可以抽取以下任何内容:

  • 表示对象的术语,例如烹饪食谱中的蔬菜名称或事故报告中的汽车的制造和模型
  • 对象的属性,例如颜色和数量
  • 简短短语,例如 107 deaths in Francerevenue of $343M

实体类型 是一种事物类型。 要创建实体抽取器,请定义一组您关心的 实体类型。 然后,通过查找表示要抽取的信息类型的术语或短语并将其标记为实体示例,对您自己的文档集合进行注释。

定义实体类型和标签实体示例后,可以生成机器学习模型。 该模型根据如何在句子中引用您标记为示例的术语或短语来了解您关心的信息。 模型从训练数据中引用实体示例的上下文和语言中学习。

在对机器学习模型进行了足够好的训练以识别实体类型之后,您可以将该模型作为扩充项发布,并将扩充项应用于新文档。 定制实体抽取器扩充项可识别并标记与您所关心的实体类型的出现相同的和类似术语的新提及项。

有关如何使用实体抽取器向 AI 应用程序添加域定制的更多信息,请参阅 Entity Extractor Feature in Watson Discovery v2 博客帖子。

Discovery 还具有可直接应用于集合的内置 实体 扩充项。 它不需要任何训练来识别俗称的正确名词。 有关 Watson NLP Entities 扩充项的更多信息,请参阅 Entities

您是否已在 Knowledge Studio中构建实体类型系统? 您可以使用与机器学习模型关联的语料库作为实体抽取器训练数据的起点。 有关更多信息,请参阅 导入语料库

有关可以使用实体抽取器的语言的信息,请参阅 语言支持

实体抽取器概述视频

此视频概述了如何定义定制实体类型,然后使用它们从数据中抽取感兴趣的术语。

要阅读视频的脚本,请在 YouTube.com 上打开视频,单击更多操作图标,然后选择打开脚本

示例

如果您熟悉内置实体扩充项,那么知道扩充项可以识别与通用化类别 (例如 PersonLocation) 匹配的术语。 使用实体抽取器,您可以控制构成有意义的术语或短语的内容。

下图显示了可识别 family members 实体类型提及项的扩充项可能从文本中抽取的术语。 此示例说明如何预测家庭成员提及项和其他实体提及项 (由内置实体扩充项识别)。

显示了对家庭成员 (女儿,姐妹,母亲) 提及和实体 (Bennett 先生,Bingley 先生,荷兰先生,Longbourn) 提及的“骄傲和偏见”的节录。
Labeled entity examples

此摘录来自 Jane Austen 的 Pride and Pre偏见 的第 3 章。

准备工作

使用具有您希望 Discovery 了解的各种实体类型示例的文档来查找或创建集合。 要教导抽取器,必须标注实体类型的示例。 仅当集合包含有效的示例时,才能标注示例。 尝试查找具有许多不同术语的文档,这些术语充当要定义的每种实体类型的示例。

添加实体抽取器

要添加实体提取器,请完成以下步骤:

  1. 打开您要创建实体提取器的项目。

    该项目必须至少具有一个具有代表域数据的文档的集合。

  2. 从“改进和定制”页面的“改进工具”面板中,展开 Teach 域概念,然后单击 抽取实体

  3. 单击新建

    如果要从 IBM Watson® Knowledge Studio 语料库创建基于实体类型系统的实体抽取器,请单击箭头,然后选择 导入 Knowledge Studio 语料库。 有关后续步骤,请参阅 导入 Knowledge Studio 语料库

  4. 添加抽取器名称和 (可选) 描述。

    此名称用作模型名称,并用作发布模型时创建的扩充项的名称。 此名称在“扩充项”页面中显示为扩充项名称,您和其他人可以在此页面中将其应用于集合。 它还在找到定制实体的文档的 JSON 表示中显示为模型名称。 该名称与您指定的大写和空格一起存储。

  5. 选择具有代表域数据的文档的集合。

  6. 从文档中选择要在文档视图中显示的字段,您将在该文档视图中标注集合中的文档。

    • 文档标题 在页眉中显示为文档名称。 选择每个文档具有唯一值的字段,例如存储在 extracted_metadata.filename 字段中的文件名。
    • 文档主体 是标注实体示例的位置。 选择包含大量文档内容的字段,例如 text 字段。

    显示 PP3.docx 是文档标题,主文本面板显示主体字段。
    Label documents page

  7. 单击创建

您选择的集合中的文档将显示在“标签文档”视图中。 您将标记您希望 Discovery 从该文档和集合中的其他文档识别的实体类型的出现。

如果页面主体中未显示任何文本,请从现在开始创建新的实体抽取器。 此时间,当您为 文档主体 字段选择值时,请确保从包含文本的已处理文档中选择一个字段。

定义实体类型

通过完成以下步骤来定义实体类型:

  1. 单击 添加实体类型

  2. 添加实体类型名称和可选描述。

    使用适用于您的数据的命名约定。 内置实体扩充项使用初始大写且不使用空格,例如 EmailAddress。 要将实体与其他扩充项抽取的实体区分开来,您可能需要使用其他约定。

  3. 可选: 选取要用于突出显示文档中要标记为此实体类型示例的文本的颜色。

    您可以单击 标签颜色 选用板中的颜色,单击 更新颜色 图标以从一种颜色切换到下一种颜色。 要使用定制颜色,请指定其十六进制颜色代码 (#fff0f7)。

  4. 单击创建

  5. 重复此过程以添加您希望抽取器识别的所有实体类型。

    如果您不确定要为实体类型添加什么,那么可能有助于首先查看集合中的文档。 通过查看内容,您可以了解哪些术语具有重要意义,并查找对此类术语进行分组的逻辑方法。

标签重要术语

在“标签文档”视图中,从集合中查找文档中的显着性术语,并对其进行标签以指示其实体类型。

在开始标注文档之前,请决定是否要保持启用批量标注。 批量标签功能是加快对您文档进行标签的过程的一大方法。 启用此选项后,您标注的每个词汇在文档中的任何位置都会自动标注。 否则,您必须将每次出现的术语标记为一个。

如果您决定不希望批量添加标签示例,请将 批量标签实体示例 开关设置为 关闭。 有关更多信息,请参阅 批量标记示例

标签提示

在开始之前,请查看以下提示:

  • 您标注的文档集合必须包含一组具有代表性的文档。 这些文档必须具有许多不同的实体类型示例,您希望实体抽取器识别这些实体类型。 如果您在开始创建实体抽取器时选择的集合不满足需求,请立即停止并从另一个文档集合开始。
  • 定义彼此明显不同的实体类型。
  • 目标是标注每个实体类型的至少 40 个示例。
  • 标注实体类型的每个有效示例。 请勿跳过任何出现。 要加快此过程,请使用批量标签功能。

标记实体示例

文档中表示您定义的实体类型示例的标签术语。 完成一个文档时,请将文档状态从 进行中 切换到 完成,然后移至下一个文档。

要标注实体示例,请完成以下步骤:

  1. 查看文档的文本。 查找要标记的实体示例。

    下表列举了一些例子。

    实体类型和示例
    实体类型 要在文档中添加标签的示例
    颜色 白色,绿色,紫色
    汽车 敞篷车,SUV,轿车
    AUTO_MODEL 探险家,公民,索伦托
    auto_制造商 福特,本田,起亚
    clothing 衬衫,上衣,滑冰
    仪器 债券,股票,ETF,munis

    如果尚未创建要标识的实体类型,请添加实体类型。 在“实体类型”面板中,单击 新建。 有关添加实体类型的更多信息,请参阅 定义实体类型

  2. 首先,单击 实体类型 面板中的实体类型。

  3. 在文档主体中,选择表示实体示例的词或短语。

    将选择该术语,并将颜色标签应用于该术语。 实体类型名称的前两个字符在标签边界内以大写形式显示。 2 字符标识和标签颜色都可帮助您将示例与其表示的实体类型相关联。

    显示在句子中对词妻子应用了标签。
    A label is applied to an entity example

    还会将示例文本添加到“实体类型”面板。 如果您单击雪佛龙以查看详细信息,那么可以看到该示例已列出。 示例文本以小写形式保存,而不考虑原始文本中使用的大写形式。

  4. 如果启用批量标记,那么将显示通知,以显示在当前文档中找到并标记的术语的出现次数。

  5. 如果要在集合中的所有文档中标注该术语的出现,请单击 应用于所有文档

    启用此选项时,将在集合中的所有文档 (包括已复审并标记为完成的文档) 中标记该术语的出现。

    系统会要求您确认该操作,因为无法撤销该操作。 如果您不想每次选择对所有文档应用批量标签时都必须确认操作,请选择 不再要求确认。 单击运行

    显示批量标记确认对话框。
    Bulk labeling configuration confirmation

    有关更多信息,请参阅 批量标记示例

  6. 滚动文档以标注您希望抽取器识别的每个实体类型的每个有效示例。

    您可以搜索要标记为实体示例的术语。 有关更多信息,请参阅 使用关键字搜索示例

    机器学习模型从您未标注的术语中学习的内容与您所做的术语相同。

    如果未指定有效示例的标签,那么模型会了解在该上下文中使用术语时,它不是实体类型的有效提及项。 在某些情况下,省略是适当的。 例如,某些术语在不同的上下文中具有不同的含义。 在错误的上下文中使用该术语时,您不希望对其进行标签。 但是,如果在正确的上下文中使用了该术语,并且未对其进行标签,那么您将教导模型忽略该术语。 当训练数据不一致时,会降低模型的有效性。

    对许多示例添加标签后,将显示实体示例建议。 您可以接受或拒绝实体示例建议。

    显示显示的提示,询问您是否要接受建议。
    Decide whether to accept a suggestion

    接受示例建议是加快标记过程的另一种方法。 有关更多信息,请参阅 实体示例建议。 接受建议后,可以批量标注术语。

  7. 如果您犯了错误并标注了错误的单词或者某个单词被批量标注过程标注不正确,那么可以删除该标签。

    将鼠标悬停在标注的单词上,直到显示 删除此示例 选项,然后单击该选项。 您可以选择仅删除此提及项或文档中的所有提及项。 进行选择,然后单击 删除

  8. 在标注当前文档中的所有实体示例之后,将文档状态从 进行中 更改为 完成

    将显示集合中的另一个文档。

  9. 在集合中的每个文档中标注实体类型的示例。

    在标记过程中的任何时候,都可以单击 保存实体抽取器 以保存您的工作。

  10. 如果当前文档集中没有足够的示例,那么可以添加更多文档。

    从“文档列表”面板中,单击 添加文档。 仅当集合中有更多可用文档时,此选项才可用。 您最多可以添加20个文件。 如果启用了所有文档的批量标签,那么会自动将标签应用于新添加的文档。

  11. 在集合中任意数量的文档中标注示例后,单击 保存实体抽取器,然后打开“训练抽取器”页面。

批量标记示例

对于大多数实体示例,启用批量标签功能很有用。 如果某个术语在不同上下文中具有多个含义,那么您可能希望跳过该术语。 在这种情况下,请单独评估每个实例。 请记住,如果启用批量标签功能,那么可以检查自动添加的标签的准确性,并在查看文档时根据需要进行更正。

启用批量标签功能后,将显示一条通知,指示在当前文档中找到实体示例的次数。 在当前页面中,标记工具无法访问其他文档以报告集合中的其他文档中存在的次数。 但是,提及计数显示在“实体类型”面板中。 首次打开其他文档时,可以检查提及项计数以查看自动标注的提及项数。

批量标签功能是否未出现?

如果出现在已标注该术语的同一短语中,那么不会标注该术语的出现。 例如,当为以下句子中的术语的第二次出现打开批量标签功能时,不会对术语 husband 的第一次出现进行标记。

显示何时未通过批量标签功能为重叠事件提供标签。
Treatment of overlapping labels

实体示例建议

标注足够的示例后,将显示建议的实体类型示例。 系统从您标注的示例类型中学习,并应用它学习的内容来识别潜在的新示例。 例如,在将 redorangeyellowgreenblue 标记为 color 实体类型的示例之后,“示例建议”面板可能会显示 indigoviolet 作为您要标记的建议示例。 直到您标注了实体类型的许多示例之后,才会显示建议。

以下示例显示了针对家庭成员提及项提出的建议。

显示家庭成员实体的建议。
Entity example suggestions

您可能会注意到,您选择批量标签的术语未标注,而是显示为建议。 在以下情况下,将跳过术语:

  • 该术语可能出现在文档的不同部分中的不同名词短语中。 例如,术语 father 可能出现在名词短语 the kindest *father*to her *father* 中。 当一个词包含在带有形容词的名词短语中时,意思可以改变。 因此,有时建议使用此类术语,而不是自动对其进行标记。
  • 一个词可能是一个单独的有效示例,并作为多字提及项的一部分。 例如,提到 IBM 可能是指公司 International Business Machines, Corp.,也可能是指产品名称的一部分,例如 IBM Cloud Pak for Data。 但是,一个词或短语只能是一个示例的一部分。 示例标签不能相互重叠。 因此,您必须选择最准确的示例建议。 在本示例中,术语 IBM 被用作产品名称的一部分,因此将完整的短语标记为 Product 实体类型的示例更为准确。
  • 服务可能会识别一个术语是多个实体类型的可能示例。 例如,单词 top 可能表示 最佳,也可能表示 衬衫

要进一步调查建议,请单击该建议以在文档中查看上下文中的词。 查看上下文中的术语可帮助您确定该事件是否是有效的实体示例以供您标注。

导出实体抽取器的标签数据

您可以从 Discovery导出实体抽取器的带标签数据。 可以使用导出的带标签数据在服务 (例如 Watson Studio 和 Natural Language Processing (NLP)) 上训练或构建大型语言模型 (LLM)。

要导出已标记的数据,请完成以下步骤:

  1. 从“改进和定制”页面的“改进工具”面板中,展开 Teach 域概念,然后单击 抽取实体

  2. 对于要从中导出带标签数据的实体抽取器,单击 操作 图标,然后选择 下载带标签数据

    将下载带有标签数据的压缩文件。 压缩文件包含以下JSON文件。

    • labeled_data.json: 包含文本和标签。 数据格式基于 Watson Natural Language Processing 中用于实体抽取的输入数据格式。 有关更多信息,请参阅 输入数据格式
    • metadata.json: 包含工作空间的元数据和带标签的数据。

导入 Knowledge Studio 语料库

对于已安装的部署,已随 4.6.2 发行版一起添加导入功能。

您可以导入在 IBM Watson® Knowledge Studio 中注释的文档语料库,以用作 Discovery中实体抽取器的训练数据。

在 Knowledge Studio 中定义的实体类型在 Discovery中显示为新实体类型。 您可以在定制实体抽取器模型时继续对导入的文档进行注释。

未表示 Knowledge Studio 机器学习模型中的实体子类型和关系,也未表示与该模型关联的任何定制字典。

必须先将文档集从 Knowledge Studio 导出为 .zip 文件,然后才能导入语料库。 根据 Knowledge Studio 部署类型执行相应的导出步骤:

虽然您必须下载文档集和类型系统以将注释包括在您上载到另一个 Knowledge Studio 工作空间的文档中,但在此用例中情况并非如此。 仅将文档集导入到 Discovery。 将在 Discovery中重新创建文档中的任何注释。 不需要 Knowledge Studio 类型系统。

要导入 Knowledge Studio 语料库,请完成以下步骤:

  1. 打开您要导入语料库的项目。

  2. 从“改进和定制”页面的“改进工具”面板中,展开 Teach 域概念,然后单击 抽取实体

  3. 单击与 新建 按钮关联的箭头。然后单击 导入 Knowledge Studio 语料库

  4. 添加抽取器名称和 (可选) 描述。

    此名称用作模型名称,并用作发布模型时创建的扩充项的名称。 此名称在“扩充项”页面中显示为扩充项名称,您和其他人可以在此页面中将其应用于集合。 它还在找到定制实体的文档的 JSON 表示中显示为模型名称。 该名称与您指定的大写和空格一起存储。

  5. 单击 上载,然后浏览以查找并选择从 Knowledge Studio导出的 .zip 文件。 单击创建

    您上载的带注释文档与实体抽取器工作空间一起存储,而不是作为项目中的新集合。 您可以继续对文档进行注释。

给 Discovery 一些时间来导入和处理机器学习模型语料库。 创建实体抽取器后,该抽取器将打开到“标签文档”页面。

训练抽取器

标记文档后,请查看将用于训练实体抽取器模型的训练数据。

要训练提取器,请完成以下步骤:

  1. 决定是否要应用高级选项。 大多数模型不需要对这些选项进行更改。

    以下定制可从“复审并完成”页面获取:

    • 在训练集中包含未由人员复审的文档。

      通常,只有标注,复审和显式标记为完整的人员的文档才能成为要包含在训练集中的候选者。 但是,如果要允许未标记为完成的文档包含在训练集中,那么可以执行此操作。

    • 更改构成训练数据的文档集中包含的文档的比率。

      集合中的文档将随机拆分为以下集合:

      • 训练集: 您标记的文档以及用于训练实体抽取器机器学习模型的文档。 训练集的目标是向机器学习模型传授正确的标签。
      • 测试集: 用于测试已训练模型的文档。 运行测试后,您可以查看结果,密切分析模型出错的区域,并找到提高模型性能的方法。
      • 盲集: 在完成多次测试和改进迭代后,用于定期测试模型的预留文档。 盲目集合中的文档被故意打掉。 使用测试集中的文档测试模型并分析结果时,您将熟悉底层测试文档。 由于测试文档被反复用于改进模型,它们开始间接影响模型训练。 这就是为什么盲文文件如此重要的原因。 盲集为您提供了一种定期生成模型无偏评估的方法。

      缺省拆分应用通常用于机器学习训练的比率 (70 %-23 %-7%)。

  2. 单击 训练抽取器

在训练抽取器时,Discovery 使用训练集中的文档来构建机器学习模型。 生成模型后,它会自动对测试集中的文档运行测试。 将显示测试结果供您复审。

对训练问题进行故障诊断

了解可能的错误消息以及如何解决这些错误消息。

训练数据太大

训练数据包含大型文本文档或许多实体类型,并且处理数据所需的资源大于可用于服务实例的资源。 即使工作空间未超过记录的实体抽取器限制,也会发生此错误。 为了解决这个问题,您可以尝试以下方法之一:

  • 除去一个或多个实体类型以减小训练数据的大小。
  • 从训练数据中除去超大文档。 例如,如果其中一个已标记文档过大,请将其状态从 已完成 更改为 正在进行,以从训练数据中省略该文档。
  • 减少训练集中包含的文档数。 训练数据的缺省拆分比率 (70 %-23 %-7%) 使用训练集中 70% 的文档。 您可以将训练集中使用的文档百分比更改为较小的数字。 例如,您可以将拆分比率更改为 60 %-33 %-7%。
  • IBM Cloud Pak for Data 通过扩展服务单元来增加已部署服务实例的容量。IBM Software Hub 通过扩展服务单元来提高已部署服务实例的容量。

对抽取器进行求值

要从您创建的实体抽取器模型的测试运行中查看度量值,请单击 评估抽取器 选项卡。

下表描述了可用的评估指标。

度量详细信息
度量 描述
混淆矩阵 这是用于提供已注释文档集的详细数字细目的一个表。 使用它将机器学习模型标记的实体类型提及项与训练数据中标记的实体类型提及项进行比较。
F1 得分 度量是否达到了精度与召回率之间的最佳平衡。 F1 分数可以解释为精度和召回率值的加权平均值。 F1 分数的最佳值为 1,最差值为 0。 如果模型没有足够的训练数据可供学习,那么总体分数较低。
精度 度量将多少个整体抽取的提及项分类为正确的实体类型。 误报是指不应抽取实体,而应抽取实体 (预测 = 正,实际 = 负)。 误报通常意味着低精度。
查全率 度量抽取应抽取的实体类型提及项的频率。 假负数是应抽取实体类型但未抽取的时间 (预测 = 负数,实际 = 正数)。 假否定通常表示低召回率。
  1. 查看提供的有关抽取器模型测试运行的度量值,以确定是否需要更多训练。

  2. 通过单击 查看测试集中的训练结果来更详细地浏览测试结果。

    测试集中的文档与一个面板中显示的预测标签和另一个面板中显示的参考标准一起显示。

    • 预测标签是实体抽取器识别并标记为实体类型的示例。
    • 参考标准 包含人员标记或由人员批量标记和复审的示例。 参考标准中的标签被视为正确的标签。

    根据预测的标签与参考标准的匹配程度,对模型的性能进行评级。

改进抽取器

下表显示了常见问题的建议修订。

改进操作
问题 补救问题的操作
总体评分低 您可能没有足够的文档在训练集中具有带标签的示例。 在更多文档中标注更多示例。
低查全率 使用抽取器缺少的实体类型的新示例来标注更多文档。
低精确率 查找通常混淆的实体类型。 查找并标注每个实体类型的更多示例,以帮助实体抽取器区分实体类型。

向训练数据添加文档

要添加更多文件,请完成以下步骤:

  1. 打开 标签文档 选项卡。

  2. 从“文档列表”面板中,选择 添加文档

    如果没有其他文档可用于从当前集合添加到实体抽取器,那么将禁用此按钮。 要向集合添加更多文档,请转至集合的“活动”页面,然后单击 上载数据 磁贴以浏览并添加更多文件。

不能从集合中选择要在 文档列表 中显示的文档以进行标记。 如果要标记特定类型的文档,请考虑将具有代表性的文档添加到可用于创建实体抽取器的集合中。

可以包含在训练数据中的文档数有限制。 如果训练数据包含具有已标记部分和其他未标记部分的组合的文档,那么系统可能会从未标记的句子中采样一些示例。 子采样有助于平衡用于训练的正示例和负示例的数量。 平衡训练集中的示例可提高训练性能。

将实体抽取器作为扩充项发布

当您认为实体抽取器已就绪时,请发布该实体抽取器。 你怎么知道什么时候准备好了 如果在进行改进的几次测试运行后未更改分数,那么模型已就绪。 您可以返回以在发布模型后对其进行更新和重新训练。

  1. 在“评估抽取器”页面中,单击 发布抽取器
  2. 点击 “应用数据”。
  3. 选择集合,然后选择要应用实体抽取器扩充项的文档字段。
  4. 单击应用

导出实体抽取器

对于已安装的部署,使用 4.6.2 发行版添加了导出功能。

您在一个项目中创建和部署的实体抽取器模型可用作可应用于同一服务实例中任何项目的集合的扩充项。

如果要在另一个服务实例的项目中使用实体抽取器模型,那么可以导出实体抽取器。 要在其他位置使用此模型,请执行以下步骤以从 使用导入的 ML 模型来查找定制术语 创建机器学习模型。 无法继续编辑导入到另一个项目中的实体抽取器。

必须对要导出的实体抽取器进行完全训练。

要导出实体提取器,请完成以下步骤:

  1. 使用要导出的实体抽取器打开项目。

  2. 从“改进和定制”页面的“改进工具”面板中,展开 Teach 域概念,然后单击 抽取实体

  3. 实体抽取器 列表中,找到要导出的实体抽取器。

  4. 单击抽取器的 操作 图标,然后选择 下载模型 以将模型保存到系统。

    除非已训练模型,否则 下载模型 选项不可用。

实体抽取器模型将保存为 .ent 文件。 您可以将其作为机器学习模型导入到另一个服务实例中的项目中,然后将其应用于集合。 有关导入模型的更多信息,请参阅 使用导入的 ML 模型来查找定制术语

应用实体抽取器扩充项

发布抽取器时,指定要在其中应用抽取器的字段。 如果您决定稍后将扩充项应用于不同的或更多字段,那么可以执行以下步骤来执行此操作。

  1. 在导航面板中,单击 管理集合
  2. 单击以打开要在其中应用扩充项的集合。
  3. 单击 扩充
  4. 在列表中查找实体抽取器名称,然后选择要对其应用扩充项的字段。
  5. 单击应用更改并重新处理

有关如何从集合中除去实体抽取器扩充项的更多信息,请参阅 管理扩充项

实体抽取器输出

当扩充项识别文档中的某个定制实体时,将向文档的 JSON 表示的 enriched_text.entities 部分添加一个条目。 该部分包含由定制模型识别的实体以及由内置实体扩充项识别的实体的出现次数。 内置扩充项使用 Watson NLP 服务来标识属于其调用 Natural Language Understanding 类型系统的实体。 有关内置实体扩充项的更多信息,请参阅 实体

以下 JSON 输出由名为 文献 的定制模型生成,该模型可识别家庭成员提及项。

显示具有定制实体提及项的文档的 JSON 输出。
JSON representation of a custom entity mention

监视一段时间内的性能

您可以随时重新训练实体抽取器模型。 每次训练模型时,请查看性能指标得分,以确定最近的更改是增加还是减少模型的得分。

  1. 要将一个测试运行与另一个测试运行进行比较,请单击 查看评分历史记录

    历史记录视图显示最近一次 5 训练运行。

    要为最近的 5 训练运行保留分数信息,您可以以逗号分隔值格式导出度量值,并在单独的应用程序中跟踪分数。 单击表格表示图标 表格表示图标,然后单击 下载为 CSV

如果后续训练运行导致分数降低,请不要发布该版本的模型。

删除实体抽取器

如果实体抽取器未在使用中,那么可以将其删除,这意味着从该实体抽取器发布的扩充项不会应用于集合。

例如,如果您达到计划允许的最大抽取器数限制,那么您可能想要删除实体抽取器。

请记住,限制是针对每个服务实例定义的,而不是针对每个项目定义的。 如果无法创建新的实体抽取器,但当前项目中没有最大数目的抽取器,请检查同一服务实例中的其他项目。 可能有实体抽取器未在其他可以删除的项目中使用。

  1. 从要从其使用的任何集合中删除的实体抽取器中除去已发布的实体抽取器扩充项。

    有关更多信息,请参阅 删除扩充项

  2. 从“改进和定制”页面的“改进工具”面板中,展开 Teach 域概念,然后单击 抽取实体

  3. 找到要删除的实体抽取器,单击 操作 图标,然后选择 删除

实体抽取器限制

每个服务实例可创建的实体抽取器数取决于 Discovery 套餐类型。

实体抽取器计划限制
计划 每个服务实例的实体抽取器[1] 每个抽取器的最大实体类型数 训练数据中的最大文档数
Cloud Pak for Data 无限制 18 1,000 小时
Premium 10 18 1,000 小时
企业 10 18 1,000 小时
加号 (包括试用) 3 12 200

  1. 此数字反映服务实例 (包括从导入的实体抽取器模型) 的已发布实体抽取器扩充项数 (无论它们是否应用于集合)。 ↩︎