IBM Cloud Docs
管理高级规则项目和抽取器

管理高级规则项目和抽取器

在高级规则编辑器中,使用项目来组织抽取器和样本文档。

开始之前

高级规则工作空间仅在达拉斯法兰克福位置托管的 Knowledge Studio 实例中可用。

  1. 达拉斯法兰克福位置创建 Knowledge Studio 实例
  2. 在 Knowledge Studio 服务实例的管理页面中,单击启动工具
  3. 创建高级规则工作空间。
    • 如果已经有其他工作空间,请单击创建工作空间
    • 单击创建高级规则工作空间。 输入工作空间的名称,然后单击创建。 高级规则工作空间将在几秒后装入。

工作空间布局

该工作空间包含以下方面:

  • 项目和抽取器窗格包含两个选项卡。 使用项目选项卡可创建、删除和重命名项目。 抽取器选项卡列出提供的抽取器以及您创建的任何定制抽取器。
  • 使用画布来设计和定制抽取器。
  • 使用抽取器属性结果窗格来设置抽取器属性,并查看在样本文本上运行抽取器的结果。
  • 使用文档窗格来管理可用于测试抽取器的样本文档。

"高级规则编辑器" 工作空间

管理项目

使用项目来开发和测试支持特定解决方案或文档类别的抽取器。 在您处理项目时,每隔 5 分钟会自动保存项目。 您可以通过单击 保存 !["保存" 图标](images/save.jpg ""保存" 按钮的图像")来手动保存项目。

  • 要创建项目,请单击 "项目" 选项卡上的 新建 !["新建项目" 图标](images/new-project.jpg ""新建项目" 按钮的图像") 。
  • 要删除项目,请选择项目,然后单击 "项目" 选项卡上的 删除 !["删除" 图标](images/delete-project.jpg ""删除项目" 按钮的图像") 。
  • 要重命名项目,请双击项目并编辑项目名称。

!["新建项目" 按钮](images/create-advanced-rules-project.png "显示 "新建项目" 按钮")

管理抽取器

抽取器是一个软件组件,用于执行特定分析任务并提供分析逻辑。 提供了样本抽取器,您可以按原样使用,也可以进行复制和编辑。 您还可以定义抽取器以匹配特定术语、字符模式和序列,并将其保存到抽取器库。 使用工作空间来添加、修改、组合、共享和删除抽取器。

向画布添加抽取器

  1. 单击项目和抽取器窗格中的抽取器选项卡。
    • 展开相应的文件夹,然后选择所需抽取器的名称。 如果要查看有关抽取器的更多信息,请选择该抽取器,然后在抽取器属性下查看描述信息。 还可以将鼠标悬停在抽取器属性窗格中的示例链接上,以查看由抽取器返回的结果示例。
    • 或者,按名称搜索抽取器。
  2. 将所选抽取器拖放到画布。 多次添加某个抽取器时,所有实例都将视为一个实例。 例如,在一个实例中更改某个属性,会同时反映在所有实例中。 要阻止更改所有实例,请在将每个实例拖动到画布时对其重命名。 如果您已重命名两个或多个实例,那么可以右键单击并选择取消链接以创建副本。

您可以通过根据需要修改抽取器属性窗格中的设置输出值来优化抽取器。 有关如何配置这些属性的更多信息,请参阅创建字典运行抽取器。 更改任何抽取器属性会自动创建要在项目中使用的副本。

运行某个类别的抽取器

您还可以从抽取器库同时添加某个类别的抽取器。 在输入文档中具有匹配项的类别或文件夹中的任何抽取器都会自动添加到画布中。

  1. 单击项目和抽取器窗格中的抽取器选项卡。
  2. 右键单击类别的文件夹。
  3. 单击运行类别

将抽取器保存到抽取器库

在将抽取器保存到抽取器库之前,您只能在定义该抽取器的项目中访问该抽取器。

要使抽取器可用于所有项目,请单击画布工具栏上的保存抽取器。 缺省情况下,定制抽取器会保存在抽取器选项卡上的 tauser 文件夹中。 作为最佳实践,请将提供的抽取器的修改版本保存在提供的抽取器所在的文件夹中。

创建抽取器

您可以通过组合以下一个或多个元素来构建抽取器。

  • 字面值:匹配单个术语,例如 white-tailed deerCongress
  • 字典:与属于同一类别的一组术语相匹配
  • 序列:与连续的术语模式相匹配的抽取器的组合
  • 联合:表示单个概念的多个抽取器的分组
  • 正则表达式:基于语法的模式匹配

使用语言模式创建抽取器

使用自然语言处理 (NLP) 概念(例如,记号化和词性)定义一个新的抽取器需要使用“注释查询语言”(AQL) 来开发抽取器。

有关如何编写 AQL 和可用函数的更多信息,请参阅注释查询语言参考

创建字典

字典是与某个概念相关的术语的列表。 在分析文本以获取适合同一类别的多个术语时,使用字典可方便地替换单独的字面值。

您可以将字典定义为术语的简单列表,或者定义为将值或术语映射到首选术语的映射表。 映射表通常用于解析同义词、缩写和编码值。

使用字典有时会导致重叠匹配项。 例如,如果一个字典用于抽取有关带军衔(如 OfficerWarrant OfficerChief Warrant Officer)的人员的信息,该字典可能会导致每次出现的 Chief Warrant Officer 都有三个重叠匹配项。 请参阅消除重复和重叠结果以获取解决此问题所需的信息。

定义列表

使用标准化术语(例如,组织中的部门、销售优先级、国会委员会或军衔的名称)来抽取值时,您可以在列表中识别需要的术语。

  1. 单击画布工具栏上的 ![新建字典](images/new_extractor_dictionary.png ""新建字典" 图标") 。
  2. 指定字典的名称。 您可以使用描述来扩展名称。 过长的文本可能会在显示屏幕中被截断,但您可以将鼠标悬停在字典上以读取完整描述。
  3. 抽取器属性下的设置选项卡上,手动输入每个术语,或者从文件中装入列表。 每个条目的最大长度为 1024 个字符。
  • 要手动指定款项,请单击 ![添加款项](images/add_term.jpg ""添加款项" 图标"),输入款项,然后按 Enter键。 每行输入一个术语。
  • 要从 UTF-8 文本文件装入术语,并且每个术语都位于单独的行 !["导入术语"](images/import_terms.jpg ""导入术语" 图标")。 如果在导入期间显示错误,请确保该文件不包含不可打印字符,例如换行符或 Backspace。

定义映射表

分析包含同义词、术语的替代拼写或编码值的文本时,可以定义映射表以将文本中的术语映射到所需术语。

映射表类似于查找表或键值对表。 可在其中定义映射表的实例的示例包括:

  • 将 Maggy 和 Peggy 之类的昵称匹配为 Margaret
  • 组织名称的缩写和备用格式,例如 I.B.M. , IBM Deutschland and International Business Machines for the 常用名称 IBM
  • 在日志文件中转换 HTML 错误代码时,将 404 匹配到“找不到文件”
  • 将区号 408 匹配到加利福尼亚州

为了获得最佳性能,请在执行文本抽取步骤后,在第二步中使用较长或复杂的映射表。

  1. 单击画布工具栏上的 ![新建字典](images/new_extractor_dictionary.png ""新建字典" 图标") 。
  2. 指定字典的名称。 您可以使用描述来扩展名称。 过长的文本将被截断,但当您将鼠标悬停在字典上时会显示完整文本。
  3. 抽取器属性下的设置选项卡上,单击 映射术语
  4. 手动填写包含两列的表,或从文件中装入该表。 第一列包含要在文本中搜索的术语,第二列会列出要在结果中生成的值。 条目的最大长度为 1024 个字符。 如果在第一列中重复某个术语,将仅使用第一个映射值。
  • 要手动指定款项,请单击 ![添加款项](images/add_term.jpg ""添加款项" 图标"),输入款项及其映射值,然后按 Enter 键。
  • 要从 ASCII 或 UTF-8 文本文件装入术语,并将每个术语及其映射值 (以单个逗号分隔) 放在单独的行上,请单击 ![导入术语](images/import_terms.jpg ""导入术语" 图标")。 如果在导入期间显示错误,请确保该文件不包含不可打印字符,例如换行符或 Backspace。

创建字面值

对于单个术语或短语(例如,white-tailed deerCongress)的精确匹配项,请使用字面值。

  1. 单击画布工具栏上的 新建文字 ![新建文字](images/new_literal.png ""新建文字" 图标") 图标。 这会向画布添加新的字面值。
  2. 在画布上的新字面值中,输入要匹配的文本字符串。 例如,white-tailed deer

创建正则表达式

要基于文本格式抽取信息,必须使用正则表达式。 正则表达式的语法与用于在 Java 中定义正则表达式的语法相同。

要创建使用正则表达式的抽取器,请执行以下操作:

  1. 从画布工具栏中,单击 ![新建正则表达式](images/new_extractor_regex.png ""新建正则表达式" 图标")。
  2. 输入正则表达式的名称。 您还可以添加一些描述性信息。 请注意,在提示符处输入的信息是表达式的名称,而不是表达式本身。
  3. 选择画布上的正则表达式以将抽取器属性打开到设置选项卡。 指定正则表达式。 有关语法的更多信息,请参阅 类模式 Javadocc。
  4. 指定用于区分大小写,标记范围和特殊字符处理的选项。 如果在设计正则表达式时看到误报,请通过在正则表达式中扩展模式或通过序列模式添加上下文来提供更多上下文。 例如,如果邮政编码表达式与其他术语相匹配,请合并关于在特定位置中允许哪些字母的规则。

正则表达式示例

下面是可能在特定实例中使用的 Java 正则表达式的示例。 在模式描述中,A 表示字符,9 表示数字。 有关 Java 语法的更多信息,请参阅 Class Pattern Javadoc。

  • 要选择包含由一个或多个数字后跟 thstndrd 构成的任何序数(21st2nd3rd 等)的文本,请指定:

    \d+(st|nd|rd|th)
    
  • 要选择包含格式为 999-99-9999 的美国社会保险号的文本,请指定:

    \d{3}\-\d{2}\-\d{4}
    
  • 要选择包含格式为 A9A-9A9A9A 9A9A9A9A9 的加拿大邮政编码(例如,K1G 3K9V5g-4X3x2H3m5)的所有文本,请指定:

    [a-zA-Z][0-9][a-zA-Z](-|)[0-9][a-zA-Z][0-9]
    
  • 要选择包含格式为 A9 9AAA99 9AAAA99 9AAA9A 9AAa9d AA9A 9AA 的英国邮政编码(例如,M1 1AEB33 8THDN55 1PTW1A 0AXCR2 6XHSW1A 2AA)的所有文本,请指定:

    [A-Z]{1,2}[1-9][0-9]?[A-Z]?\s[0-9][A-Z]{2,}|GIR 0AA
    
  • 要选择包含印度私家车和商用车车牌号(格式为 AA-99-AA-9999 和 AA-99-AAA-9999;而对于 0 为可选的邦,格式为 AA-9-AA-9999,其中分隔符可以为连字符、空格或不存在(例如,TN-86-AF-1199、WB 06 F 5971 和 DL4CAF4943))的所有文本,请指定:

    [A-Z]{2}(-| |)\d{1,2}(-| |)[A-Z]{1,3}(-| |)\d{4} (M1 1AE, B33 8TH, DN55 1PT, W1A 0AX, CR2 6XH, SW1A 2AA)
    

创建序列模式

通常,您必须评估用于为相关条款提供上下文的模式的文本。 例如,您可能希望将对军事或执法人员的引用与对平民的引用区分开来。 设计抽取器时,有多种方法可用于根据文本中的模式来识别和抽取信息。 这些方法可以在单个抽取器中使用,也可以合并抽取器。

在定义自己的模式以满足您的需求之前,请检查所提供的抽取器是否可以为您提供期望的结果。

要创建序列模式:

  1. 通过扩展提供的抽取器,或者通过创建字典正则表达式字面值,为所有需要的术语创建单独的抽取器。
  2. 将一个抽取器拖放到画布上的另一个抽取器,使光标对齐,以反映该术语在文本模式中出现的顺序。 要将新抽取器放置到的抽取器左侧或右侧的深蓝色粗线表示这些抽取器的相对位置。 放置新抽取器后,会有一个框包围这两个抽取器以指示序列。 该框采用临时标题 Sequence n
  3. 可选:选择画布上的序列,并在抽取器属性中的常规下将其重命名。
  4. 可选:如果需要,请重复步骤 1 和 2 以将其他元素添加到该模式。

序列模式示例

要选择对军事人员的引用,请执行以下操作:

  1. 创建名为 Military Ranks 的字典,其中包含诸如 Warrant OfficerSergeantLieutenant 之类的术语。
  2. Person 抽取器拖动到画布上,遵循 Military Ranks 字典来指示新序列查找军衔,然后查找姓名。 Military Ranks 抽取器后面的深蓝色线条指示在文本模式中放置 Person 抽取器。

当您释放鼠标按键时,会在画布上显示序列对象。

  1. 单击画布上的序列对象,然后在抽取器属性下,打开常规选项卡。 将序列对象重命名为 Military Personnel
  2. 最终抽取器规则会显示在画布上。

添加邻近度规则

邻近度规则用于指定在所需术语之间可能出现的最大记号数。 在文本中,每个词或字符通常称为一个记号。 句子“The CEO announced the earnings last week, missing analyst estimates by 5%.”包含 15 个记号:11 个词(以空格分隔)、3 个特殊字符和 1 个数字。

您可能希望找到对 red brick houses 的引用,并且知道您正在分析的文本中可能会出现 house made of red brick、red house of brick 和 the brick on the house reflected red 之类的短语。 邻近度规则可以确保抽取这些短语,同时排除凑巧包含目标术语的句子或短语,例如“The red car passed a house near the brick yard”。

  1. 右键单击画布上的抽取器,并在其中一个添加子菜单下,单击邻近度规则
  2. minimum-maximum(最小值-最大值)格式,指定术语之间允许的最小和最大数量的词、特殊字符或值。 缺省情况下,邻近度模式设置为与您在范围中指定的两个数字之间的记号数相匹配。 如果所需的邻近度不会变化,那么可以更改设置。 例如,输入 0-2
  3. 选择新的邻近度规则。 抽取器属性会打开到设置选项卡,您可以在其中更改数字范围或转换为确切的记号数。

示例 1:

  1. 创建名为 Clerical title 的字典,其中包含诸如 RabbiFatherArchbishop 之类的术语。
  2. Person 抽取器拖动到 Clerical title 字典的右侧,以便新序列将找到头衔加姓名。 当您释放鼠标按键时,会在画布上显示序列对象。
  3. 右键单击 Clerical title,然后单击添加到后面 > 邻近度规则。 要捕获 Archbishop of CanterburyRobert Runcie 之类的术语,请指定词之间的最小和最大记号数(在本例中为 0-5)。
  4. 单击画布上的序列,然后在抽取器属性下,打开常规选项卡(如果该选项卡未自动打开)。 将序列重命名为 Clerics。

![](images/clerics.jpg ""神职人员" 抽取器")

示例 2:

作为第二个示例,选择一些推文,这些推文引用具有大数据术语的行业分析人员的 Twitter 名称。 要完成此操作,请创建两个字典,其中一个包含分析人员的 Twitter 用户名,另一个包含大数据术语,在工作空间画布上组合这两个字典,邻近度为 1 到 25 个记号。

创建联合

要组合联合中的抽取器,请执行以下操作:

  1. 在画布上定义两个或更多抽取器。
  2. 单击抽取器属性窗格中的输出,以确保每个序列或抽取器的输出列的数量和名称相同。 除了具有相同数量的列和相同的列名之外,每个序列或抽取器中的输出列还必须具有相同的数据类型。 在此上下文中,数据类型为范围、数字、字符串、字符、日期或时间。 请注意,您无法在联合中编辑抽取器或序列的这些属性。
  3. 在画布上,在不考虑顺序的情况下,单击一个抽取器或序列并将其并拖动到另一个抽取器或序列的上方或下方,直至深蓝色放置区指示符指示您可以放置该抽取器。

  1. 释放鼠标按键以放置抽取器。
  2. 将其他抽取器或序列拖放到该联合中。

联合示例

合同中的术语 Parties 可以指两个人、两个组织或一个人和一个组织。 要抽取有关当事方的信息,您必须定义两个抽取器 Party1Party2,以选择个人或组织。

  1. PersonOrganization 抽取器从抽取器窗格拖动到画布上。
  2. 在画布上,依次选择每个抽取器,并在抽取器属性输出选项卡上,重命名输出列,以便这两个抽取器的列定义相同。

![](images/extractor_prop_output_def.jpg "抽取器属性的 "输出" 选项卡")

  1. Organization 抽取器拖动到 Person 抽取器下方的放置区。

  1. 在画布上选择 Union 1,并在Party 1抽取器属性常规**选项卡上将其命名为 **。
  2. 复制 Union 1 以创建第二个联合,并将其命名为 Party 2
  3. 要查找合同中的当事方,请按此处所示的序列合并这两个联合。 序列中的两个联合之间是字面值 and

  1. 将新序列命名为 Legal Parties

运行抽取器

要测试抽取器,可以从工作空间运行该抽取器,并查看结果以确保其设计满足您的需求。 在抽取器设计令人满意后,可以将其保存到抽取器库以供在其他项目中使用。

要从工作空间运行抽取器,请在画布上右键单击该抽取器,然后单击菜单中的运行所选项。 或者,选择抽取器,然后单击画布工具栏中的运行所选项。 要运行多个抽取器,请将其选中,然后单击运行所选项。 抽取器完成运行后,单击结果窗格以查看输出。 结果也会在文档窗格中突出显示。

每个列中的结果会链接到文档窗格中的文档。 要查看某个列的结果,请选择该列以调整文档的视图,从而显示以蓝色突出显示的相应结果,如下所示。

优化抽取器结果

要帮助或简化分析,可以通过操作抽取器属性输出选项卡中的列来优化结果窗格中的信息。 您还可以重命名列,以及除去或者合并重复或重叠的文本,以促进分析。

重命名结果显示中的列

  1. 在画布上,右键单击生成结果的抽取器,然后单击编辑输出
  2. 从列菜单中,选择重命名,或者直接双击该列。
  3. 输入要在结果中显示的新列名。

添加字符串列

  1. 在画布上,右键单击生成结果的抽取器,然后单击编辑输出
  2. 单击表的左侧列中的管理列菜单。
  3. 单击新建列

添加变换的输出列

可以变换抽取器输出,例如将其全部转换为小写。 在抽取器属性窗格的输出选项卡上执行这些变换。

  1. 在画布上,右键单击生成结果的抽取器,然后单击“编辑输出”。
  2. 在要变换的列的标题中单击下拉菜单,然后选择要执行的变换类型。
选项 描述
修剪 创建列并裁切所选列返回的值。
转换为字符串 创建列并将所选列返回的值转换为字符串值。
转换为小写字符串 创建列并将所选列返回的值转换为小写字符串值。
从单个列新建列 创建一个列,将指定数量的字符或词包含在所选列的值左侧/右侧。
从两个列新建列 从这两个输入列之间或重叠两个输入列的范围创建列,或者合并这两个列的整体。 范围内容可以是一个或多个记号。

需求:“从两个列新建列”功能的第二列必须来自在画布上选择的抽取器。

如果您将裁切从单个列新建列从两个列新建列应用到所选列,然后选择转换为字符串转换为小写字符串,那么您将无法获取另一个新列。 字符串变换将改为应用到从先前的裁切新建列选项生成的新列。

从结果显示中隐藏列

您可以在抽取器属性窗格的输出选项卡上隐藏输出列。

  1. 在画布上,右键单击生成结果的抽取器,然后单击编辑输出
  2. 单击表的左侧列中的管理列菜单。
  3. 清除要从结果显示中除去的列的复选框。 这些列会从结果中隐藏,但仍会抽取内容。

从结果显示中删除列

  1. 在画布上,右键单击生成结果的抽取器,然后单击编辑输出
  2. 单击表的左侧列中的管理列菜单。
  3. 单击删除列,然后选中要从结果显示中除去的列的复选框。

除去重复项和重叠结果

抽取器有时会为同一文本生成多行,因为文本与多个字典条目相匹配。 要除去或合并重复条目,必须提供合并规则。

  1. 在画布上,右键单击生成结果的抽取器。
  2. 抽取器属性窗格中,单击输出
  3. 选择管理重叠匹配项
  4. 输出列列表中,选择导致抽取器生成重复输出的列。
  5. 方法列表中,选择下列其中一个值:
    • 包含在其中,以保持最长结果。
    • 未包含在其中,以保持最短结果。
    • 包含但不等于,以保持相同长度的唯一结果。
    • 完全匹配,以保留每个结果的一个实例。
    • 从左到右,以保持最长结果,从左到右的术语数量最多。

例如,您正在为包含对军事人员的引用的文档设计抽取器。 创建并运行包含军衔(例如,Chief Warrant OfficerWarrant OfficerOfficer)的列表的字典后,您会看到 Chief Warrant Officer John Doe 的以下结果:

  • Chief Warrant Officer John Doe
  • Warrant Officer John Doe
  • Officer John Doe

在较长的术语 Warrant Officer 中找到了术语 OfficerChief Warrant Officer,导致 Chief Warrant Officer John Doe 满足所有三个字典条目,并生成三行结果。 要保留最长的术语(表示最高军衔),请按如下所示指定合并设置。

  1. 输出列中选择军衔
  2. 方法中选择包含在其中

现在,您的结果仅包含行 Chief Warrant Officer John Doe

过滤无关结果

尽管模式是匹配项,抽取器有时仍会生成不需要的结果。 这些不需要的结果通常可通过文档中的匹配项附近的其他文本进行识别。

要进一步限制匹配项,请创建过滤器。

  1. 在画布上,右键单击生成结果的抽取器,然后单击编辑输出。 这将打开抽取器属性中的输出选项卡。
  2. 选择包含排除结果。 包含是缺省设置。
  • 包含过滤器是要包含结果而必须满足的条件。
  • 排除过滤器是要包含结果而不得满足的条件。
  1. 从第一个过滤器下拉列表中,选择要将过滤器应用到的列。
  2. 在下一个下拉列表中,选择过滤器的类型。 根据过滤器,后续下拉列表将反映相应的选项。
选项 描述
长度 根据列内容是短于、长于还是等于指定数量的字符或记号进行过滤。
text 根据文本是匹配还是包含来自画布的正则表达式或字典进行过滤,或者您可以输入新的正则表达式。 您还可以设置大小写敏感性。
range 根据指定列的范围内的指定条件进行过滤。 例如,您可以使用开头为来缩小匹配结果的范围,以便仅获得以 Chief 开头的军衔匹配项。
  1. 完成过滤器选项后,再次执行抽取器以查看结果如何更改。

您的 Military Ranks 抽取器可能会生成文本 Chief Warrant Officer John Doe 的匹配项,但您不希望包含的结果在匹配项之前出现 except 一词。

  1. 使用术语 except 以及您可能希望用于排除结果的任何其他术语来创建字典。
  2. 从画布选择 Military Ranks,然后打开抽取器属性下的输出选项卡。
  3. 单击新建过滤器
  4. 选择排除,然后选择列。
  5. 选择范围,并选择在之后执行
  6. 选择包含 except 的字典。
  7. 选择列,并选择介于 02 个记号

此过滤器排除在某个匹配项之前 0-2 个记号的距离内出现 except 一词的任何匹配项。

使用非英语语言进行抽取

要从非英语文档中抽取文本,有时可以使用或修改所提供的抽取器,或者根据语言模式定义新的抽取器。 此外,如果目标术语基于模式,那么可以设计序列模式。

您可以使用工作空间来构建抽取器,以用于基于由空格和标点定义的记号的任何语言(如西班牙语和法语)。 例如,将 Person 抽取器用于西班牙语文本的结果可能会抽取如下所示的姓名。

扩展提供的抽取器以用于其他语言

如果目标语言基于由空格和标点定义的记号,那么可以通过将术语添加到目标语言中的相应字典,从而扩展提供的具有定制点或字典的抽取器。

提供的抽取器 包含在文件夹中: 如何扩展
所有通用抽取器 通用抽取器 为目标文本模式定义正则表达式。 如果提供的抽取器生成结果,请使用提供的抽取器和正则表达式创建联合。
电子邮件地址电话号码邮政编码 Named Entity Recognition 为目标文本模式定义正则表达式。 如果提供的抽取器生成结果,请使用提供的抽取器和正则表达式创建联合。
货币 Named Entity Recognition 将小数抽取器与字面值组合在一起,以表示序列中的本地货币符号,或定义正则表达式。 如果需要多个货币符号,请使用字典而不是字面值。
日期和时间 Named Entity Recognition

对于数字格式,定义目标文本模式的正则表达式。

对于字母格式,使用表示日期和年份的整数以及表示月份的映射表来定义序列。 在映射表中使用每个月份的全名和缩写。 例如,如果翻译为英语,请将法语月份 juilletjuil 映射到 juilletJuly

城市国家或地区个人位置组织州或省城镇 Named Entity Recognition

欧洲语言和类似语言

将语言的条目添加到相应的字典。

阿拉伯语、日语和类似语言

大洲 Named Entity Recognition 定义字典,并指定条目以包含目标语言中各大洲的名称。 如果还要包含英语结果,请在提供的大洲抽取器与您的定制抽取器之间构成一个联合。
地址 Named Entity Recognition 定义由地址的各部分(例如街道、城市、国家或地区和邮政编码)组成的序列。
所有财务抽取器 财务操作 无法扩展这些抽取器。
所有机器数据分析抽取器 机器数据分析 在可能的情况下,定义正则表达式或序列。 无法扩展其余抽取器。
所有观点分析抽取器 观点分析 - 常规观点分析 - 调查 将目标语言中的条目添加到抽取器属性窗格上的定制术语选项卡。

将高级规则模型部署到 Natural Language Understanding

不推荐将高级规则模型部署到 Natural Language Understanding 。 截至 2021 年 6 月 10 日,您将无法将高级规则模型部署到 Natural Language Understanding。

导出高级规则项目

这些指示信息详细说明了如何从 IBM Watson® Knowledge Studio 高级规则编辑器的 IBM Cloud Pak for Data 导出高级规则模型,同时也是针对公共云的通用指示信息。

  1. 打开高级规则工作空间
  2. 确认要导出的所有模型都在画布上,并且没有保存到“抽取器”窗格(提供的抽取器除外)
  3. 在“项目”窗格中右键单击要导出的项目
  4. 单击 Export Project 导出
  5. 如果需要,可选中“包含文档”,输入文件名,然后单击OK按钮
  6. 在浏览器的弹出对话框中选择Save as File,然后会在计算机上保存一个 zip 文件(通常位于“下载”文件夹中)

导出高级规则编辑器项目时,只有画布上存在的概念才会包含在导出的 ZIP 文件中。 如果要包含已保存在 "类别" 下的概念,请确保在导出之前也将这些概念添加到画布中。

导入高级规则项目

这些指示信息详细说明了如何将高级规则模型导入到公共云上的 IBM Watson® Knowledge Studio。

  1. 创建高级规则工作空间
  2. 右键单击“项目”选项卡中的某处,然后单击Import Project
  3. 输入项目名称,选中“包含文档”(如果需要),然后选择上面的导出高级规则项目中导出的 zip 文件

从项目导出模型文件

  1. 完成创建高级规则模型的第 6 步

将模型文件部署到 Natural Language Understanding 并调用该文件

  1. 请参阅使用高级规则分析文本 (Beta) 的 Natural Language Understanding 文档