创建定制注释器
您可以创建字典,正则表达式或机器学习注释器,以生成可帮助您分析数据的新构面。
开始之前,请准备好以下数据。
注释器类型 | 描述 | 数据 |
---|---|---|
字典 | 将构面分配给与您定义或上载的字典条目匹配的术语。 | 您可以选择上载字典词汇的文件。 |
机器学习 | 将构面分配给您上载的机器学习模型所识别的提及项。 | 需要机器学习模型的压缩文件。 |
正则表达式 | 将构面分配给与您定义或上载的 Java 正则表达式模式匹配的文本。 | 您可以选择上载包含正则表达式模式的 JSON 文件。 |
要创建自定义注释器,请完成以下步骤:
-
从集合的分析视图中,单击面包屑中的 集合 链接,以打开“内容挖掘”应用程序的 为分析解决方案创建集合 页面。
-
要创建注释器,请单击 集合,然后从列表中选择 定制注释器。
收藏 -
单击 创建定制注释器。
-
命名注释器,然后 (可选) 添加描述。
-
选择注释器类型,然后单击 下一步。
-
遵循屏幕上的指示信息。
有关如何配置每个注释器类型的更多信息,请参阅下列其中一个部分:
字典配置
您可以通过上载现有字典来导入该字典,也可以通过一次添加一个术语来创建字典。
如果计划导入字典,那么必须在 CSV 文件中定义字典术语。 在单独的行中指定每个术语及其同义词。 使用以下语法来指定每个术语:
{term},{synonym},{synonym},...
要添加词典,请完成以下步骤:
-
执行以下某个操作:
-
要导入字典术语:
- 单击 导入,然后浏览以查找包含字典术语的文件。
- 单击导入。
-
要定义字典术语:
- 单击添加。
- 单击 Word 列表 以添加字典词汇。
- 单击 添加,然后在 基本词 字段中添加该词以及要在 其他词 字段中为该词定义的任何同义词。 多个同义词之间用逗号隔开。 单击确定。
- 重复上一步以添加更多字典词汇。
- 完成添加字典词汇后,单击 基本设置。
-
-
命名字典。
-
如果您计划使用除名词以外的词性来定义术语,请指定词性。
如果选择的语言是中文、日文、韩文或希伯来文,则只能指定 Noun 作为语篇。
-
决定要如何处理案例。
当忽略 case 时,术语
Sat
,SAT
和sat
都被标记为出现Sat
字典术语。取消选中 忽略大小写 复选框以创建区分大小写的字典时,将使用大写匹配项的表面形式。 将为术语添加与所写的完全相同的注释,并为字母为大写字母的术语的变体添加注释。
例如,字典中的
sat
条目在文本中出现时,会生成sat
,Sat
或SAT
提及项的注释。 对于字典中的Sat
条目,将为出现的Sat
和SAT
添加注释,但不会为sat
添加注释。 -
标识要用于此字典的构面名称。
您为注释器指定的构面名称是从集合搜索视图中显示的构面名称。
您可以通过在构面名称中包含句点 (.) 来创建分层构面。 例如,您可以创建一个具有构面路径
Food.Vegetables
的字典,而其他具有构面路径Food.Fruits
和Food.Proteins
的字典。 添加更多具有更多周期的构面组。 例如,您可以添加Food.Proteins.Nuts
和Food.Proteins.Meats
以进一步对蛋白质进行分类。添加 -
如果您希望在用户过滤根构面时包含针对子构面返回的文档,请选择 提升词。
例如,您可以对
Food.Fruits
和Food.Proteins
启用 提升词,但不启用Food.Vegetables
。 因此,当用户单击 Food 构面时,返回的文档将包含提及“水果和肉类”字典中包含的术语的文档,例如 apples 和 牛肉。Dictionary enrichment application 但是,用户必须显式单击 Food> 生菜 构面,以获取要返回的“蔬菜”字典中提及词汇的文档 (例如 lettuce)。
Subfacets -
重复先前步骤以添加更多字典。
-
单击保存。
从定制注释器页面,您可以看到在其他项目 (包括非内容挖掘项目) 中创建的字典。 其他项目类型的字典将扩充项名称显示为注释器名称。 忽略大小写 和 提升单词 设置已禁用,字典名为 custom dict
。
字典限制
计划 | 每个服务实例的字典数 | 每个字典的基本字数 | 可生成建议的术语数 |
---|---|---|---|
Cloud Pak for Data | 无限制 | 无限制 | 1,000 小时 |
Premium | 200 | 10,000 | 1,000 小时 |
企业 | 200 | 10,000 | 1,000 小时 |
总计包括您在此内容挖掘项目和同一服务实例中的其他项目中创建的扩充项。
机器学习配置
您可以导入现有机器学习模型。
要使用 Discovery 来创建模型,请参阅 实体抽取器。
要导入模型,请完成以下步骤:
-
单击 选择文件,然后浏览以查找机器学习模型文件。
-
在 构面路径 字段中,指定要用于模型的根构面名称。
您为注释器指定的构面名称是从集合搜索视图中显示的构面名称。
-
单击保存。
机器学习模型限制
计划 | 每个服务实例的 mL 模型 |
---|---|
Cloud Pak for Data | 无限制 |
Premium | 10 |
企业 | 10 |
总计包括您在此内容挖掘项目和同一服务实例中的其他项目中创建的扩充项。
正则表达式配置
您可以通过将现有模式上载到 JSON 文件来导入这些模式,也可以添加模式。
要添加图案,请完成以下步骤:
-
将正则表达式模式添加到 新建模式 字段,然后单击 添加。
-
指定模式的名称,然后标识要用于此模式的构面名称。
您为注释器指定的构面名称是从集合搜索视图中显示的构面名称。
-
可选: 指定构面值。 可以从表中描述的选项指定值。
正则表达式构面值选项 构面值 描述 $0
按原样显示匹配的文本。 $n
如果正则表达式模式包含组,那么可以指定组号以仅从模式组返回匹配的文本。 例如,如果正则表达式由定义美国电话号码模式的 3 组 (例如 (\d{3})-(\d{3})-(\d{4})
) 组成,并且您希望仅返回电话号码的区号部分,那么可以指定$1
。 如果匹配的文本为212-555-1234
,那么构面值将显示为212
。 仅指定一个组作为您知道将返回匹配项的模式的构面值。{prefix-text}:$0
在构面名称前添加硬编码文本。 如果要将此正则表达式生成的构面与类似但以某种其他方式生成的构面区分开来,那么可能需要使用此选项。 例如, MyRegex:$0
将生成名为MyRegex:212-555-1234
的构面。 -
单击保存。
要导入图案,请完成以下步骤:
-
定义要在 JSON 文件中添加的模式。
模式定义必须使用以下语法:
[ { "name": "US Phone number", "description": "US mobile phone number", "pattern": "(\\d{3})-(\\d{3})-(\\d{4})", "facetPath": ".regex.usphonenumber", "facetValue": "$0" } ]
请牢记以下几点:
- 必须在数组中定义模式,即使您计划仅定义一个模式也是如此。
- 使用反斜杠对任何反斜杠 (
\
) 字符进行转义。 - 有关构面值选项的更多信息,请参阅 正则表达式构面值选项 表。
-
单击 导入,然后选择在其中定义模式的 JSON 文件。
-
单击保存。
正则表达式限制
计划 | 每个服务实例的正则表达式扩充项 | 每个服务实例的正则表达式模式 |
---|---|---|
Cloud Pak for Data | 无限制 | 无限制 |
Premium | 100 | 50 |
企业 | 100 | 50 |
总计包括您在此内容挖掘项目和同一服务实例中的其他项目中创建的扩充项。
应用注释器
创建注释器后,必须将其应用于集合。
-
从“内容挖掘”应用程序的“为分析解决方案创建定制注释器”页面中,单击 定制注释器,然后从列表中选择 集合。
-
在集合的磁贴中,单击 选项 图标,然后选择 编辑集合。
-
点击 “丰富”选项卡,然后选择您创建的注释者。
您可能需要向下滚动才能找到它。
-
点击 “保存”,然后确认操作。
为重建索引提供时间。
使用构面过滤文档
-
单击集合磁贴以在数据分析页面中打开集合。
-
执行以下某个操作:
-
定制构面列示在“构面”视图中。 重复滚动并单击 装入更多,直到显示您的构面为止。
-
提交空搜索以返回所有文档。 在“构面分析”窗格中,选择您创建的构面。
-
要更快地访问定制构面,请将其添加到定制视图。 选择 定制 作为视图,然后单击 编辑。 选择一个或多个要添加到视图的构面,然后单击 保存。
{: caption="收藏" caption-side="bottom"}
-