使用字典定义一组有限的术语
识别对您很重要的术语的术语和同义词,例如您销售的产品的名称。
帮助 Discovery 通过添加字典来查找对用例有意义的术语。 您可以为同一类别中的一个术语或一组词定义多个同义词。
您可以通过逐个添加术语或上载列出术语的 CSV 文件来创建字典。
要逐个添加字典词汇,请完成以下步骤:
-
从“改进工具”面板的 Teach 域概念 部分中,选择 字典。
-
单击新建。
-
命名字典。
例如,
Transportation
。 -
选择语言。 字典只能包含一种语言的术语。
-
可选: 展开 高级选项,然后编辑字典的构面名称。
构面用于对文档进行分类。 用户可以选择构面类型以缩小其搜索结果的范围。 缺省情况下,使用小写字典名称作为构面名称。 您可能希望将构面更改为大写。
-
输入术语,然后选择 + 按钮以添加该术语。
例如,
vehicle
和engine
。在英语字典中,以小写形式指定字典术语。 仅当您希望 Discovery 在文本中出现时忽略术语的小写提及项时,才使用大写。 当分析术语以确定它们是否是字典扩充项的出现时,将使用具有大写匹配的术语的表面形式。 例如,字典中的
vehicle
条目在文本中出现时,会生成vehicle
,Vehicle
或VEHICLE
提及项的注释。 对于字典中的Sat
条目,将为Sat
或SAT
添加注释,但不为sat
添加注释。对于阿拉伯语,中文,韩语,日语和希伯来语,字典匹配区分大小写。
-
要为术语添加同义词,请单击 编辑 图标,然后在 其他术语 字段中输入同义词。 多个同义词之间用逗号隔开。 单击 保存款项。
字典可以包含术语及其同义词,也可以包含属于该类别的类别和术语。
对于术语
vehicle
,可以指定同义词,例如car
,automobile
,sedan
,convertible
和station wagon
等。 对于engine
,可以指定gasket
,carburetor
,piston
和valves
。请注意不要添加太多同义词。 测试您添加的任何同义词的影响。 测试时,请使用与用于派生同义词的数据不同的数据。
-
继续添加词汇。
建议将当前项目中所有集合中的类似术语作为新条目。
建议的术语取自名为 text的字段。 如果缺少文本字段,那么将选择具有最长字符串值和最大相异值数的字段。 如果没有文档或集合没有包含文本数据的字段,那么不会显示建议。
-
单击保存字典。
-
选择要应用字典的集合和字段,然后单击 应用。
示例
运输字典将添加到项目中。
{: caption="中的运输字典运输" caption-side="bottom"}
为字典创建的结果构面将显示在搜索页面中。

应用扩充项的文档包含以下句子:
Some car fluids can be acidic, such as battery fluid.
以下 JSON 片段说明了在文档中找到术语 car
(这是 vehicle
字典条目的同义词) 时如何存储 Transportation 字典扩充项提及项。 在此集合中,字典扩充项将应用于 text
字段,因此提及项将列示在 enriched_text
数组中的 entities
数组中。
{
"enriched_text": [
{
"entities": [
{
"model_name": "Dictionary:.Transportation",
"mentions": [
{
"confidence": 1,
"location": {
"end": 91122,
"begin": 91119
},
"text": "car"
}
],
"text": "vehicle",
"type": "Transportation"
}
]
}
]
}
上载字典术语
要从CSV文件添加词典,请完成以下步骤:
-
创建包含要添加的字典词汇的 CSV 文件。
使用 UTF-8 编码。 每行填写一个条目。
-
要定义一组同义词,请使用以下语法:
<term>,<synonym>,<synonym>,<synonym>,...
例如:
vehicle,car,automobile,sedan,convertible,station wagon
此示例中的条目创建
vehicle
字典条目。 将字典扩充项应用于文档时,会将vehicle
,car
,automobile
,sedan
,convertible
或station wagon
的任何提及项标记为vehicle
字典条目的实例。 -
要在同一类别中定义一组术语,请使用以下语法:
<category>,<related-term>,<related-term>,...
例如:
engine,gasket,carburetor,piston,valves
此示例中的条目创建
engine
字典条目。 将字典扩充项应用于文档时,会将engine
,gasket
,carburetor
,piston
或valves
的任何提及项标记为engine
字典条目的实例。
-
-
从“改进工具”面板的 Teach 域概念 部分中,选择 字典。
-
单击上传。
-
命名字典并选择 CSV 文件中使用的语言。
-
可选: 展开 高级选项,并指定编辑字典的构面名称。 构面用于对文档进行分类。 用户可以选择构面类型以缩小其搜索范围。 缺省情况下,使用小写字典名称作为构面名称。 您可能希望将构面更改为大写。
-
单击 上载 以浏览先前创建的 CSV 文件。
-
单击创建。
-
选择要应用字典的集合和字段,然后单击 应用。
如果使用扩充项 API 添加字典,那么将 API 生成的字典扩充项应用于字段后,该字典将显示在“字典”页面中。 但是,您无法从产品用户界面中的字典工具编辑 API 生成的字典。
要删除字典,必须使用 Discovery v2 API 的 删除扩充项 方法。
添加到一个项目的字典扩充项可以应用于同一服务实例中的其他项目中的集合。 事实上,您可以从已部署的“内容挖掘”应用程序将它们应用于“内容挖掘”项目中的集合。
字典限制
每个服务实例可创建的字典和术语条目数取决于 Discovery 套餐类型。
计划 | 每个服务实例的字典数 | 每个字典的术语条目数 | 可生成建议的术语数 |
---|---|---|---|
Cloud Pak for Data | 无限制 | 无限制 | 1,000 小时 |
Premium | 200 | 10,000 | 1,000 小时 |
企业 | 200 | 10,000 | 1,000 小时 |
加号 (包括试用) | 20 | 1,000 小时 | 50 |