识别要忽略的词
要在搜索期间忽略无意义的术语,请添加定制停用词列表。 停用词是在区分内容的语义方面没有用处的词。
在英语中,the
,is
和 and
是停用词的示例。
您定义的停用词将从查询中过滤掉,并提高自然语言查询结果的相关性。
例如,一家公司有三层服务。 其中一个集合中的文档仅与一个层 (Silver tier) 相关。 您可能希望将 "silver"
添加到停用词列表中,因为鉴于所有文档都与 Silver 服务层相关,该术语无助于区分一个文档对另一个文档的重要性。 当客户在查询字符串中提及 Silver 层时,将忽略该层。 查询中其他更重要的词汇用于搜索数据。 或者文档集合仅包含车祸报告。 您可能希望将 "car"
添加到停用词列表中,以防止查询中 car
的提及项向搜索添加干扰。
Discovery 自动应用许多受支持语言的缺省停用词列表。 这些停用词在建立索引时和查询时都适用。 当对内容建立索引并从查询中过滤掉这些内容时,将忽略预定义的停用词。 但是,您定义的停用词仅在查询时使用。 您的列表不会替换缺省列表; 它会扩充缺省列表。 可以添加停用词,但不能除去停用词。
示例定制停用词列表:
{
"stopwords": [
"a", "an", "the", "ibm", "what", "how", "when", "can", "should", ...
]
}
缺省停用词列表
您可以从 Watson Developer Cloud GitHub 存储库访问英语的缺省停用词列表。
对于以下语言,Discovery 使用由 Apache Lucene 定义的缺省停用词列表。 有关列表中包含哪些词的更多信息,请参阅 Lucene 参考文档:
- 阿拉伯语: stopwords_ar.txt
- 捷克语: stopwords_cs.txt
- 丹麦语: stopwords_da.txt
- 荷兰语: stopwords_nl.txt
- 芬兰语: stopwords_fi.txt
- 法语: stopwords_fr.txt
- 德语: stopwords_de.txt
- 印地语: stopwords_hi.txt
- 意大利语: stopwords_it.txt
- 挪威语 (两种受支持的方言): stopwords_no.txt
- 葡萄牙语: stopwords_pt.txt
- 罗马尼亚语: stopwords_ro.txt
- 俄语: stopwords_ru.txt
- 西班牙语: stopwords_es.txt
- 瑞典语: stopwords_sv.txt
- 土耳其语: stopwords_tr.txt
这些缺省停用词以 TXT 格式记录,但如果要扩充列表并提交该列表以供 Discovery使用,那么必须提交 JSON 文件。 要查看停用词列表文件的语法示例,请参阅定制英语停用词列表文件。
对于其余受支持的语言,不使用缺省停用词。 您可以指定要在查询时用于这些语言的停用词列表。 采集数据时,不会使用您提交的列表。
您可能希望在查询时应用的停用词列表的示例包括:
请参阅 受支持的语言,以获取 Discovery支持的语言列表。
定义查询时间停用词
要定义停用词,请完成以下步骤:
-
创建停用词文件。 该文件必须是具有
json
文件扩展名的 JSON 文件。请遵循以下准则:
- 指定小写的停用词。
- 通常,将停用词列表保留在总词数
200
下。 大小限制为一百万个字符。 但是,如果指定的术语过多,那么可能会对搜索准确性产生负面影响。
当您以英语构建定制停用词列表时,可以使用缺省英语停用词列表文件 custom_stopwords_en.json作为起点。
-
从导航窗格中,打开“改进和定制”页面。
-
从“改进工具”窗格展开 改进相关性。
-
单击 停用词,然后单击集合的 上载停用词。
每个集合只能上载一个停用词列表。 您上载的停用词列表将扩充集合的缺省停用词列表; 它不会替换缺省列表。
-
单击完成。
要禁用定制停用词文件并还原为使用缺省停用词,请删除定制停用词文件。