识别要忽略的词

要在搜索期间忽略无意义的术语，请添加定制停用词列表。停用词是在区分内容的语义方面没有用处的词。

在英语中，the，is 和 and 是停用词的示例。

您定义的停用词将从查询中过滤掉，并提高自然语言查询结果的相关性。

例如，一家公司有三层服务。其中一个集合中的文档仅与一个层 (Silver tier) 相关。您可能希望将 "silver" 添加到停用词列表中，因为鉴于所有文档都与 Silver 服务层相关，该术语无助于区分一个文档对另一个文档的重要性。当客户在查询字符串中提及 Silver 层时，将忽略该层。查询中其他更重要的词汇用于搜索数据。或者文档集合仅包含车祸报告。您可能希望将 "car" 添加到停用词列表中，以防止查询中 car 的提及项向搜索添加干扰。

Discovery 自动应用许多受支持语言的缺省停用词列表。这些停用词在建立索引时和查询时都适用。当对内容建立索引并从查询中过滤掉这些内容时，将忽略预定义的停用词。但是，您定义的停用词仅在查询时使用。您的列表不会替换缺省列表; 它会扩充缺省列表。可以添加停用词，但不能除去停用词。

示例定制停用词列表:

{
  "stopwords": [
    "a", "an", "the", "ibm", "what", "how", "when", "can", "should", ...
  ]
}

缺省停用词列表

您可以从 Watson Developer Cloud GitHub 存储库访问英语的缺省停用词列表。

对于以下语言，Discovery 使用由 Apache Lucene 定义的缺省停用词列表。有关列表中包含哪些词的更多信息，请参阅 Lucene 参考文档:

阿拉伯语: stopwords_ar.txt
捷克语: stopwords_cs.txt
丹麦语: stopwords_da.txt
荷兰语: stopwords_nl.txt
芬兰语: stopwords_fi.txt
法语: stopwords_fr.txt
德语: stopwords_de.txt
印地语: stopwords_hi.txt
意大利语: stopwords_it.txt
挪威语 (两种受支持的方言): stopwords_no.txt
葡萄牙语: stopwords_pt.txt
罗马尼亚语: stopwords_ro.txt
俄语: stopwords_ru.txt
西班牙语: stopwords_es.txt
瑞典语: stopwords_sv.txt
土耳其语: stopwords_tr.txt

这些缺省停用词以 TXT 格式记录，但如果要扩充列表并提交该列表以供 Discovery使用，那么必须提交 JSON 文件。要查看停用词列表文件的语法示例，请参阅定制英语停用词列表文件。

对于其余受支持的语言，不使用缺省停用词。您可以指定要在查询时用于这些语言的停用词列表。采集数据时，不会使用您提交的列表。

您可能希望在查询时应用的停用词列表的示例包括:

日语: custom_stopwords_ja.json
波兰语: custom_stopwords_pl.json

请参阅受支持的语言，以获取 Discovery支持的语言列表。

定义查询时间停用词

要定义停用词，请完成以下步骤：

创建停用词文件。该文件必须是具有 json 文件扩展名的 JSON 文件。

请遵循以下准则：
- 指定小写的停用词。
- 通常，将停用词列表保留在总词数 200 下。大小限制为一百万个字符。但是，如果指定的术语过多，那么可能会对搜索准确性产生负面影响。
当您以英语构建定制停用词列表时，可以使用缺省英语停用词列表文件 custom_stopwords_en.json作为起点。
从导航窗格中，打开“改进和定制”页面。
从“改进工具”窗格展开 改进相关性。
单击 停用词，然后单击集合的 上载停用词。

每个集合只能上载一个停用词列表。您上载的停用词列表将扩充集合的缺省停用词列表; 它不会替换缺省列表。
单击完成。

要禁用定制停用词文件并还原为使用缺省停用词，请删除定制停用词文件。