IBM Cloud Docs
识别要忽略的词

识别要忽略的词

要在搜索期间忽略无意义的术语,请添加定制停用词列表。 停用词是在区分内容的语义方面没有用处的词。

在英语中,theisand 是停用词的示例。

您定义的停用词将从查询中过滤掉,并提高自然语言查询结果的相关性。

例如,一家公司有三层服务。 其中一个集合中的文档仅与一个层 (Silver tier) 相关。 您可能希望将 "silver" 添加到停用词列表中,因为鉴于所有文档都与 Silver 服务层相关,该术语无助于区分一个文档对另一个文档的重要性。 当客户在查询字符串中提及 Silver 层时,将忽略该层。 查询中其他更重要的词汇用于搜索数据。 或者文档集合仅包含车祸报告。 您可能希望将 "car" 添加到停用词列表中,以防止查询中 car 的提及项向搜索添加干扰。

Discovery 自动应用许多受支持语言的缺省停用词列表。 这些停用词在建立索引时和查询时都适用。 当对内容建立索引并从查询中过滤掉这些内容时,将忽略预定义的停用词。 但是,您定义的停用词仅在查询时使用。 您的列表不会替换缺省列表; 它会扩充缺省列表。 可以添加停用词,但不能除去停用词。

示例定制停用词列表:

{
  "stopwords": [
    "a", "an", "the", "ibm", "what", "how", "when", "can", "should", ...
  ]
}

缺省停用词列表

您可以从 Watson Developer Cloud GitHub 存储库访问英语的缺省停用词列表。

对于以下语言,Discovery 使用由 Apache Lucene 定义的缺省停用词列表。 有关列表中包含哪些词的更多信息,请参阅 Lucene 参考文档:

这些缺省停用词以 TXT 格式记录,但如果要扩充列表并提交该列表以供 Discovery使用,那么必须提交 JSON 文件。 要查看停用词列表文件的语法示例,请参阅定制英语停用词列表文件。

对于其余受支持的语言,不使用缺省停用词。 您可以指定要在查询时用于这些语言的停用词列表。 采集数据时,不会使用您提交的列表。

您可能希望在查询时应用的停用词列表的示例包括:

请参阅 受支持的语言,以获取 Discovery支持的语言列表。

定义查询时间停用词

要定义停用词,请完成以下步骤:

  1. 创建停用词文件。 该文件必须是具有 json 文件扩展名的 JSON 文件。

    请遵循以下准则:

    • 指定小写的停用词。
    • 通常,将停用词列表保留在总词数 200 下。 大小限制为一百万个字符。 但是,如果指定的术语过多,那么可能会对搜索准确性产生负面影响。

    当您以英语构建定制停用词列表时,可以使用缺省英语停用词列表文件 custom_stopwords_en.json作为起点。

  2. 从导航窗格中,打开“改进和定制”页面。

  3. 从“改进工具”窗格展开 改进相关性

  4. 单击 停用词,然后单击集合的 上载停用词

    每个集合只能上载一个停用词列表。 您上载的停用词列表将扩充集合的缺省停用词列表; 它不会替换缺省列表。

  5. 单击完成

要禁用定制停用词文件并还原为使用缺省停用词,请删除定制停用词文件。