改进查询结果

了解您可以采取哪些措施来提高查询结果的质量。

您可以使用 Discovery 内置的工具进行改进。

结果不只包括完全匹配

与其他一些搜索应用程序不同，在您提交的短语中添加引号后，不只返回完全匹配的结果。从产品用户界面提交的查询属于自然语言查询。当在自然语言查询中提交引用文本时，短语会被用来提高结果得分。不过，结果并不局限于包含整个短语的文件。

如果希望对查询的处理方式有更多控制，则必须使用查询 API。有关查询 API 的 phrase 操作符的更多信息，请参阅查询操作符。

简短的查询会返回不相关的结果

这可能是因为您的查询包含了太多的停止词，而没有足够的不同术语来触发有意义的搜索。当您提交查询时，查询文本会先经过分析和优化，然后再提交给项目。其中一个变化是从文本中删除任何停滞词。 停顿词是指被认为无助于区分内容语义的词。停止词的例子包括 and、the 和 about 等术语。Discovery定义了一个停止词列表，在索引和搜索数据时都会自动忽略这些停止词。如果您提交的查询大部分或仅包含停用词，如 About us，则相当于提交了一个空查询。

虽然 us 未被列入停用词列表，但它被词化为 we，并被列为停用词。

您可以编辑集合使用的停止词。不过，您只能增加停用词列表，而不能删除停用词。您定义的停止词仅在查询时使用。它们不会影响 Discovery 在将数据添加到集合和创建索引时使用的停止词列表。

有关更多信息，请参阅识别要忽略的单词。

结果有太多文字

如果源文件较大，可考虑将文件分割成较小的块。

为此，您可以创建一个智能文档理解用户训练模型。在文档中查找可用于将文档连贯地分成若干小节的内容。例如，您的文档可能有章节或字幕。您可以使用名为 chapter 的自定义标签来标注章节。在教会模型识别 chapter 内容类型后，将模型应用于整个集合。有关更多信息，请参阅使用智能文档理解。

然后，您可以通过 chapter 字段分割文档，创建许多按章节划分的子文档。有关更多信息，请参阅分割文档以使查询结果更简洁。

未找到表格中的信息

要搜索表格中的信息，必须在您的收藏中应用表格理解增强功能。在某些情况下，对表格的理解会自动应用到集合中。如果没有，而您的收藏索引中有 HTML 字段，您可以自行应用 table understanding 丰富功能。

有关详细信息，请参阅了解表格。

图表中的信息无法体现

除非您为集合启用光学字符识别 (OCR) 设置，否则无法捕获图表和其他图像中的文本。您可以在初次创建集合后将设置应用于该集合。有关详细信息，请参阅管理数据集合。

搜索无法识别重要术语

如果结果表明，查询中的关键词、常用名词或特定领域术语未被识别为重要术语，请丰富您的收藏。

使用Watson Natural Language Understanding来查找和标记一般理解为具有特殊含义的术语，如地点或公司名称。有关更多信息，请参阅应用预构建的增益。

向 Discovery 讲授对您的用例有特殊意义的术语和模式。有关更多信息，请参阅添加特定于域的资源。

探索其他搜索功能

当您通过 Discovery 用户界面测试您的项目时，您会提交一个自然语言查询。您可以启用搜索功能来影响自然语言查询搜索的方式。发现查询语言搜索是另一种可以通过使用应用程序接口进行的搜索。如果最初的搜索结果不能满足您的需求，请尝试使用其他搜索方法。

发现查询语言 (DQL) 搜索：一种可接受更复杂查询的搜索机制。您必须使用查询 API 来提交 DQL 查询。

例如，您可以在应用于集合的丰富内容生成的字段中搜索特定值。
自然语言查询是从 改进和自定义页面触发的搜索类型。

有关查询 API 的更多信息，请参阅 Query API 概述。

IBM Cloud