改进查询结果
了解您可以采取哪些措施来提高查询结果的质量。
您可以使用 Discovery 内置的工具进行改进。
结果不只包括完全匹配
与其他一些搜索应用程序不同,在您提交的短语中添加引号后,不 只返回完全匹配的结果。 从产品用户界面提交的查询属于自然语言查询。 当在自然语言查询中提交引用文本时,短语会被用来提高结果得分。 不过,结果并不局限于包含整个短语的文件。
如果希望对查询的处理方式有更多控制,则必须使用查询 API。 有关查询 API 的 phrase
操作符的更多信息,请参阅 查询操作符。
简短的查询会返回不相关的结果
这可能是因为您的查询包含了太多的停止词,而没有足够的不同术语来触发有意义的搜索。 当您提交查询时,查询文本会先经过分析和优化,然后再提交给项目。 其中一个变化是从文本中删除任何停滞词。 停顿词是指被认为无助于区分内容语义的词。 停止词的例子包括 and
、the
和 about
等术语。Discovery定义了一个停止词列表,在索引和搜索数据时都会自动忽略这些停止词。 如果您提交的查询大部分或仅包含停用词,如
About us
,则相当于提交了一个空查询。
虽然 us 未被列入停用词列表,但它被词化为 we,并被列为停用词。
您可以编辑集合使用的停止词。 不过,您只能增加停用词列表,而不能删除停用词。 您定义的停止词仅在查询时使用。 它们不会影响 Discovery 在将数据添加到集合和创建索引时使用的停止词列表。
有关更多信息,请参阅 识别要忽略的单词。
结果有太多文字
如果源文件较大,可考虑将文件分割成较小的块。
为此,您可以创建一个智能文档理解用户训练模型。 在文档中查找可用于将文档连贯地分成若干小节的内容。 例如,您的文档可能有章节或字幕。 您可以使用名为 chapter
的自定义标签来标注章节。 在教会模型识别 chapter
内容类型后,将模型应用于整个集合。 有关更多信息,请参阅 使用智能文档理解。
然后,您可以通过 chapter
字段分割文档,创建许多按章节划分的子文档。 有关更多信息,请参阅 分割文档以使查询结果更简洁。
未找到表格中的信息
要搜索表格中的信息,必须在您的收藏中应用表格理解增强功能。 在某些情况下,对表格的理解会自动应用到集合中。 如果没有,而您的收藏索引中有 HTML 字段,您可以自行应用 table understanding 丰富功能。
有关详细信息,请参阅 了解表格。
图表中的信息无法体现
除非您为集合启用光学字符识别 (OCR) 设置,否则无法捕获图表和其他图像中的文本。 您可以在初次创建集合后将设置应用于该集合。 有关详细信息,请参阅 管理数据集合。
搜索无法识别重要术语
如果结果表明,查询中的关键词、常用名词或特定领域术语未被识别为重要术语,请丰富您的收藏。
使用Watson Natural Language Understanding来查找和标记一般理解为具有特殊含义的术语,如地点或公司名称。 有关更多信息,请参阅 应用预构建的增益。
向 Discovery 讲授对您的用例有特殊意义的术语和模式。 有关更多信息,请参阅 添加特定于域的资源。
默认切面没有用处
您可以添加面,根据您应用到集合中的增益数据对文档进行分类。 例如,您可能希望显示基于关键字或词典类别的切面。 有关更多信息,请参阅构面。
探索其他搜索功能
当您通过 Discovery 用户界面测试您的项目时,您会提交一个自然语言查询。 您可以启用搜索功能来影响自然语言查询搜索的方式。 发现查询语言搜索是另一种可以通过使用应用程序接口进行的搜索。 如果最初的搜索结果不能满足您的需求,请尝试使用其他搜索方法。
-
发现查询语言 (DQL) 搜索:一种可接受更复杂查询的搜索机制。 您必须使用查询 API 来提交 DQL 查询。
例如,您可以在应用于集合的丰富内容生成的字段中搜索特定值。
-
自然语言查询是从 改进和自定义页面触发的搜索类型。
有关查询 API 的更多信息,请参阅 Query API 概述。