IBM Cloud Docs
入门 Watson Discovery

入门 Watson Discovery

在本教程中,我们将介绍 IBM Watson® Discovery,并指导您完成 Discovery 样本项目。 探索样本项目是参观和试用产品的一些功能的绝佳方法。

准备工作

选择要针对您的部署完成的相应步骤:

  • IBM Cloud Pak for Data 安装 xml-ph-0000@deepl.internal。IBM Software Hub 安装。Discovery 请参阅安装 Discovery for Cloud Pak for Data

  • IBM Cloud 完成以下步骤:

    1. 注册 IBM Cloud 账户或登录。

    2. 您可以免费使用 Plus 套餐 30 天。 但是,要创建服务的 Plus 套餐实例,您必须具有付费帐户。

      有关创建付费帐户的更多信息,请参阅 升级帐户

      如果您决定停止使用 Plus 套餐,并且不想为其付费,请在 30 天试用期结束之前删除服务实例。

    3. 转至 IBM Cloud 目录中的 Discovery 资源 页面,并创建 Plus 套餐服务实例。

打开 Watson Discovery

IBM Cloud

这些指示信息适用于所有受管部署,包括 IBM Cloud Pak for Data 作为服务实例。

  1. 点击您创建的 Discovery 实例,进入服务仪表板。

  2. 管理页面上,单击启动 Watson Discovery

    如果系统提示您登录,请提供您的 IBM Cloud 凭证。

IBM Cloud Pak for Data IBM Software Hub

以下指示信息适用于 Discovery 部署:

  1. 从网络客户端主菜单中,依次展开 “服务”“实例”。

  2. 查找实例,然后单击该实例以打开其摘要页面。

    每个部署最多可以创建 10 个实例。 达到最大数目后,不会在 IBM Cloud Pak for Data中显示 新建实例 按钮。

  3. 单击启动工具

打开样本项目

新的浏览器标签或窗口打开,显示 “我的项目”页面

显示具有单个“样本项目”磁贴的“我的项目”主页面。
My projects page of the Sample project

要熟悉产品,可以通过单击产品主页中的 观看视频 链接来观看 3 分钟以下的概述视频。

在本教程中,您将浏览样本项目。

样本项目是作为资源提供的内置项目,供您初始浏览产品。 样本项目是 文档检索 项目类型。 文档检索项目用于从您的数据中搜索并找到最相关的答案。

  1. 单击 样本项目

    此时将显示“改进和定制”页面。

    如果您刚刚安装了 Discovery,示例项目需要时间来处理文档。 等待处理完成,然后再开始实验。 您可以从“活动”页面检查数据处理的状态,下一步对此进行了描述。

    显示样本项目的“改进和定制”页面。
    Sample project Improve and customize page

了解样本集合

了解如何通过浏览随样本项目提供的样本集合来管理和增强集合。 样本集合由一组已上载的 IBM 支持 PDF 文档组成。

  1. 点击导航面板上的管理收藏图标

    项目中的任何集合都显示在此处。 此项目只有一个集合。

    仅显示“样本集合”的“集合”页面。
    Collections page in the Sample project

  2. 单击 样本集合

    活动页面随即显示。 本页显示收藏的状态。 例如,它显示文档总数以及最近一次更新的时间。 如果发现在上载文档或搜寻数据源时迂到问题,那么此处将显示任何关联的消息。

    显示样本集合的“活动”页面。
    Activities page in the Sample project

    创建集合后,您可以来到此页面以查找有关集合中数据的处理状态的信息。

  3. 单击扩充项选项卡。

    扩充项”页面向您显示可用扩充项的列表。 扩充项使有意义的信息更易于在搜索中查找和返回。 您可以将内置扩充项应用于集合,以利用功能强大的 Natural Language Understanding 模型来标记术语 (例如,常见的关键字)。

    显示“样本集合”的“扩充项”页面。
    Enrichments page of the Sample project

    实体 扩充项将应用于样本集合:

    实体
    识别内容中提及的适当名词,例如人员,城市和组织。

    此扩充项将自动应用于添加到 Document Retrieval 类型的项目的集合。

  4. 对于 实体 v2 扩充项,单击 1x 所选字段

    将显示可用字段的列表,并选择 text 字段。 此选择意味着在处理集合中的文档时,实体 扩充项已应用于已建立索引并添加到名为 text 的字段的内容。

    显示实体扩充项已应用于文本字段。
    Entities enrichment being applied to the text field

    在此页面中,可以将新扩充项应用于集合或更改应用了扩充项的字段。

    Discovery 的一个强大功能是,您可以添加自己的定制扩充项,例如字典,模式和机器学习模型。 创建定制扩充项时,也会在此页面上列出这些扩充项。 您可以从此处管理它们的使用位置。

    有关定制扩充项的更多信息,请参阅 添加特定于域的资源

  5. 您将对集合应用另一个扩充项。 在列表中查找 关键字 扩充项,然后单击 选择字段

    “关键字”扩充项可识别内容中重要的常用术语。

  6. 滚动字段列表,直到找到 text 字段,然后将其选中。

    显示可以在其中应用关键字扩充项的字段。
    Fields to which you can apply the Keywords enrichment

  7. 单击应用更改并重新处理

    在重新处理文档以查找和标记关键字时,您可以继续探索可用于管理集合的工具。

  8. 单击 标识字段

    文档中的大多数内容将自动在 text 字段中建立索引。 您可能希望对不同字段中特定类型的内容建立索引,或者拆分大型文档,以便 text 字段中每个文档包含较少的段落。 为此,您可以通过将 智能文档理解 模型应用于集合来教 Discovery 识别文档中的重要字段。

    智能文档理解 (SDU) 是一种基于文档结构来学习文档内容的技术。 您可以应用预先构建的 SDU 模型或创建定制 SDU 模型。

    显示 SDU 模型选项。
    Smart Document Understanding model options

    要创建定制 SDU 模型,请选择 用户训练的模型 选项,然后对文档中的字段进行注释。 (在本教程中,您不会对文档进行注释。)

    显示“智能文档理解”工具。
    Smart Document Understanding annotation tool

    有关 SDU 的更多信息,请参阅 使用 Smart Document Understanding

  9. 单击 管理字段

    管理字段”页面列出已建立索引的字段。 从此处,可以在索引中包含或除去字段。 您还可以将大型文档拆分为多个较小的文档。

    显示索引中的字段。
    Fields in the collection index

    有关拆分文档的更多信息,请参阅 拆分文档以使查询结果更简洁

搜索样本项目

  1. 点击导航面板中的 “改进和自定义”图标。

    “改进和自定义”页面,您可以尝试查询,然后添加和测试自定义,以改进项目的查询结果。 将显示样本查询列表,以帮助您开始提交测试查询。

  2. 单击 IBM运行搜索 按钮。

    将显示查询结果。

  3. 从其中一个查询结果中,单击 查看文档中的段落

    将显示在其中找到结果的文档的预览。

  4. 执行下列其中一项操作以浏览搜索结果。

    1. 点击 “高级视图”。

      将显示有用的摘要信息,例如在文档中检测到的任何扩充项的出现次数。

    2. 选择 URL 实体以突出显示文本中 URL 的提及项。

      显示高级文本视图,其中 URL 实体突出显示。
      Advanced view that shows entities that were recognized

    3. 要查看如何以 JSON 格式存储文档中的信息,请单击视图标题中的 查看方式 菜单,然后选择 JSON

      将显示文档的 JSON 表示。

      显示文档的 JSON 表示。
      JSON representation of the document

      您可以浏览 JSON 表示,以查看 Discovery 从文档捕获的信息。 例如,如果展开 enriched_text 部分,然后展开 entities 部分,那么可以看到实体扩充项已识别并标记的实体的提及项。

      显示 JSON 的 entriched_text.entities 部分。
      Shows the enrichment_text.entities section of the JSON representation

定制样本项目

现在,让我们通过添加构面来定制一下搜索结果视图。 构面是一种对共享类似模式或内容的文档进行组织和分类的方法。

  1. 从“改进和定制”页面,提交以下自然语言查询:

    How do I install Discovery?
    
  2. 查看显示的查询结果。

    显示展开了“排名靠前的实体”构面的自然语言查询的查询结果。
    Top Entities facet results

    请注意,将显示 排名靠前的实体 部分。 您可以展开实体并单击其中一个实体以过滤查询结果,从而仅显示提及该实体的那些结果。 排名靠前的实体 部分是内置构面。 它使用实体扩充项添加到文档的信息。

    您将添加自己的构面,该构面使用您在上一步中应用于集合的关键字扩充项。

  3. “改进工具”面板上,展开 “自定义显示”,然后点击 “面”。

    显示“改进工具”窗格中展开的“定制”显示部分。
    Customize display options

  4. 点击 “新方面”,然后点击 “从集合中的现有字段”按钮。

  5. 选择 enriched_text.keywords.mentions.text,将标签更改为 Keywords,然后单击 应用

    显示要在其中添加关键字构面的构面面板。
    Creating a Keywords-based facet

    还记得之前查看的文档的 JSON 表示吗? 现在,“关键字”扩充项将应用于 text 字段,并且将重新处理文档,在 text 字段中找到的任何关键字提及项都将包含在文档的 JSON 表示中。

    您选择用于构面的字段 (enriched_text.keywords.mentions.text) 反映了在 JSON 中存储关键字文本的位置。

    "enriched_{field_name}": [
      "keywords" : [
        "mentions" : [
          "text": "Cloud Pak"
        ]
      ]
    ]
    
  6. 新的方面显示出来。 您可以单击关键字以过滤文档,从而仅包含提及该关键字的结果。

    显示关键字构面的外观。
    Keywords facet

您已成功添加用于识别样本集合文档中的关键字的内置 NLU 扩充项。 然后,添加了一个使用关键字扩充的构面,以允许您按关键字过滤文档。

共享样本项目

  1. 从导航面板中单击 集成并部署

    从这里,您可以与同事分享您的项目并部署它。

  2. 按照屏幕上的说明添加用户,然后将登录凭证和提供的链接发送给您的同事。

    显示“集成和部署”页面。
    Integrate and deploy page

    在构建自己的搜索应用程序并准备好对其进行部署之后,您可以使用预先构建的用户界面组件或构建定制应用程序。

    • 单击 API 信息。 从此页面中,您可以获取项目的项目标识。 您需要项目标识才能使用 Discovery API。 您还需要服务实例 URL 和 API 密钥。 证书详细信息可通过服务实例的管理页面获取,网址为 IBM Cloud。

    • 单击 UI 组件 以查找指向现成可用的代码的链接,您可以使用这些代码更快地创建功能齐全的搜索应用程序。

添加您自己的内容

现在,您已了解更多有关某些产品功能的信息,准备好评估要搜索的数据。

都是关于数据的。 查看您拥有的内容类型,您希望搜索解决方案能够利用这些类型。

支持的数据源

下表显示了每种部署类型的受支持数据源。

支持的数据源
此表具有行和列标题。 行标题标识受支持的数据源。 列标题标识不同的产品部署类型选项。 要了解哪些数据源可用于部署类型,请转至描述数据源的行,并查找您感兴趣的部署类型的列。
数据源 IBM Cloud IBM Cloud Pak for Data
Box “勾选标记”图标 “勾选标记”图标
数据库 (IBM Data Virtualization,IBM Db2,Microsoft SQL,Oracle,Postgres) “勾选标记”图标
FileNet P8 “勾选标记”图标
HCL Notes “勾选标记”图标
IBM Cloud Object Storage “勾选标记”图标
本地文件系统 “勾选标记”图标
Salesforce “勾选标记”图标 “勾选标记”图标
Microsoft SharePoint Online “勾选标记”图标 “勾选标记”图标
本地 Microsoft SharePoint “勾选标记”图标 “勾选标记”图标
Web 站点 “勾选标记”图标 “勾选标记”图标
Microsoft Windows 文件系统 “勾选标记”图标

不确定您可以构建什么?

有关可构建的搜索解决方案类型的更多信息,请参阅 开始从数据获取值

您可以随时通过从产品用户界面的页眉中选择“帮助”图标 帮助图标 来访问产品文档。 将定制帮助内容以提供与您在产品中执行的操作相关的信息。

无论您构建什么,步骤一都是创建项目。 决定哪种项目类型最适合您的需求。

如果没有任何现有类型是正确的,那么可以选择 以上任何类型 来改为创建定制项目。

项目描述

项目类型用例
需求 目标 项目类型
我要抽取数据以支持重复文档处理任务的自动化。 我希望快速了解从我的文档中提取的数据,并通过应用扩充项来改进数据。 智能文档处理
哪个文档包含我问题的答案? 在包含结构化和非结构化数据混合的源中查找有意义的信息,并将其显示在独立企业搜索应用程序或业务应用程序的搜索字段中。 文档检索
我的任务需要的合同部分在何处? 快速从合同中提取关键信息。 合同的文档检索
我希望构建的聊天机器人使用我拥有的知识。 让虚拟助手快速访问存储在各种外部数据源和文档格式中的技术信息,以回答客户问题。 会话式搜索
我想要揭示我不知道的洞察。 从模式分析中获取洞察或执行根本原因分析。 内容挖掘

有关更多信息,请参阅创建项目