迁移 Knowledge Studio 解决方案
通过将定制模型和您在 Knowledge Studio 中创建的其他资源迁移到 Discovery。
按现有方式使用模型
要立即开始使用 Knowledge Studio 模型,请将该模型从 Knowledge Studio 导出,并将其作为机器学习扩充项导入到 Discovery。
当您导入 Knowledge Studio 模型以按 Discovery中的方式使用时,当模型中定义的根级别实体类型出现在文档中时,可以识别这些实体类型。 出现的任何实体子类型的提及项都标识为父实体类型的提及项。 不会保留子类型实体本身。 如果希望模型继续区分实体的不同子类型,那么必须执行额外的步骤。 有关更多信息,请参阅 保留子类型信息。
无法继续更新作为 ML 扩充项导入的模型。
可以按原样导入和使用以下类型的模型:
- 在 Knowledge Studio 中创建的基于规则的模型,用于根据定义的规则在文档中查找实体。 (文件格式: .pear)
- 在 Knowledge Studio 中创建的机器学习模型,能够理解您所在行业的语言细微差别、含义和关系(文件格式:.zip)
可添加的模型取决于部署类型:
- IBM Cloud 您可以添加仅使用 IBM Cloud 中托管的 IBM Watson® Knowledge Studio 实例创建的模型。
- IBM Cloud Pak for Data 您可以添加使用xml-ph-0001@deepl.internal上托管的xml-ph-0000@deepl.internal IBM Software Hub 您可以添加使用 或 上托管的 实例创建的模型。IBM Cloud Pak® for Data IBM Cloud IBM Watson® Knowledge Studio
有关更多信息,请参阅 使用导入的 ML 模型来查找定制术语。
使用语料库作为训练数据
Discovery 具有可用于定义类型系统的实体抽取器工具。 实体抽取器用户界面类似于 Knowledge Studio 用户界面,用于对添加到机器学习模型语料库的文档进行注释。 但是,在 Knowledge Studio中,仅定义根级别实体,而不定义子类型或关系。
作为导入 Knowledge Studio 模型并将其作为扩充项应用的替代方法,您还可以导入 Knowledge Studio 语料库。 将 Knowledge Studio 语料库添加到 Discovery 实体抽取器工具时,该语料库中的任何根级别实体都表示为 Discovery 实体抽取器工作空间中的新实体。 无法识别实体子类型。 虽然,您可以执行额外的步骤来 保留子类型信息。
未表示来自 Knowledge Studio 机器学习模型的关系和指代,也未表示与该模型相关联的任何定制字典。
选择是导入模型还是导入语料库时要考虑的事项:
- 您可以在导入语料库时继续编辑类型系统。 导入已训练的模型时,不能随后在 Discovery中对其进行编辑。
- 作为扩充项应用于集合的已导入模型可以识别原始模型经过训练以识别的任何实体子类型,关系和指代信息以及根级别实体。 实体抽取器扩充项只能查找和标记实体。
有关更多信息,请参阅 导入 Knowledge Studio 语料库。
保留子类型信息
将 Knowledge Studio 模型导入到 Discovery时,模型中定义的任何子类型都将标识为父实体类型的提及项。 不会保留子类型实体本身。 要保留子类型信息,必须通过将实体子类型转换为新的根级别实体类型来 序列化 类型系统。
仅当您确定子类型差异会向模型添加重要值时,才应执行以下步骤。 在许多用例中,使用根级别实体类型就足够了。
如果使用 Natural Language Understanding 服务对语料库中的任何文档进行了预注释,那么无法使用此过程来保留子类型。 请确保平面化类型系统未超过套餐所允许的实体类型数。 有关更多信息,请参阅 实体抽取器限制。
例如,您的模型可能具有具有以下层次结构的实体类型:
APPLIANCES
FURNITURE
PATIO
LIVING
DINING
类型 sytem 的序列化版本如下所示:
APPLIANCES
FURNITURE_NONE
FURNITURE_PATIO
FURNITURE_LIVING
FURNITURE_DINING
用于扁平化类型系统的有用方法包括以下更改:
- 将父实体类型标签 (
FURNITURE
) 作为前缀添加到每个子类型的标签中,以生成新的根级别实体,以在其标签中保留分层关系。 例如,FURNITURE_PATIO
,FURNITURE_LIVING
和FURNITURE_DINING
。 - 将单词 NONE 附加到父根级别实体标签以将其标识为父代。 例如,
FURNITURE_NONE
。 - 使没有子类型的实体类型的标签保持不变。 例如,标签
APPLIANCES
不会更改。
要保留实体子类型信息,请完成以下步骤:
-
确保 Knowledge Studio 模型的注释和训练已完成,并且该模型已准备好进行部署。
-
将用于对语料库中的文档进行注释的类型系统从 Knowledge Studio 导出为 .json 文件。
根据 Knowledge Studio 部署类型执行相应的导出步骤:
- IBM Cloud从另一个工作空间上载资源
- IBM Cloud Pak for DataIBM Software Hub从另一个工作区上传资源
-
修改类型系统 JSON 文件。 对于每个子类型,添加新的根级别实体类型。
例如,原始类型系统可能包含以下类型:
{ "id":"b9d6caa2-90ac-47ff-91f6-2149b8ffcf20", "label":"FURNITURE", "sireProp":{ "mentionType":null, "subtypes":["PATIO","LIVING","DINING"], "roles":["b9d6caa2-90ac-47ff-91f6-2149b8ffcf20","93ba1f27-173f-4714-b31e-77bdd8cb9932"], "clazz":null, "color":"black", "hotkey":"m", "backGroundColor":"#00FFFF", "active":true, "roleOnly":false}, "creationDate":1610611788484, "source":null, "modifiedDate":0, "typeType":null, "typeClass":null, "typeVersion":null, "typeDesc":null, "typeSuperType":null, "typeSuperTypeId":null, "typeCreateDate":null, "typeUpdateDate":null, "typeProvenance":null, "alchemyAPITypes":null, "nluAPITypes":null},
要将子类型转换为新的根级别类型,请进行以下更改:
{ "id":"b9d6caa2-90ac-47ff-91f6-2149b8ffcf20", "label":"FURNITURE_NONE", "sireProp":{ "mentionType":null, "subtypes":null, "roles":["b9d6caa2-90ac-47ff-91f6-2149b8ffcf20","93ba1f27-173f-4714-b31e-77bdd8cb9932"], "clazz":null, "and so on" } }, { "id":"b9d6caa2-90ac-47ff-91f6-2149b8ffcf20", "label":"FURNITURE_PATIO", "sireProp":{ "mentionType":null, "subtypes":null, "roles":["b9d6caa2-90ac-47ff-91f6-2149b8ffcf20","93ba1f27-173f-4714-b31e-77bdd8cb9932"], "clazz":null, "and so on" } }, { "id":"b9d6caa2-90ac-47ff-91f6-2149b8ffcf20", "label":"FURNITURE_LIVING", "sireProp":{ "mentionType":null, "subtypes":null, "roles":["b9d6caa2-90ac-47ff-91f6-2149b8ffcf20","93ba1f27-173f-4714-b31e-77bdd8cb9932"], "clazz":null, "and so on" } }, { "id":"b9d6caa2-90ac-47ff-91f6-2149b8ffcf20", "label":"FURNITURE_DINING", "sireProp":{ "mentionType":null, "subtypes":null, "roles":["b9d6caa2-90ac-47ff-91f6-2149b8ffcf20","93ba1f27-173f-4714-b31e-77bdd8cb9932"], "clazz":null, "and so on" } },
-
为每个新的根级别实体类型分配唯一标识。
-
将机器学习模型的语料库从 Knowledge Studio 导出为压缩文件。
根据 Knowledge Studio 部署类型执行相应的导出步骤:
- IBM Cloud从另一个工作空间上载资源
- IBM Cloud Pak for DataIBM Software Hub从另一个工作区上传资源
-
在下载的语料库中,对于定义了子类型的所有提及项,请更新提及项的类型信息以指定新的根级别实体类型。
例如,原始类型系统可能包含
PATIO
子类型提及项:{ "id" : "Blogs_shopper.com_dc5cf4764d91f87575b17ac8a5268462.en-M92", "source" : "IMPORT", "properties" : { "SIRE_ENTITY_CLASS" : "SPC", "SIRE_MENTION_CLASS" : "SPC", "SIRE_ENTITY_LEVEL" : "NONE", "SIRE_ENTITY_SUBTYPE" : "PATIO", "SIRE_MENTION_ROLE" : "FURNITURE", "SIRE_MENTION_TYPE" : "NONE" }, "type" : "FURNITURE", "begin" : 3221, "end" : 3234, "inCoref" : false },
将提及项的
SIRE_MENTION_ROLE
和type
的值替换为新的根级别实体标签,例如FURNITURE_PATIO
。 指定NONE
作为SIRE_ENTITY_SUBTYPE
值。{ "id" : "Blogs_shopper.com_dc5cf4764d91f87575b17ac8a5268462.en-M92", "source" : "IMPORT", "properties" : { "SIRE_ENTITY_CLASS" : "SPC", "SIRE_MENTION_CLASS" : "SPC", "SIRE_ENTITY_LEVEL" : "NONE", "SIRE_ENTITY_SUBTYPE" : "NONE", "SIRE_MENTION_ROLE" : "FURNITURE_PATIO", "SIRE_MENTION_TYPE" : "NONE" }, "type" : "FURNITURE_PATIO", "begin" : 3221, "end" : 3234, "inCoref" : false },
别忘了重命名父级提及标签。
例如,查找指定
"SIRE_ENTITY_SUBTYPE" : "OTHER"
的提及项,然后将值从OTHER
更改为NONE
。将提及项的
SIRE_MENTION_ROLE
和type
的值更改为新的父实体类型标签。例如,将这些提及项的
SIRE_MENTION_ROLE
和type
值从FURNITURE
更改为FURNITURE_NONE
,并将SIRE_ENTITY_SUBTYPE
更改为NONE
。{ "id" : "Sports_herald.com_be99aca94a7cff5abb74476b844a11b6.en-M75", "source" : "IMPORT", "properties" : { "SIRE_MENTION_CLASS" : "SPC", "SIRE_ENTITY_LEVEL" : "NONE", "SIRE_ENTITY_SUBTYPE" : "NONE", "SIRE_ENTITY_CLASS" : "SPC", "SIRE_MENTION_TYPE" : "NONE", "SIRE_MENTION_ROLE" : "FURNITURE_NONE" }, "type" : "FURNITURE_NONE", "begin" : 2063, "end" : 2071, "inCoref" : false },
-
根据新的序列化实体类型,为缺少的关系添加注释。
-
创建 Knowledge Studio 工作空间,然后上载转换后的类型系统。
遵循相应的步骤,根据 Knowledge Studio 部署类型上载类型系统:
- IBM Cloud向工作空间添加类型系统
- IBM Cloud Pak for DataIBM Software Hub在工作区添加类型系统
-
将带注释的文档上载到工作空间。 保留导出数据的原始文件结构。 例如,确保压缩文件具有与原始导出文件相同的根级别目录。
根据 Knowledge Studio 部署类型,遵循相应的步骤来上载文档:
-
从 Knowledge Studio中,单击 训练 以重新训练模型。
更多信息,请参阅与您部署类型相关的主题:
-
现在,您已准备好从 Knowledge Studio 导出模型,并将其导入 Discovery 以将该模型用作机器学习扩充项。
有关更多信息,请参阅 使用导入的 ML 模型来查找定制术语。