常见问题 Red Hat AI InstructLab
请查看以下常问问题 InstructLab。 要查找 IBM Cloud® 的所有常问问题,请参见我们的 常问问题图书馆。
什么是 InstructLab?
InstructLab 是一个由 AI 支持的私有、安全的人工智能生成解决方案,可在 上使用。Red Hat Enterprise Linux IBM Cloud 它允许用户保留对其数据和模型的所有权,利用独特的业务数据进行创新,并最大限度地降低灾难性遗忘的风险。
为什么我的生成式人工智能解决方案要使用 InstructLab?
InstructLab 为您的生成式人工智能解决方案提供了多种优势。 首先,它允许你保留对数据和模型的所有权,让你控制数据的使用方式和模型的性能。 其次,它使您能够利用独特的业务数据,通过创建人工智能驱动的解决方案来释放效率和推动创新。 第三,它通过使用内置的 Granite 模型作为学习新技能和知识的基础,最大限度地降低了灾难性遗忘的风险。 第四,它可以作为一项服务在 IBM Cloud 上提供,让您只需支付所需费用,从而减少不必要的成本,并通过提供更简单、更快速和更经济的模式来优化 IT 支出。
InstructLab 对 IBM Cloud 有什么好处?
InstructLab IBM Cloud 上提供了多种好处,包括
- 数据所有权
- 用户保留对数据和模型的所有权,可以控制自己的数据和模型。
- 利用独特的业务数据
- 用户可以利用其独特的业务数据创建人工智能驱动的解决方案,从而提高效率并推动创新。
- 将灾难性遗忘的风险降至最低
- InstructLab 使用 模型作为学习新技能和新知识的基础,在学习新信息时最大限度地降低丢失以前所学信息的风险。Granite
- 安全、最新、可用
- InstructLab IBM Cloud 上作为一项服务提供,使用户能够减少不必要的成本,优化 IT 支出。
- 数据可移植性
- 用户可将其内容和配置导出到其他基础设施。
- 企业级云基础设施
- InstructLab IBM Cloud 强大而安全的基础设施,旨在满足关键业务工作负载的严格要求。
- 灵活性
- InstructLab 可访问各种硬件配置文件、计算加速器,并可在一小时内扩展新的容量。VMware
- 高级云服务
- IBM Cloud 提供对最新 GPU 和 服务基因人工智能、推理和机器学习的访问,将创新快速融入业务流程。IBM watsonx
什么是 Granite 模型?
这些企业就绪的多模式模型适用于各种目的并开放源代码,可根据安全基准和从网络安全到 RAG 的各种企业任务提供卓越性能。
InstructLab 使用哪种 Granite 型号?
InstructLab granite-3.1-8b-starter-v2.1 模式。
什么是分类法?
分类法是一个文件目录,其中包含您输入到模型中的数据。 它采用层叠式结构,分类“树”的每个子目录或“分支”都以“叶节点”结束,“叶节点”是一组包含相关数据的文件。 您可以通过添加全新的“分支”或在现有的 qna.yaml 文件中添加新数据来为分类法做出贡献。 有关分类结构的更多信息,请参阅 InstructLab 的分类结构。 您还可以 在 GitHub 上查看 InstructLab 分类法。
分类验证是如何进行的?
当您将分类标准上传到 InstructLab 时,将执行检查:
- 使用
ilab diff命令验证qna.yaml文件的格式和语法。 - 尝试克隆
qna.yaml文件中引用的知识和技能文件。 - 检查您是否拥有正确的服务授权,例如 Object Storage 和 Secrets Manager。
如何计费?
使用 Red Hat AI InstructLab 和作为存储位置的服务都会产生费用。IBM Cloud® Object Storage 服务(用作存储位置)都会产生费用。
如果您选择在其他服务上部署模型,该服务也会收取额外费用。
Red Hat AI InstructLab 如何计算成本?
Red Hat AI InstructLab 使用成本基于两个以代币衡量的指标。 每个令牌对应处理任务所需的特定计算能力。 消耗的令牌总数直接影响数据生成或模型微调的规模。 这一指标是我们计费系统的基础,使用户能够根据所使用的计算资源监测和控制成本。 为合成数据生成 (SDG) 和模型对齐处理的令牌将单独计费。
- 合成数据生成 (SDG)
- 输出代币 (
SYN-DATA-TOKEN) 由服务从整个输入分类法中生成的数据量计算得出。 使用 Hugging Face 的标记化器库 和 Mistral 教师模型 的标记化信息对文本进行标记化。 - 模型对齐培训
- 输入词块 (
MODEL-TRAIN-TOKEN) 是根据输入到系统中用于模型对齐训练的数据量以及 Granite 基础知识计算出来的,这些知识用于在不损失知识的情况下提高准确性。 由于使用的是基础知识,因此成本最低。
如何查找和跟踪成本信息?
手术失败是否收费?
失败的操作不计费。 成功的操作和用户取消的操作都会计费,但用户取消的操作会根据已完成的处理按比例计费。
什么是数据生成?
数据生成是根据 QNA 文件中的问题和答案生成问题和答案的过程。
什么是模型培训?
培训就是学习问题和答案的过程。 培训从知识和基础技能开始,然后是作曲技能。
运行需要多长时间?
数据生成和模型训练都需要大量时间才能完成。 启动进程时,您可以在控制台中找到一般估计值。
影响完成时间的因素:
- 知识文件的内容
- 队列中其他工作的数量
数据生成需要多长时间?
排队后,数据生成通常需要 2-6 个小时运行。 一般的估算公式是,将输出令牌的数量除以每秒约 5000 个令牌,再除以每分钟 60 秒,最后除以每小时 60 分钟。
Tokens / 5000 / 60 / 60 = Number of hours
模型培训需要多长时间?
对于模型训练,一般的计算公式是将输出标记的数量除以每秒约 4000 个标记,除以每分钟 60 秒,再除以每小时 60 分钟。
Tokens / 4000 / 60 / 60 = Number of hours
我可以导入自己的训练数据吗?
是的,您可以导入自己的训练数据。 导入自己的培训数据对各种用例都有好处,可帮助您在混合环境中优化性能和效率。
- 根据您的特定需求培训模型,并保持对数据源的控制,无论数据源是在企业内部还是在 IBM Cloud.
- 以较小的、可管理的数据块生成数据,从而避免超时或系统限制。 之后,您可以将这些较小的数据集合并成一个数据集,用于训练。
- 将以前生成的训练数据与新数据相结合,这样就能利用现有知识和新获得的知识迭代地重新训练模型。
其他用例:
- 生成数据时,可导入一个或多个知识和技能文档。
- 将多个训练数据合并为一个。
- 生成数据,下载数据,然后处理数据的一个分节并重新生成。
- 将之前生成的数据与新导入的数据相结合。
- 导入数据、生成训练数据,然后将这些数据与另一次数据生成运行相结合。
- 将重放缓冲区和从分类法中导入的数据结合起来。 此功能只能通过 API 或 CLI 使用。
- 从分类法中导入数据并生成训练数据。 此功能只能通过 API 或 CLI 使用。