常见问题 Red Hat AI InstructLab

请查看以下常问问题 InstructLab。要查找 IBM Cloud® 的所有常问问题，请参见我们的常问问题图书馆。

什么是 InstructLab？

InstructLab 是一个由 AI 支持的私有、安全的人工智能生成解决方案，可在上使用。Red Hat Enterprise Linux IBM Cloud 它允许用户保留对其数据和模型的所有权，利用独特的业务数据进行创新，并最大限度地降低灾难性遗忘的风险。

为什么我的生成式人工智能解决方案要使用 InstructLab？

InstructLab 为您的生成式人工智能解决方案提供了多种优势。首先，它允许你保留对数据和模型的所有权，让你控制数据的使用方式和模型的性能。其次，它使您能够利用独特的业务数据，通过创建人工智能驱动的解决方案来释放效率和推动创新。第三，它通过使用内置的 Granite 模型作为学习新技能和知识的基础，最大限度地降低了灾难性遗忘的风险。第四，它可以作为一项服务在 IBM Cloud 上提供，让您只需支付所需费用，从而减少不必要的成本，并通过提供更简单、更快速和更经济的模式来优化 IT 支出。

InstructLab 对 IBM Cloud 有什么好处？

InstructLab IBM Cloud 上提供了多种好处，包括

数据所有权: 用户保留对数据和模型的所有权，可以控制自己的数据和模型。
利用独特的业务数据: 用户可以利用其独特的业务数据创建人工智能驱动的解决方案，从而提高效率并推动创新。
将灾难性遗忘的风险降至最低: InstructLab 使用模型作为学习新技能和新知识的基础，在学习新信息时最大限度地降低丢失以前所学信息的风险。Granite
安全、最新、可用: InstructLab IBM Cloud 上作为一项服务提供，使用户能够减少不必要的成本，优化 IT 支出。
数据可移植性: 用户可将其内容和配置导出到其他基础设施。
企业级云基础设施: InstructLab IBM Cloud 强大而安全的基础设施，旨在满足关键业务工作负载的严格要求。
灵活性: InstructLab 可访问各种硬件配置文件、计算加速器，并可在一小时内扩展新的容量。VMware
高级云服务: IBM Cloud 提供对最新 GPU 和服务基因人工智能、推理和机器学习的访问，将创新快速融入业务流程。IBM watsonx

什么是 Granite 模型？

这些企业就绪的多模式模型适用于各种目的并开放源代码，可根据安全基准和从网络安全到 RAG 的各种企业任务提供卓越性能。

InstructLab 使用哪种 Granite 型号？

InstructLab granite-3.1-8b-starter-v2.1 模式。

什么是分类法？

分类法是一个文件目录，其中包含您输入到模型中的数据。它采用层叠式结构，分类“树”的每个子目录或“分支”都以“叶节点”结束，“叶节点”是一组包含相关数据的文件。您可以通过添加全新的“分支”或在现有的 qna.yaml 文件中添加新数据来为分类法做出贡献。有关分类结构的更多信息，请参阅 InstructLab 的分类结构。您还可以在 GitHub 上查看 InstructLab 分类法。

分类验证是如何进行的？

当您将分类标准上传到 InstructLab 时，将执行检查：

使用 ilab diff 命令验证 qna.yaml 文件的格式和语法。
尝试克隆 qna.yaml 文件中引用的知识和技能文件。
检查您是否拥有正确的服务授权，例如 Object Storage 和 Secrets Manager。

如何计费？

使用 Red Hat AI InstructLab 和作为存储位置的服务都会产生费用。IBM Cloud® Object Storage 服务（用作存储位置）都会产生费用。

如果您选择在其他服务上部署模型，该服务也会收取额外费用。

Red Hat AI InstructLab 如何计算成本？

Red Hat AI InstructLab 使用成本基于两个以代币衡量的指标。每个令牌对应处理任务所需的特定计算能力。消耗的令牌总数直接影响数据生成或模型微调的规模。这一指标是我们计费系统的基础，使用户能够根据所使用的计算资源监测和控制成本。为合成数据生成 (SDG) 和模型对齐处理的令牌将单独计费。

合成数据生成 (SDG): 输出代币 (SYN-DATA-TOKEN) 由服务从整个输入分类法中生成的数据量计算得出。使用 Hugging Face 的标记化器库和 Mistral 教师模型的标记化信息对文本进行标记化。
模型对齐培训: 输入词块 (MODEL-TRAIN-TOKEN) 是根据输入到系统中用于模型对齐训练的数据量以及 Granite 基础知识计算出来的，这些知识用于在不损失知识的情况下提高准确性。由于使用的是基础知识，因此成本最低。

如何查找和跟踪成本信息？

在开始运行 Red Hat AI InstructLab 中的任何功能之前，您可以使用成本估算器估算成本。
上传分类标准
设置数据生成的详细信息时，请在开始工作前查看估计成本。
数据生成后，您还可以在该数据生成的详细信息中查看估计的输出令牌。
设置培训任务的详细信息时，请在开始任务前查看预计成本。
工作完成后，您可以在计费和使用中查看实际成本。您可以查看 Red Hat AI InstructLab 和 IBM Cloud® Object Storage 服务的成本。

手术失败是否收费？

失败的操作不计费。成功的操作和用户取消的操作都会计费，但用户取消的操作会根据已完成的处理按比例计费。

什么是数据生成？

数据生成是根据 QNA 文件中的问题和答案生成问题和答案的过程。

什么是模型培训？

培训就是学习问题和答案的过程。培训从知识和基础技能开始，然后是作曲技能。

运行需要多长时间？

数据生成和模型训练都需要大量时间才能完成。启动进程时，您可以在控制台中找到一般估计值。

影响完成时间的因素：

知识文件的内容
队列中其他工作的数量

数据生成需要多长时间？

排队后，数据生成通常需要 2-6 个小时运行。一般的估算公式是，将输出令牌的数量除以每秒约 5000 个令牌，再除以每分钟 60 秒，最后除以每小时 60 分钟。

Tokens / 5000 / 60 / 60 = Number of hours

模型培训需要多长时间？

对于模型训练，一般的计算公式是将输出标记的数量除以每秒约 4000 个标记，除以每分钟 60 秒，再除以每小时 60 分钟。

Tokens / 4000 / 60 / 60 = Number of hours

我可以导入自己的训练数据吗？

是的，您可以导入自己的训练数据。导入自己的培训数据对各种用例都有好处，可帮助您在混合环境中优化性能和效率。

根据您的特定需求培训模型，并保持对数据源的控制，无论数据源是在企业内部还是在 IBM Cloud.
以较小的、可管理的数据块生成数据，从而避免超时或系统限制。之后，您可以将这些较小的数据集合并成一个数据集，用于训练。
将以前生成的训练数据与新数据相结合，这样就能利用现有知识和新获得的知识迭代地重新训练模型。

其他用例：

生成数据时，可导入一个或多个知识和技能文档。
将多个训练数据合并为一个。
生成数据，下载数据，然后处理数据的一个分节并重新生成。
将之前生成的数据与新导入的数据相结合。
导入数据、生成训练数据，然后将这些数据与另一次数据生成运行相结合。
将重放缓冲区和从分类法中导入的数据结合起来。此功能只能通过 API 或 CLI 使用。
从分类法中导入数据并生成训练数据。此功能只能通过 API 或 CLI 使用。