자주 묻는 질문 Red Hat AI InstructLab

InstructLab 에 대한 다음 자주 묻는 질문 검토하세요. IBM Cloud® 에 대한 모든 자주 묻는 질문 확인하려면 자주 묻는 질문 라이브러리 을 참조하세요.

InstructLab의 개념

InstructLab 는 Red Hat Enterprise Linux AI에서 제공하는 안전한 비공개 생성 AI 솔루션으로, IBM Cloud 에서 사용할 수 있습니다. 이를 통해 사용자는 데이터와 모델에 대한 소유권을 유지하고, 고유한 비즈니스 데이터를 혁신에 활용하며, 치명적인 망각의 위험을 최소화할 수 있습니다.

제너레이티브 AI 솔루션에 InstructLab 을 사용해야 하는 이유는 무엇인가요?

InstructLab 는 제너레이티브 AI 솔루션에 몇 가지 이점을 제공합니다. 첫째, 데이터와 모델 모두에 대한 소유권을 유지하여 데이터 사용 방식과 모델 성능을 제어할 수 있습니다. 둘째, 고유한 비즈니스 데이터를 활용하여 AI 기반 솔루션을 만들어 효율성을 높이고 혁신을 주도할 수 있습니다. 셋째, 내장된 Granite 모델을 새로운 기술과 지식 학습의 기초로 사용하여 치명적인 망각의 위험을 최소화합니다. 넷째, IBM Cloud 에서 서비스 형태로 제공되므로 필요한 만큼만 비용을 지불하여 불필요한 비용을 절감하고, 더 간단하고 빠르며 경제적인 모델을 제공하여 IT 지출을 최적화할 수 있습니다.

IBM Cloud 에서 InstructLab 의 장점은 무엇인가요?

InstructLab IBM Cloud 에서 다음과 같은 여러 가지 혜택을 제공합니다:

데이터 소유권: 사용자는 데이터와 모델 모두에 대한 소유권을 보유하므로 데이터와 모델을 제어할 수 있습니다.
고유한 비즈니스 데이터 활용: 사용자는 고유한 비즈니스 데이터를 사용하여 AI 기반 솔루션을 만들어 효율성을 높이고 혁신을 주도할 수 있습니다.
치명적인 망각의 위험 최소화: InstructLab 는 Granite 모델을 새로운 기술과 지식 학습의 기초로 사용하여 새로운 정보를 학습할 때 이전에 학습한 정보를 잃어버릴 위험을 최소화합니다.
안전하고 최신 상태이며 사용 가능: InstructLab 는 IBM Cloud 에서 서비스로 제공되어 사용자가 불필요한 비용을 절감하고 IT 지출을 최적화할 수 있도록 지원합니다.
데이터 이동성: 사용자는 콘텐츠와 구성을 다른 인프라로 내보낼 수 있습니다.
엔터프라이즈급 클라우드 인프라: InstructLab 는 비즈니스 크리티컬 워크로드의 엄격한 요구 사항을 충족하도록 설계된 IBM Cloud 의 견고하고 안전한 인프라를 사용합니다.
유연성: InstructLab 는 다양한 하드웨어 프로필, VMware 컴퓨팅 가속기, 1시간 이내에 새로운 용량을 확장할 수 있는 기능을 제공합니다.
고급 클라우드 서비스: IBM Cloud 는 최신 GPU에 대한 액세스를 제공하고 IBM watsonx 서비스 세대 AI, 추론, 머신 러닝을 통해 비즈니스 프로세스의 혁신을 빠르게 추적할 수 있습니다.

Granite 모델이란 무엇인가요?

목적에 적합하고 오픈 소스인 이 엔터프라이즈용 멀티모달 모델은 안전 벤치마크와 사이버 보안에서 RAG에 이르는 광범위한 엔터프라이즈 업무에 걸쳐 탁월한 성능을 제공합니다.

InstructLab 어떤 Granite 모델을 사용하나요?

InstructLab granite-3.1-8b-starter-v2.1 모델을 사용합니다.

분류법이란 무엇인가요?

분류법은 모델에 공급하는 데이터로 구성된 파일 디렉터리입니다. 분류 체계 '트리'의 각 하위 디렉터리 또는 '가지'는 관련 데이터를 포함하는 파일 집합인 '리프 노드'로 끝나는 계단식 구조로 구성되어 있습니다. 완전히 새로운 '브랜치'를 추가하거나 기존 qna.yaml 파일에 새 데이터를 추가하여 분류 체계에 기여할 수 있습니다. 분류 체계에 대한 자세한 내용은 InstructLab 의 분류 체계 구성 방법을 참조하세요. GitHub 에서 InstructLab 분류법을 확인할 수도 있습니다.

분류 체계 유효성 검사는 어떻게 이루어지나요?

InstructLab 에 분류법을 업로드하면 확인이 수행됩니다:

ilab diff 명령을 사용하여 qna.yaml 파일의 서식과 구문을 확인합니다.
qna.yaml 파일에 참조된 지식 및 기술 문서를 복제하려고 시도합니다.
Object Storage 및 Secrets Manager 과 같은 올바른 서비스 권한이 설정되어 있는지 확인합니다.

비용 청구는 어떻게 적용됩니까?

비용은 Red Hat AI InstructLab 및 저장 위치로 사용되는 IBM Cloud® Object Storage 서비스 사용으로 인해 비용이 발생합니다.

다른 서비스에 모델을 배포하기로 선택한 경우 해당 서비스에서도 추가 요금이 발생할 수 있습니다.

Red Hat AI InstructLab 에서 비용은 어떻게 계산되나요?

Red Hat AI InstructLab 사용 비용은 토큰으로 측정되는 두 가지 메트릭을 기반으로 합니다. 각 토큰은 처리 작업에 필요한 특정 양의 연산 능력에 해당합니다. 소비되는 총 토큰 수는 데이터 생성 규모나 모델 미세 조정에 직접적인 영향을 미칩니다. 이 지표는 청구 시스템의 기초가 되며, 사용자가 사용한 컴퓨팅 리소스에 따라 비용을 모니터링하고 제어할 수 있게 해줍니다. 합성 데이터 생성(SDG) 및 모델 정렬을 위해 처리되는 토큰은 별도로 청구됩니다.

합성 데이터 생성(SDG): 출력 토큰(SYN-DATA-TOKEN)은 전체 입력 분류체계에서 서비스에서 생성된 데이터의 양으로 계산됩니다. 텍스트는 Hugging Face 의 토큰화 라이브러리를 사용하여 미스트랄 교사 모델에 대한 토큰화 정보와 함께 토큰화됩니다.
모델 정렬 교육: 입력 토큰(MODEL-TRAIN-TOKEN)은 모델 정렬 학습을 위해 시스템에 공급되는 데이터의 양과 지식 손실 없이 정확도를 높이는 데 사용되는 Granite 기본 지식을 기반으로 계산됩니다. 기본 지식이 사용되기 때문에 최소한의 비용으로 이용할 수 있습니다.

이동하면서 비용 정보를 찾고 추적하려면 어떻게 해야 하나요?

Red Hat AI InstructLab 에서 실행을 시작하기 전에 비용 견적기를 사용하여 예상 비용을 확인할 수 있습니다.
분류법 업로드
데이터 생성에 대한 세부 사항을 설정할 때는 작업을 시작하기 전에 예상 비용을 검토하세요.
데이터가 생성된 후에는 해당 데이터 생성에 대한 세부 정보에서 예상 출력 토큰을 볼 수도 있습니다.
교육 작업에 대한 세부 정보를 설정할 때 작업을 시작하기 전에 예상 비용을 검토하세요.
작업이 완료되면 청구 및 사용량에서 실제 비용을 검토할 수 있습니다. Red Hat AI InstructLab 및 저장 위치로 사용되는 IBM Cloud® Object Storage 서비스의 비용을 확인할 수 있습니다.

실패한 작업에 대한 비용이 청구되나요?

실패한 작업은 청구되지 않습니다. 성공한 작업과 사용자가 취소한 작업은 청구되지만, 사용자가 취소한 작업은 완료된 처리를 기준으로 비례 배분하여 청구됩니다.

데이터 생성이란 무엇인가요?

데이터 생성은 QNA 파일에 포함된 질문과 답변을 기반으로 질문과 답변을 생성하는 프로세스입니다.

모델 트레이닝이란 무엇인가요?

교육은 질문과 답변을 학습하는 과정입니다. 교육은 지식과 기초 기술부터 시작하여 작곡 기술로 넘어갑니다.

실행하는 데 시간이 얼마나 걸리나요?

데이터 생성과 모델 트레이닝 모두 완료하는 데 상당한 시간이 걸립니다. 프로세스를 시작할 때 콘솔에서 일반적인 견적을 확인할 수 있습니다.

완료 시간에 영향을 미치는 요인:

지식창고의 내용
대기열에 있는 다른 작업의 수

데이터 생성에는 시간이 얼마나 걸리나요?

대기열에서 데이터를 생성하는 데 보통 2~6시간이 걸립니다. 일반적인 공식은 출력 토큰 수를 초당 약 5000개로 나누고, 이를 분당 60초로 나눈 다음, 1시간을 60분으로 나누는 것입니다.

Tokens / 5000 / 60 / 60 = Number of hours

모델 교육은 얼마나 걸리나요?

모델 학습의 경우, 일반적인 공식은 출력 토큰 수를 초당 약 4000개로 나누고, 이를 분당 60초로 나눈 다음, 1시간을 60분으로 나눈 값으로 계산하는 것입니다.

Tokens / 4000 / 60 / 60 = Number of hours

내 교육 데이터를 가져올 수 있나요?

예, 자체 교육 데이터를 가져올 수 있습니다. 자체 교육 데이터를 가져오면 다양한 사용 사례에 유용하며 하이브리드 환경 전반에서 성능과 효율성을 최적화하는 데 도움이 될 수 있습니다.

온프레미스든 IBM Cloud 에서든 특정 요구 사항에 맞게 모델을 학습하고 데이터 소스에 대한 제어를 유지합니다.
데이터를 관리하기 쉬운 작은 덩어리로 생성하여 시간 초과나 시스템 제한을 피할 수 있습니다. 나중에 이러한 작은 데이터 집합을 하나의 데이터 집합으로 결합하여 학습할 수 있습니다.
이전에 생성된 학습 데이터와 새로운 데이터를 결합하여 기존 지식과 새로 습득한 지식을 모두 사용하여 모델을 반복적으로 재학습할 수 있습니다.

기타 사용 사례:

데이터를 생성할 때 하나 또는 여러 개의 지식 및 기술 문서를 가져옵니다.
여러 훈련 데이터 실행을 하나로 결합합니다.
데이터를 생성하고 다운로드한 다음 데이터의 하위 섹션을 조작하고 다시 생성합니다.
이전에 생성한 데이터를 새로 가져온 데이터와 결합합니다.
데이터를 가져와서 학습 데이터를 생성한 다음, 해당 데이터를 다른 데이터 생성 실행과 결합합니다.
분류 체계에서 리플레이 버퍼와 가져온 데이터를 결합합니다. 이 기능은 API 또는 CLI를 통해서만 사용할 수 있습니다.
데이터를 가져와 분류 체계에서 학습 데이터를 생성합니다. 이 기능은 API 또는 CLI를 통해서만 사용할 수 있습니다.