이 문서는 IBM Watson® Knowledge Studio on IBM Cloud®에 대한 문서입니다. Knowledge Studio on IBM Marketplace의 이전 버전에 대한 문서를 보려면 이 링크를 클릭하십시오.
작업공간 작성
사용자 정의 모델 빌드의 첫 번째 단계는 작업공간을 작성하는 것입니다.
이 태스크에 대한 정보
사용자는 빌드하여 사용할 각 모델에 대해, 모델을 빌드하는 데 필요한 아티팩트 및 리소스를 포함하는 하나의 작업공간을 작성합니다. 그 후 모델을 훈련시켜, 사용하기 위해 외부 서비스에 배치할 수 있는 사용자 정의 모델을 작성합니다.
작업공간을 작성하기 전에 다음 질문에 응답하십시오.
-
어떤 유형의 모델을 작성할 것입니까?
- 기계 학습 모델: 통계적 접근법을 사용하여 문서 내에서 엔티티 및 관계를 찾습니다. 이 유형의 모델은 데이터 양의 변화에 적응할 수 있습니다.
- 규칙 기반 모델: 선언적 접근법을 사용하여 문서 내에서 엔티티를 찾습니다. 이 유형의 모델은 예측, 이해 및 유지보수가 더 용이합니다. 그러나 새 데이터로부터 학습하지는 않습니다. 이 모델은 찾도록 훈련된 패턴만 발견할 수 있습니다.
- 고급 규칙 모델: 규칙 기반 모델보다 자세한 텍스트 분석 사용자 정의를 제공합니다. 지시사항은 고급 규칙 모델 작성을 참조하십시오.
하나의 규칙 기반 모델과 하나의 기계 학습 모델을 모두 포함하는 하나의 작업공간을 작성할 수도 있습니다.
-
어떤 서비스가 모델을 사용합니까?
사용자 정의 모델과 함께 사용할 수 있는 기타 Watson 서비스에 대한 정보는 Watson 서비스 통합을 참조하십시오.
절차
작업공간을 작성하려면 다음 단계를 완료하십시오.
-
Knowledge Studio 관리자로 로그인하여 작업공간 작성을 클릭하십시오.
프로젝트 관리자 역할이 있는 사용자는 작업공간 작성을 제외한 거의 모든 태스크를 수행할 수 있습니다. 관리자가 먼저 작업공간을 작성한 후 여기에 프로젝트 관리자를 지정해야 합니다.
-
작업공간에 이름을 지정하십시오. 도메인 컨텐츠 또는 모델의 용도를 나타내는 간단한 이름을 선택하십시오. 필요한 경우에는 작업공간 이름을 나중에 변경할 수 있습니다.
-
작업공간의 문서에서 사용하는 언어를 식별하십시오. 작업공간에 추가하는 문서, 그리고 작성하거나 업로드하는 사전은 지정하는 언어로 되어 있어야 합니다.
-
선택사항: 애플리케이션이 사용하는 토크나이저를 기본 기계 학습 기반 토크나이저에서 변경하려는 경우에는 고급 옵션 섹션을 펼치고 사전 기반 토크나이저를 선택하십시오.
기본 토크나이저는 사전 기반 토크나이저보다 더 발전된 것으로, 기계 학습 기능을 사용하여 소스 문서의 언어로 수행된 통계적 학습을 기반으로 소스 문서의 토큰을 식별합니다. 이는 언어의 더 자연스럽고 미묘한 패턴을 이해하므로 토큰을 더 정확하게 식별합니다. 사전 기반 토크나이저는 언어 규칙을 기반으로 합니다. 세부사항은 토크나이저를 참조하십시오.
-
선택사항: 작업공간에 프로젝트 관리자를 추가하려는 경우에는 고급 옵션 섹션을 펼치고 프로젝트 관리자로 추가할 사용자의 이름을 목록에서 선택하십시오. 관리자는 작업공간을 편집하여 나중에 프로젝트 관리자를 추가하거나 제거할 수 있습니다.
인스턴스의 사용자 계정 관리 페이지에서 프로젝트 관리자 역할에 지정한 사용자의 이름만 표시됩니다. 사용자 추가에 대한 자세한 정보는 팀 구성을 참조하십시오.
Lite 플랜 구독이 있는 경우 이 단계를 건너뛰십시오. 이러한 사용자는 다른 사용자를 추가할 수 없으므로 다른 사용자에게 프로젝트 관리자 역할을 지정할 수 없습니다. 이러한 사용자는 별도의 프로젝트 관리자가 필요하지 않습니다. 관리자인 경우에는 프로젝트 관리자가 일반적으로 수행하는 모든 태스크를 수행할 수 있습니다.
-
작성을 클릭하십시오.
다음에 수행할 작업
작업공간이 작성되면 작업공간 리소스 구성을 시작할 수 있습니다.
관리자는 나중에 작업공간 설명 또는 작업공간 이름을 변경하거나, 프로젝트 관리자를 추가하거나 제거하기 위해 작업공간을 편집할 수 있습니다. Knowledge Studio 홈 페이지의 작업공간 타일에서 메뉴 표시 아이콘을 클릭하고 편집 메뉴 옵션을 선택하십시오.
관련 개념:
관련 참조:
토크나이저
토크나이저는 문자를 토큰으로, 토큰을 문장으로 그룹화합니다. 토큰은 단어와 막연히 동격입니다.
토크나이저가 문서의 토큰을 식별하기 위해 취해야 하는 조치는 문서의 언어에 따라 달라집니다. 영어의 경우 토큰은 보통 문장에서 공백으로 구분된 단어와 동일시됩니다. 그러나 토큰이 항상 단어와 일대일로 일치하는 것은 아니며, 일부 경우에는 다른 텍스트 요소 또한 토큰으로 간주됩니다. 예를 들어, 문장 끝의 마침표는 토큰으로 간주되며, 축약형은 보통 두 개의 토큰으로 확장됩니다. 중국어와 같이 공백을 사용하지 않는 언어의 경우에는 토큰을 식별하는 데 더 복잡한 통계적 알고리즘이 사용됩니다.
토큰화 프로세스는 기준 실제값 편집기에서 어노테이션을 위해 강조표시할 수 있는 문자 그룹을 결정하므로 중요합니다. 엔티티 및 관계 멘션의 어노테이션은 일반적으로 토큰 경계와 맞춰지며, 문장 내에서 레이블 지정되어야 합니다. 문장 경계를 벗어날 수는 없습니다.
지원되는 유형
Knowledge Studio는 다음 토크나이저를 지원합니다.
-
기계 학습 기반 토크나이저(기본값)
이는 소스 문서의 언어로 수행된 통계적 학습을 기반으로 소스 문서의 토큰을 식별하는 더 발전된 토크나이저입니다. 이 토크나이저는 언어의 더 자연스럽고 미묘한 패턴을 담은 토큰을 찾습니다. 이 토크나이저는 사용자 정의할 수 없습니다.
-
사전 기반 토크나이저
이 토크나이저는 언어 사전을 기반으로 합니다. 이는 소스 문서 언어의 규칙을 따르는 토큰을 찾습니다. 고급 사용자만 이 토크나이저를 사용자 정의할 수 있습니다.
작업공간을 작성할 때 사용할 토크나이저를 선택해야 합니다. 나중에 다른 토크나이저로 전환할 수는 없습니다. 최선의 결과를 위해서는 기본 토크나이저를 사용하십시오. 결정론적 사전 메커니즘을 통해 토크나이저 작동을 수정하려는 고급 사용자만 사전 기반 토크나이저를 선택할 수 있습니다. 이러한 사용자는 그 후 사전에 새 항목을 추가하여 해당 토크나이저를 사용자 정의할 수 있습니다. 그러나 사전에 새 단어를 추가하면 변경사항이 기계 학습 모델에 의도하지 않은 방식으로 영향을 줄 수 있으므로 사용자 정의는 주의하여 수행해야 합니다.
입력, 출력 및 제한사항 요약
다양한 모델 개발 단계는 다양한 입력을 필요로 하며 다양한 결과를 작성합니다.
이 표에는 각 모델 개발 프로세스 단계에서 일반적으로 수행하는 활동, 지원되는 입력 파일 형식, 작성될 수 있는 출력, 크기 한계 및 기타 요구사항이 요약되어 있습니다.
모든 모델 유형
표 1: 모든 모델 유형| 태스크 | 일반적인 사용 | 지원되는 입력 형식 | 지원되는 출력 형식 | 제한 및 요구사항 | | --- | --- | --- | --- | --- | | 유형 시스템 관리 | 유형 시스템을 작성하거나 기존 유형 시스템을 업로드 및 수정하십시오. 도메인에 대한 엔티티 유형 및 관계 유형을 정의합니다. 유형 시스템의 시각화를 볼 수 없습니다. |
- Knowledge Studio 작업공간에서 다운로드한 JSON 파일입니다.
- HAT(Human Annotation Tool)에서 다운로드한 ZIP 파일
- UTF-8 형식의 CSV 파일
- 다른 작업공간에서 다운로드한 사전의 ZIP 파일
- UTF-8 형식의 CSV 파일
- UTF-8 형식의 CSV 파일
- 다른 작업공간에서 사용할 사전의 ZIP 파일
- CSV 용어 항목 파일당 1MB
- CSV 읽기 전용 사전 파일당 16MB
- 사전당 15,000개 항목(읽기 전용 사전 제외)
- 작업공간당 64개 사전
기계 학습 모델
표 2: 기계 학습 모델| 태스크 | 일반적인 사용 | 지원되는 입력 형식 | 지원되는 출력 형식 | 제한 및 요구사항 | | --- | --- | --- | --- | --- | | 문서 관리 | 사용자 어노테이터, 기계 학습 모델 또는 UIMA 분석 엔진이 이전에 추가한 어노테이션이 있는 문서 업로드 문서의 작은 대표 서브세트를 업로드합니다. 주석에 대한 높은 값 문서를 계산하기 위해 IBM Watson 탐색기에서 전체 코퍼스를 수집할 수 없습니다. |
- UTF-8 형식의 CSV 파일
- UTF-8 형식의 텍스트 파일
- HTML
- PDF 파일(스캔 및 비밀번호 보호 파일은 지원되지 않음)
- Microsoft Word DOC 또는 DOCX 파일(비밀번호 보호 파일은 지원되지 않음)
- 다른 작업공간에서 다운로드된 문서가 포함된 ZIP 파일
- UIMA CAS XMI 형식의 문서를 포함하는 ZIP 파일
- 문서당 40,000자
- 작업공간당 10,000개 문서
- 작업공간당 1,000개 문서 세트(어노테이션 세트 포함)
- 파일당 5MB 및 업로드당 200MB(TXT, PDF, DOC, DOCX 및 HTML 파일)
You cannot re-annotate a corpus from IBM Watson Explorer. | Raw documents.
노트: Do not pre-annotate documents that a human annotator has already annotated, or you will lose the work done by the human annotator.| Partly-annotated documents | None | | 문서 어노테이션 | 사용자 어노테이션 관리. 엔티티, 관계 및 코어 추론에 어노테이션을 작성하여 근거 정보 작성 | 어노테이션 작업 | 접지 진실 |
- 작업공간당 256개의 활성 어노테이션 태스크
- 작업공간당 1개 기계 학습 모델
- 작업공간당 10개 모델 버전
- 배치에 따라 최대 작업공간 수가 결정됩니다.
- 매월 수행할 수 있는 최대 교육 작업 수는 배포에 따라 결정됩니다.
- ZIP 파일
규칙 기반 모델
표 3: 규칙 기반 모델| 태스크 | 일반적인 사용 | 지원되는 입력 형식 | 지원되는 출력 형식 | 제한 및 요구사항 | | --- | --- | --- | --- | --- | | 규칙 편집기 | 클래스, 정규식 및 규칙을 정의하는 규칙 편집기에 문서를 작성하거나 업로드합니다. |
- 일반 텍스트(편집기에서 추가됨)
- UTF-8 형식의 CSV 파일
- 모든 문서 세트에서 복사됨
- 작업공간당 1개 규칙 기반 모델
- 문서당 5,000자
- 작업공간당 100개 문서
- 문서 제목의 최대 길이는 256자
- 작업공간당 200개 규칙
- 작업공간당 400개 클래스
- 작업공간당 100개 정규식 그룹
- 정규식 그룹당 100개 정규식 항목
- 정규식 항목당 1,000자
- 작업공간당 5개 규칙 기반 모델 버전
- PEAR 파일