사용자 정의 엔티티 정의
엔티티 추출기를 작성하여 비즈니스에 중요한 용어에 대해 Discovery 에 알리십시오.
엔티티 추출기 는 비즈니스 요구 또는 유스 케이스에 중요하다고 표시하는 용어를 인식하고 태그를 지정하는 기계 학습 모델입니다. 엔티티 추출기를 작성할 때 찾아서 추출할 정보의 컨텐츠 및 범위를 결정해야 합니다. 추출기는 다음 중 하나를 추출할 수 있습니다.
- 오브젝트를 나타내는 용어 (예: 요리 레시피의 채소 이름 또는 사고 보고서의 자동차 작성 및 모델)
- 오브젝트의 속성 (예: 색상 및 수량)
- 짧은 구문 (예:
107 deaths in France
,revenue of $343M
)
엔티티 유형 은 사물의 유형입니다. 엔티티 추출기를 작성하려면 관심 있는 엔티티 유형 세트를 정의합니다. 그런 다음 추출하려는 정보의 유형을 나타내는 용어 또는 구문을 찾고 이를 엔티티 예제로 레이블 지정하여 자체 문서의 콜렉션에 어노테이션을 작성합니다.
엔티티 유형 및 레이블 엔티티 예제를 정의한 후에는 기계 학습 모델을 생성할 수 있습니다. 모델은 사용자가 예제로 레이블 지정한 용어 또는 구문이 문장에서 참조되는 방식을 기반으로 사용자가 관심을 갖는 정보에 대해 학습합니다. 모델은 엔티티 예제가 훈련 데이터에서 참조되는 컨텍스트 및 언어에서 학습합니다.
기계 학습 모델이 엔티티 유형을 인식할 수 있을 정도로 잘 훈련된 후에는 모델을 인리치먼트로 공개하고 인리치먼트를 새 문서에 적용할 수 있습니다. 사용자 정의 엔티티 추출기 인리치먼트는 사용자가 관심을 갖는 엔티티 유형의 발생과 동일하고 유사한 용어의 새 멘션을 인식하고 태그를 지정합니다.
엔티티 추출기를 사용하여 AI 애플리케이션에 도메인 사용자 정의를 추가하는 방법에 대한 자세한 정보는 Watson Discovery v2 의 엔티티 추출기 기능 블로그 게시물을 참조하십시오.
Discovery 에는 콜렉션에 직접 적용할 수 있는 내장 엔티티 인리치먼트도 있습니다. 일반적으로 알려진 고유 명사를 인식하기 위해 어떠한 훈련도 필요하지 않습니다. Watson NLP 엔티티 인리치먼트에 대한 자세한 정보는 엔티티 를 참조하십시오.
Knowledge Studio에서 이미 엔티티 유형 시스템을 빌드했습니까? 머신 러닝 모델과 연관된 말뭉치를 엔티티 추출기 훈련 데이터의 시작점으로 사용할 수 있습니다. 자세한 정보는 말뭉치 가져오기 를 참조하십시오.
엔티티 추출기를 사용할 수 있는 언어에 대한 정보는 언어 지원 을 참조하십시오.
엔티티 추출기 개요 비디오
이 비디오는 사용자 정의 엔티티 유형을 정의한 후 이를 사용하여 데이터에서 원하는 용어를 추출하는 방법에 대한 개요를 제공합니다.
YouTube.com에서 동영상 열기 동영상의 대화 내용을 읽으려면 추가 조치 아이콘을 클릭한 다음 대화 내용 열기를 선택하십시오.
예
기본 제공 엔티티 인리치먼트에 익숙한 경우, 인리치먼트가 Person
및 Location
와 같은 일반화된 카테고리와 일치하는 용어를 인식할 수 있음을 알 수 있습니다. 엔티티 추출기를 사용하여 의미 있는 용어 또는 구문을 구성하는 항목을 제어합니다.
다음 이미지는 family members
엔티티 유형 멘션을 인식하는 인리치먼트가 텍스트에서 추출할 수 있는 용어를 표시합니다. 이 예는 가족 구성원이 멘션 및 기타 엔티티 멘션 (기본 제공 엔티티 인리치먼트에서 인식됨) 이 둘 다 예측될 수 있는 방법을 설명합니다.

이 발췌 부분은 제인 오스틴이 작성한 오만과 편견 의 제3장에서 발췌한 것입니다.
시작하기 전에
Discovery에서 학습할 엔티티 유형의 다양한 예제가 있는 문서가 있는 콜렉션을 찾거나 작성하십시오. 추출기를 학습하려면 엔티티 유형의 예제에 레이블을 지정해야 합니다. 콜렉션에 올바른 예제가 포함된 경우에만 예제에 레이블을 지정할 수 있습니다. 정의하려는 모든 엔티티 유형의 예로 사용되는 여러 용어가 있는 문서를 찾으십시오.
엔티티 추출기 추가
엔티티 추출기를 추가하려면 다음 단계를 완료하십시오
-
엔티티 추출기를 생성할 프로젝트를 엽니다.
프로젝트에는 도메인 데이터를 나타내는 문서가 있는 하나 이상의 콜렉션이 있어야 합니다.
-
개선 및 사용자 정의 페이지의 개선 도구 패널에서 각 도메인 개념을 펼친 후 엔티티 추출을 클릭하십시오.
-
새로 작성을 클릭하십시오.
IBM Watson® Knowledge Studio 말뭉치에서 엔티티 유형 시스템을 기반으로 하는 엔티티 추출기를 작성하려면 화살표를 클릭한 후 Knowledge Studio 말뭉치 가져오기를 선택하십시오. 다음 단계는 Knowledge Studio 말뭉치 가져오기 를 참조하십시오.
-
추출기 이름 및 선택적으로 설명을 추가하십시오.
이 이름은 모델을 공개할 때 작성되는 인리치먼트의 이름 및 모델 이름으로 사용됩니다. 이 이름은 사용자 및 다른 사용자가 콜렉션에 적용할 수 있는 인리치먼트 페이지에서 인리치먼트 이름으로 표시됩니다. 또한 사용자 정의 엔티티가 있는 문서의 JSON 표시에서 모델 이름으로 표시됩니다. 이름은 사용자가 지정하는 대소문자 및 간격으로 저장됩니다.
-
도메인 데이터를 나타내는 문서가 있는 콜렉션을 선택하십시오.
-
콜렉션에서 문서에 레이블을 지정할 문서 보기에 표시할 필드를 문서에서 선택하십시오.
- 문서 제목 은 페이지 헤더에 문서 이름으로 표시됩니다.
extracted_metadata.filename
필드에 저장된 파일 이름과 같이 문서당 고유한 값을 갖는 필드를 선택하십시오. - 문서 본문 은 엔티티 예제의 레이블을 지정하는 위치입니다. 대량의 문서 컨텐츠를 포함하는 필드를 선택하십시오 (예:
text
필드).
Label documents page - 문서 제목 은 페이지 헤더에 문서 이름으로 표시됩니다.
-
작성을 클릭하십시오.
선택한 콜렉션의 문서가 레이블 문서 보기에 표시됩니다. 이 문서 및 콜렉션의 다른 문서에서 발견이 인식할 엔티티 유형의 발생에 레이블을 지정합니다.
페이지의 본문에 텍스트가 표시되지 않으면 새 엔티티 추출기를 작성하여 지금 시작하십시오. 이번에는 문서 본문 필드의 값을 선택할 때 텍스트를 포함하는 처리된 문서에서 필드를 선택해야 합니다.
엔티티 유형 정의
다음 단계를 완료하여 엔티티 유형을 정의하십시오.
-
엔티티 유형 추가를 클릭하십시오.
-
엔티티 유형 이름 및 선택적 설명을 추가하십시오.
데이터에 대해 작동하는 이름 지정 규칙을 사용하십시오. 기본 제공 엔티티 인리치먼트는 초기 대문자를 사용하고 공백을 사용하지 않습니다 (예:
EmailAddress
). 다른 인리치먼트에서 추출한 엔티티와 엔티티를 구별하기 위해 다른 규칙을 사용할 수 있습니다. -
선택사항: 이 엔티티 유형의 예로 레이블을 지정할 문서에서 텍스트를 강조표시하는 데 사용할 색상을 선택하십시오.
레이블 색상 팔레트에서 색상을 클릭하고 색상 갱신 아이콘을 클릭하여 한 색상에서 다음 색상으로 탭 이동할 수 있습니다. 사용자 정의 색상을 사용하려면 16진색상 코드 (#fff0f7) 를 지정하십시오.
-
작성을 클릭하십시오.
-
추출기에서 인식할 모든 엔티티 유형을 추가하려면 이 프로세스를 반복하십시오.
엔티티 유형에 대해 무엇을 추가해야 할지 확실하지 않은 경우 먼저 콜렉션의 문서를 검토하는 것이 도움이 될 수 있습니다. 컨텐츠를 검토하여 의미가 중요한 용어를 파악하고 이러한 용어를 그룹화하는 논리적인 방법을 찾을 수 있습니다.
레이블 유의수준 항
레이블 문서 보기에서 콜렉션의 문서에 있는 중요한 용어를 찾아 해당 엔티티 유형을 표시하도록 레이블을 지정하십시오.
문서 레이블 지정을 시작하기 전에 대량 레이블 지정을 계속 사용할지 여부를 결정하십시오. 벌크 레이블 기능은 문서에 레이블을 지정하는 프로세스의 속도를 높이는 좋은 방법입니다. 사용으로 설정하면 레이블을 지정한 모든 용어가 문서에서 발생하는 모든 위치에서 자동으로 레이블이 지정됩니다. 그렇지 않으면 한 번에 하나씩 용어의 각 발생에 레이블을 지정해야 합니다.
예제에 벌크 레이블을 지정하지 않으려면 벌크 레이블 엔티티 예제 스위치를 해제로 설정하십시오. 자세한 정보는 예제를 대량으로 레이블 지정 을 참조하십시오.
레이블 지정 팁
시작하기 전에 다음 팁을 검토하십시오.
- 레이블을 지정하는 문서 콜렉션에는 대표적인 문서 세트가 포함되어야 합니다. 문서에는 엔티티 추출기에서 인식할 엔티티 유형의 여러 가지 다양한 예제가 있어야 합니다. 엔티티 추출기를 작성하기 위해 시작할 때 선택한 콜렉션이 요구사항을 충족하지 않으면 지금 중지하고 다른 문서 콜렉션으로 다시 시작하십시오.
- 서로 명확하게 구별되는 엔티티 유형을 정의하십시오.
- 각 엔티티 유형의 40개이상의 예제에 레이블을 지정하는 것을 목표로 합니다.
- 엔티티 유형의 유효한 모든 예제에 레이블을 지정하십시오. 어떤 항목도 건너뛰지 마십시오. 프로세스 속도를 높이려면 벌크 레이블 기능을 사용하십시오.
엔티티 레이블 지정 예제
사용자가 정의한 엔티티 유형의 예를 나타내는 문서의 용어에 레이블을 지정하십시오. 하나의 문서를 완료하면 문서 상태를 진행 중 에서 완료로 전환한 후 다음 문서로 이동하십시오.
엔티티 예제에 레이블을 지정하려면 다음 단계를 완료하십시오.
-
문서의 텍스트를 검토하십시오. 레이블을 지정할 엔티티 예제를 찾으십시오.
다음 표는 몇 가지 예를 보여줍니다.
엔티티 유형 및 예제 엔티티 유형 문서에서 레이블을 지정하기 위한 예제 색상 흰색, 녹색, 보라색 car 컨버터블, SUV, 세단 AUTO_MODEL 탐색기, 시빅, 소렌도 자동 제조업체 포드, 혼다, 기아 의류 셔츠, 블라우스, 스키트 악기 채권, 주식, ETF, 문 식별하려는 엔티티 유형이 아직 작성되지 않은 경우 엔티티 유형을 추가하십시오. 엔티티 유형 패널에서 새로 작성을 클릭하십시오. 엔티티 유형 추가에 대한 자세한 정보는 엔티티 유형 정의 를 참조하십시오.
-
먼저 엔티티 유형 패널에서 엔티티 유형을 클릭하십시오.
-
문서 본문에서 엔티티 예제를 나타내는 단어 또는 구문을 선택하십시오.
조건이 선택되고 색상 레이블이 조건에 적용됩니다. 엔티티 유형 이름의 처음 두 문자는 레이블 경계 내에서 대문자 위첨자로 표시됩니다. 두 문자 ID및 레이블 색상 모두 예제를 표시하는 엔티티 유형과 연관시키는 데 도움이 됩니다.
A label is applied to an entity example 예제 텍스트도 엔티티 유형 패널에 추가됩니다. 세부사항을 보기 위해 셰브런을 클릭하면 예제가 나열되어 있음을 볼 수 있습니다. 예제 텍스트는 원래 텍스트에서 사용되는 대소문자에 관계없이 소문자로 저장됩니다.
-
벌크 레이블 지정을 사용하는 경우, 현재 문서에서 발견되고 레이블 지정된 용어의 발생 수를 표시하는 알림이 표시됩니다.
-
콜렉션의 모든 문서에서 용어의 발생에 레이블을 지정하려면 모든 문서에 적용을 클릭하십시오.
이 옵션을 사용으로 설정하면 이미 검토하고 완료로 표시한 문서를 포함하여 콜렉션의 모든 문서에서 용어의 발생에 레이블이 지정됩니다.
실행 취소할 수 없으므로 조치를 확인하도록 요청됩니다. 모든 문서에 대량 레이블 지정을 적용하도록 선택할 때마다 조치를 확인하지 않으려면 다시 확인을 요청하지 않음을 선택하십시오. 실행을 클릭하십시오.
Bulk labeling configuration confirmation 자세한 정보는 예제를 대량으로 레이블 지정 을 참조하십시오.
-
문서를 스크롤하여 추출기에서 인식할 모든 엔티티 유형의 모든 유효한 예제에 레이블을 지정하십시오.
엔티티 예제로 레이블을 지정할 용어를 검색할 수 있습니다. 자세한 정보는 키워드를 사용하여 예제 검색 을 참조하십시오.
기계 학습 모델은 사용자가 수행하는 용어만큼 레이블을 지정하지 않은 용어에서 많은 것을 학습합니다.
유효한 예제의 레이블 지정이 누락된 경우 모델은 해당 컨텍스트에서 용어가 사용될 때 엔티티 유형의 유효한 멘션이 아님을 알게 됩니다. 일부 경우에는 생략하는 것이 적절합니다. 예를 들어, 일부 용어는 다른 컨텍스트에서 다른 의미를 갖습니다. 잘못된 컨텍스트에서 사용되는 경우에는 용어에 레이블을 지정하지 않습니다. 그러나 용어가 올바른 컨텍스트에서 사용되고 레이블을 지정하지 않은 경우에는 이를 무시하도록 모델을 교육하는 것입니다. 훈련 데이터가 일치하지 않을 때 모델의 효율성을 줄입니다.
많은 예제에 레이블을 지정하면 엔티티 예제 제안사항이 표시됩니다. 엔티티 예제 제안을 승인하거나 거부할 수 있습니다.
Decide whether to accept a suggestion 예제 제안을 승인하는 것은 레이블 지정 프로세스의 속도를 높이는 또 다른 방법입니다. 자세한 정보는 엔티티 예제 제안 을 참조하십시오. 제안을 수락한 후에는 용어의 레이블을 대량으로 지정할 수 있습니다.
-
실수를 하여 잘못된 단어에 레이블을 지정하거나 대량 레이블 지정 프로세스에서 단어에 잘못 레이블을 지정한 경우 레이블을 삭제할 수 있습니다.
이 예제 삭제 옵션이 표시될 때까지 레이블 지정된 단어 위로 마우스를 이동한 후 클릭하십시오. 이 멘션만 삭제하거나 문서의 모든 멘션을 삭제하도록 선택할 수 있습니다. 선택한 후 삭제를 클릭하십시오.
-
현재 문서의 모든 엔티티 예제에 레이블을 지정한 후 문서 상태를 진행 중 에서 완료로 변경하십시오.
콜렉션의 다른 문서가 표시됩니다.
-
콜렉션의 각 문서에 있는 엔티티 유형의 예제에 레이블을 지정하십시오.
레이블 지정 프로세스 중 언제든지 엔티티 추출기 저장 을 클릭하여 작업을 저장할 수 있습니다.
-
현재 문서 세트에 충분한 예제가 없는 경우 문서를 더 추가할 수 있습니다.
문서 목록 패널에서 문서 추가를 클릭하십시오. 이 옵션은 콜렉션에서 더 많은 문서를 사용할 수 있는 경우에만 사용 가능합니다. 최대 20개의 문서를 추가할 수 있습니다. 모든 문서에 대해 대량 레이블 지정을 사용하는 경우 새로 추가된 문서에 자동으로 레이블이 적용됩니다.
-
콜렉션에서 원하는 수의 문서에 예제의 레이블을 지정한 후 엔티티 추출기 저장을 클릭하고 추출기 훈련 페이지를 여십시오.
키워드를 사용하여 예제 검색
검색 기능을 사용하여 문서에서 엔티티 예제를 찾아 쉽게 레이블을 지정할 수 있습니다. 또한 검색을 사용하여 레이블 지정된 예제 및 레이블 지정되지 않은 예제를 찾고 레이블 지정 불일치를 정정할 수 있습니다.
키워드를 사용하여 검색하려면 다음 단계를 완료하십시오.
-
레이블 문서 보기에서 찾기 아이콘을 클릭하십시오.
-
찾기 필드에 문서에서 검색할 키워드를 지정하십시오.
키워드를 입력하면 문서의 검색 결과가 표시됩니다.
검색 결과를 찾아보려면 다음 결과 및 이전 결과 아이콘을 클릭하십시오. 결과에서 레이블이 지정되지 않은 예제의 레이블을 선택하려면 레이블 편집 아이콘을 클릭하고 레이블을 선택하십시오. 레이블 편집 아이콘을 클릭하여 결과의 이미 레이블이 지정된 예제에서 레이블을 제거할 수도 있습니다.
-
검색 결과를 필터링하려면 필터 옵션 표시 아이콘을 클릭하십시오.
다음 표는 필터 옵션에 대한 설명입니다.
찾기의 필터 옵션 옵션 설명 모두 문서에서 키워드와 일치하는 모든 예제를 찾습니다. 레이블된 텍스트 키워드와 일치하는 문서에서 기존의 레이블 지정된 예제를 찾습니다. 레이블이 없는 텍스트 키워드와 일치하는 문서에서 레이블이 지정되지 않은 예제를 찾습니다. 대소문자 구분 키워드와 대소문자가 모두 일치하는 예제를 찾습니다. 전체 단어 키워드의 단어 경계와 일치하는 예제를 찾습니다. 예를 들어, york 를 키워드로 지정하면 이 옵션을 선택할 때 yorktown 이 일치하지 않습니다.
결과에서 레이블이 지정되지 않은 예제의 경우 레이블 제안을 승인하거나 거부할 수 있습니다.

겹치는 예제를 해결하려면 제안 검토 를 클릭하고 겹치는 엔티티 예제 제안 대화 상자에서 엔티티 예제 제안을 선택하십시오.

대량으로 예제 레이블 지정
대부분의 엔티티 예제에서는 벌크 레이블 기능을 사용하는 것이 유용합니다. 다른 컨텍스트에서 용어에 둘 이상의 의미가 있는 경우 이를 건너뛸 수 있습니다. 이 경우 각 발생을 개별적으로 평가하십시오. 벌크 레이블 기능을 사용하는 경우 자동으로 추가된 레이블의 정확성을 확인하고 필요한 경우 문서를 검토할 때 정정할 수 있습니다.
벌크 레이블 기능을 사용으로 설정하면 현재 문서에서 발견된 엔티티 예제의 발생 수를 나타내는 알림이 표시됩니다. 현재 페이지에서 레이블링 도구는 콜렉션의 다른 문서에 있는 발생 수를 보고하기 위해 다른 문서에 액세스할 수 없습니다. 그러나 멘션 개수는 엔티티 유형 패널에 표시됩니다. 다른 문서를 처음 열 때 멘션 수를 확인하여 자동으로 레이블이 지정된 멘션 수를 확인할 수 있습니다.
벌크 레이블 기능이 발생을 누락했습니까?
용어의 발생은 용어가 이미 레이블 지정된 동일한 구문에서 발생하는 경우 레이블 지정되지 않습니다. 예를 들어, 다음 문장에서 용어의 두 번째 발생에 대해 벌크 레이블 기능이 켜지면 용어 husband
의 첫 번째 발생에 레이블이 지정되지 않습니다.

엔티티 예제 제안
충분한 예제의 레이블을 지정하면 제안된 엔티티 유형 예제가 표시됩니다. 시스템은 사용자가 레이블을 지정하는 예제 유형에서 학습하고 학습하는 내용을 적용하여 잠재적인 새 예제를 식별합니다. 예를 들어, red
, orange
, yellow
, green
및 blue
를 color
엔티티 유형의
예제로 레이블 지정한 후 예제 제안사항 패널은 indigo
및 violet
를 제안된 예제로 표시하여 레이블을 지정할 수 있습니다. 엔티티 유형의 많은 예제에 레이블을 지정할 때까지 제안사항이 표시되지 않습니다.
다음 예제는 가족 구성원 멘션에 대해 작성된 제안을 보여줍니다.

벌크 레이블에 대해 선택한 용어는 레이블이 지정되지 않고 대신 제안으로 표시됨을 알 수 있습니다. 다음 상황에서는 용어를 건너뜁니다.
- 이 용어는 문서의 다른 섹션에 있는 다른 명사 구문에서 발생할 수 있습니다. 예를 들어,
father
라는 용어는 명사 구문the kindest *father*
및to her *father*
에서 발생할 수 있습니다. 단어가 형용사가 있는 명사 구문에 포함되면 의미가 변경될 수 있습니다. 따라서 이러한 용어는 자동으로 레이블이 지정되지 않고 제안되는 경우가 있습니다. - 단어는 그 자체로 그리고 복수 단어 멘션의 일부로서 유효한 예일 수 있습니다. 예를 들어,
IBM
이라는 언급은 *International Business Machines, Corp.*라는 회사를 지칭하거나 IBM Cloud Pak for Data처럼 제품 이름의 일부로 사용될 수 있습니다. 그러나, 단어 또는 구는 단지 하나의 예의 일부일 수 있다. 예제 레이블은 서로 겹칠 수 없습니다. 따라서 가장 정확한 예제 제안을 선택해야 합니다. 이 예에서 IBM라는 용어가 제품 이름의 일부로 사용되는 경우, 전체 문구를Product
엔티티 유형의 예로 레이블을 지정하는 것이 더 정확합니다. - 서비스는 용어가 둘 이상의 엔티티 유형의 가능한 예임을 인식할 수 있습니다. 예를 들어,
top
라는 단어는 최상의 또는 셔츠를 의미할 수 있습니다.
제안사항을 자세히 조사하려면 이를 클릭하여 문서 내의 컨텍스트에서 단어를 확인하십시오. 컨텍스트의 용어를 보면 발생이 사용자가 레이블을 지정하기에 올바른 엔티티 예제인지 여부를 결정하는 데 도움이 됩니다.
엔티티 추출기에 대해 레이블 지정된 데이터 내보내기
Discovery에서 엔티티 추출기의 레이블 지정된 데이터를 내보낼 수 있습니다. Watson Studio 및 자연어 처리 (NLP) 와 같은 서비스에서 대규모 언어 모델 (LLM) 을 빌드하거나 훈련하기 위해 내보낸 레이블 지정된 데이터를 사용할 수 있습니다.
라벨이 붙은 데이터를 내보내려면 다음 단계를 완료하십시오
-
개선 및 사용자 정의 페이지의 개선 도구 패널에서 각 도메인 개념을 펼친 후 엔티티 추출을 클릭하십시오.
-
레이블 지정된 데이터를 내보낼 엔티티 추출기의 경우 조치 아이콘을 클릭한 후 레이블 지정된 데이터 다운로드를 선택하십시오.
레이블이 지정된 데이터와 함께 압축 파일이 다운로드됩니다. 압축 파일에는 다음 JSON 파일이 포함되어 있습니다.
labeled_data.json
: 텍스트 및 레이블을 포함합니다. 데이터 형식은 Watson 자연어 처리에서 엔티티 추출을 위한 입력 데이터 형식을 기반으로 합니다. 자세한 정보는 입력 데이터 형식을 참조하십시오.metadata.json
: 작업공간의 메타데이터 및 레이블 지정된 데이터를 포함합니다.
Knowledge Studio 말뭉치 가져오기
설치된 배치의 경우 가져오기 기능이 4.6.2 릴리스와 함께 추가되었습니다.
IBM Watson® Knowledge Studio 에서 어노테이션이 있는 문서의 말뭉치를 가져와서 Discovery에서 엔티티 추출기의 훈련 데이터로 사용할 수 있습니다.
Knowledge Studio 에 정의된 엔티티 유형은 Discovery에 새 엔티티 유형으로 표시됩니다. 엔티티 추출기 모델을 사용자 정의할 때 가져온 문서의 어노테이션을 계속 작성할 수 있습니다.
Knowledge Studio 기계 학습 모델의 엔티티 하위 유형 및 관계는 표시되지 않으며 모델과 연관된 사용자 정의 사전도 표시되지 않습니다.
말뭉치를 가져오려면 먼저 Knowledge Studio 에서 문서 세트를 .zip 파일로 내보내야 합니다. Knowledge Studio 배치 유형에 따라 내보내기에 적절한 단계를 수행하십시오.
다른 Knowledge Studio 작업공간에 업로드하는 문서에 어노테이션을 포함하려면 문서 세트 및 유형 시스템을 모두 다운로드해야 하지만 이 유스 케이스에서도 동일하게 적용되지 않습니다. Discovery에 설정된 문서만 가져옵니다. 문서의 어노테이션은 Discovery에서 다시 작성됩니다. Knowledge Studio 유형 시스템은 필요하지 않습니다.
Knowledge Studio 말뭉치를 가져오려면 다음 단계를 완료하십시오.
-
코퍼스를 가져올 프로젝트를 엽니다.
-
개선 및 사용자 정의 페이지의 개선 도구 패널에서 각 도메인 개념을 펼친 후 엔티티 추출을 클릭하십시오.
-
새로 작성 단추와 연관된 화살표를 클릭하십시오. 그런 다음 Knowledge Studio 말뭉치 가져오기를 클릭하십시오.
-
추출기 이름 및 선택적으로 설명을 추가하십시오.
이 이름은 모델을 공개할 때 작성되는 인리치먼트의 이름 및 모델 이름으로 사용됩니다. 이 이름은 사용자 및 다른 사용자가 콜렉션에 적용할 수 있는 인리치먼트 페이지에서 인리치먼트 이름으로 표시됩니다. 또한 사용자 정의 엔티티가 있는 문서의 JSON 표시에서 모델 이름으로 표시됩니다. 이름은 사용자가 지정하는 대소문자 및 간격으로 저장됩니다.
-
업로드를 클릭한 후 Knowledge Studio에서 내보낸 .zip 파일을 찾아 선택하십시오. 작성을 클릭하십시오.
업로드하는 어노테이션이 있는 문서는 프로젝트의 새 콜렉션이 아니라 엔티티 추출기 작업공간과 함께 저장됩니다. 계속해서 문서에 어노테이션을 작성할 수 있습니다.
Discovery 에 기계 학습 모델 말뭉치를 가져오고 처리할 시간을 제공하십시오. 엔티티 추출기가 작성된 후 추출기가 레이블 문서 페이지에 열립니다.
추출기 훈련
문서에 레이블을 지정한 후 엔티티 추출기 모델을 훈련시키는 데 사용할 훈련 데이터를 검토하십시오.
추출기를 훈련시키려면 다음 단계를 완료하십시오.
-
고급 옵션을 적용할지 여부를 결정하십시오. 대부분의 모델에서는 이러한 옵션을 변경할 필요가 없습니다.
검토 및 완료 페이지에서 다음 사용자 정의를 사용할 수 있습니다.
-
교육 세트에서 개인이 검토하지 않은 문서를 포함합니다.
일반적으로 개인이 레이블을 지정하고, 검토하고, 명시적으로 완료로 표시한 문서만 훈련 세트에 포함시킬 후보가 될 수 있습니다. 그러나 완료로 표시되지 않은 문서를 교육 세트에 포함시키려는 경우에는 이를 수행할 수 있습니다.
-
훈련 데이터를 구성하는 문서 세트에 포함된 문서의 비율을 변경하십시오.
콜렉션의 문서는 무작위로 다음 세트로 분할됩니다.
- 훈련 세트: 사용자가 레이블을 지정하고 엔티티 추출기 기계 학습 모델을 훈련하는 데 사용되는 문서입니다. 훈련 세트의 목표는 기계 학습 모델에 올바른 레이블을 가르치는 것입니다.
- 테스트 세트: 훈련된 모델을 테스트하는 데 사용되는 문서입니다. 테스트를 실행한 후 결과를 검토하고 모델에 문제가 있는 영역을 자세히 분석하며 모델의 성능을 향상시킬 수 있는 방법을 찾을 수 있습니다.
- 블라인드 세트: 테스트 및 개선의 여러 반복이 완료된 후에 모델을 주기적으로 테스트하기 위해 따로 설정되어 사용되는 문서입니다. 블라인드 세트에 있는 서류들은 의도적으로 로프로 묶여 있다. 테스트 세트의 문서를 사용하여 모델을 테스트하고 결과를 분석하면 기본 테스트 문서에 익숙해집니다. 테스트 문서는 모델을 개선하기 위해 반복적으로 사용되기 때문에, 모델 훈련에 간접적으로 영향을 미치기 시작할 수 있습니다. 그래서 맹인용 문서 세트가 중요한 것입니다. 블라인드 세트는 모델의 편향되지 않은 평가를 주기적으로 생성하는 방법을 제공합니다.
기본 분할은 기계 학습 훈련에 일반적으로 사용되는 비율 (70 %-23 %-7%) 을 적용합니다.
-
-
추출기 훈련을 클릭하십시오.
추출기를 훈련할 때 Discovery 는 훈련 세트의 문서를 사용하여 기계 학습 모델을 빌드합니다. 모델이 생성되면 테스트 세트의 문서에 대해 자동으로 테스트를 실행합니다. 사용자가 검토할 수 있도록 테스트 결과가 표시됩니다.
교육 문제 해결
가능한 오류 메시지 및 이를 처리하는 방법에 대해 학습합니다.
- 훈련 데이터가 너무 큽니다.
-
훈련 데이터에는 대형 텍스트 문서가 포함되어 있거나 데이터를 처리하는 데 필요한 많은 엔티티 유형 및 자원이 서비스 인스턴스에 사용 가능한 자원보다 큽니다. 이 오류는 작업공간이 문서화된 엔티티 추출기 한계를 초과하지 않는 경우에도 발생할 수 있습니다. 문제를 해결하기 위해 다음 방법 중 하나를 시도할 수 있습니다.
- 하나 이상의 엔티티 유형을 제거하여 훈련 데이터의 크기를 줄이십시오.
- 훈련 데이터에서 매우 큰 문서를 제거하십시오. 예를 들어, 레이블이 지정된 문서 중 하나가 매우 큰 경우 해당 상태를 완료됨 에서 진행 중 으로 변경하여 훈련 데이터에서 이를 생략하십시오.
- 훈련 세트에 포함된 문서 수를 줄이십시오. 훈련 데이터에 대한 기본 분할 비율 (70 %-23 %-7%) 은 훈련 세트에 있는 문서의 70%를 사용합니다. 훈련 세트에서 사용되는 문서의 백분율을 더 작은 수로 변경할 수 있습니다. 예를 들어, 분할 비율을 60 %-33 %-7%로 변경할 수 있습니다.
- IBM Cloud Pak for Data 노즈비 IBM Software Hub 서비스 포드를 확장하여 배포된 서비스 인스턴스의 용량을 늘리십시오.
추출기 평가
작성한 엔티티 추출기 모델의 테스트 실행에서 메트릭을 검토하려면 추출기 평가 탭을 클릭하십시오.
다음 표는 이용 가능한 평가 지표에 대한 설명입니다.
메트릭 | 설명 |
---|---|
혼동 행렬 | 어노테이션이 있는 문서 세트의 자세한 숫자 분석을 제공하는 테이블입니다. 이를 사용하여 기계 학습 모델에 의해 레이블 지정된 엔티티 유형 멘션을 훈련 데이터에서 레이블 지정된 엔티티 유형 멘션과 비교하십시오. |
F1 점수 | 정밀도와 재호출 사이의 최적 밸런스에 도달했는지 여부를 측정합니다. F1 점수는 정밀도 및 재호출 값의 가중 평균으로서 해석할 수 있습니다. F1 점수는 1이 최고값이고 0이 최저값입니다. 모델에 학습할 수 있는 충분한 훈련 데이터가 없는 경우 전체 점수가 낮습니다. |
정밀도 | 추출된 전체 멘션 중 올바른 엔티티 유형으로 분류되는 멘션의 수를 측정합니다. 거짓 긍정 (false positive) 은 엔티티가 추출되지 않고 추출된 경우입니다 (예측됨 = 양수, 실제 = 음수). 거짓 긍정은 일반적으로 낮은 정밀도를 의미합니다. |
다시 호출 | 추출해야 하는 엔티티 유형 멘션이 추출되는 빈도를 측정합니다. 거짓 부정 (false negative) 은 엔티티 유형을 추출해야 하지만 추출되지 않은 경우입니다 (예측됨 = 음수, 실제 = 양수). 거짓 부정은 일반적으로 낮은 재호출을 의미합니다. |
-
추출기 모델 테스트 실행에 대해 제공되는 메트릭을 검토하여 추가 훈련이 필요한지 여부를 판별하십시오.
-
테스트 세트에서 훈련 결과 검토를 클릭하여 테스트 결과를 자세히 탐색하십시오.
테스트 세트의 문서는 한 패널에는 예측된 레이블이 표시되고 다른 패널에는 기준 실제값이 표시되어 표시됩니다.
- 예측 레이블은 엔티티 추출기가 엔티티 유형으로 식별하고 레이블을 지정한 예입니다.
- 기준 실제값 에는 사용자가 레이블을 지정했거나 대량으로 레이블을 지정하고 검토한 예제가 있습니다. 기준 실제값의 레이블은 올바른 레이블로 간주됩니다.
모델의 성능은 예측된 레이블이 기준 실제값과 얼마나 가깝게 일치하는지에 따라 평가됩니다.
추출기 개선
다음 표는 공통 문제점에 대해 제안된 수정사항을 표시합니다.
문제점 | 문제를 해결하기 위한 조치 |
---|---|
낮은 전체 점수 | 훈련 세트에 레이블이 지정된 예제가 있는 충분한 문서가 없을 수 있습니다. 더 많은 문서에서 더 많은 예제에 레이블을 지정하십시오. |
낮은 재현율 | 추출기에서 누락된 엔티티 유형의 새 예제를 사용하여 더 많은 문서에 레이블을 지정하십시오. |
낮은 정밀도 | 일반적으로 혼동되는 엔티티 유형을 찾으십시오. 엔티티 추출기가 엔티티 유형을 구별하는 데 도움이 되도록 각 엔티티 유형의 추가 예제를 찾아 레이블을 지정하십시오. |
훈련 데이터에 문서 추가
문서를 더 추가하려면 다음 단계를 완료하십시오:
-
레이블 문서 탭을 여십시오.
-
문서 목록 패널에서 문서 추가를 선택하십시오.
현재 콜렉션에서 엔티티 추출기에 추가할 수 있는 다른 문서가 없는 경우 이 단추를 사용할 수 없습니다. 콜렉션에 더 많은 문서를 추가하려면 콜렉션의 활동 페이지로 이동한 후 데이터 업로드 타일을 클릭하여 더 많은 파일을 찾아보고 추가하십시오.
레이블 지정을 위해 문서 목록 에 표시할 문서를 콜렉션에서 선택할 수 없습니다. 레이블을 지정할 특정 유형의 문서가 있는 경우 엔티티 추출기를 작성하는 데 사용할 수 있는 콜렉션에 대표 문서를 추가하는 것을 고려하십시오.
훈련 데이터에 포함할 수 있는 문서 수에는 제한이 있습니다. 훈련 데이터에 레이블이 지정된 섹션과 레이블이 지정되지 않은 섹션의 조합이 있는 문서가 포함된 경우 시스템은 레이블이 지정되지 않은 문장에서 일부 예제를 샘플링할 수 있습니다. 하위 샘플링은 훈련에 사용되는 긍정적 및 부정적 예제 수의 균형을 맞추는 데 도움이 됩니다. 훈련 세트에서 예제의 균형을 맞추면 훈련 성능이 향상됩니다.
엔티티 추출기를 인리치먼트로 공개
엔티티 추출기가 준비되었다고 생각되면 엔티티 추출기를 공개하십시오. 언제 준비되었는지 어떻게 알 수 있습니까? 개선을 수행하는 여러 테스트가 실행된 후에도 점수가 변경되지 않으면 모델이 준비된 것입니다. 모델을 공개한 후 업데이트하고 재훈련하기 위해 돌아갈 수 있습니다.
- 추출기 평가 페이지에서 추출기 공개를 클릭하십시오.
- 데이터에 적용을 클릭합니다.
- 콜렉션을 선택한 후 엔티티 추출기 인리치먼트를 적용할 문서 필드를 선택하십시오.
- 적용을 클릭하십시오.
엔티티 추출기 익스포트
설치된 배치의 경우 내보내기 기능이 4.6.2 릴리스와 함께 추가되었습니다.
하나의 프로젝트에서 작성하고 배치하는 엔티티 추출기 모델은 동일한 서비스 인스턴스의 프로젝트에서 콜렉션에 적용할 수 있는 인리치먼트로 사용 가능합니다.
다른 서비스 인스턴스의 프로젝트에서 엔티티 추출기 모델을 사용하려는 경우 엔티티 추출기를 내보낼 수 있습니다. 다른 곳에서 사용하려면 단계에 따라 가져온 ML 모델을 사용하여 사용자 정의 용어 찾기 에서 기계 학습 모델을 작성하십시오. 다른 프로젝트로 가져오는 엔티티 추출기를 계속 편집할 수 없습니다.
내보낼 엔티티 추출기는 완전히 훈련되어야 합니다.
엔티티 추출기를 익스포트하려면 다음 단계를 완료하십시오.
-
내보낼 엔티티 추출기를 사용하여 프로젝트를 여십시오.
-
개선 및 사용자 정의 페이지의 개선 도구 패널에서 각 도메인 개념을 펼친 후 엔티티 추출을 클릭하십시오.
-
엔티티 추출기 목록에서 익스포트할 엔티티 추출기를 찾으십시오.
-
추출기의 조치 아이콘을 클릭한 후 모델 다운로드 를 선택하여 모델을 시스템에 저장하십시오.
모델 다운로드 옵션은 모델이 훈련되지 않으면 사용할 수 없습니다.
엔티티 추출기 모델은 .ent 파일로 저장됩니다. 이를 다른 서비스 인스턴스의 프로젝트에 기계 학습 모델로 가져온 후 콜렉션에 적용할 수 있습니다. 모델 가져오기에 대한 자세한 정보는 가져온 ML 모델을 사용하여 사용자 정의 항 찾기 를 참조하십시오.
엔티티 추출기 인리치먼트 적용
추출기를 공개할 때 추출기를 적용할 필드를 지정합니다. 나중에 다른 필드 또는 더 많은 필드에 인리치먼트를 적용하기로 결정하는 경우 다음 단계를 수행하여 이를 수행할 수 있습니다.
- 탐색 패널에서 콜렉션 관리를 클릭하십시오.
- 인리치먼트를 적용할 콜렉션을 열려면 클릭하십시오.
- 강화를 클릭하십시오.
- 목록에서 엔티티 추출기 이름을 찾은 후 인리치먼트를 적용할 필드를 선택하십시오.
- 변경사항 적용 및 재처리를 클릭하십시오.
콜렉션에서 엔티티 추출기 인리치먼트를 제거하는 방법에 대한 자세한 정보는 인리치먼트 관리 를 참조하십시오.
엔티티 추출기 출력
인리치먼트가 문서에서 사용자 정의 엔티티 중 하나를 인식하면 문서 JSON 표시의 enriched_text.entities
섹션에 항목이 추가됩니다. 이 섹션에는 기본 제공 엔티티 인리치먼트에서 인식되는 엔티티와 함께 사용자 정의 모델에서 인식되는 엔티티의 발생이 포함되어 있습니다. 기본 제공 인리치먼트는 Watson NLP 서비스를 사용하여 Natural Language Understanding 유형 시스템의 일부인 엔티티를 식별합니다. 기본 제공 엔티티 인리치먼트에 대한 자세한 정보는 엔티티 를 참조하십시오.
다음 JSON 출력은 제품군 멤버 멘션을 인식하는 문학 이라는 사용자 정의 모델에 의해 생성됩니다.

시간 경과에 따른 성능 모니터링
언제든지 엔티티 추출기 모델을 재훈련할 수 있습니다. 모델을 훈련할 때마다 성능 메트릭 점수를 검토하여 최신 변경사항이 모델의 점수를 늘리거나 줄이는지 여부를 판별하십시오.
-
한 테스트 실행을 다른 테스트 실행과 비교하려면 점수 기록 보기를 클릭하십시오.
히스토리 보기에는 마지막 5개의 훈련 실행이 표시됩니다.
최근 5개이상의 훈련 실행에 대한 점수 정보를 유지하기 위해 쉼표로 구분된 값 형식으로 메트릭을 내보내고 별도의 애플리케이션에서 점수를 추적할 수 있습니다. 테이블 표시 아이콘
을 클릭한 후 CSV로 다운로드를 클릭하십시오.
후속 훈련 실행의 결과가 더 낮은 점수인 경우 모델의 해당 버전을 공개하지 마십시오.
엔티티 추출기 삭제
사용 중이 아닌 경우 엔티티 추출기를 삭제할 수 있습니다. 즉, 엔티티 추출기에서 공개된 인리치먼트가 콜렉션에 적용되지 않습니다.
예를 들어, 계획에 허용되는 최대 추출기 수의 한계에 도달하면 엔티티 추출기를 삭제할 수 있습니다.
한계는 프로젝트가 아니라 서비스 인스턴스별로 정의됩니다. 새 엔티티 추출기를 작성할 수 없지만 현재 프로젝트에 최대 추출기 수가 없는 경우 동일한 서비스 인스턴스의 다른 프로젝트를 확인하십시오. 삭제할 수 있는 다른 프로젝트에서 사용되고 있지 않은 엔티티 추출기가 있을 수 있습니다.
-
사용 중인 콜렉션에서 삭제하려는 엔티티 추출기에서 공개된 엔티티 추출기 인리치먼트를 제거하십시오.
자세한 정보는 인리치먼트 삭제 를 참조하십시오.
-
개선 및 사용자 정의 페이지의 개선 도구 패널에서 각 도메인 개념을 펼친 후 엔티티 추출을 클릭하십시오.
-
삭제할 엔티티 추출기를 찾고 조치 아이콘을 클릭한 후 삭제를 선택하십시오.
엔티티 추출기 한계
서비스 인스턴스당 작성할 수 있는 엔티티 추출기 수는 Discovery 플랜 유형에 따라 다릅니다.
플랜 | 서비스 인스턴스당 엔티티 추출기 수[1] | 추출기당 최대 엔티티 유형 | 훈련 데이터의 최대 문서 수 |
---|---|---|---|
Cloud Pak for Data | 무제한 | 18 | 1,000시간 |
프리미엄 | 1,000만 | 18 | 1,000시간 |
구축 | 1,000만 | 18 | 1,000시간 |
Plus (평가판 포함) | 3 | 12 | 2억 |
-
이 수는 서비스 인스턴스 (가져온 엔티티 추출기 모델의 인리치먼트 포함) 가 콜렉션에 적용되는지 여부에 관계없이 서비스 인스턴스에 대해 공개된 엔티티 추출기 인리치먼트의 수를 반영합니다. ↩︎