IBM Cloud Docs
문장 분류하기

문장 분류하기

IBM Cloud

문장 분류는 관리 배치에서만 사용 가능한 베타 기능입니다. 또한 이 기능은 영어 문서에만 사용할 수 있습니다.

문장 분류를 사용하여 중요한 비즈니스 관심이 있는 문서의 문장을 분류하십시오.

문장 분류는 사용자 정의 문장 클래스를 기반으로 문장을 분류하는 기계 학습 모델을 사용합니다. 문서의 예제 문장에 레이블을 지정하여 문장 클래스를 정의할 수 있습니다. 레이블 지정 프로세스의 속도를 높이기 위해 시스템은 자동으로 백그라운드에서 제안 모델을 준비하고 더 많은 문장 레이블 지정 제안을 제공합니다.

시작하기 전에

Discovery 에서 학습할 다양한 문장 예제가 포함된 문서가 있는 콜렉션을 찾거나 작성하십시오. 문장 분류자를 가르치려면 문장 클래스의 예제에 레이블을 지정해야 합니다. 콜렉션에 올바른 예제가 포함된 경우에만 예제에 레이블을 지정할 수 있습니다. 정의하려는 모든 문장 클래스의 예로 사용되는 여러 문장이 있는 문서를 찾으십시오.

문장 분류자 추가

문장 분류기를 추가하려면 다음 단계를 완료하십시오

  1. 문장 분류기를 만들려는 프로젝트를 엽니다.

    프로젝트에는 분류하려는 데이터를 대표하는 문서가 있는 하나 이상의 콜렉션이 있어야 합니다.

  2. 개선 및 사용자 정의 페이지의 개선 도구 패널에서 각 도메인 개념을 펼친 후 문장 분류자를 클릭하십시오.

  3. 새로 작성을 클릭하십시오.

  4. 문장 분류자 이름 및 선택적으로 설명을 추가하십시오.

    이 이름은 모델을 공개할 때 작성되는 인리치먼트의 이름 및 모델 이름으로 사용됩니다. 이름은 사용자 및 다른 사용자가 콜렉션에 적용할 수 있는 인리치먼트 페이지에서 인리치먼트 이름으로 표시됩니다. 또한 문장 클래스가 있는 문서의 JSON 표시에서 모델 이름으로 표시됩니다. 이름은 사용자가 지정하는 대소문자 및 간격으로 저장됩니다.

  5. 분류하려는 데이터를 대표하는 문서가 있는 콜렉션을 선택하십시오.

  6. 콜렉션에서 문서에 레이블을 지정할 문서 보기에 표시할 필드를 문서에서 선택하십시오.

    • 문서 제목 은 페이지 헤더에 문서 이름으로 표시됩니다. extracted_metadata.filename 필드에 저장된 파일 이름과 같이 문서당 고유한 값을 갖는 필드를 선택하십시오.
    • 문서 본문 은 컨텐츠에서 문장 예제의 레이블을 지정하는 위치입니다. 대량의 문서 컨텐츠를 포함하는 필드를 선택하십시오 (예: text 필드).
  7. 작성을 클릭하십시오.

선택한 콜렉션의 문서가 레이블 문서 보기에 표시됩니다. Discovery 가 콜렉션의 이 문서 및 기타 문서에서 인식할 문장 클래스의 발생에 레이블을 지정합니다.

페이지 본문에 텍스트가 표시되지 않으면 새 문장 분류자를 작성하여 지금 시작하십시오. 이번에는 문서 본문 필드의 값을 선택할 때 텍스트를 포함하는 처리된 문서에서 필드를 선택해야 합니다.

문장 클래스 정의

다음 단계를 완료하여 문장 클래스를 정의하십시오.

  1. 문장 클래스 추가를 클릭하십시오.

  2. 문장 클래스 이름 및 선택적 설명을 추가하십시오.

  3. 선택사항: 문서의 문장 클래스에 사용할 색상을 선택하십시오.

    레이블 색상 팔레트에서 색상을 클릭하고 색상 갱신 아이콘을 클릭하여 한 색상에서 다음 색상으로 탭 이동할 수 있습니다. 사용자 정의 색상을 사용하려면 16진색상 코드 (#fff0f7) 를 지정하십시오.

  4. 작성을 클릭하십시오.

  5. 이 프로세스를 반복하여 분류자가 분류할 모든 문장 클래스를 추가하십시오.

    문장 클래스에 대해 무엇을 추가해야 할지 확실하지 않은 경우 먼저 콜렉션의 문서를 검토하는 것이 도움이 될 수 있습니다. 컨텐츠를 검토하여 중요한 의미를 갖는 문장에 대한 느낌을 얻고 이러한 문장을 분류하는 논리적인 방법을 찾을 수 있습니다.

문장 레이블 지정

레이블 문서 보기에서 콜렉션의 문서에 있는 문장을 찾아 해당 문장 클래스를 표시하도록 레이블을 지정하십시오. 레이블을 지정하는 동안 문장 분류기는 레이블 지정 제안을 표시하기 위해 백그라운드에서 자동으로 모델을 훈련합니다.

레이블 지정 제안은 문서의 레이블 지정 프로세스를 가속화합니다. 레이블 지정 제안을 사용하면 문서를 검토하고 텍스트를 읽는 데 시간을 소비하는 대신 관련 예제를 쉽게 찾아 컨텍스트에서 검토할 수 있습니다.

다음과 같은 방법으로 문장에 라벨을 붙일 수 있습니다

엔티티 추출기와 달리 시작되지 않음, 진행 중및 문장 분류자에 대한 완료 와 같은 문서 상태의 개념은 없습니다. 엔티티 추출기의 경우 문서를 완료 로 표시하여 문서가 훈련에 사용됨을 표시합니다. 문장 분류자의 경우 레이블이 지정된 문장만 훈련에 사용되며 각 문서의 레이블이 지정되지 않은 데이터는 무시됩니다.

훈련에 사용되는 데이터
기능 교육에 사용되는 항목
엔티티 추출기 완료로 표시된 모든 문서
문장 분류자 레이블 지정된 모든 문장 (레이블 지정되지 않은 문장은 사용되지 않음)

manual labeling

수동으로 라벨을 붙이려면 다음 단계를 완료하십시오

  1. 레이블을 지정할 적절한 문장 예제를 찾으려면 레이블 문서 페이지에 표시된 문서를 읽으십시오.

  2. 문장 예제를 선택하고 레이블 편집 아이콘을 클릭하십시오.

  3. 목록에서 문장 클래스를 선택하여 예제 문장의 레이블을 양수 레이블로 지정하십시오.

    예제 문장의 레이블을 음수 레이블로 지정하려면 목록에서 문장 클래스를 선택할 때 Shift를 누르십시오.

    적절한 문장 예제를 찾을 수 없는 경우 문서 목록에서 다른 문서를 선택하십시오.

    긍정 및 부정 예제 레이블이 있는 문서에서 발췌한 내용을 표시합니다.
    Labeled sentence examples

  4. 콜렉션의 다른 문서에서 예제 문장의 레이블을 양수 또는 음수로 지정하는 단계를 반복하십시오.

레이블을 지정하는 동안 문장 분류자 저장 을 클릭하여 작업을 저장하십시오. 레이블 문서 페이지에서 다른 페이지로 이동하면 시스템이 자동으로 작업을 저장합니다.

빠른 레이블링 조작을 위해 단축키를 사용하십시오. 예제 문장의 레이블을 양수 레이블로 지정하려면 목록에 표시된 문장 클래스에 해당하는 키 1-5를 누르십시오. 마찬가지로, 키 6-0을 눌러 음수 레이블을 추가하십시오. Delete키 또는 Backspace키를 눌러 선택한 문장에서 레이블을 제거할 수 있습니다.

문서에서 찾기 레이블 지정

검색 기능을 사용하면 문서에서 문장 예제를 찾아 쉽게 레이블을 지정할 수 있습니다. 또한 검색을 사용하여 레이블 지정된 예제 및 레이블 지정되지 않은 예제를 찾고 레이블 지정 불일치를 정정할 수 있습니다.

문서에서 예제를 찾아 레이블을 지정하려면 다음 단계를 완료하십시오.

  1. 레이블 문서 보기에서 찾기 아이콘을 클릭하십시오.

  2. 찾기 필드에 문서에서 검색할 텍스트를 지정하십시오.

    텍스트를 입력하면 문서의 검색 결과가 표시됩니다.

    검색 결과를 찾아보려면 다음 결과이전 결과 아이콘을 클릭하십시오. 결과에서 레이블이 없는 예제의 레이블을 선택하려면 레이블 편집 아이콘을 클릭하고 목록에서 문장 클래스를 선택하십시오. 레이블 편집 아이콘을 클릭하고 레이블 제거를 선택하여 결과에서 이미 레이블이 지정된 예제에서 레이블을 제거할 수도 있습니다.

    검색 결과를 표시합니다.
    검색 결과

  3. 검색 결과를 필터링하려면 필터 옵션 표시 아이콘을 클릭하십시오.

    다음 표는 필터 옵션에 대한 설명입니다.

    찾기의 필터 옵션
    옵션 설명
    모두 텍스트와 일치하는 문서의 모든 예제를 찾습니다.
    레이블된 텍스트 텍스트와 일치하는 문서에서 기존의 레이블 지정된 예제를 찾습니다.
    레이블이 없는 텍스트 텍스트와 일치하는 문서에서 레이블이 지정되지 않은 예제를 찾습니다.
    대소문자 구분 텍스트와 대소문자가 모두 일치하는 예제를 찾습니다.
    전체 단어 텍스트의 단어 경계와 일치하는 예제를 찾습니다. 예를 들어, 텍스트에 installing 을 지정하면 이 옵션을 선택할 때 installing 이 일치하지 않습니다.
    1. 단계를 반복하여 콜렉션의 다른 문서에 있는 예제 문장의 레이블을 지정하십시오.

스마트 레이블링

스마트 레이블 지정 기능은 활성 학습 기술을 사용하여 레이블을 지정할 수 있는 문장 예제를 제안합니다. 스마트 레이블링은 레이블링 프로세스의 속도를 높이지만 시스템이 제안 모델을 빌드할 수 있도록 각 문장 클래스에 대해 최소 20개의 예제를 먼저 레이블링해야 합니다.

스마트 라벨을 사용하려면 다음 단계를 완료하십시오

  1. 하나 이상의 문장 클래스에 대해 최소 20개의 긍정적인 예제에 레이블을 지정하십시오.

    시스템은 자동으로 백그라운드에서 제안 모델을 준비하기 시작합니다.

    제안 모델의 버전이 준비되면 시스템은 다음에 레이블을 지정할 문장에 대한 제안을 제공합니다. 제안에 레이블을 지정하면 문장 분류자 모델을 가장 많이 개선하는 데 도움이 됩니다.

  2. 스마트 레이블링 사용을 클릭하십시오.

    caption-side=bottom"
    스마트

    스마트 레이블링 분할창이 표시됩니다. 이 분할창에서 특정 문장 클래스의 문장에 레이블을 지정할 수 있습니다.

  3. 제안된 예제에서 예제를 선택하고 를 클릭하여 예제 문장의 레이블을 양수 레이블로 지정하십시오. 아니오 를 클릭하여 예제 문장의 레이블을 음수 레이블로 지정할 수 있습니다.

    스마트
    라벨링

  4. 이전 단계를 반복하여 제안된 다른 예제에 레이블을 지정하십시오.

    목록에서 제안된 예제를 새로 고치려면 제안 새로 고치기를 클릭하십시오. 목록이 새 제안사항으로 새로 고쳐지고 기존의 레이블 지정된 예제가 목록에 표시되지 않습니다.

  5. 문장에 레이블을 지정한 후 완료 를 클릭하십시오.

    현재 문서 세트에 충분한 문장 예제가 없는 경우 더 많은 문서를 추가할 수 있습니다. 이 옵션은 콜렉션에 더 많은 문서가 있는 경우에만 사용할 수 있습니다. 자세한 정보는 훈련 데이터에 문서 추가 를 참조하십시오.

  6. 콜렉션에서 원하는 수의 문서에 예제의 레이블을 지정한 후 문장 분류자 저장을 클릭하고 분류자를 훈련하십시오. 자세한 정보는 분류자 훈련 을 참조하십시오.

스마트 레이블링 팁

스마트 레이블링에 대한 다음 팁을 기억하십시오.

  • 빠른 레이블링 조작을 위해 단축키를 사용하십시오. 왼쪽 화살표 키를 눌러 예를 선택하거나 오른쪽 화살표 키를 눌러 아니오를 선택할 수 있습니다. 예 또는 아니오를 선택하는 것은 문장 클래스에 양수 또는 음수 레이블을 지정하는 것과 같습니다.

  • 예제 문장의 레이블을 양수 레이블로 지정하려면 목록에 표시된 문장 클래스에 해당하는 1-5키를 누르십시오. 마찬가지로, 키 6-0을 눌러 음수 레이블을 추가하십시오. Delete키 또는 Backspace키를 눌러 선택한 문장에서 레이블을 제거할 수 있습니다.

  • 예제가 현재 문장 클래스와 관련이 없는 경우 예제를 레이블이 없는 상태로 두지 말고 음수로 레이블을 지정하십시오. 레이블이 지정되지 않은 데이터는 무시되고 훈련에 사용되지 않으므로 분류 모델을 개선하려면 음수 레이블을 지정하는 것이 중요합니다.

  • 마지막 제안 모델이 훈련된 후 20개이상의 예제 (양수 또는 음수 레이블) 에 레이블을 지정하면 시스템이 자동으로 백그라운드에서 새 제안 모델을 빌드하기 시작합니다. 새 제안사항에 레이블을 지정할 준비가 되면 알림을 받습니다.

훈련 데이터에 문서 추가

문서를 더 추가하려면 다음 단계를 완료하십시오:

  1. 레이블 문서 보기로 이동하십시오.
  2. 문서 목록 패널에서 문서 추가를 클릭하십시오.

이 옵션은 콜렉션에 문장 분류자 작업공간에 추가할 다른 문서가 없는 경우에는 사용할 수 없습니다. 콜렉션에 문서를 더 추가하려면 콜렉션의 활동 페이지로 이동한 후 데이터 업로드 타일을 클릭하여 문서를 더 찾아보고 추가하십시오.

콜렉션에서 더 많은 문서를 추가하는 경우에도 모든 문서가 모델 훈련에 사용되거나 사용되지 않을 수 있습니다. 모든 완료된 문서가 훈련에 사용되는 엔티티 추출기와 달리, 문장 분류자는 훈련에 대해 레이블 지정된 문장만 사용하며 레이블 지정되지 않은 데이터는 무시됩니다.

레이블 지정을 위해 문서 목록 패널에 표시할 문서를 콜렉션에서 선택할 수 없습니다. 레이블을 지정할 특정 유형의 문서가 있는 경우 해당 문서만 포함하는 새 콜렉션을 작성할 것을 고려하십시오.

분류자 훈련

문서에 레이블을 지정한 후 훈련 분류자 보기에서 훈련 데이터를 검토할 수 있습니다. 훈련 데이터는 문장 분류자 모델을 훈련하는 데 사용됩니다.

분류자를 훈련하려면 다음 단계를 완료하십시오

  1. 분류자 훈련 보기로 이동하십시오.

  2. 레이블링 요약을 검토하여 클래스류를 훈련하기에 충분한 레이블을 지정했는지 확인하십시오.

    클래스류를 훈련하려면 각 문장 클래스에 최소 20개의 양의 레이블과 두 개의 음의 레이블이 있어야 합니다. 그렇지 않으면 분류자 훈련 단추가 사용 안함으로 설정되어 훈련을 시작할 수 없습니다. 양수 레이블 또는 음수 레이블이 없는 문장 클래스는 무시됩니다.

  3. 교육에 고급 옵션을 적용할지 여부를 검토하십시오. 대부분의 모델에서는 고급 옵션을 변경할 필요가 없습니다.

    문장은 무작위로 세트로 분할됩니다. 훈련 세트는 분류자를 훈련하는 데 사용됩니다. 테스트 세트는 훈련된 후 모델을 테스트하는 데 사용됩니다. 블라인드 세트에는 훈련 중에 볼 수 없는 문장이 예약되어 있습니다. 이는 모델의 비편향 평가를 주기적으로 생성하는 데 사용됩니다. 기본 분할은 훈련에 표준 비율을 사용합니다. 자세한 정보는 훈련을 위한 문서 세트 를 참조하십시오.

  4. 분류자 훈련을 클릭하십시오.

    분류자를 훈련시킬 때 Discovery 는 훈련 세트의 문장을 사용하여 기계 학습 모델을 빌드합니다. 분류자 평가 보기에서 검토할 수 있도록 테스트 결과가 표시됩니다.

훈련을 위한 문서 세트

훈련 데이터를 구성하는 문서 세트에 포함된 문장의 비율을 변경할 수 있습니다.

레이블을 지정한 문장은 무작위로 다음 세트로 분할됩니다.

  • 훈련 세트: 사용자가 레이블을 지정하고 문장 분류자 기계 학습 모델을 훈련하는 데 사용되는 문장입니다. 훈련 세트의 목적은 올바른 레이블에 대한 모델을 학습하는 것입니다.

  • 테스트 세트: 훈련된 모델을 테스트하는 데 사용되는 문장입니다. 모델이 생성되면 테스트 세트의 문서에 대해 자동으로 테스트를 실행합니다. 결과를 분석하여 모델에 문제가 있는 영역을 판별하고 모델의 성능을 향상시키는 방법을 찾을 수 있습니다.

  • 블라인드 세트: 테스트 및 개선의 여러 반복이 완료된 후 주기적으로 모델을 테스트하는 데 사용되는 문장입니다. 블라인드 세트에 있는 문장들은 의도적으로 끈으로 묶여 있다. 테스트 세트의 문장으로 모델을 테스트하고 결과를 분석하면 기본 테스트 문장에 익숙해집니다. 테스트 문장은 모델을 개선하기 위해 반복적으로 사용되기 때문에, 간접적으로 모델 훈련에 영향을 미칠 수 있습니다. 그렇기 때문에 여러분은 블라인드 세트의 문장을 가지고 싶을 수도 있습니다. 블라인드 세트는 모델의 편향되지 않은 평가를 주기적으로 생성하는 방법을 제공합니다.

기본 분할 비율은 훈련 세트의 경우 70%, 테스트 세트의 경우 30%, 블라인드 세트의 경우 0%입니다. 블라인드 세트의 비율을 늘려 블라인드 세트의 문장을 가질 수 있습니다. 이 경우 클래스류 평가 보기의 클래스류 점수 테이블에 있는 숫자 (예: False positive, False negative 등) 는 훈련 결과 검토 보기에 표시된 문장 수와 일치하지 않습니다. 이는 블라인드 세트의 문장이 평가를 위해 고려되지만 교육 결과 검토 보기에 표시되지 않기 때문입니다.

분류자 평가

작성한 문장 분류자 모델의 테스트 실행에서 메트릭을 검토하려면 분류자 평가 탭을 클릭하십시오.

다음 표는 이용 가능한 평가 지표에 대한 설명입니다.

메트릭 세부사항
메트릭 설명
혼동 행렬 표는 레이블이 붙은 문장의 상세한 숫자 분석을 제공합니다. 이를 사용하여 기계 학습 모델에 의해 레이블 지정된 항목과 훈련 데이터에 레이블 지정된 항목을 비교하십시오.
F1 점수 정밀도와 재호출 사이의 최적 밸런스에 도달했는지 여부를 측정합니다. F1 점수는 정밀도 및 재호출 값의 가중 평균으로서 해석할 수 있습니다. F1 점수는 1이 최고값이고 0이 최저값입니다. 모델에 학습할 수 있는 충분한 훈련 데이터가 없는 경우 전체 점수가 낮습니다.
정밀도 올바른 문장 클래스로 분류되는 전체 문장 수를 측정합니다. 거짓 긍정 (false positive) 은 문장이 분류되지 않아야 하지만 분류된 경우입니다 (예측됨 = 긍정적, 실제 = 부정적). 거짓 긍정은 일반적으로 낮은 정밀도를 의미합니다.
다시 호출 분류해야 하는 문장이 분류되는 빈도를 측정합니다. 거짓 부정 (false negative) 은 문장을 분류해야 하지만 분류되지 않은 경우입니다 (예측됨 = 음수, 실제 = 양수). 거짓 부정은 일반적으로 낮은 재호출을 의미합니다.
  1. 분류자 모델 테스트 실행에 대해 제공되는 메트릭을 검토하여 추가 훈련이 필요한지 여부를 판별하십시오.

  2. 테스트 세트에서 훈련 결과 검토를 클릭하여 테스트 결과를 자세히 탐색하십시오.

    Review training results in test set
    Review training results in test set

    테스트 세트의 문장은 왼쪽 분할창의 목록에 표시된 실제 및 예측 레이블과 함께 표시됩니다. 목록에서 문장을 클릭하면 오른쪽 분할창의 문서 보기에 표시됩니다.

    • 실제 레이블은 사용자가 수동으로 레이블을 지정한 예제입니다. 올바른 레이블로 간주됩니다.
    • 예측 레이블은 문장 분류자가 문장 클래스로 식별하고 레이블을 지정한 예제입니다.

    모델의 성능은 예측된 레이블이 실제 레이블과 얼마나 근접하게 일치하는지에 따라 평가됩니다.

  3. 목록을 필터링하려면 필터 아이콘을 클릭하고 문장 클래스예측을 선택한 후 적용을 클릭하십시오.

성과 분석의 교육 결과 검토

성능 분석의 교육 결과를 검토하려면 다음 단계를 완료하십시오.

  1. 문장 클래스별 성능 분석 테이블에서 숫자를 클릭하십시오.

    교육 결과 검토 대화 상자가 표시됩니다.

  2. 클릭한 숫자를 기반으로 하는 관련 문장을 검토하십시오.

분류자 개선

다음 표는 공통 문제점에 대해 제안된 수정사항을 표시합니다.

개선 조치
문제점 문제를 해결하기 위한 조치
낮은 전체 점수 훈련 세트에 레이블 지정된 문장이 충분하지 않을 수 있습니다. 더 많은 문서에서 더 많은 문장에 레이블을 지정하십시오.
낮은 재현율 분류자가 분류하지 못한 문장 클래스의 새 예제를 사용하여 추가 문서에 레이블을 지정하십시오. 거짓 부정 (false negative) 문장을 검토하여 고유한 용어가 있는지 확인하십시오. 이러한 고유 용어가 표시되면 이러한 용어를 포함하는 문장을 검색하고 양수 레이블을 추가하십시오.
낮은 정밀도 거짓 긍정 문장을 주의깊게 검토하십시오. 일부 문장의 레이블 지정이 누락되었을 수 있습니다. 특히, 음수 레이블이 있는 문장을 확인하십시오. 문장에 특정 문장 클래스 (예: 클래스 A) 에 대한 음수 레이블이 있는 경우 다른 문장 클래스 (예: 클래스 B) 에 대해 양수 레이블이 필요한지 확인하십시오. 문장이 실제로 클래스 B에 속하지만 이에 대해 양수 클래스 B 레이블을 지정하지 않은 경우 정밀도 점수를 낮출 수 있습니다. 또한 거짓 긍정 (false positive) 문장에 일반적으로 나타나는 용어를 찾은 경우 해당 용어가 있는 문장에 부정적 레이블을 지정하십시오.

문장 분류자를 인리치먼트로 공개

문장 분류자가 준비되었다고 생각되면 문장 분류자 모델을 공개하십시오. 개선을 수행하는 여러 테스트 실행 후 점수가 변경되지 않으면 모델이 준비되었다고 간주할 수 있습니다. 모델을 공개한 후 업데이트하고 재훈련하기 위해 돌아갈 수 있습니다.

문장 분류기를 게시하려면 다음 단계를 완료하십시오

  1. 클래스류 평가 보기로 이동하여 클래스류 공개를 클릭하십시오.
  2. 게시를 클릭하십시오.
  3. 데이터에 적용을 클릭합니다.
  4. 콜렉션을 선택한 후 문장 분류자 인리치먼트를 적용할 텍스트 필드를 선택하십시오.
  5. 적용을 클릭하십시오.

문장 분류자 모델 다운로드

하나의 프로젝트에서 작성하고 배치하는 문장 분류자 모델은 동일한 서비스 인스턴스의 프로젝트에서 콜렉션에 적용할 수 있는 인리치먼트로 사용 가능합니다.

다른 서비스 인스턴스의 프로젝트에서 문장 분류자 모델을 사용하려는 경우 문장 분류자 모델을 내보내거나 다운로드할 수 있습니다. 다른 곳에서 사용하려면 가져온 ML 모델을 사용하여 사용자 정의 용어 찾기 에서 기계 학습 모델을 작성하는 단계를 수행하십시오. 다른 프로젝트로 가져오는 문장 분류자를 계속 편집할 수 없습니다.

내보낼 문장 분류자는 완전히 훈련되어야 합니다.

문장 분류기를 내보내려면 다음 단계를 완료하십시오

  1. 내보낼 문장 분류자가 있는 프로젝트를 여십시오.

  2. 개선 및 사용자 정의 페이지의 개선 도구 패널에서 각 도메인 개념을 펼친 후 문장 분류자를 클릭하십시오.

  3. 문장 분류자 목록에서 내보낼 문장 분류자를 찾으십시오.

  4. 클래스류에 대한 조치 아이콘을 클릭한 후 모델 다운로드 를 선택하여 모델을 시스템에 저장하십시오.

    모델 다운로드 옵션은 모델이 훈련되지 않으면 사용할 수 없습니다.

문장 분류자 모델은 .sc 파일로 저장됩니다. 이를 다른 서비스 인스턴스의 프로젝트에 기계 학습 모델로 가져온 후 콜렉션에 적용할 수 있습니다.

문장 분류기에 대한 레이블 지정된 데이터 다운로드

Discovery에서 문장 분류자의 레이블 지정된 데이터를 다운로드하거나 내보낼 수 있습니다. Watson Studio 및 자연어 처리 (NLP) 와 같은 서비스에서 대규모 언어 모델 (LLM) 을 빌드하거나 훈련하기 위해 내보낸 레이블 지정된 데이터를 사용할 수 있습니다.

라벨이 붙은 데이터를 내보내려면 다음 단계를 완료하십시오

  1. 개선 및 사용자 정의 페이지의 개선 도구 패널에서 각 도메인 개념을 펼친 후 문장 분류자를 클릭하십시오.

  2. 레이블 지정된 데이터를 내보낼 문장 분류자의 경우, 조치 아이콘을 클릭한 후 레이블 지정된 데이터 다운로드를 선택하십시오.

    레이블이 지정된 데이터와 함께 압축 파일이 다운로드됩니다. 압축 파일에는 다음 JSON 파일이 포함되어 있습니다.

    • labeled_data.json: 텍스트 및 레이블을 포함합니다. 데이터 형식은 Watson 자연어 처리에서 텍스트 분류에 대한 입력 데이터 형식을 기반으로 합니다. 자세한 정보는 입력 데이터 형식을 참조하십시오.
    • metadata.json: 작업공간의 메타데이터 및 레이블 지정된 데이터를 포함합니다.

labeled_data.json 를 CSV로 변환

다음 명령을 입력하여 labeled_data.json 를 CSV로 변환하십시오.

$ cat labeled_data.json | jq -r '.[] | [.text, .labels[]] | @csv'

레이블된 데이터는 다음 형식으로 변환됩니다.

    "sentence1", class-label1, class-label2
    "sentence2", class-label3
    "sentence3", ...
    ...

문장 분류자 인리치먼트 적용

문장 분류자를 공개할 때 문장 분류자를 적용할 필드를 지정합니다.

나중에 여러 필드에 보강 기능을 적용하려면 다음 단계를 완료하세요:

  1. 탐색 패널에서 콜렉션 관리를 클릭하십시오.

  2. 인리치먼트를 적용할 콜렉션을 열려면 클릭하십시오.

  3. 강화를 클릭하십시오.

  4. 목록에서 문장 분류자 이름을 찾은 후 인리치먼트를 적용할 필드를 선택하십시오.

    텍스트 또는 html을 포함하는 필드를 선택할 수 있습니다.

  5. 변경사항 적용 및 재처리를 클릭하십시오.

콜렉션에 문장 분류자 인리치먼트를 적용하는 방법에 대한 자세한 정보는 인리치먼트 관리 를 참조하십시오.

문장 분류자 출력

인리치먼트가 문서의 문장 중 하나를 분류할 때 항목이 문서 JSON 표시의 enriched_text.element_classes 섹션에 추가됩니다. 이 섹션에는 해당 문장 클래스와 함께 분류자 모델에 의해 분류된 문장이 포함되어 있습니다.

문장 분류자는 0.5보다 낮은 신뢰도 점수를 갖는 문장을 분류하지 않습니다.

다음 JSON 출력은 문장 분류의 예제 결과입니다.

caption-side=bottom"
JSON 출력을
표시합니다

시간 경과에 따른 성능 모니터링

언제든지 문장 분류자 모델을 재훈련할 수 있습니다. 모델을 훈련할 때마다 성능 메트릭 점수를 검토하여 최신 변경사항이 모델의 점수를 늘리거나 줄이는지 여부를 판별하십시오.

한 테스트 실행을 다른 테스트 실행과 비교하려면 클래스류 평가 보기에서 점수 히스토리 보기 를 클릭하십시오. 히스토리 보기에는 마지막 5개의 훈련 실행이 표시됩니다.

To retain the score information for more than the most recent 5 training runs, you can export the metrics in comma-separated value format, and track the scores in a separate application. Click the tabular representation icon ![Tabular representation icon](images/table-of-contents.svg), and then click **Download as CSV**.
{: tip}

후속 훈련 실행의 결과가 더 낮은 점수인 경우 모델의 해당 버전을 공개하지 마십시오.

문장 분류자 삭제

문장 클래스류가 사용 중이 아닌 경우 (예: 문장 클래스류에서 공개되는 인리치먼트가 콜렉션에 적용되지 않는 경우) 에는 문장 클래스류를 삭제할 수 있습니다.

예를 들어, 계획에 허용되는 최대 문장 분류자 수의 한계에 도달하면 문장 분류자를 삭제할 수 있습니다.

최대 문장 분류자 작업공간 수와 최대 문장 분류자 인리치먼트 수의 두 가지 다른 한계가 있습니다. 개선 도구 패널로 이동할 때 문장 분류자 작업공간을 작성하고 각 도메인 개념을 펼치고 문장 분류자를 클릭한 후 새로 작성 단추를 클릭하십시오. 훈련된 문장 분류자를 공개하거나 문장 분류자 모델을 업로드할 때 문장 분류자 인리치먼트를 작성합니다. 한계에 대한 정보는 문장 분류자 한계 를 참조하십시오.

한계는 프로젝트가 아니라 서비스 인스턴스별로 정의됩니다. 현재 프로젝트에 최대 문장 클래스류 수가 없지만 새 문장 클래스류 작업공간을 작성하거나 훈련된 문장 클래스류를 공개할 수 없는 경우 동일한 서비스 인스턴스에서 다른 프로젝트를 확인하십시오. 삭제할 수 있는 다른 프로젝트에서 사용되지 않는 문장 분류자 작업공간 또는 인리치먼트가 있을 수 있습니다.

문장 분류자 인리치먼트 제거

삭제하려는 문장 분류자에서 공개된 문장 분류자 인리치먼트를 사용 중인 콜렉션에서 제거하십시오. 자세한 정보는 인리치먼트 삭제 를 참조하십시오.

문장 분류자 인리치먼트를 제거해도 해당 작업공간은 제거되지 않습니다.

문장 분류자 작업공간 제거

문장 분류기 작업 영역을 제거하려면 다음 단계를 완료하세요:

  1. 개선 및 사용자 정의 페이지의 개선 도구 패널에서 각 도메인 개념을 펼친 후 문장 분류자를 클릭하십시오.

  2. 삭제할 문장 분류자 작업공간을 찾고 조치 아이콘을 클릭한 후 삭제를 선택하십시오.

문장 분류자 작업공간을 제거해도 작업공간에서 공개된 인리치먼트가 제거되지 않습니다.

문장 분류기에 대한 API 사용

문장 분류자 API는 베타 기능입니다.

문서에 문장 분류자 인리치먼트를 적용하기 위해 API를 사용할 수 있습니다. API를 사용하여 문장 분류자 인리치먼트를 작성하고 이를 업데이트 및 삭제하는 등 인리치먼트를 관리할 수도 있습니다.

문장 분류기 API를 사용하려면 다음 작업을 수행하세요:

  1. API에서 create an enrichment 메소드를 사용하여 문장 분류자 인리치먼트를 작성하십시오.

    인리치먼트 작성에 대한 자세한 정보는 API 참조에서 인리치먼트 작성 을 참조하십시오.

    문장 분류자 인리치먼트를 작성할 때 문장 분류자 모델을 훈련하려면 레이블 지정된 데이터를 지정해야 합니다. 레이블 지정된 데이터는 다음 CSV 형식이어야 합니다.

    "sentence1", class-label1, class-label2
    "sentence2", class-label3
    "sentence3", ...
    ...
    

    각 행은 문장 다음에 문장과 연관된 0개이상의 문장 클래스 레이블의 쉼표로 구분된 목록이 옵니다.

    우수 사례로서, 합리적인 품질의 문장 분류를 달성하려면 CSV 파일의 각 문장 클래스 레이블을 최소 100개의 문장으로 표시해야 합니다. 문장 클래스 레이블과 연관된 문장은 해당 문장 클래스의 긍정적인 예로 간주됩니다. 문장 클래스 레이블과 연관되지 않은 문장은 해당 문장 클래스의 음수 예제로 간주됩니다.

    문장 분류자 인리치먼트가 성공적으로 작성된 후 콜렉션 관리 페이지로 이동하여 콜렉션을 선택한 후 인리치먼트 탭을 여십시오. 사용 가능한 인리치먼트 목록에서 문장 분류자 인리치먼트를 찾을 수 있습니다.

    문장 분류자 인리치먼트 상태 가 준비되면 콜렉션의 문서에 문장 분류자 인리치먼트를 적용할 수 있습니다.

  2. 작성한 문장 분류자 인리치먼트를 문서의 필드 (텍스트 또는 html) 에 적용하여 문장을 분류하십시오. 인리치먼트 적용 및 API를 사용한 인리치먼트 관리에 대한 자세한 정보는 API를 사용하여 인리치먼트 관리 를 참조하십시오.

문장 분류자 한계

서비스 인스턴스당 작성할 수 있는 문장 분류자 수는 Discovery 플랜 유형에 따라 다릅니다.

문장 분류자 한계
플랜 서비스 인스턴스당 문장 분류자 작업공간 서비스 인스턴스별 문장 분류자 인리치먼트 클래스류별 최대 문장 클래스 훈련 데이터의 최대 문서 수
프리미엄 1,000만 20 5 1,000시간
구축 1,000만 20 5 1,000시간
Plus (평가판 포함) 3 5 3 2억