IBM Cloud Docs
패싯 추가하기

패싯 추가하기

언어 처리 및 텍스트 분석 결과를 분석할 수 있도록 Discovery는 유사한 패턴이나 컨텐츠를 공유하는 문서를 구성하고 분류합니다.

패싯을 사용하면 문서를 필터링하여 심층 분석을 더 빠르게 수행할 수 있습니다. 건초 더미에서 바늘을 찾으려 할 때나 예상치 못한 트렌드를 발견하려는 경우, 패싯으로 시작하면 조사 프로세스의 속도를 높일 수 있습니다.

  • 콘텐츠 마이닝 프로젝트의 경우, 품사 정보(기본적으로 이 유형의 프로젝트에 적용되는 품사 보강에 의해 캡처됨)를 기반으로 컬렉션에서 패싯이 추출됩니다. 문서의 메타데이터에서 파생된 패싯을 볼 수도 있습니다.

    콘텐츠 마이닝
    패싯

  • 문서 검색 프로젝트의 경우, 인식된 엔티티를 기반으로 컬렉션에서 패싯이 추출됩니다(기본적으로 이 유형의 프로젝트에 적용되는 엔티티 강화에 의해 캡처됨).

    Watson Discovery "Customize display" section
    Top Entities facet

엔티티품사 강화 기능에 대한 자세한 내용은 사전 구축된 강화 기능 적용하기 를 참조하세요. 프로젝트에 기본적으로 적용되는 강화 기능에 대한 자세한 내용은 기본 프로젝트 설정 를 참조하세요.

패싯 만들기

콘텐츠 마이닝 프로젝트에 패싯을 추가하는 방법에 대한 자세한 내용은 패싯 추가하기 를 참조하세요.

다른 프로젝트 유형의 경우 다음과 같은 방법으로 패싯을 만들 수 있습니다:

콜렉션의 기존 필드에서 패싯 작성

컬렉션에 보강 기능을 적용하면 새 필드가 인덱스에 추가됩니다. 보강을 통해 인식된 정보는 이러한 새로운 필드에 저장됩니다. 보강 필드를 패싯의 소스로 사용할 수 있습니다.

예를 들어 키워드 사전 구축된 보강 기능을 적용하면 컬렉션에서 찾은 키워드를 기반으로 패싯을 만들 수 있습니다. 키워드 강화 기능은 문서를 처리할 때 발생하는 모든 키워드 언급을 인식하고 접두사 enriched_{field_name}.keywords 로 시작하는 필드 집합에 해당 키워드에 대한 정보를 저장합니다. 키워드 패싯을 만들려면 키워드 멘션이 저장되는 필드인 enriched_{field_name}.keywords.mentions.text 필드에서 해당 카테고리를 가져오는 패싯을 추가합니다. 키워드 강화 기능에 대한 자세한 내용은 사전 구축된 강화 기능 적용하기 를 참조하세요.

마찬가지로 도메인별 보강에 의해 생성된 필드를 패싯의 소스로 사용할 수 있습니다. 실제로 정규 표현식 보강을 생성할 때 인식된 표현식 멘션을 분류할 패싯을 정의할 수 있습니다. 자세한 내용은 도메인별 리소스 추가하기 를 참조하세요.

기존 필드에서 패싯을 추가하려면 다음 단계를 완료합니다:

  1. 개선 및 사용자 정의 페이지 에서 사용자 정의 표시를 클릭한 다음, 패싯을 클릭합니다.

  2. 새 패싯 > 콜렉션의 기존 필드에서를 클릭하십시오.

  3. 패싯에서 사용할 필드를 선택합니다(예: enriched_text.entities.type). 패싯 레이블을 추가하고 필터 제어 옵션을 선택합니다.

  4. 옵션: 표시되는 패싯 값의 최대 개수를 조정할 수 있습니다.

    최대 수는 각 패싯 유형에 대해 표시되는 패싯 값의 수를 합한 값입니다. 기본적으로 총 10개의 패싯 값이 표시됩니다.

  5. 패싯을 테스트할 때 옵션을 조정할 수 있습니다.

사전을 작성하여 패싯 작성

패싯을 추가하여 사전을 만들어 사용 사례에 특별한 의미가 있는 용어 집합을 그룹화하세요.

예를 들어, 소매 의류 매장의 소유자가 고객 리뷰를 수집하고 반복되는 불만 사항을 찾아내어 판매 중단할 품목을 파악하고자 합니다. 소유자는 사전을 만들어 리뷰 텍스트에서 특정 의류 품목에 대한 언급을 인식하고 태그를 지정할 수 있습니다. 의류 상품 유형별로 고객 피드백을 필터링하려는 목표를 지원하기 위해 소유자는 다음 표에 나열된 항목과 유사한 항목을 추가할 수 있습니다.

사전 항목 예시
사전 항목 동의어 사전 이름
셔츠 상의, 단추 다운, 튜닉, 블라우스, 티셔츠, 긴팔, 반팔, 탱크 의류
바지 슬랙스, 청바지, 레깅스, 스웨트, 카프리, 큐롯, 바지, 치노 팬츠 의류

This long-sleeve is so badly proportioned. Who has arms that long! 패싯을 기준으로 문서를 필터링하면 clothing 라는 리뷰가 반환됩니다.

사전을 만들어 패싯을 만들려면 다음 단계를 완료하세요:

  1. 개선 및 사용자 정의 페이지 에서 사용자 정의 표시를 클릭한 다음, 패싯을 클릭합니다.

  2. 새 패싯 > 사전을 작성하여를 클릭하십시오.

  3. 패싯의 이름을 입력한 다음 분류하려는 용어의 사전을 만듭니다.

    사전을 저장하면 패싯 레이블에 사용한 이름이 패싯 목록에 표시됩니다.

  4. 패싯을 테스트할 때 도메인 개념 학습 > 사전을 선택하여 작성한 사전에 더 많은 용어를 추가할 수 있습니다.

    만든 사전은 사전 페이지의 목록에 표시됩니다. 자세한 내용은 사전 를 참조하세요.

패턴을 식별하여 패싯 만들기

패턴은 베타 기능이며 영어 문서만 지원합니다.

IBM Cloud IBM Cloud 오직

이 패싯은 관리형 배포와 문서 검색대화형 검색 프로젝트에서만 사용할 수 있습니다.

패턴 기능은 패턴 유도를 사용하여 Discovery가 데이터의 패턴을 인식하도록 훈련시킵니다. 패턴 유도는 사용자가 제공한 예제에서 추출 패턴을 생성합니다. 몇 가지 예를 지정한 후 Discovery에서 패턴을 완성하기 위해 확인해야 하는 더 많은 규칙을 제안합니다.

패턴 인식은 대/소문자, 길이, 텍스트 또는 숫자 값의 구조가 일관된 텍스트에서 가장 잘 작동합니다. 문서에서 식별하도록 Discovery에 훈련시킬 수 있는 패턴의 예는 다음과 같습니다.

  • 모든 ISO 표준 번호(예: ISO 45001, ISO 22000)
  • 모든 통화 금액(예: $50.5 million, 29 dollars, $29.00
  • 모든 날짜, 예를 들어 8 September 2019, June 12, 2020

특정 용어나 텍스트를 식별해야 하는 경우 대신 사전 항목의 일부로 패싯을 만드세요. 예를 들어 사전 패싯을 사용하여 다음 유형의 정보를 그룹화할 수 있습니다:

  • 동일한 제품군의 모든 제품, Cloud Pak for Data, Cloud Pak for Automation, Cloud Pak for Security
  • 동일한 카테고리의 모든 용어, carburetor, piston, valves

자세한 내용은 사전을 만들어 패싯 만들기 를 참조하세요.

패턴을 식별하여 패싯을 추가하려면 다음 단계를 완료하세요:

  1. 개선 및 사용자 정의 페이지 에서 사용자 정의 표시를 클릭한 다음, 패싯을 클릭합니다.

  2. 새 패싯 > 패턴을 식별하여를 클릭하십시오.

  3. 새 패턴 페이지의 생성 패싯에서, 문서 선택 방법을 선택합니다. Discovery가 10개의 문서를 무작위로 선택하도록 허용하거나 최대 20개의 문서를 직접 선택할 수 있습니다.

    문서를 직접 선택하는 경우 다음 지침을 따르세요:

    • 나중에 모델이 인식할 수 있도록 하려는 모든 다른 형식의 패턴에 대한 언급이 포함된 문서를 선택합니다.

    • 모델이 패턴에 맞지 않는 용어가 사용되는 방식을 이해하도록 하려면 해당 용어를 잘못된 방식으로 사용하는 문서를 포함시켜 의도적으로 선택을 생략할 수 있습니다.

      예를 들어 추가하려는 패턴에 의류에 대한 멘션을 캡처할 수 있습니다. 셔츠를 언급하기 위해 top 을 언급하는 문서에서는 top 를 의류 언급으로 선택합니다. 그러나 the top 3 fashion trends 을 언급하는 문서를 포함하고 이 문맥에서 해당 용어가 사용될 때 의도적으로 top 을 선택하지 않을 수도 있습니다. 이 생략은 이 용어가 최고라는 의미로 사용될 때 상위가 패턴에 맞지 않는다는 것을 모델에 가르칩니다.

    • 최대 5,000자 이내의 문서를 포함하세요. 한도를 초과하는 모든 문서는 5,000자로 잘립니다.

  4. 다음 을 클릭하십시오.

  5. 정의하려는 패턴에 맞는 예시 단어 또는 구문을 선택합니다.

    예를 들어, 날짜 패턴을 정의하려면 각 문서에서 날짜 언급을 강조 표시하기 시작하세요. 실수한 경우 해당 선택사항 위에 마우스 커서를 두고 x를 클릭하여 삭제하십시오.

    패턴에 대한 모든 언급을 선택해야 합니다. 모델은 사용자가 선택한 것만큼 생략한 것을 통해 학습합니다.

  6. 계속해서 예제를 선택하십시오. 충분한 예시를 확인하면 Discovery에 검증할 수 있는 추천 예시 목록이 표시됩니다. 각 항목에 대해 또는 아니요를 선택합니다.

    컨텍스트에서 예제를 확인하려면 문서 미리보기 아이콘을 클릭하십시오.

  7. 충분한 예시를 제공했음을 나타내는 메시지가 표시될 때까지 예시를 계속 강조 표시하고 제안을 확인합니다.

  8. 예시 목록을 검토하려면 예시 검토 탭을 클릭합니다.

  9. 예가 올바르면 패턴 저장을 클릭하십시오.

시스템이 유효한 패턴을 결정할 수 없는 경우, 패턴 저장 버튼 은 활성화되지 않습니다. 패턴을 설명하기 위해 모순되는 예를 선택하면 시스템에서 유효한 패턴을 판단할 수 없습니다. 작업을 저장할 수 없는 경우 재설정 버튼을 클릭하여 다시 시작하세요. 문서가 원래 상태로 되돌아가고 이전에 식별된 모든 예제는 더 이상 선택되지 않습니다.

패턴을 저장하면 패싯 레이블에 지정한 이름이 패싯 목록에 표시됩니다.

정규식 필드 대신 패턴 패싯을 사용해야 하는 경우

패턴 기반 패싯을 만드는 것은 컬렉션에 정규 표현식 보강을 적용하여 파생된 필드에서 패턴을 만드는 것과 유사합니다.

  • 캡처하려는 정보가 엄격한 서식 규칙을 따르는 경우 정규식 보강 기능을 사용하여 해당 정보를 찾을 수 있습니다. 보강을 적용한 다음 결과 필드를 패싯의 소스로 사용할 수 있습니다.
  • 캡처하려는 정보가 다양한 서식 스타일로 나타날 수 있는 경우 패턴 패싯이 더 나은 선택입니다. 예를 들어 날짜나 통화는 다양한 방식으로 서식을 지정할 수 있습니다. 단일 정규식 규칙으로는 모든 변형을 포착할 수 없습니다. 패턴 패싯을 사용하면 정보를 지정할 수 있는 다양한 방법을 보여주는 여러 가지 실제 사례를 제공할 수 있습니다.