IBM Cloud Docs
고급 규칙 프로젝트 및 추출기 관리

고급 규칙 프로젝트 및 추출기 관리

고급 규칙 편집기에서 프로젝트를 사용하여 추출기 및 샘플 문서를 구성하십시오.

시작하기 전에

고급 규칙 작업공간은 댈러스 또는 프랑크푸르트에서 호스팅하는 Knowledge Studio 인스턴스에서만 사용할 수 있습니다.

  1. 댈러스 또는 프랑크푸르트 위치에서 Knowledge Studio의 인스턴스를 작성하십시오.
  2. Knowledge Studio 서비스 인스턴스의 관리 페이지에서 실행 도구를 클릭하십시오.
  3. 고급 규칙 작업공간을 작성하십시오.
    • 다른 작업공간이 이미 있으면 작업공간 작성을 클릭하십시오.
    • 고급 규칙 작업공간 작성을 클릭하십시오. 작업공간의 이름을 입력한 후 작성을 클릭하십시오. 고급 규칙 작업공간이 몇 초 후에 로드됩니다.

작업공간 레이아웃

이 작업공간은 다음 영역으로 구성되어 있습니다.

  • 프로젝트 및 추출기 분할창에는 두 개의 탭이 포함되어 있습니다. 프로젝트 탭을 사용하여 프로젝트를 작성, 삭제 및 이름을 바꿉니다. 추출기 탭에는 제공된 추출기와 사용자가 작성한 모든 사용자 정의 추출기가 나열되어 있습니다.
  • 추출기를 설계 및 사용자 정의하려면 캔버스를 사용합니다.
  • 추출기 특성결과 분할창을 사용하여 추출기 특성을 설정하고 샘플 텍스트에서 추출기 실행 결과를 봅니다.
  • 문서 분할창을 사용하여 추출기를 테스트하는 데 사용할 수 있는 샘플 문서를 관리합니다.

고급 규칙 편집기 작업공간

프로젝트 관리

프로젝트를 사용하여 특정 솔루션 또는 문서의 카테고리를 지원하는 추출기를 개발하고 테스트합니다. 프로젝트는 사용자가 작업할 때 5분마다 자동으로 저장됩니다. 저장 저장 아이콘를 클릭하여 프로젝트를 수동으로 저장할 수 있습니다.

  • 프로젝트를 작성하려면 프로젝트 탭에서 새로 작성 새 프로젝트 아이콘을 클릭하십시오.
  • 프로젝트를 삭제하려면 프로젝트를 선택하고 프로젝트 탭에서 삭제 삭제 아이콘를 클릭하십시오.
  • 프로젝트 이름을 바꾸려면 프로젝트를 두 번 클릭하고 프로젝트 이름을 편집하십시오.

새 프로젝트 단추

추출기 관리

추출기는 특정 분석 태스크를 수행하고 분석 로직을 제공하는 소프트웨어 구성요소입니다. 현상태 그대로 사용하거나 복사하여 편집할 수 있는 샘플 추출기가 제공됩니다. 특정 용어, 문자 패턴 및 시퀀스와 일치시키는 추출기를 정의하고 이 추출기를 추출기 라이브러리에 저장할 수도 있습니다. 추출기를 추가, 수정, 조합, 공유, 삭제하려면 작업공간을 사용하십시오.

캔버스에 추출기 추가

  1. 프로젝트 및 추출기 분할 영역에서 추출기 탭을 클릭하십시오.
    • 해당 폴더를 펼치고 필요한 추출기의 이름을 선택하십시오. 추출기에 대한 자세한 정보를 보려면 추출기를 선택한 후 추출기 특성 아래에 있는 설명 정보를 참조하십시오. 추출기 특성 분할 영역에서 예제 링크 위로 마우스를 이동하여 추출기에서 리턴하는 결과의 예를 볼 수도 있습니다.
    • 또는 이름으로 추출기를 검색하십시오.
  2. 선택된 추출기를 캔버스로 끌어서 놓으십시오. 한 추출기가 여러 번 추가되면 모든 인스턴스가 하나로 취급됩니다. 예를 들어, 한 인스턴스에서 변경된 특성은 모든 인스턴스에 반영됩니다. 모든 인스턴스가 변경되는 것을 예방하려면 추출기를 캔버스로 끌어 놓을 때 각 인스턴스의 이름을 바꾸십시오. 두 개 이상의 인스턴스 이름을 변경한 경우 마우스 오른쪽 단추를 클릭하여 링크 해제를 선택하면 사본을 작성할 수 있습니다.

필요에 따라 추출기 특성 분할 영역에서 설정출력 값을 수정하여 추출기를 세분화할 수 있습니다. 이 특성을 구성하는 방법에 관한 자세한 정보는 사전 작성추출기 실행을 참조하십시오. 추출기 특성을 변경하면 프로젝트에서 사용할 사본이 자동으로 작성합니다.

추출기 카테고리 실행

추출기 라이브러리에서 추출기의 카테고리를 한 번에 추가할 수도 있습니다. 입력 문서의 일치 항목이 있는 카테고리 또는 폴더의 모든 추출기가 캔버스에 자동으로 추가됩니다.

  1. 프로젝트 및 추출기 분할 영역에서 추출기 탭을 클릭하십시오.
  2. 마우스 오른쪽 단추로 카테고리 폴더를 클릭하십시오.
  3. 카테고리 실행을 클릭하십시오.

추출기 라이브러리에 추출기 저장

추출기가 추출기 라이브러리에 저장될 때까지는 추출기가 정의된 프로젝트에서만 추출기에 액세스할 수 있습니다.

추출기를 모든 프로젝트에서 사용할 수 있게 하려면 캔버스의 도구 모음에서 추출기 저장을 클릭하십시오. 사용자 정의 추출기는 기본적으로 ** 폴더의 **추출기tauser 탭에 저장됩니다. 제공된 추출기와 동일한 폴더에 제공된 추출기의 수정된 버전을 저장하는 것이 우수 사례입니다.

추출기 작성

다음 요소 중 하나 이상을 결합하여 추출기를 빌드할 수 있습니다.

  • 리터럴: white-tailed deer 또는 Congress와 같은 단일 용어와 일치
  • 사전: 동일한 카테고리에 속한 용어 그룹과 일치
  • 순서: 용어의 순차 패턴과 일치하는 추출기의 조합
  • 유니온: 단일 개념을 나타내는 추출기 그룹화
  • 정규식: 구문 기반 패턴 일치

언어 패턴을 사용하여 추출기 작성

토큰화 및 품사와 같은 자연어 처리(NLP) 개념을 사용하여 새 추출기를 정의하려면 AQL(Annotation Query Language)을 사용하여 추출기를 개발해야 합니다.

AQL 작성 방법 및 사용 가능한 함수에 관한 자세한 정보는 어노테이션 조회 언어(AQL) 참조를 확인하십시오.

사전 작성

사전은 개념과 관련된 용어 목록입니다. 동일한 카테고리에 맞는 여러 용어의 텍스트를 분석할 때 개별 리터럴의 편리한 대체로 사전을 사용하십시오.

단순한 용어 목록 또는 값이나 용어를 자주 사용되는 용어에 맵핑한 맵핑 테이블로 사전을 정의할 수 있습니다. 맵핑 테이블은 일반적으로 동의어, 약어, 인코딩된 값을 분석하는 데 사용됩니다.

사전을 사용하면 때때로 일치하는 항목이 겹칠 수 있습니다. 예를 들면, Officer, Warrant Officer 또는 Chief Warrant Officer와 같은 군대 계급을 지닌 사람들에 대한 정보 추출에 사용되는 사전에서는 Chief Warrant Officer가 나타날 때마다 세 개의 일치 항목이 겹칩니다. 이 문제를 처리하는 데 필요한 정보는 중복 항목 및 겹치는 결과 제거를 참조하십시오.

목록 정의

조직의 부서 이름, 판매 우선순위, 의회 위원회 또는 군대 계급과 같은 표준화된 용어를 사용하여 값을 추출할 경우 목록에서 필요한 용어를 식별할 수 있습니다.

  1. 캔버스 도구 모음에서 새 사전을 클릭하십시오.
  2. 사전의 이름을 지정하십시오. 설명을 포함하여 이름을 확장할 수 있습니다. 매우 긴 텍스트는 결과 표시에서 잘리지만 사전 위로 마우스를 이동하면 전체 설명을 읽을 수 있습니다.
  3. 추출기 특성 아래의 설정 탭에서 각 용어를 수동으로 입력하거나 파일에서 목록을 로드하십시오. 각 항목의 최대 길이는 1024자입니다.
  • 용어를 수동으로 지정하려면 용어 추가를 클릭하고 용어를 입력한 후 입력을 누르십시오. 행당 한 개의 용어를 입력하십시오.
  • 별도의 줄에 각 용어가 있는 UTF-8 텍스트 파일에서 용어를 로드하려면 용어 가져오기를 클릭합니다. 가져오기 시 오류가 표시되면 줄 바꾸기 또는 백스페이스와 같은 인쇄 불가능한 문자가 파일에 포함되지 않았는지 확인하십시오.

맵핑 테이블 정의

의미는 같지만 철자가 다른 용어인 동의어 또는 인코딩된 값이 포함된 파일을 분석할 경우, 맵핑 테이블을 정의하여 텍스트에 있는 용어를 원하는 용어에 맵핑할 수 있습니다.

맵핑 테이블은 검색 테이블 또는 키-값 쌍 테이블과 유사합니다. 맵핑 테이블을 정의할 수 있는 인스턴스의 예로는 다음과 같은 일치 항목이 있습니다.

  • Margaret에 맵핑되는 Maggy 및 Peggy와 같은 닉네임
  • I.B.M.과 같은 조직 이름의 약어 및 대체 형식, 일반적으로 사용되는 이름 IBM에 대한 IBM Deutschland 및 International Business Machines
  • 로그 파일의 HTML 오류 코드를 변환할 때의 404 - File Not Found
  • 지역 코드 408 - California

최고의 성능을 위해 텍스트 추출 단계 후 두 번째 단계에서 길거나 복잡한 맵핑 테이블을 사용하십시오.

  1. 캔버스 도구 모음에서 새 사전을 클릭하십시오.
  2. 사전의 이름을 지정하십시오. 설명을 포함하여 이름을 확장할 수 있습니다. 매우 긴 텍스트는 잘리지만 사전 위로 마우스를 이동하면 전체 텍스트가 표시됩니다.
  3. 추출기 특성 아래의 설정 탭에서 용어 맵핑을 클릭하십시오.
  4. 수동으로 또는 파일에서 로드하여 열이 두 개인 테이블을 작성하십시오. 첫 번째 열에는 텍스트에서 검색할 용어가 포함되고, 두 번째 열에는 결과에서 생성할 값이 나열됩니다. 항목의 최대 길이는 1024자입니다. 용어가 첫 번째 열에서 반복되는 경우 맵핑된 첫 번째 값만 사용됩니다.
  • 용어를 수동으로 지정하려면 용어 추가를 클릭하고, 용어 및 맵핑된 값을 입력한 후 Enter를 누르십시오.
  • ASCII 또는 UTF-8 텍스트 파일에서 각 항과 해당 맵핑된 값을 하나의 쉼표로 구분하여 별도의 행에 로드하려면 용어 가져오기을 클릭하십시오. 가져오기 시 오류가 표시되면 줄 바꾸기 또는 백스페이스와 같은 인쇄 불가능한 문자가 파일에 포함되지 않았는지 확인하십시오.

리터럴 작성

white-tailed deer 또는 Congress와 같은 단일 용어 또는 문구와 정확히 일치하는 항목을 찾으려면 리터럴을 사용하십시오.

  1. 캔버스 도구 모음에서 새 리터럴 새 리터럴 아이콘을 클릭하십시오. 그러면 새 리터럴을 캔버스에 추가합니다.
  2. 캔버스의 새 리터럴에서 일치시킬 텍스트의 문자열을 입력하십시오. 예를 들면 white-tailed deer과(와) 같습니다.

정규식 작성

텍스트 형식을 기반으로 정보를 추출하려면 정규식을 사용해야 합니다. 정규식의 구문은 Java에서 정규식 정의에 사용되는 구문과 동일합니다.

정규식을 사용하는 추출기를 작성하려면 다음을 수행하십시오.

  1. 캔버스 도구 모음에서 새 정규식을 클릭하십시오.
  2. 정규식의 이름을 입력하십시오. 구체적인 설명 정보도 추가할 수 있습니다. 프롬프트에서 입력하는 정보는 표현식 자체가 아니라 표현식의 이름이라는 것을 유의하십시오.
  3. 캔버스에서 정규식을 선택하여 추출기 특성설정 탭에서 여십시오. 정규식을 지정하십시오. 구문에 대한 자세한 정보는 클래스 패턴 Javadoc을 참조하십시오.
  4. 대소문자 구분, 토큰 범위 및 특수 문자 처리 옵션을 지정하십시오. 정규식을 설계하는 동안 오탐지가 표시되면, 정규식에서 패턴을 확장하거나 순서 패턴을 통해 컨텍스트를 추가하여 추가 컨텍스트를 제공하십시오. 예를 들어, 우편 번호 표현이 추가적인 용어와 일치하는 경우 특정 위치에서 허용되는 문자에 대한 규칙을 포함하십시오.

정규식 예

다음은 특정한 경우에 사용될 수 있는 Java 정규식의 예입니다. 패턴 설명에서 A는 문자를 나타내고 9는 숫자를 나타냅니다. Java 구문에 관한 자세한 정보는 Class Pattern Javadoc을 참조하십시오.

  • 하나 이상의 숫자로 구성된 서수 다음에 th, st, nd 또는 rd(21st, 2nd, 3rd 등)가 오는 텍스트를 선택하려면 다음을 지정하십시오.

    \d+(st|nd|rd|th)
    
  • 999-99-9999처럼 형식화된 미국의 주민등록번호가 포함된 텍스트를 선택하려면 다음을 지정하십시오.

    \d{3}\-\d{2}\-\d{4}
    
  • A9A-9A9, A9A 9A9 또는 A9A9A9로 형식화된 캐나다의 우편 번호(예: K1G 3K9, V5g-4X3, x2H3m5)가 포함된 텍스트를 모두 선택하려면 다음을 지정하십시오.

    [a-zA-Z][0-9][a-zA-Z](-|)[0-9][a-zA-Z][0-9]
    
  • A9 9AA, A99 9AA, AA99 9AA, A9A 9AA 또는 a9d AA9A 9AA로 형식화된 영국의 우편 번호(예: M1 1AE, B33 8TH, DN55 1PT, W1A 0AX, CR2 6XH, SW1A 2AA)가 포함된 텍스트를 선택하려면 다음을 지정하십시오.

    [A-Z]{1,2}[1-9][0-9]?[A-Z]?\s[0-9][A-Z]{2,}|GIR 0AA
    
  • AA-99-AA-9999, AA-99-AAA-9999 및 AA-9-AA-9999(0이 선택사항인 주의 경우)로 형식화되고 하이픈 또는 공백과 같은 구분 기호를 사용하거나 구분 기호가 없는(예: TN-86-AF-1199, WB 06 F 5971 및 DL4CAF4943) 인도의 개인용 및 상용 차량의 번호판을 포함하는 모든 텍스트를 지정하려면 다음을 지정하십시오.

    [A-Z]{2}(-| |)\d{1,2}(-| |)[A-Z]{1,3}(-| |)\d{4} (M1 1AE, B33 8TH, DN55 1PT, W1A 0AX, CR2 6XH, SW1A 2AA)
    

순서 패턴 작성

관심 있는 용어에 대한 컨텍스트를 제공하는 패턴에 대해 텍스트를 평가해야 하는 경우가 자주 있습니다. 예를 들면, 군인 또는 경찰관이 언급된 부분을 민간인이 언급된 부분과 구분하려고 합니다. 추출기를 설계할 때 텍스트의 패턴을 기반으로 정보를 식별하고 추출하는 데 사용할 수 있는 몇 가지 방법이 있습니다. 단일 추출기에서 이러한 방법을 사용할 수도 있고 추출기를 조합할 수도 있습니다.

사용자의 필요에 맞게 사용자 고유의 패턴을 정의하기 전에 제공된 추출기가 원하는 결과를 제공할 수 있는지 확인하십시오.

순서 패턴을 작성하려면 다음 작업을 수행하십시오.

  1. 제공된 추출기를 확장하거나 사전, 정규식, 리터럴을 작성하여 필요한 모든 용어의 개별 추출기를 작성하십시오.
  2. 캔버스에서 하나의 추출기를 다른 추출기로 끌어서 놓고 커서로 조정하여 용어가 텍스트 패턴으로 나타나는 순서를 반영하십시오. 새 추출기를 놓을 추출기의 왼쪽 또는 오른쪽에 표시되는 굵은 남색 선은 추출기의 상대적 위치를 표시합니다. 새 추출기를 놓으면 상자가 두 추출기를 둘러싸서 순서를 표시합니다. 상자에 임시 제목 Sequence n이 지정됩니다.
  3. 선택사항: 캔버스에서 순서를 선택하고 일반추출기 특성에서 이름을 바꾸십시오.
  4. 선택사항: 필요한 경우 1단계 및 2단계를 반복하여 패턴에 요소를 추가하십시오.

순서 패턴의 예

군인이 언급된 부분을 선택하려면 다음을 수행하십시오.

  1. Military Ranks, Warrant Officer, Sergeant 등의 용어가 포함된 Lieutenant라는 사전을 작성하십시오.
  2. 캔버스에서 Military Ranks 사전 바로 다음에 Person 추출기를 끌어서 놓아 새 순서에서 계급을 찾은 후 이름을 찾는다는 것을 표시하십시오. Military Ranks 추출기 다음에 있는 남색 선은 텍스트 패턴의 Person 추출기 배치를 표시합니다.

마우스 단추를 놓으면 순서 오브젝트가 캔버스에 표시됩니다.

  1. 캔버스에서 순서 오브젝트를 클릭하고 추출기 특성 아래에서 일반 탭을 여십시오. 순서 오브젝트 이름을 Military Personnel로 바꾸십시오.
  2. 최종 추출기 규칙이 캔버스에 표시됩니다.

근접 규칙 추가

원하는 용어 사이에 발생할 수 있는 최대 토큰 수를 지정하는 근접 규칙입니다. 텍스트에서 각 단어 또는 문자를 일반적으로 토큰이라고 합니다. "The CEO announced the earnings last week, missing analyst estimates by 5%." 라는 문장에는 15개의 토큰이 포함되어 있습니다. 공백으로 구분된 11개의 단어와 3개의 특수 문자 및 1개의 숫자입니다.

house made of red brick, red house of brick 및 the brick on the house reflected red와 같은 문구가 분석할 텍스트에 표시될 수 있다는 점을 알고 red brick houses에 대한 참조를 찾을 수 있습니다. 근접 규칙을 사용하면 대상 용어들을 동시에 포함하는 문장 또는 문구(예: "The red car passed a house near the brick yard")를 제외하면서 이 문구를 추출할 수 있습니다.

  1. 캔버스에서 추출기를 마우스 오른쪽 단추로 클릭하고 추가 서브메뉴 중 하나에서 근접 규칙을 클릭하십시오.
  2. minimum-maximum 형식으로 용어 사이에 허용되는 단어, 특수 문자 또는 값의 최소 및 최대수를 지정하십시오. 기본적으로 근접 패턴은 범위에 지정한 두 수 사이의 토큰 개수와 일치하도록 설정됩니다. 원하는 근접 패턴이 다른 경우 설정을 변경할 수 있습니다. 예를 들면, 0-2를 입력하십시오.
  3. 새 근접 규칙을 선택하십시오. 추출기 특성설정 탭에 열리고, 여기에서 숫자 범위를 변경하거나 정확한 토큰 개수로 변환할 수 있습니다.

예제 1:

  1. Clerical title, Rabbi, Father 등의 용어가 포함된 Archbishop라는 사전을 작성하십시오.
  2. 새 순서를 사용하여 이름이 뒤따라오는 직위를 찾도록 Person 추출기를 Clerical title 사전 오른쪽으로 끌어오십시오. 마우스 단추를 놓으면 순서 오브젝트가 캔버스에 표시됩니다.
  3. Clerical title을 마우스 오른쪽 단추로 클릭하고 다음에 추가 > 근접 규칙을 클릭하십시오. Archbishop of Canterbury, Robert Runcie와 같은 용어를 캡처하려면 단어 사이 토큰의 최소수와 최대수를 지정하십시오. 이 경우 0-5입니다.
  4. 일반 탭이 자동으로 열리지 않으면 캔버스에서 순서를 클릭한 후 추출기 특성에서 이 탭을 여십시오. Clerics 순서의 이름을 바꾸십시오.

예제 2:

또 하나의 예를 들면, 빅데이터 용어를 사용하여 산업 분석가의 Twitter 이름을 언급하는 트윗을 선택하십시오. 이 작업을 수행하려면 두 개의 사전(하나는 분석가의 Twitter 사용자 이름, 다른 하나는 빅데이터 용어)을 작성한 다음 0 - 25개의 토큰 근접도로 작업공간 캔버스에서 결합하십시오.

유니온 작성

추출기를 유니온으로 조합하려면 다음을 수행하십시오.

  1. 캔버스에서 두 개 이상의 추출기를 정의하십시오.
  2. 각 순서 또는 추출기의 출력 열 수와 이름이 동일한지 확인하려면 추출기 특성 분할 영역에서 출력을 클릭하십시오. 각 순서 또는 추출기의 출력 열은 열 수와 열 이름이 동일해야 할 뿐만 아니라 데이터 유형도 동일해야 합니다. 이 컨텍스트에서 데이터 유형은 Span, Number, String, Character, Date 또는 Time입니다. 유니온에서는 추출기 또는 순서에 대한 이러한 특성을 편집할 수 없다는 점을 유의하십시오.
  3. 캔버스에서 순서에 관계없이 남색 놓기 영역 표시기에서 추출기를 놓을 수 있다고 표시할 때까지 한 추출기 또는 순서를 클릭하여 다른 추출기 또는 순서의 위 또는 아래로 끌어오십시오.

  1. 마우스 단추를 놓아 추출기를 놓으십시오.
  2. 추가적인 추출기 또는 순서를 유니온으로 끌어서 놓으십시오.

유니온 예제

계약에서 Parties라는 용어는 두 명의 개인, 두 조직 또는 한 명의 개인과 한 조직을 나타낼 수 있습니다. 당사자(parties)에 대한 정보를 추출하려면 두 개의 추출기 Party1Party2를 정의하여 개인 또는 조직을 선택해야 합니다.

  1. Person 분할 영역에서 캔버스로 OrganizationOrganization 추출기를 끌어오십시오.
  2. 캔버스에서 각 추출기를 차례로 선택하고 두 추출기에 대해 열 정의가 동일하도록 추출기 특성출력 탭에서 출력 열의 이름을 바꾸십시오.

  1. Organization 추출기를 Person 추출기 아래 놓기 영역으로 끄십시오.

  1. 캔버스에서 Union 1을 선택하고 Party 1추출기 특성**의 일반 탭에서 이름을 **으로 지정하십시오.
  2. Union 1을 복사하여 또 하나의 유니온을 작성하고 이름을 Party 2로 지정하십시오.
  3. 계약에서 당사자(parties)를 찾으려면 여기에 표시된 것처럼 두 개의 유니온을 하나의 순서로 조합하십시오. 순서의 두 유니온 사이에 리터럴 and가 있습니다.

  1. 새 순서 이름을 Legal Parties로 지정하십시오.

추출기 실행

추출기를 테스트하려면 작업공간에서 실행하고 결과를 검토하여 디자인이 필요에 맞는지 확인할 수 있습니다. 추출기의 설계가 만족스러우면 추출기 라이브러리에 추출기를 저장하여 다른 프로젝트에서 사용할 수 있습니다.

작업공간에서 추출기를 실행하려면 캔버스에서 추출기를 마우스 오른쪽 단추로 클릭하고 메뉴에서 선택한 항목 실행을 클릭하십시오. 또는 추출기를 선택하고 추출기 도구 모음에서 선택한 항목 실행을 클릭하십시오. 여러 개의 추출기를 실행하려면 해당 추출기를 모두 선택하고 도구 모음에서 선택한 항목 실행을 클릭하십시오. 추출기 실행이 완료되면 결과 분할 영역을 클릭하여 출력을 보십시오. 결과는 문서 분할 영역에서도 강조 표시됩니다.

각 열의 결과는 문서 분할 영역의 문서에 링크됩니다. 열의 결과를 보려면 열을 선택하고 아래에 표시된 것처럼 해당 결과가 파란색으로 강조표시되도록 문서의 보기를 조정하십시오.

추출기 결과 세분화

분석을 지원하거나 간소화하려면 추출기 특성출력 탭에서 열을 조작하여 결과 분할창의 정보를 세분화할 수 있습니다. 열 이름을 바꾸고 중복되거나 겹치는 텍스트를 제거 또는 통합하여 분석을 용이하게 할 수 있습니다.

결과 표시에서 열 이름 바꾸기

  1. 캔버스에서 결과를 생성한 추출기를 마우스 오른쪽 단추로 클릭하고 출력 편집을 클릭하십시오.
  2. 열 메뉴에서 이름 바꾸기를 선택하거나 간단히 열을 두 번 클릭하십시오.
  3. 결과에 표시될 새 열 이름을 입력하십시오.

문자열 열 추가

  1. 캔버스에서 결과를 생성한 추출기를 마우스 오른쪽 단추로 클릭하고 출력 편집을 클릭하십시오.
  2. 테이블의 왼쪽 열에서 열 관리 메뉴를 클릭하십시오.
  3. 새 열을 클릭하십시오.

변환된 출력 열 추가

예를 들면, 출력을 모두 소문자로 변환하는 등 추출기의 출력을 변환할 수 있습니다. 추출기 특성 분할 영역의 출력 탭에서 이러한 변환을 수행하십시오.

  1. 캔버스에서 결과를 생성한 추출기를 마우스 오른쪽 단추로 클릭하고 출력 편집을 클릭하십시오.
  2. 변환할 열의 머리글에서 드롭 다운 메뉴를 클릭하고 수행할 변환 유형을 선택하십시오.
옵션 설명
자르기 열을 작성하고 선택된 열에서 리턴하는 값을 자릅니다.
문자열로 변환 열을 작성하고 선택된 열에서 리턴하는 값을 문자열 값으로 변환합니다.
소문자 문자열로 변환 열을 작성하고 선택된 열에서 리턴하는 값을 소문자 문자열 값으로 변환합니다.
단일 열에서 열 새로 작성 선택된 열 값의 왼쪽/오른쪽으로 지정된 수의 문자 또는 단어가 포함된 열을 작성합니다.
두 개의 열에서 열 새로 작성 두 개의 입력 열 간에 있거나 두 개의 입력 열이 겹치는 범위에서 열을 작성하거나 두 열 전체를 병합합니다. 범위 컨텐츠는 하나 이상의 토큰일 수 있습니다.

요구사항: 두 개의 열에서 새 열 함수의 두 번째 열은 캔버스에서 선택한 추출기에서 추출해야 합니다.

잘라내기, 단일 열에서 새 열 작성 또는 두 개의 열에서 열 새로 작성을 선택한 열에 적용한 다음 문자열로 변환 또는 소문자 문자열로 변환을 선택하면 다른 새 열이 생성되지 않습니다. 그 대신에 이전에 선택한 잘라내기 또는 열 새로 작성에서 생성된 새 열에 문자열 변환이 적용됩니다.

결과 표시에서 열 숨기기

추출기 특성 분할 영역의 출력 탭에서 출력 열을 숨길 수 있습니다.

  1. 캔버스에서 결과를 생성한 추출기를 마우스 오른쪽 단추로 클릭하고 출력 편집을 클릭하십시오.
  2. 테이블의 왼쪽 열에서 열 관리 메뉴를 클릭하십시오.
  3. 결과 표시에서 제거할 열의 선택란을 선택 취소하십시오. 컨텐츠는 여전히 추출되지만 이 열은 결과에서 숨겨집니다.

결과 표시에서 열 삭제

  1. 캔버스에서 결과를 생성한 추출기를 마우스 오른쪽 단추로 클릭하고 출력 편집을 클릭하십시오.
  2. 테이블의 왼쪽 열에서 열 관리 메뉴를 클릭하십시오.
  3. 열 삭제를 클릭하고 결과 표시에서 제거할 열의 선택란을 선택하십시오.

중복 및 겹치는 결과 제거

텍스트가 둘 이상의 사전 항목과 일치하는 경우 추출기는 때때로 동일한 텍스트에 대해 여러 개의 행을 생성합니다. 중복 항목을 제거하거나 통합하려면 총합 규칙을 제공해야 합니다.

  1. 캔버스에서 결과를 생성한 추출기를 마우스 오른쪽 단추로 클릭하십시오.
  2. 추출기 특성 분할 영역에서 출력을 클릭하십시오.
  3. 겹치는 일치 항목 관리를 선택하십시오.
  4. 출력 열 목록에서 추출기가 중복 출력을 생성하도록 한 열을 선택하십시오.
  5. 방법 목록에서 다음 값 중 하나를 선택하십시오.
    • 항목 내에 포함 - 가장 긴 결과를 보존합니다.
    • 항목 내에 포함 안 함 - 가장 짧은 결과를 보존합니다.
    • 포함하지만 같지 않음 - 동일한 길이의 고유 결과를 보존합니다.
    • 정확하게 일치 - 각 결과의 인스턴스 하나를 보존합니다.
    • 왼쪽에서 오른쪽으로 - 가장 많은 수의 용어가 있는 가장 긴 결과를 왼쪽에서 오른쪽으로 보존합니다.

예를 들면, 군인이 언급된 부분이 포함된 문서의 추출기를 설계하고 있습니다. Chief Warrant Officer, Warrant OfficerOfficer와 같은 군대 계급 목록이 포함된 사전을 작성 및 실행하고 나면 Chief Warrant Officer John Doe에 대해 다음과 같은 결과가 표시됩니다.

  • Chief Warrant Officer John Doe
  • Warrant Officer John Doe
  • Officer John Doe

용어 Warrant OfficerOfficer가 더 긴 용어인 Chief Warrant Officer에 있으므로 Chief Warrant Officer John Doe는 세 개의 사전 항목을 모두 충족하여 세 개의 결과 행을 생성하도록 합니다. 가장 중요한 순위를 나타내는 가장 긴 용어를 보존하려면 다음과 같이 통합 설정을 지정합니다.

  1. 출력 열에서 Military Rank 선택
  2. 방법에서 항목 내에 포함 선택

이제 Chief Warrant Officer John Doe 행만 결과에 포함됩니다.

외부 결과 필터링

패턴이 일치하더라도 추출기는 때때로 불필요한 결과를 생성합니다. 이러한 불필요한 결과는 문서에서 일치 항목 근처의 다른 텍스트에 의해 자주 인식됩니다.

일치를 추가로 제한하려면 필터를 작성하십시오.

  1. 캔버스에서 결과를 생성한 추출기를 마우스 오른쪽 단추로 클릭하고 출력 편집을 클릭하십시오. 추출기 특성에서 출력 탭이 열립니다.
  2. 포함 또는 제외를 선택하여 결과를 포함하거나 제외하십시오. 기본 설정은 포함입니다.
  • 포함 필터는 결과를 포함하려면 충족되어야 하는 조건입니다.
  • 제외 필터는 결과를 포함하려면 충족되지 않아야 하는 조건입니다.
  1. 첫 번째 필터 드롭 다운 목록에서 필터를 적용할 열을 선택하십시오.
  2. 그 다음 드롭 다운 목록에서 필터 유형을 선택하십시오. 필터에 따라 뒤이어 표시되는 드롭 다운 목록에 적절한 옵션이 반영됩니다.
옵션 설명
길이 열 컨텐츠가 지정한 수의 문자 또는 토큰보다 짧은지, 긴지 또는 같은지에 따라 필터링합니다.
텍스트 텍스트가 캔버스의 정규식이나 사전과 일치하는지 또는 이 정규식이나 사전을 포함하는지 또는 새 정규식을 입력할 수 있는지에 따라 필터링합니다. 또한 대소문자 구분을 설정할 수 있습니다.
범위 지정된 열의 범위 내에서 지정된 기준에 따라 필터링합니다. 예를 들면, **로 시작하는 군대 계급과 일치하는 항목만 가져오도록 **다음으로 시작Chief을 사용하여 일치 항목 내에서 결과의 범위를 좁힐 수 있습니다.
  1. 필터 옵션을 완료하면 추출기를 다시 실행하여 결과가 어떻게 변경되었는지 보십시오.

Military Ranks 추출기는 텍스트 Chief Warrant Officer John Doe에 대해 일치 항목을 생성하지만, 사용자는 일치 항목 앞에 단어 except가 있는 결과는 포함하지 않으려고 합니다.

  1. except 용어와 결과를 제외하는 데 사용하려는 다른 용어가 포함된 사전을 작성하십시오.
  2. 캔버스에서 Military Ranks를 선택하고 추출기 특성에서 출력 탭을 여십시오.
  3. 새 필터를 클릭하십시오.
  4. 제외를 선택하고 열을 선택하십시오.
  5. 범위다음 뒤에 나타남를 선택하십시오.
  6. except가 포함된 사전을 선택하십시오.
  7. 열 및 사이 0 - 2 토큰을 선택하십시오.

이 필터에서는 일치 전에 0-2개 토큰 내에 except라는 단어가 있는 모든 일치를 제외합니다.

영어 이외의 언어로 추출

영어로 작성되지 않은 문서에서 텍스트를 추출하려면 때때로 기본 제공 추출기를 사용하거나 수정할 수도 있고 언어 패턴을 기반으로 하는 새 추출기를 정의할 수도 있습니다. 또한 대상 용어가 패턴을 기반으로 하는 경우 순서 패턴을 설계할 수 있습니다.

작업공간을 사용하여 공백 및 구두점으로 정의된 토큰을 기반으로 하는 스페인어 및 프랑스어와 같은 언어와 함께 사용할 추출기를 빌드할 수 있습니다. 예를 들어 스페인어 텍스트로 Person 추출기를 사용한 결과 아래에 표시된 대로 이름을 추출할 수 있습니다.

다른 언어에서 사용하도록 제공된 추출기 확장

대상 언어가 공백과 구두점으로 정의된 토큰을 기반으로 하는 경우, 해당 사전에 대상 언어로 용어를 추가하여 사용자 정의 포인트 또는 사전이 포함된 기본 제공 추출기를 확장할 수 있습니다.

기본 제공 추출기 폴더에 포함된 추출기 확장하는 방법
모든 일반 추출기 일반 추출기 대상 텍스트 패턴에 대해 정규식을 정의하십시오. 기본 제공 추출기가 결과를 생성하는 경우 기본 제공 추출기와 정규식을 사용하여 유니온을 작성하십시오.
이메일 주소, 전화번호, 우편 번호 Named Entity Recognition 대상 텍스트 패턴에 대해 정규식을 정의하십시오. 기본 제공 추출기가 결과를 생성하는 경우 기본 제공 추출기와 정규식을 사용하여 유니온을 작성하십시오.
통화 Named Entity Recognition 10진수 추출기를 리터럴과 조합하여 로컬 통화 기호를 순서로 나타내거나 정규식을 정의하십시오. 둘 이상의 통화 기호가 필요하면 리터럴보다는 사전을 사용하십시오.
날짜 및 시간 Named Entity Recognition

숫자 형식의 경우 대상 텍스트 패턴의 정규식을 정의하십시오.

영문자 형식의 경우 일과 연도에는 정수를 사용하여 순서를 정의하고 월을 나타내려면 맵핑 테이블을 정의하십시오. 맵핑 테이블에서 각 월의 전체 이름 및 약어를 사용하십시오. 예를 들면, 영어로 변환할 경우 프랑스어 월 juilletjuiljuillet 또는 July에 맵핑하십시오.

구/군/시, 카운티, 국가, 사람, 위치, 조직, 시/도, 타운 Named Entity Recognition

유럽 언어 및 유사한 언어

해당 사전에 언어에 대한 항목을 추가하십시오.

아랍어, 일본어 및 유사한 언어

대륙 Named Entity Recognition 사전을 정의하고 항목을 지정하여 대상 언어로 대륙의 이름을 포함하십시오. 영어로 된 결과도 포함되어야 하는 경우 기본 제공 대륙 추출기와 사용자 정의 추출기의 유니온을 작성하십시오.
주소 Named Entity Recognition 상세 주소, 구/군/시, 국가 및 우편번호와 같은 주소의 부분으로 구성된 순서를 정의하십시오.
모든 금융 관련 추출기 금융 조치 이 추출기는 확장할 수 없습니다.
모든 시스템 데이터 분석 추출기 시스템 데이터 분석 가급적 정규식 또는 순서를 정의하십시오. 나머지 추출기는 확장할 수 없습니다.
모든 감성 분석 추출기 감성 분석 - 일반감성 분석 - 설문조사 추출기 특성 분할 영역의 용어 사용자 정의 탭에 대상 언어로 항목을 추가하십시오.

Natural Language Understanding에 고급 규칙 모델 배치

Natural Language Understanding에 고급 규칙 모델을 배치하는 것은 더 이상 사용되지 않습니다. 2021년 6월 10일부터 고급 규칙 모델을 Natural Language Understanding에 배포할 수 없습니다.

고급 규칙 프로젝트 내보내기

다음 지시사항은 IBM Watson® Knowledge Studio용 IBM Cloud Pak for Data 고급 규칙 편집기에서 고급 규칙 모델을 내보내는 방법을 자세히 설명하지만 퍼블릭 클라우드에 대한 공통 지시사항입니다.

  1. 고급 규칙 작업공간을 여십시오.
  2. 내보낼 모든 모델이 캔버스에 있으며 제공된 추출기를 제외하고 "추출기" 분할창에 저장되지 않는지 확인하십시오.
  3. "프로젝트" 분할창에서 내보낼 프로젝트를 마우스 오른쪽 단추로 클릭하십시오.
  4. 클릭 Export Project내보내기
  5. 필요한 경우 "문서 포함"을 선택하고 파일 이름을 입력한 후 OK 단추를 클릭하십시오.
  6. 브라우저의 팝업 대화 상자에서 Save as File을 선택하면 ZIP 파일이 컴퓨터(일반적으로 "다운로드" 폴더)에 저장됩니다.

고급 규칙 편집기 프로젝트를 내보낼 때 캔버스에 있는 개념만 내보낸 ZIP 파일에 포함됩니다. 카테고리 아래에 저장된 개념을 포함하려면 내보내기 전에 해당 개념을 캔버스에 추가해야 합니다.

고급 규칙 프로젝트 가져오기

다음 지시사항은 고급 규칙 모델을 퍼블릭 클라우드의 IBM Watson® Knowledge Studio로 가져오는 방법을 자세히 설명합니다.

  1. 고급 규칙 작업공간을 작성하십시오.
  2. "프로젝트" 탭의 임의의 위치를 마우스 오른쪽 단추로 클릭하고 Import Project를 클릭하십시오.
  3. 프로젝트 이름을 입력하고 필요한 경우 "문서 포함"을 선택한 후 위의 고급 규칙 프로젝트 내보내기에서 내보낸 ZIP 파일을 선택하십시오.

프로젝트에서 모델 파일 내보내기

  1. 고급 규칙 모델 작성의 6단계를 완료하십시오.

Natural Language Understanding에 모델 파일 배치 및 호출

  1. 고급 규칙으로 텍스트 분석(베타)에 대한 Natural Language Understanding 문서를 참조하십시오.