Text to Speech for IBM Cloud Pak for Data 릴리스 정보

IBM Cloud Pak for Data

다음 기능은 IBM Watson® Text to Speech for IBM Cloud Pak for Data의 설치된 인스턴스 또는 온프레미스 인스턴스의 각 릴리스 및 업데이트에 대해 다음 기능과 변경사항이 포함되어 있습니다. 달리 명시되지 않은 한 모든 변경사항은 이전 릴리스와 호환되며 모든 신규 및 기존애플리케이션에 자동으로 투명하게 제공됩니다.

서비스의 알려진 제한 사항에 대한 자세한 내용은 알려진 제한 사항을 참조하세요.

IBM Cloud에 대한 서비스의 릴리스 및 업데이트에 대한 정보는 IBM Cloud의 Text to Speech 릴리스 정보를 참조하십시오.

2024년 10월 30일 (버전 4.8.7 )

버전 4.8.7 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.7 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 9월 25일 (버전 5.0.3 )

버전 5.0.3 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 5.0.3 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 8월 28일 (버전 4.8.6 )

버전 4.8.6 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.6 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 8월 28일 (버전 5.0.2 )

버전 5.0.2 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 5.0.2 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 7월 31일 (버전 5.0.1 )

버전 5.0.1 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 5.0.1 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 6월 19일 (버전 5.0.0 )

버전 5.0.0 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 5.0.0 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 4월 24일 (버전 4.8.5 )

버전 4.8.5 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.5 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 3월 27일 (버전 4.8.4 )

버전 4.8.4 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.4 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 2월 28일 (버전 4.8.3 )

버전 4.8.3 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.3 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 1월 31일 (버전 4.8.2 )

버전 4.8.2 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.2 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2023년 11월 30일 (버전 4.8.0 )

버전 4.8.0 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.0 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2023년 9월 27일 (버전 4.7.3 )

버전 4.7.3 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.7.3 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2023년 7월 28일 (버전 4.7.1 )

버전 4.7.1 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.7.1 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2023년 6월 9일 (버전 4.7.0 )

버전 4.7.0 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.7.0 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2023년 5월 2일(버전 4.6.5)

버전 4.6.5 사용 가능

Text to Speech IBM Cloud Pak for Data 버전 4.6.5 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.6.x 및 Red Hat OpenShift 버전 4.10 및 4.12 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

새로운 호주식 영어 표현 신경 음성

이 서비스는 이제 호주 영어를 위한 두 가지 새로운 표현 신경 음성을 지원합니다:

en-AU_HeidiExpressive
en-AU_JackExpressive

표현 신경 음성은 매우 선명하고 또렷하며 자연스러운 음성을 제공합니다. 새 보이스는 프로덕션용으로 일반 사용 가능(GA)합니다. 표준 국제 음성 알파벳(IPA)과 IBM 사용을 모두 지원합니다 기호 음성 표현(SPR) 음성 기호를 사용할 수 있습니다. 자세한 정보는 다음을 참조하십시오.

새로운 한국어 강화 신경 음성

이 서비스는 이제 한국어에 대한 새로운 향상된 신경 음성을 지원합니다: ko-KR_JinV3Voice. 새 음성은 프로덕션용으로 일반 사용 가능(GA)합니다. 표준 국제 음성 알파벳(IPA)과 IBM 사용을 모두 지원합니다 기호 음성 표현(SPR) 음성 기호를 사용할 수 있습니다. 자세한 정보는 다음을 참조하십시오.

새로운 베타 네덜란드 네덜란드어 강화 신경 음성

이 서비스는 이제 네덜란드 네덜란드어에 대한 새로운 향상된 신경 여성 음성을 지원합니다: nl-NL_MerelV3Voice. 표준 국제 음성 알파벳(IPA)과 IBM 사용을 모두 지원합니다 기호 음성 표현(SPR) 음성 기호를 사용할 수 있습니다.

새로운 음성은 SSML 지원이 완료될 때까지 베타 기능으로 제공됩니다. 초기 릴리스에서는 다음과 같은 SSML 관련 기능의 사용을 지원하지 않습니다:

음성 합성 요청이 있는 <prosody> 요소
음성 합성 요청의 rate_percentage 및 pitch_percentage 매개 변수
WebSocket 음성 합성 요청이 있는 <mark> 요소
WebSocket 음성 합성 요청이 포함된 JSON 문자 메시지의 timings 매개 변수

새 음성, IPA 및 SPR 기호 지원, 더 이상 사용되지 않는 네덜란드 네덜란드 신경 음성에서 새 음성으로 마이그레이션하는 방법에 대한 자세한 내용은 다음을 참조하세요

음성 서비스 사용자 지정 리소스에 대한 새로운 환경 변수

이제 문서에 ${CUSTOM_RESOURCE_SPEECH} 환경 변수를 만드는 방법이 포함되어 있습니다. 새 변수를 cpd_vars.sh 스크립트에 추가하고 스크립트를 소싱하여 사용자 환경에서 변수를 사용합니다. 자세한 내용은 Watson 음성 서비스 설치하기에서 이 작업을 완료하는 데 필요한 정보를 참조하거나 음성 서비스 업그레이드 항목을 참조하세요.

결함 수정: 프랑스어 캐나다 음성이 이제 숫자 시간을 올바르게 처리합니다

결함 수정: 이제 프랑스어 캐나다 음성이 19:41 같은 시간을 올바르게 발음합니다. 이전에는 합성된 오디오에서 시간 요소가 생략된 음성이 나왔습니다.

결함 수정: 일본어 음성이 더 이상 예기치 않은 오디오를 삽입하지 않습니다

결함 수정: 일본어 음성이 더 이상 음성 합성 결과에 예기치 않은 오디오를 삽입하지 않습니다. 이전에는 특정 경우에 추가 오디오가 삽입되었습니다.

결함 수정: 문서에서 한글 음성 기호 업데이트

결함 수정: 한국어 SPR 심볼에 대한 문서에서 자음의 두 문자 심볼이 이제 작은따옴표로 묶여 하나의 심볼이 됩니다. 이전에는 따옴표로 묶지 않고 두 개의 개별 기호로 표시되었습니다. 자세한 내용은 자음(한국어)을 참조하세요.

IBM SPR 심볼에 대한 문서 업데이트

다중 문자 기호 사용을 명확히 하기 위해 IBM SPR 기호에 대한 개요 문서가 업데이트되었습니다. 자세한 내용은 음성 사운드 기호를 참조하세요.)

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2023년 3월 29일(버전 4.6.4)

버전 4.6.4 사용 가능

Text to Speech IBM Cloud Pak for Data 버전 4.6.4 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.6.x 및 Red Hat OpenShift 버전 4.10 및 4.12 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

중요: 버전 4.6.3 또는 4.6.4 업그레이드하기 전에 데이터를 백업하세요

중요: Watson 스피치 서비스 버전 4.6.3 또는 4.6.4 업그레이드하기 전에 데이터를 백업해야 합니다. 백업은 안전한 장소에 보관하세요. For more information about backing up your Watson Speech services data, see 음성 서비스 데이터 백업 및 복원 Watson 음성 서비스 데이터 백업 및 복원 in 관리 Watson 음성 서비스. 이 주제에는 필요한 경우 데이터를 복원하는 방법에 대한 정보도 포함되어 있습니다.

결함 수정: 이제 고급 설치 옵션을 사용하여 설치된 모델과 음성을 변경할 수 있습니다

결함 수정: 이제 설치 중에 명령줄 인터페이스의 고급 설치 옵션을 사용하여 다른 모델이나 음성을 지정할 수 있습니다. 이전에는 서비스가 항상 기본 모델과 음성을 설치했습니다. 이 제한은 Watson 스피치 서비스 버전 4.6.0, 4.6.2 및 4.6.3 계속 적용됩니다. 모델 및 음성 설치에 대한 자세한 내용은 Watson 스피치 서비스 설치하기에서 추가 설치 옵션 지정을 참조하세요.

로드 밸런서 시간 초과 설정

Watson 스피치 서비스는 서버와 클라이언트 모두에 대한 부하 분산 장치 시간 제한 설정을 300초로 변경해야 합니다. 이러한 설정을 통해 장시간 실행되는 음성 인식 요청, 길거나 어려운 오디오가 포함된 요청을 완료하는 데 충분한 시간을 확보할 수 있습니다. 자세한 내용은 Watson 스피치 서비스 설치하기에서 이 작업을 완료하는 데 필요한 정보를 참조하세요.

IBM SPR 심볼에 대한 문서 업데이트

다중 문자 기호 사용을 명확히 하기 위해 IBM SPR 기호에 대한 개요 문서가 업데이트되었습니다. 자세한 내용은 음성 사운드 기호를 참조하세요.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2023년 2월 23일 (버전 4.6.3)

버전 4.6.3 사용 가능

Text to Speech IBM Cloud Pak for Data 버전 4.6.3 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.6.x 및 Red Hat OpenShift 버전 4.10 을 지원합니다. Red Hat OpenShift 버전 4.8 더 이상 지원되지 않습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

알려진 문제입니다: 고급 설치 옵션으로 설치된 모델 및 음성을 변경할 수 없습니다

알려진 문제입니다: 현재 고급 설치 옵션으로 다른 모델이나 음성을 지정할 수 없습니다. 이 서비스는 항상 기본 모델과 음성을 설치합니다. 설치 후 모델 변경에 대한 자세한 내용은 Watson Speech services on IBM Cloud Pak for Data 관리 항목에서 Updating models and voices for your Watson Speech services 참조하세요.

알려진 문제입니다: 버전 4.6.3 업그레이드가 완료되지 않을 수 있습니다

알려진 문제입니다: 버전 4.6.3 업그레이드할 때 MinIO 백업 작업이 완료되면 삭제되지 않을 수 있습니다. 이 경우 해결 방법은 작업을 삭제한 후 업그레이드가 정상적으로 진행되는 것입니다. 다음 단계를 수행하여 문제를 해결하세요.

MinIO 백업 작업이 삭제되지 않은 상태로 유지되는지 확인하려면 다음 명령을 실행합니다:
```
oc get job --namespace {${PROJECT_CPD_INSTANCE} | grep speech-cr-ibm-minio-backup
```
삭제되지 않은 MinIO 작업은 다음 형식의 항목으로 식별됩니다:
```
speech-cr-ibm-minio-backup   1/1   3m25s   1d
```

MinIO 백업 작업을 삭제하려면 다음 명령을 실행합니다:

oc delete job speech-cr-ibm-minio-backup --namespace ${PROJECT_CPD_INSTANCE}

백업 작업이 삭제되면 업그레이드가 계속 진행되어 완료됩니다.

서비스 인스턴스 작업에 대한 추가 정보

이제 설명서에는 명령줄 인터페이스 cpl-cli 로 서비스 인스턴스를 만드는 방법과 서비스 인스턴스를 관리하는 방법에 대한 정보가 포함되어 있습니다. 자세한 내용은 다음 Watson Speech services on IBM Cloud Pak for Data 항목을 참조하세요:

설치 후 설정에서* Watson 스피치 서비스 인스턴스 생성하기*
관리에서* Watson 스피치 서비스 인스턴스 관리하기*

결함 수정: 예제별 튜닝 베타 버전이 출시되었습니다

결함 수정: The beta Tune by example feature is now available for Text to Speech for IBM Cloud Pak for Data. 이전에는 스피커 모델을 만들 수 없었습니다. U.S 사용할 수 있는 이 기능에 대한 자세한 내용은 다음을 참조하세요. 영어 음성만 해당되며, 예제를 통한 튜닝 이해하기를 참조하세요.

결함 수정: <say-as> 요소로 큰 기본 숫자를 지정하면 더 이상 영어 음성에서 오류가 발생하지 않습니다

결함을 수정했습니다: 이제 <say-as> 요소를 사용하여 큰 숫자를 기본 숫자로 발음할 수 있습니다. 이전에는 <say-as> 요소에 interpret-as="cardinal" 속성을 사용하여 많은 숫자를 묶으면 영어 음성에 대한 음성 합성이 실패할 수 있었습니다. 예를 들어 <say-as interpret-as="cardinal">3,200</say-as> 서비스에서 오류를 발생시킬 수 있습니다. 자세한 내용은 SSML 요소 항목의 추기경을 참조하세요.

결함 수정 : 이제 동음 이의어 및 기타 단어가 영어 음성으로 올바르게 발음됩니다

결함 수정: 이제 서비스가 합성할 영어 텍스트의 문맥에 따라 동음이의어 및 기타 단어를 올바르게 발음합니다. 이전에는 advocate 및 wifi 같은 단어가 영어 음성으로 잘못 발음될 수 있었습니다.

보안 취약성이 해결됨

다음과 같은 보안 취약점이 수정되었습니다:

보안 게시판: Watson Speech Services Cartridge for IBM Cloud Pak for Data Pypa 설치 도구에서 서비스 거부에 취약합니다(CVE-2022-40897)

2023년 1월 30일(버전 4.6.2)

버전 4.6.2 사용 가능

Text to Speech IBM Cloud Pak for Data 버전 4.6.2 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.6.x 및 Red Hat OpenShift 버전 4.8 및 4.10 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

이제 사용자 지정 리소스에는 새로운 fileStorageClass 속성이 포함됩니다

이제 Watson 스피치 서비스의 사용자 지정 리소스에 기존 blockStorageClass 속성 외에 fileStorageClass 속성이 포함됩니다. 서비스를 설치하거나 업그레이드할 때 블록 및 파일 저장소 클래스를 모두 지정합니다. 이전 버전에서 업그레이드하는 동안 새 속성은 cli manage apply-cr 명령의 --file_storage_class 옵션에 의해 사용자 지정 리소스에 자동으로 추가됩니다.

지원되는 각 스토리지 솔루션에서 사용할 수 있는 블록 및 파일 스토리지 클래스에 대한 자세한 내용은 Watson Speech services on IBM Cloud Pak for Data" Watson 음성 서비스 설치하기" 페이지에서 이 작업을 완료하는 데 필요한 정보 아래의 스토리지 요구 사항 표를 참조하세요.

서비스 인스턴스 프로비저닝에 대한 추가 정보

이제 이 문서에 프로그래밍 방식으로 서비스 인스턴스를 만드는 방법에 대한 정보가 포함되어 있습니다. 또한 서비스 인스턴스를 나열하고 서비스 인스턴스를 삭제하는 예도 포함되어 있습니다. 자세한 내용은 Watson Speech services on IBM Cloud Pak for Data 설치 후 설정 문서에서 Creating a Watson Speech services instance 참조하세요.

MinIO 데이터스토어에 서버 측 암호화가 활성화되어 있습니다

이제 음성 서비스에서 MinIO 데이터스토어의 객체 저장소에 대한 서버 측 암호화를 사용할 수 있습니다. 회원님의 조치는 필요하지 않습니다.

웹훅 감사로 변경

이제 음성 서비스에서 감사 웹훅 종속성이 제거되었습니다. 이제 서비스가 감사 이벤트를 서버에 직접 작성합니다. 버전 4.6.2 업그레이드한 후에도 모든 서비스가 종속성을 제거할 때까지 일부 웹훅 리소스가 남아있을 수 있습니다. 나머지 리소스는 향후 릴리스에서 제거될 예정입니다. 회원님의 조치는 필요하지 않습니다.

새로운 미국 영어 표현 신경 음성

이 서비스는 미국 영어를 위한 네 가지 새로운 표현 신경 음성을 제공합니다:

en-US_AllisonExpressive
en-US_EmmaExpressive
en-US_LisaExpressive
en-US_MichaelExpressive

표현력이 풍부한 신경 음성으로 새로운 말하기 스타일 구현

표현 신경망 음성은 단어와 구문의 문맥에서 텍스트의 감정을 결정합니다. 그들이 만들어내는 연설은 매우 대화적인 스타일일 뿐만 아니라 텍스트의 분위기를 반영합니다. 그러나 텍스트의 전체 또는 일부가 다음 말하기 스타일 중 하나를 강조하도록 지정하여 음성의 자연스러운 성향을 꾸밀 수 있습니다:

쾌활한- 행복과 좋은 소식을 표현합니다.
공감- 공감 또는 동정심을 표현합니다.
중립- 객관적이고 공평함을 표현합니다.
불확실- 혼란 또는 불확실성을 표현합니다.

자세한 내용은 말하기 스타일 사용을 참조하세요.

표현력이 풍부한 신경 음성으로 새로운 감탄사 강조하기

이 서비스는 표현력이 풍부한 인공 신경망을 통해 문맥에 따라 일반적인 감탄사 세트를 자동으로 감지합니다. 이러한 감탄사를 합성하면 사람이 일반적인 대화에서 사용하는 것과 같은 자연스러운 강조를 제공합니다. 일부 감탄사의 경우 SSML을 사용하여 강조를 사용하거나 사용하지 않도록 설정할 수 있습니다. 자세한 내용은 감탄사 강조하기를 참조하세요.

표현력이 풍부한 신경 음성으로 새로운 단어 강조하기

표현력이 풍부한 음성은 문맥에 따라 올바른 억양을 자연스럽게 적용하는 대화 스타일을 사용합니다. 그러나 하나 이상의 단어를 더 강조하거나 덜 강조하도록 지정할 수 있습니다. 스트레스의 변화는 음정, 타이밍, 음량 또는 기타 음향 속성의 증가 또는 감소로 나타낼 수 있습니다. 자세한 내용은 단어 강조하기를 참조하세요.

이제 이 서비스는 더 엄격한 SSML 유효성 검사를 시행합니다

이제 이 서비스는 SSML(음성 합성 마크업 언어) 요소가 포함된 입력 텍스트에 대해 더 엄격한 유효성 검사를 시행합니다. 속성의 필수 요소는 유효한 값으로 지정해야 합니다. 그렇지 않으면 400 오류 코드와 함께 요청이 실패합니다. SSML 유효성 검사 및 마크업 텍스트가 충족해야 하는 요구 사항에 대한 자세한 내용은 SSML 유효성 검사를 참조하세요.

결함 수정: 음성 en-US_MichaelExpressive 나열된 성별이 이제 올바르게 수정되었습니다

결함 수정: 사용 가능한 음성에 대한 정보를 나열할 때 en-US_MichaelExpressive 음성의 gender 이제 male 표시됩니다. 이전에는 음성의 성별이 female 잘못 설명되었습니다. 자세한 내용은 보이스에 대한 목록 정보를 참조하세요.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 11월 30일(버전 4.6.0)

버전 4.6.0 사용 가능

Text to Speech IBM Cloud Pak for Data 버전 4.6.0 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.6.x 및 Red Hat OpenShift 버전 4.8 및 4.10 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

이제 Amazon Web ServicesAWS가 지원됩니다

Watson 이제 Amazon Web Services™AWS™에서 IBM Cloud Pak for Data 대한 음성 서비스가 지원됩니다. 이 서비스는 음성 서비스 사용자 지정 리소스의 blockStorageClass 속성을 gp2-csi 또는 gp3-csi 설정하여 지정하는 Amazon Elastic Block Store 지원합니다.

이제 새로운 스토리지 클래스가 지원됩니다

Watson IBM Cloud Pak for Data 음성 서비스는 이제 두 개의 추가 저장소 클래스를 지원합니다:

IBM Cloud Block Storage (ibmc-block-gold)
NetApp Trident (ontap-nas)

음성 서비스 사용자 지정 리소스의 blockStorageClass 속성을 사용하여 저장소 클래스를 지정합니다. 지원되는 모든 스토리지 클래스에 대한 자세한 내용은 Watson Speech services on IBM Cloud Pak for Data 다음 항목을 참조하세요:

시작하기 전에 in 설치 Watson 음성 서비스
스토리지 클래스 지정 in Using the Watson Speech services custom resource

알려진 문제입니다: 일부 Watson 스피치 서비스 포드에는 스케줄링에 사용되는 주석이 없습니다

알려진 문제입니다: 일부 Watson 스피치 서비스 포드에 cloudpakInstanceId 주석이 누락되어 있습니다. IBM Cloud Pak for Data 스케줄링 서비스를 사용하는 경우 cloudpakInstanceId 주석이 없는 모든 Watson 스피치 서비스 파드는 다음과 같습니다

스케줄링 서비스가 아닌 기본 Kubernetes 스케줄러에 의해 스케줄링됨
할당량 시행에 포함되지 않음

이제 PostgreSQL 데이터 저장소 모니터링이 가능합니다

이제 PostgreSQL 데이터스토어 모니터링을 활성화하여 Watson 스피치 서비스를 통해 사용량 및 상태에 대한 업데이트를 받을 수 있습니다. 이벤트는 Prometheus 모니터링 소프트웨어 또는 모니터링에 사용하는 모든 애플리케이션에서 사용할 수 있습니다. 기본 플랫폼 모니터링 외에 사용자 정의 프로젝트에 대한 모니터링을 활성화하면 Red Hat® OpenShift® Container Platform 모니터링 스택으로 자체 프로젝트를 모니터링할 수 있습니다. 이 기능에는 음성 서비스 사용자 지정 리소스에 추가 속성인 spec.global.datastores.postgressql.enablePodMonitor 포함되어 있습니다.

자세한 내용은 Watson Speech services on IBM Cloud Pak for Data 관리 섹션에서 Monitoring the PostgreSQL datastore for Watson Speech services 주제를 참조하세요.

결함 수정: 런타임 마이크로서비스만 활성화된 경우 PostgreSQL 데이터스토어가 더 이상 설치되지 않습니다

결함 수정: 런타임 마이크로서비스만 활성화된 경우 PostgreSQL 데이터스토어가 더 이상 설치되지 않습니다. 이제 데이터스토어는 sttAsync, sttCustomization 또는 ttsCustomization 마이크로서비스 중 하나 이상이 설치된 경우에만 설치됩니다. 나중에 이러한 마이크로서비스가 비활성화되어도 PostgreSQL 제거되지 않습니다.

버전 4.6.0 이전에는 항상 Speech 서비스와 함께 PostgreSQL 설치되었습니다. 버전 4.6.0 이전에 Speech 서비스의 런타임 마이크로서비스만 사용하던 기존 고객인 경우 PostgreSQL 계속 설치되어 있지만 사용되지는 않습니다. 이 경우 업그레이드 시에도 PostgreSQL 설치가 유지됩니다.

MinIO 데이터스토어는 런타임 마이크로서비스가 이에 의존하기 때문에 항상 설치됩니다. 마이크로서비스가 설치되어 sttAsync 경우에만 RabbitMQ 데이터스토어가 설치됩니다.

자세한 내용은 데이터스토어 속성 Using the Watson Speech services custom resource Watson Speech services on IBM Cloud Pak for Data 참조하세요.

결함 수정: 피연산자를 모니터링하기 위해 더 이상 네트워크 정책을 생성할 필요가 없습니다

결함 수정: 버전 4.6.0 경우, 2022년 11월 10일(버전 4.0.x 및 4.5.x) 서비스 업데이트에 설명된 대로 PostgreSQL 운영자가 피연산자를 모니터링할 수 있도록 네트워크 정책을 만들 필요가 없습니다. 버전 4.6.0 이 상황을 자동으로 처리합니다.

글로벌 말하기 속도 제어를 위한 새로운 베타 rate_percentage 쿼리 매개변수

이 서비스는 음성 합성 요청에 대한 말하기 속도를 수정할 수 있는 새로운 rate_percentage 쿼리 매개 변수를 제공합니다. 말하기 속도는 서비스가 합성한 텍스트를 음성으로 말하는 속도입니다. 속도가 높을수록 텍스트가 더 빨리 읽히고 속도가 낮을수록 텍스트가 더 느리게 읽힙니다. 이 매개 변수는 전체 요청에 대한 음성당 기본 요금을 변경합니다. 자세한 내용은 말하기 속도 수정하기를 참조하세요.

글로벌 말하기 피치 제어를 위한 새로운 베타 pitch_percentage 쿼리 매개변수

이 서비스는 합성 요청에 대해 말하기 높낮이를 수정할 수 있는 새로운 pitch_percentage 쿼리 매개변수를 제공합니다. 말하기 음조는 서비스에서 합성하는 음성의 톤을 나타냅니다. 청취자가 음성의 톤을 얼마나 높거나 낮게 인식하는지를 나타냅니다. 음높이가 높으면 높은 톤으로 말하여 높은 목소리로 인식되고, 음높이가 낮으면 낮은 톤으로 말하여 낮은 목소리로 인식됩니다. 이 매개변수는 전체 요청에 대한 음성별 기본 피치를 변경합니다. 자세한 내용은 말하기 음조 수정을 참조하세요.

결함 수정: 사용자 지정 단어 번역이 이제 모든 경우에 쉼표를 허용합니다

결함 수정: 사용자 지정 모델에 추가된 단어 번역은 이제 모든 경우에 쉼표를 허용합니다. 이전에는 번역에 쉼표가 있으면 음성 합성에 사용할 때 번역이 유효한 오디오를 생성하지 못하는 경우가 종종 있었습니다. 이 문제는 미국 영어 사용자 지정 모델에서 확인되었습니다.

결함 수정: 이제 날짜의 프랑스어 합성이 일관되게 유지됩니다

결함 수정: 프랑스어 합성에서 " 월의 서수 " 형식의 날짜 앞에 더 이상 관사 "르"가 포함되지 않습니다 이전에는 프랑스어의 경우 매월 1일(예: "9월 1일", "9월 1일")에만 해당 기사가 포함되었습니다.

결함 수정: 긴 문자열의 입력 텍스트를 처리하도록 일본어 합성이 개선되었습니다

결함 수정: 이제 서비스가 긴 문자열이 포함된 일본어 요청을 올바르게 합성합니다. 이전에는 서비스가 매우 긴 일본어 텍스트 문자열을 제대로 합성하지 못했습니다.

결함 수정: 사용자 지정 모델 이름 지정 문서에 대한 규칙 추가

결함 수정: 이제 문서에 사용자 지정 모델 이름 지정에 대한 자세한 규칙이 제공됩니다. 자세한 정보는 다음을 참조하십시오.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 11월 10일(버전 4.0.x 및 4.5.x)

알려진 문제: PostgreSQL 운영자에게 필요한 업데이트된 네트워크 정책

알려진 문제입니다: For Speech services version 4.0.x (not including version 4.0.0) and 4.5.x, if the PostgreSQL operator and the Speech services are installed in different namespaces, the PostgreSQL operator is not able to monitor the PostgreSQL operands for the Speech services. 운영자는 스피치 서비스에 적용되는 네트워크 정책에 따라 피연산자를 모니터링할 수 없습니다.

이 문제로 인해 PostgreSQL 클러스터가 제대로 작동하지 않는 것은 아닙니다. 클러스터는 활성 상태로 유지되며 완전히 작동합니다. 그러나 새 버전의 음성 서비스로 업그레이드할 때 운영자는 피연산자를 업데이트할 수 없습니다.

이 문제에 대한 해결책은 다음 단계에 표시된 대로 PostgreSQL 운영자에 대한 추가 네트워크 정책을 만드는 것입니다. PostgreSQL 연산자가 Speech 서비스와 동일한 네임스페이스에 설치되어 있는지 또는 다른 네임스페이스에 설치되어 있는지에 관계없이 이 단계를 수행할 수 있습니다.

Speech 서비스가 설치된 Red Hat® OpenShift® 프로젝트의 관리자로 로그인합니다.

다음 명령을 입력하여 음성 서비스에 대한 네트워크 정책을 업데이트합니다:

cat << EOF | oc apply -f -
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  labels:
    app.kubernetes.io/component: stt
    app.kubernetes.io/instance: {{ <custom-resource-name> }}
    app.kubernetes.io/name: speech-to-text
    release: {{ <custom-resource-name> }}
  name: <custom-resource-name>-postgres-network-policy
  namespace: {{ <cpd-instance-namespace> }}
spec:
  ingress:
  - from:
    - namespaceSelector: {}
      podSelector:
        matchLabels:
          app.kubernetes.io/name: cloud-native-postgresql
EOF

여기서,

<custom-resource-name> 은 음성 서비스 사용자 지정 리소스의 이름입니다. 버전 4.0.x 권장 이름은 speech-prod-cr, 버전 4.5.x 권장 이름은 speech-cr.
<cpd-instance-name> 는 음성 서비스가 설치된 프로젝트(네임스페이스)의 이름입니다. 이 문서에서는 환경 변수 ${PROJECT_CPD_INSTANCE} 사용하여 네임스페이스를 식별합니다.

업데이트된 네트워크 정책으로 운영자가 피연산자를 모니터링할 수 있는지, PostgreSQL 클러스터가 정상 상태인지 확인하려면 다음 명령을 입력하세요. 여기서 <custom-resource-name> <cpd-instance-name> 이전 단계에서 사용한 값입니다:
```
oc -get cluster {{ <custom-resource-name> }}-postgres -n {{ <cpd-instance-namespace> }}
```
PostgreSQL 클러스터가 제대로 작동하는 경우 이 명령은 다음과 유사한 출력을 생성합니다:
```
NAME                 AGE   INSTANCES   READY   STATUS                     PRIMARY
speech-cr-postgres   14d   3           3       Cluster in healthy state   speech-cr-postgres-1
```

이 단계에서는 연산자가 피연산자를 최신 버전으로 업데이트하지 않습니다. 그러나 피연산자는 다음에 음성 서비스 소프트웨어를 업그레이드할 때 예상대로 업그레이드됩니다.

2022년 10월 13일(버전 4.5.3)

버전 4.5.3 사용 가능

Text to Speech IBM Cloud Pak for Data 버전 4.5.3 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.5.x 및 Red Hat OpenShift 버전 4.6, 4.8, 4.10 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

스피치 서비스에서 감사 이벤트를 사용할 수 있습니다

IBM Cloud Pak for Data 감사 로깅 서비스는 Speech to Text 및 Text to Speech 서비스 모두에 대한 감사 이벤트를 생성하고 전달합니다. 감사 이벤트는 Activity Tracker 사용할 수 있는 이벤트와 공개 서비스에서 사용할 수 있는 이벤트를 일치시킵니다. 자세한 내용은 이벤트 감사를 참조하세요.

개별 음성 서비스 구성 요소를 제거할 수 없습니다

이제 문서에 개별 서비스 구성 요소(마이크로 서비스)가 설치되면 제거할 수 없다는 내용이 명시되어 있습니다. 다음 구성 요소 중 하나를 제거하려면 Watson 완전히 제거한 다음 필요한 구성 요소만 다시 설치해야 합니다. Speech to Text 런타임, Speech to Text 비동기 HTTP, Speech to Text 커스터마이제이션, Text to Speech 런타임, Text to Speech 커스터마이제이션. 음성 서비스 설치에 대한 자세한 내용은 Watson 음성 서비스에 있는 IBM Cloud Pak for Data 참조하세요.

독일어 음성을 위한 새로운 베타 spell_out_mode 매개 변수

이제 독일어 음성 합성 요청에 베타 spell_out_mode 쿼리 매개변수를 포함시켜 문자열의 개별 문자를 어떻게 철자할지 표시할 수 있습니다. 기본적으로 이 서비스는 언어의 텍스트를 합성하는 속도와 동일한 속도로 개별 문자를 철자합니다. 매개변수를 사용하여 서비스가 개별 문자를 한 글자, 두 글자 또는 세 글자 그룹으로 더 천천히 철자하도록 지시할 수 있습니다. 문자열의 문자가 합성되는 방식을 제어하려면 SSML <say-as> 요소와 함께 매개변수를 사용합니다. 자세한 내용은 문자열 철자법 지정하기를 참조하세요.

Safari 브라우저에서 Ogg 오디오 형식을 사용할 때 알려진 제한 사항

기본적으로 이 서비스는 Opus 코 audio/ogg;codecs=opus 사용하여 Ogg 오디오 형식의 오디오를 반환합니다. 그러나 Safari 브라우저에서는 Ogg 오디오 형식이 지원되지 않습니다. Safari 브라우저에서 Text to Speech 서비스를 사용하는 경우에는 서비스에서 오디오를 반환할 다른 형식을 지정해야 합니다.

사용 가능한 형식에 대한 자세한 내용은 지원되는 오디오 형식을 참조하세요.
포맷 지정에 대한 자세한 내용은 오디오 포맷 지정을 참조하세요.

버전 4.0.x 버전 4.5.x 업그레이드 문제 해결

Speech 서비스를 버전 4.0.x 버전 4.5.x 업그레이드할 때 PostgreSQL 파드가 Terminating 상태로 멈춰버리는 문제가 발생할 수 있습니다. 업그레이드하는 동안 이 문제가 발생하면 다음 단계를 수행하여 문제를 해결하세요. The information and steps are also documented in Upgrading Watson Speech services from Version 4.0 to Version 4.5 in the 업그레이드 topic of Watson Speech services on IBM Cloud Pak for Data.

다음 명령을 사용하여 Terminating 상태로 유지되는 파드를 식별합니다:

oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'}

다음 명령을 사용하여 Terminating 상태로 유지되는 파드 목록을 포함하도록 환경 변수 pods 설정합니다:

pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | grep Terminating | awk {'print $1'})

다음 명령을 사용하여 멈춘 파드를 삭제하여 업그레이드 프로세스를 계속할 수 있도록 합니다:

oc delete pod $pods -n ${PROJECT_CPD_INSTANCE} --force=true --grace-period=0

SSML <prosody> 요소에 대한 문서 업데이트

SSML <prosody> 요소와 해당 pitch 및 rate 매개변수에 대한 문서가 개선되고 명확해졌습니다. 또한 이제 서비스와 최신 버전의 SSML 사양 간의 차이점에 대한 설명도 포함되어 있습니다. 자세한 내용은 <prosody> 요소를 참조하세요.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 8월 3일(버전 4.5.1)

버전 4.5.1 사용 가능

Text to Speech IBM Cloud Pak for Data 버전 4.5.1 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.5.x 및 Red Hat OpenShift 버전 4.6, 4.8, 4.10 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

FIPS 지원 클러스터 지원

Text to Speech ( IBM Cloud Pak for Data )와 Speech to Text ( IBM Cloud Pak for Data ) 모두 이제 FIPS(연방 정보 처리 표준) 지원 클러스터에서 실행을 지원합니다. 자세한 내용은 FIPS를 지원하는 서비스를 참조하세요.

결함 수정: 가끔 발생하는 포드 퇴거를 방지하기 위해 임시 저장소 계산을 수정했습니다

결함 수정: A defect was fixed and calculation of ephemeral storage limits is now more precise for the Text to Speech for IBM Cloud Pak for Data and Speech to Text for IBM Cloud Pak for Data runtimes. 이러한 변경 사항은 서비스 런타임이 과부하 상태일 때 가끔씩 발생하는 파드 퇴출을 방지합니다.

이 서비스는 다국어 음성 합성을 지원하지 않습니다

이 서비스는 현재 다국어 음성 합성을 지원하지 않습니다. 그러나 사용자 지정을 사용하여 다른 언어의 단어 발음을 근사화할 수 있습니다. 자세한 내용은 다국어 음성 합성을 참조하세요.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 6월 29일(버전 4.5.0)

버전 4.5.0 사용 가능

Text to Speech IBM Cloud Pak for Data 버전 4.5.0 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.5.x 및 Red Hat OpenShift 버전 4.6, 4.8, 4.10 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

통합 음성 서비스 IBM Cloud Pak for Data 문서에 대한 통합 음성 서비스

Speech to Text 및 Text to Speech 문서에 대한 설치 및 관리 문서가 이제 IBM Cloud Pak for Data 키워드}} 문서에 통합되어 있습니다. 음성 서비스 설치 및 관리에 대한 자세한 내용은 Watson Speech services on IBM Cloud Pak for Data 참조하세요.

음성 서비스 사용자 지정 리소스 변경 사항

이제 음성 서비스를 처음 설치할 때 사용자 지정 리소스가 만들어집니다. 이 과정은 IBM Cloud Pak for Data 설치 문서에 설명되어 있습니다. 사용자 지정 리소스의 콘텐츠가 변경되었습니다:

사용자 지정 리소스의 권장 이름이 speech-prod-cr speech-cr 변경되었습니다.
스토리지 클래스에 대한 모든 참조가 storageClass 변형에서 blockStorageClass 변경되었습니다.
Portworx 블록 스토리지 클래스의 이름이 portworx-shared-gp3 portworx-db-gp3-sc 변경되었습니다.
MinIO 및 PostgreSQl 데이터스토어에 대해 createSecret 속성이 제거되었습니다. 이 속성은 내부적으로만 사용됩니다. 음성 서비스는 사용자가 시크릿 개체를 만들면 항상 시크릿 개체를 사용하며, 제공되지 않으면 항상 자동으로 개체를 만듭니다.

이제 RabbitMQ 데이터스토어에 사용자 제공 비밀 개체가 지원됩니다

이제 MinIO 및 PostgreSQL 데이터스토어와 마찬가지로 RabbitMQ 데이터스토어에 대한 보안 자격 증명을 제공할 수 있습니다. 문서화된 프로세스는 세 데이터스토어 모두 비슷합니다.

결함 수정사항: 여러 개의 연속적인 SSML <phoneme> 태그가 이제 올바르게 구문 분석됨

결함 수정: 이제 서비스는 연속적인 <phoneme> 태그를 포함하는 텍스트를 올바르게 합성합니다. 이전에는 텍스트에 두 개 이상의 연속된 <phoneme> 태그가 포함된 경우 서비스가 첫 번째 태그만을 합성하고, 나머지 태그는 무시했습니다.

보안 취약성이 해결됨

4.5.0 버전에서는 보안 취약점이 수정되지 않았습니다.

2022년 5월 25일(버전 4.0.9)

이제 버전 4.0.9를 사용할 수 있음

IBM Cloud Pak for Data 버전 4.0.9의 Text to Speech을(를) 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치 Watson Text to Speech 참조하세요.

audio/alaw 오디오 형식에 대한 새로운 지원

지원되는 오디오 형식의 목록에 audio/alaw;rate={rate}이(가) 포함됩니다. audio/basic 및 audio/mulaw와(과) 같이, 이 형식은 8KHz에서 샘플링되는 8비트 u-law(또는 mu-law) 데이터를 사용하여 인코딩되는 단일 채널 오디오를 제공합니다. 자세한 정보는 오디오 형식 사용을 참조하십시오.

Speech 서비스는 OADP 백업 및 복원 유틸리티를 지원하지 않습니다.

Watson Speech 서비스는 IBM Cloud Pak for Data OADP(OpenShift APIs for Data Protection) 백업 및 복원 유틸리티를 지원하지 않습니다. Speech 서비스가 클러스터에 설치된 경우, IBM Cloud Pak for Data OADP 백업 및 복원 유틸리티를 사용하여 해당 클러스터에 설치된 다른 서비스를 백업할 수 없습니다. 이 제한사항은 버전 4.0.0 이상의 Speech 서비스에 적용됩니다.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 5월 1일(버전 1.2.x)

중요: IBM Cloud Pak for Data 버전 3.5에서 Text to Speech 버전 1.2.x에 대한 서비스 종료: 중요: IBM Cloud Pak for Data 버전 3.5의 Text to Speech 버전 1.2.x는 2022년 5월 1일부터 서비스되지 않습니다.Text to Speech 버전 1.2.x는 더 이상 지원되지도, 사용 가능하지도, 설명하지도 않습니다. Watson API 킷의 일부인 Text to Speech의 서비스 종료에 대한 자세한 정보는 소프트웨어 지원 중단: IBM Watson API Kit for IBM Cloud Pak for Data 1.2.x의 내용을 참조하십시오.

2022년 4월 27일(버전 4.0.8)

이제 버전 4.0.8을 사용할 수 있음

IBM Cloud Pak for Data 버전 4.0.8의 Text to Speech을(를) 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치 Watson Text to Speech 참조하세요.

IBM Cloud Pak for Data 문서에 사용된 새 환경 변수

IBM Cloud Pak for Data의 Text to Speech 문서에 있는 대부분의 명령은 공통 환경 변수 세트를 사용하도록 업데이트되었습니다. 문서는 설치, 업그레이드 및 관리 명령을 실행하기 전에 환경 변수를 자동으로 내보내는 스크립트를 제공합니다. 스크립트를 소싱한 후 문서에서 대부분의 명령을 복사하여 변경하지 않고 실행할 수 있습니다.

스크립트가 정의하는 환경 변수는 다음과 같습니다.

${PROJECT_CPD_INSTANCE}에서는 IBM Cloud Pak for Data 및 Speech 서비스를 설치하려는 프로젝트를 식별합니다.
${PROJECT_CPD_OPS}에서는 IBM Cloud Pak for Data 플랫폼 운영자의 프로젝트를 식별합니다.
${PROJECT_CPFS_OPS}에서는 IBM Cloud Pak for Data 기본 서비스의 프로젝트를 식별합니다.

환경 변수 사용에 대한 자세한 내용은 모범 사례: 설치 변수 설정하기 참조하세요.

ttsVoiceMarginalCPU 특성은 더 이상 문서화되지 않습니다.

Speech 서비스 사용자 정의 리소스에 대한 문서에서 ttsVoiceMarginalCPU 특성이 제거되었습니다. 이 특성은 동시성과 음성 합성 속도 간의 트레이드오프를 관리합니다. 기본값 400은(는) 대부분의 고객에게 적절한 균형을 제공하고 실시간 합성을 유지보수합니다.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 3월 30일(버전 4.0.7)

이제 버전 4.0.7을 사용할 수 있음

IBM Cloud Pak for Data 버전 4.0.7의 Text to Speech을(를) 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치 Watson Text to Speech 참조하세요.

기본 음성을 지정하기 위한 사용자 정의 자원 특성

음성 합성 및 발음 요청의 기본 음성은 en-US_MichaelV3Voice입니다. en-US_MichaelV3Voice을(를) 설치하지 않으면 다음 중 하나를 수행해야 합니다.

voice 매개변수를 사용하여 각 요청에 사용할 음성을 전달하십시오.
음성 서비스 사용자 정의 자원의 defaultTTSVoice 특성을 사용하여 IBM Cloud Pak for Data에 대한 Text to Speech 설치를 위해 새 기본 음성을 지정하십시오. 자세한 내용은 설치 Watson Text to Speech 및 기본 음성 사용 참조하세요.

WebSocket 인터페이스에 대한 단어 타이밍 응답으로 변경

WebSocket 인터페이스를 사용하여 단어 타이밍을 요청할 때 서비스가 보내는 응답 오브젝트가 변경되었습니다. 이제 서비스는 두 개의 부동 소수점이 뒤에 오는 문자열이 포함된 단일 배열로 단어 타이밍 결과를 보냅니다.

{
  "words": [
    ["Hello", 0.0, 0.259],
    ["world", 0.259, 0.532]
  ]
}

이전에 서비스는 두 개의 부동 소수점 배열이 뒤에 오는 문자열이 포함된 배열로 타이밍 결과를 전송했습니다.

{
  "words": [
    ["Hello", [0.0629826778195474, 0.2590192737303819]],
    ["world", [0.2598829173456253, 0.5322130804452672]]
  ]
}

또한 단어 타이밍과 마크에 대한 정밀도 레벨이 이제 소수점 이하 세 자리로 감소합니다. 새 응답에 대한 자세한 내용은 단어 타이밍 생성을 참조하세요.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

Red Hat CVE-2022-24407: Cyrus SASL과 함께 제공되는 SQL 플러그인에서 결함이 발견되었습니다. 이 취약성은 SQL 입력을 제대로 이스케이프하지 못하여 잘못된 입력 유효성 검증 취약성을 초래하기 때문에 발생합니다. 이 결함이 있으면 공격자가 임의의 SQL 명령을 실행할 수 있으며 권한 에스컬레이션을 허용하는 다른 계정의 비밀번호를 변경할 수 있습니다.
보안 게시판: Jwt-go 취약점 영향 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2020-26160)
보안 게시판: 골랑고의 취약점이 영향을 미치는 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-29923)
보안 게시판: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 스프링 프레임워크의 원격 코드 실행에 영향을 받지만 취약한 것으로 분류되지는 않음(CVE-2022-22965)
보안 공지: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 임의 코드 실행에 취약한 IBM WebSphere Application Server(CVE-2021-23450)

2022년 2월 23일(버전 4.0.6)

버전 4.0.6이 사용 가능해짐

이제 Text to Speech for IBM Cloud Pak for Data 버전 4.0.6을 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치 Watson Text to Speech 참조하세요.

이제 IBM Cloud Pak for Data에 대한 모든 신경 음성이 더 이상 사용되지 않습니다.

이제 Text to Speech for IBM Cloud Pak for Data에서 사용 가능했던 신경 음성이 더 이상 사용되지 않습니다. Text to Speech for IBM Cloud의 사용자는 신경 음성을 계속 사용할 수 있습니다. Text to Speech for IBM Cloud Pak for Data의 사용자는 향상된 신경 음성만 계속 사용할 수 있습니다.

이제 다음 언어에 대한 모든 음성이 IBM Cloud Pak for Data에서 더 이상 사용되지 않습니다.

아랍어
중국어(만다린)
체코어
네덜란드어(벨기에)
네덜란드어(네덜란드)
영어(호주)
한국어
스웨덴어

이 음성의 기존 사용자는 현재 계속해서 사용할 수 있지만 음성은 향후 릴리스에서 완전히 제거됩니다. 새 사용자는 더 이상 이러한 음성을 설치할 수 없으며 해당 음성은 IBM Cloud Pak for Data의 설치 문서에서 제거되었습니다. voiceType 특성이 Speech 서비스 사용자 정의 리소스에서 제거되었습니다.

자세한 정보는 다음을 참조하십시오.

가져오기/내보내기 스크립트에 대한 업데이트

import_export.sh 및 transfer_ownership.sh 스크립트가 업데이트되었습니다. 이러한 스크립트는 클러스터 간에 데이터를 가져오거나 내보내고, 데이터를 백업 및 복원하고, 데이터를 버전 3.5에서 4.0.x로 마이그레이션하는 데 사용됩니다. 이들 스크립트는 다음과 같이 수정되고 개선되었습니다.

transfer_ownership.sh 스크립트가 이제 명령행에서 <custom_resource_name> 인수 앞에 -c 옵션을 포함시킬 것을 요구합니다.
이제 transfer_ownership.sh 스크립트가 리소스의 소유권이 전송되는 버전을 표시하기 위한 -v <version> 옵션 및 인수를 필요로 합니다. 버전 3.5의 경우에는 35, 버전 4.0.x의 경우에는 40을(를) 지정하십시오.
transfer_ownership.sh 스크립트가 이제 명령행에서 <postgres_auth_secret_name> 인수 앞에 -p 옵션을 포함시킬 것을 요구합니다.
<postgres_auth_secret_name> 인수는 사용자가 소유권을 전송하는 PostgreSQL 데이터 저장소에 인증하는 데 사용되는 Kubernetes 시크릿을 제공합니다. 인증 시크릿이 기본값(버전 4.0.x의 경우 <custom-resource-name>-postgres-auth-secret, 버전 3.5의 경우 user-provided-postgressql)과 동일한 경우에는 이를 생략할 수 있습니다. 기본값과 다른 경우 시크릿을 제공해야 합니다.
이제 두 스크립트 모두 스크립트와 그 사용법에 대한 정보를 표시하는 -h(--help) 옵션을 포함합니다.

자세한 정보는 다음을 참조하십시오.

관리 Watson Text to Speech, specifically 데이터 가져오기 및 내보내기 and 데이터 백업 및 복원.
업그레이드 Watson Text to Speech, specifically Migrating data from IBM Cloud Pak for Data Version 3.5.

OpenShift Container Storage에 대한 권장사항이 업데이트됨

Speech 서비스 버전 4.0.6부터, OpenShift Container Storage에 대해 권장되는 스토리지 클래스는 ocs-storagecluster-ceph-rbd입니다.

Speech 서비스 4.0.6을 설치하거나 IBM Cloud Pak for Data 버전 3.5에서 Speech 서비스 4.0.6으로 업그레이드하는 경우에는 설치 또는 업그레이드 중에 ocs-storagecluster-ceph-rbd 스토리지 클래스를 지정하십시오.
Cloud Pak for Data 버전 4.0의 이전 리프레시에서 Speech 서비스 4.0.6으로 업그레이드하는 경우에는 계속해서 ocs-storagecluster-cephfs을(를) 사용하십시오. 기존 배치에서 사용된 스토리지는 변경할 수 없습니다.

이 값은 Speech 서비스 사용자 정의 리소스에서 storageClass 특성으로 지정됩니다.

################
# Storage class
################
  storageClass: "ocs-storagecluster-ceph-rbd"

Speech 서비스는 OpenShift Container Storage의 두 버전 모두에서 작동합니다. 새로 권장되는 버전에는 더 제한적인 액세스 권한이 있습니다. 자세한 정보는 다음을 참조하십시오.

2022년 1월 31일(버전 4.0.5)

버전 4.0.5가 업데이트되었습니다.

설치 문제를 해결하기 위해 Text to Speech for IBM Cloud Pak for Data 버전 4.0.5가 업데이트되었습니다. 케이스 패키지 버전은 이제 4.0.6입니다. 버전 4.0.5 패키지 대신 이 패키지를 사용하십시오. 서비스 설치 및 관리에 대한 자세한 내용은 설치 Watson Text to Speech 참조하세요.

중요: 미러링된 설치를 위한 추가 단계가 더 이상 필요하지 않음

중요: 2022년 1월 26일 릴리스 정보에는 다음 단계에 대한 중요한 참고사항이 포함되어 있습니다.

MinIO 데이터 저장소의 미러링된 설치를 수행하기 위한 추가 단계
새 차세대 모델의 미러링된 설치를 수행하기 위한 추가 단계

이러한 추가 단계는 더 이상 필요하지 않습니다. 설치 문제를 정정하기 위해 케이스 패키지가 업데이트되었습니다.

2022년 1월 26일(버전 4.0.5)

버전 4.0.5가 사용 가능해짐

이제 Text to Speech for IBM Cloud Pak for Data 버전 4.0.5를 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치 Watson Text to Speech 참조하세요.

중요: MinIO 데이터 저장소의 미러링된 설치를 수행하기 위한 추가 단계

중요: 케이스 패키지 4.0.6을 설치하는 경우에는 이러한 단계가 더 이상 필요하지 않습니다. 자세한 내용은 2022년 1월 31일(버전 4.0.5)을 참조하세요.

미러링된 설치를 수행하는 경우(예: 에어 갭 환경에서)에는 다음 단계 중 하나를 완료하기 전에 추가 단계를 수행해야 합니다.

7단계 이미지를 비공개 컨테이너 레지스트리에 미러링하기 바스티온 모델로 이미지 미러링
8단계 이미지를 중개 컨테이너 레지스트리에 미러링하기 중개 컨테이너 레지스트리로 이미지 미러링하기

이 단계는 MinIO 데이터 저장소에 필요한 이미지를 복사하기 위한 필수 단계입니다.

echo 'cp.icr.io,cp/opencontent-minio-client,1.1.4,sha256:7b4cf5e47a0455cfa7ca9ab246b80916e4dccbc1483b3e0f276fb7b0ab3e5c60,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

이 단계를 수행하는 데 실패하면 Text to Speech 및 Speech to Text에 대한 설치 오류가 발생합니다.

이제 라이센스 서버가 자동으로 설치됨

이제 Speech 서비스 오퍼레이터가 Speech 서비스를 설치할 때 필요한 라이센스 서버를 자동으로 설치합니다. 더 이상 IBM Cloud Pak for Data 기본 서비스로부터 라이센스 서버를 설치할 필요가 없으며, 더 이상 필요한 바인딩을 포함하는 OperandRequest를 작성하기 위해 추가 YAML 컨텐츠를 사용할 필요가 없습니다.

PostgreSQL EnterpriseDB 서버에 특정한 단계 제거

이 문서의 이전 버전에는 Speech 서비스에 특정한, PostgreSQL EnterpriseDB 서버를 위한 단계가 포함되어 있었습니다. 이러한 단계는 Watson Text to Speech(버전 4.0) 업그레이드 및 Watson Text to Speech 설치 제거주제에 설명되어 있습니다. 이러한 추가 단계는 더 이상 필요하지 않으며 문서에서 제거되었습니다.

RabbitMQ 데이터 저장소는 이제 sttAysnc 컴포넌트에 의해서만 사용됨

이전에는 RabbitMQ 데이터 저장소가 두 가지 Speech 서비스(Speech to Text 및 Text to Speech) 모두의 컴포넌트에 의해 사용되었습니다. 이는 이제 Speech to Text 비동기 HTTP 컴포넌트(sttAsync)에 대해서만 비지속 메시지 큐잉을 처리합니다. 이는 sttAsync 컴포넌트가 설치되어 사용으로 설정된 경우에만 사용됩니다.

새로운 벨기에 네덜란드어와 체코어의 신경 음성

이제 두 개의 새 신경 음성이 사용 가능합니다.

벨기에 네덜란드어: 새로운 남성 벨기에 네덜란드어(플라망어) 음성, nl-BE_BramVoice.
체코어: 새로운 여성 음성을 사용한 새로운 언어(체코어), cs-CZ_AlenaVoice.

사용자 정의 리소스의 voiceType 특성을 neuralVoices(으)로 설정하여 모든 신경 음성과 함께 새 음성을 설치할 수 있습니다.

사용자 지정 리소스를 사용하여 음성을 설치하는 방법에 대한 자세한 내용은 설치 Watson Text to Speech 참조하세요.
사용 가능한 모든 언어 및 음성에 대한 자세한 내용은 언어 및 음성을 참조하세요.

결함 수정: SSML 문서 업데이트

결함 수정: 다음 오류를 수정하기 위해 SSML 문서가 업데이트되었습니다:

이제 <break> 요소의 예가 올바릅니다. 예제에 표시된 대로 요소는 단항입니다. 이전 예에는 임베드된 텍스트가 있는 열린 태그 및 닫기 태그가 포함되어 있습니다. 서비스가 임베드된 텍스트를 음성으로 읽지 않았습니다. 자세한 정보는 <break> 요소를 참조하십시오.
이 서비스는 SSML(Speech Synthesis Markup Language) 버전 1.1을 지원합니다. 이제 모든 참조 및 예제가 올바른 버전을 사용합니다. 이전에 버전 1.0에 참조된 문서.

보안 취약성이 해결됨

Apache Log4j와 연관된 다음 보안 취약성이 해결되었습니다.

2021년 12월 20일(버전 4.0.4)

버전 4.0.4가 사용 가능해짐

이제 Text to Speech for IBM Cloud Pak for Data 버전 4.0.4를 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치 Watson Text to Speech 참조하세요.

중요: 사용자 데이터의 저장 및 로깅을 사용 안함으로 설정하는 특성에 대한 변경사항

중요: 사용자 데이터의 저장 및 로깅 여부를 지정하는 Speech 서비스 사용자 정의 리소스의 특성 이름이 변경되었습니다. 사용자 정의 리소스가 이전에는 다음 특성을 포함했습니다.

#################
# Anonymize logs
#################
  sttRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data

이제는 이러한 특성의 이름이 다음과 같이 지정되었습니다.

###################################
# Storage and logging of user data
###################################
  sttRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data

기본값 false을(를) true(으)로 변경하기 위해 이미 사용자 정의 리소스에서 이러한 특성을 설정한 경우에는 사용자 정의 리소스를 편집해야 합니다. 사용자는 해당 특성의 이름을 새 값으로 수동으로 변경하고 업데이트된 사용자 정의 리소스를 저장해야 합니다. 자세한 내용은 설치 Watson Text to Speech 참조하세요.

중요: PostgreSQL 시크릿 오브젝트의 특성에 대한 변경사항

중요: Speech 서비스를 설치할 때는 PostgreSQL 데이터 저장소에 대한, 무작위로 생성된 비밀번호를 포함하는 오브젝트가 기본적으로 작성됩니다. 사용자는 비밀번호를 수동으로 지정하도록 선택할 수 있습니다. 이 경우의, 시크릿 오브젝트에 대한 YAML 파일의 특성이 변경되었습니다. 자세한 내용은 관리 Watson Text to Speech 데이터스토어 관리에 대한 항목을 참조하세요.

중요: PostgreSQL 팟(Pod)이 EnterpriseDB 버전 1.10 오퍼레이터로 시작되지 않음

중요: Text to Speech for IBM Cloud Pak for Data 버전 4.0.3을 사용하면 EnterpriseDB 버전 1.10 오퍼레이터를 기반으로 하는 PostgreSQL 팟(Pod)을 시작하는 데 실패할 수 있습니다. 이는 Speech 서비스가 시작되지 않도록 합니다. 이 문제점에 대한 임시 해결책이 있습니다. 음성 서비스가 시작되지 않는 경우 EnterpriseDB 버전 1.10 운영자에서 PostgreSQL pod가 시작되지 않음 문제를 진단하고 해결하는 방법에 대한 정보를 참조하세요.

이 문제점은 Text to Speech for IBM Cloud Pak for Data 버전 4.0.4에서 해결되었습니다.

IBM Spectrum Scale Container Native 스토리지 클래스에 대한 새 지원

버전 4.0.3부터, Speech 서비스는 IBM Spectrum® Scale Container Native 스토리지 클래스를 지원합니다. IBM Spectrum Scale을 사용하려면 Speech 서비스 사용자 정의 리소스의 storageClass 특성에 "ibm-spectrum-scale-sc"을(를) 지정하십시오. 자세한 내용은 설치 Watson Text to Speech 참조하세요.

설치 중 Speech 서비스와 MinIO 데이터 저장소의 상호작용

Speech 서비스 런타임 컴포넌트인 sttRuntime과(와) ttsRuntime은(는) 서비스의 모델 및 음성이 MinIO 데이터 저장소에 완전히 업로드될 때까지 시작할 수 없습니다. 설치 중에, 서비스는 모델 및 음성의 업로드가 완료될 때까지 한 번 이상 실패한 후 자동으로 다시 시작될 수 있습니다. 완료되고 나면 정상적으로 시작됩니다. 사용자 조치가 필요하지 않습니다.

결함 수정: 업그레이드 문서 개선

결함 수정사항: Speech 서비스를 새 버전인 IBM Cloud Pak for Data 버전 4.0.x로 업그레이드하는 것에 대한 문서가 일부 명령에 올바르지 않은 참조를 포함했습니다. 이러한 참조가 이제 올바르게 정정되었습니다.

문자열 watsonSpeechToTextStatus과(와) watsonTextToSpeechStatus이(가) 두 경우 모두 speechStatus(으)로 변경되었습니다.
문자열 status.watsonSpeechToTextVersion과(와) status.watsonTextToSpeechVersion이(가) 두 경우 모두 .spec.version(으)로 변경되었습니다.

자세한 내용은 업그레이드 Watson Text to Speech 참조하세요.

결함 수정: SSML 및 음성 합성 개선

결함 수정: 이번 릴리스에서는 SSML(음성 합성 마크업 언어) 및 음성 합성에 대한 다음과 같은 결함이 수정되었습니다:

이제 <prosody> 요소의 pitch 속성이 지정된 모든 텍스트에 적용됩니다. 이전에는 영향을 받은 텍스트의 첫 번째 단어에 음높이 변경이 항상 적용되지는 않았습니다. 또한 문서에는 pitch 값 지정에 관한 추가 지침이 포함되어 있습니다. 자세한 정보는 pitch 속성을 참조하십시오.
현재 일본어 텍스트의 음성 합성은 오디오를 더욱 느리게 말합니다. 이전에, 합성된 음성은 너무 빨리 말했습니다. 일본어 텍스트 합성이 애플리케이션에서 여전히 너무 빨리 말하고 있는 경우, SSML <prosody> 요소의 rate 속성을 사용하여 음성 속도를 제어하십시오. 자세한 정보는 rate 속성을 참조하십시오.
이제 신경 음성이 이스케이프된 어포스트로피 문자(')를 적절하게 구문 분석합니다. 이전에는 일부 신경 음성이 문자를 올바르게 해석하지 않았습니다.

보안 취약성이 해결됨

Apache Log4j와 연관된 다음 보안 취약성이 해결되었습니다.

보안 게시판: Apache Log4j 의 취약점은 IBM Watson IBM Cloud Pak for Data 용 음성 서비스 카트리지에 영향을 미칠 수 있음(CVE-2021-4428)

2021년 12월 20일(버전 1.2.x)

중요: IBM Cloud Pak for Data 버전 3.5에 Text to Speech 버전 1.2.x를 더 이상 설치할 수 없음

중요: IBM Cloud Pak for Data 버전 3.5에 최신 Text to Speech 버전 1.2.x를 더 이상 설치할 수 없습니다. Text to Speech 버전 4.0.x만 IBM Cloud Pak for Data 버전 4.x에 설치할 수 있습니다. 자세한 내용은 설치 Watson Text to Speech 참조하세요.

IBM Cloud Pak for Data 버전 3.5용 Speech 서비스의 지원 종료 날짜는 2022년 4월 30일입니다. 사용자는 가능한 한 빨리 서비스의 최신 버전인 4.0.x 릴리스로 업그레이드해야 합니다. 자세한 내용은 업그레이드 Watson Text to Speech 참조하세요.

2021년 11월 30일(버전 4.0.3)

버전 4.0.3이 사용 가능해짐

이제 Text to Speech for IBM Cloud Pak for Data 버전 4.0.3을 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치 Watson Text to Speech 참조하세요.

이제 라이센스 서버가 필수 전제조건이 됨

이제 반드시 IBM Cloud Pak for Data 기본 서비스로부터 라이센스 서버를 설치해야 합니다. 필요한 바인딩을 포함하는 OperandRequest를 작성하기 위해 제공된 YAML 컨텐츠를 사용하여 라이센스 서버를 설치해야 합니다. IBM Cloud Pak for Data 또한 설치되는, 서비스(오퍼랜드)와 동일한 네임스페이스에도 라이센스 서버를 설치해야 합니다. 자세한 내용은 설치 Watson Text to Speech 참조하세요.

인플레이스 업그레이드에 대한 새 지원

이제 이 서비스는 버전 4.0.0에서 버전 4.0.3으로의 인플레이스, 오퍼레이터 기반 업그레이드를 지원합니다. IBM Cloud Pak for Data 버전 3.5에서 버전 4.0.3으로의 마이그레이션에는 계속해서 마이그레이션 유틸리티를 사용해야 합니다. 자세한 내용은 업그레이드 Watson Text to Speech 참조하세요.

EDB PostgreSQL 오퍼레이터 및 라이센스 설치 변경사항

EnterpriseDB PostgreSQL 오퍼레이터 및 라이센스의 설치, 업그레이드와 설치 제거가 변경되었습니다.

EDB PostgreSQL 오퍼레이터 및 라이센스의 설치에 대한 지시사항이 이제 IBM Cloud Pak for Data 기본 서비스에 포함되었습니다. Speech 서비스의 설치에 대한 지시사항이 이에 맞춰 업데이트되었습니다. 자세한 내용은 설치 Watson Text to Speech 참조하세요.
Text to Speech 버전 4.0.0에서 4.0.3으로 업그레이드하기 위한 지시사항에는 이전 EDB PostgreSQL 오퍼레이터 및 라이센스를 설치 제거하고 IBM Cloud Pak for Data 기본 서비스를 사용하여 다시 설치하기 위한 지시사항이 포함되어 있습니다. 자세한 내용은 업그레이드 Watson Text to Speech 참조하세요.
Speech 서비스를 설치 제거하기 위한 지시사항에는 Text to Speech에 이전에 설치한 EDB PostgreSQL 오퍼레이터 및 라이센스를 제거하는 단계가 포함되어 있습니다. 자세한 내용은 제거 Watson Text to Speech 참조하세요.

설치 확장에 대한 새 안내

이제 서비스가 설치를 확장하는 것에 대한 업데이트된 안내를 제공합니다. 정보에는 향상된 신경 또는 신경 음성에 대한 최대 동시 세션 수와 팟(Pod) 수를 지정하는 것이 포함됩니다. 자세한 내용은 관리 Watson Text to Speech 참조하세요.

가져오기 및 내보내기 유틸리티에 대한 명령행 업데이트

가져오기 및 내보내기 유틸리티와 함께 사용되는, Speech 서비스에 대한 명령이 새 옵션 및 인수를 포함합니다. 가져오기 및 내보내기 유틸리티는 서비스의 백업 및 복원, 그리고 IBM Cloud Pak for Data 버전 3.5에서 버전 4.0.3으로의 마이그레이션의 기반이기도 합니다. 이들 유틸리티의 사용에 대한 자세한 정보는 다음 항목을 참조하십시오.

동시성 및 음성 합성을 관리하기 위한 새 특성

새 global.ttsVoiceMarginalCPU 특성은 동시성과 음성 합성 속도 간의 트레이드오프를 관리합니다. 기본값 400은 대부분의 고객에게 적절한 균형을 제공하고 실시간 합성을 유지보수합니다. 사용자 요구에 맞게 이 값을 수정하는 방법에 대한 정보는 IBM 지원 센터에 문의하십시오.

신경 음성에 대한 새로운 지원

현재 Text to Speech for IBM Cloud에서 사용 가능한 모든 신경 음성은 이제 Text to Speech for IBM Cloud Pak for Data의 설치에서 사용할 수 있습니다. 이제 다음 언어 및 음성을 사용할 수 있습니다.

아랍어: ar-MS_OmarVoice
중국어: zh-CN_LiNaVoice, zh-CN_WangWeiVoice 및 zh-CN_ZhangJingVoice
네덜란드어(벨기에): nl-BE_AdeleVoice
네덜란드어(네덜란드): nl-NL_EmmaVoice 및 nl-NL_LiamVoice
영어(오스트레일리아): en-AU_CraigVoice, en-AU_MadisonVoice, en-AU_SteveVoice
한국어: ko-KR_HyunjunVoice, ko-KR_SiWooVoice, ko-KR_YoungmiVoice, ko-KR_YunaVoice
스웨덴어: sv-SE_IngridVoice

사용 가능한 모든 언어 및 음성에 대한 자세한 내용은 언어 및 음성을 참조하세요.

음성 설치

향상된 신경 음성 또는 신경 음성을 설치할 수 있습니다. 두 가지 유형의 음성 중 하나만 설치할 수 있습니다. 서비스를 설치할 때 사용자 정의 리소스의 voiceType 특성을 사용하여 설치할 음성을 표시합니다.

향상된 신경 음성을 설치하려면 enhancedNeuralVoices을(를) 지정하십시오. 그런 다음 설치할 개별 향상된 신경 음성을 지정해야 합니다. 기본적으로 en-US_AllisonV3Voice, en-US_LisaV3Voice, en-US_MichaelV3Voice만 설치됩니다. 이러한 기본 음성, 이러한 기본 음성과 기타 음성 또는 기타 음성만 설치하도록 선택할 수 있습니다. 설치하는 음성만 사용할 수 있습니다.
신경 음성을 설치하려면 neuralVoices을(를) 지정하십시오. 모든 신경 음성이 설치되어 사용 가능합니다. 설치된 음성 목록을 세분화할 수 없습니다.

사용자 지정 리소스를 사용하여 음성을 설치하는 방법에 대한 자세한 내용은 설치 Watson Text to Speech 참조하세요.

음성 합성을 위한 음성 지정

HTTP POST 및 GET /v1/synthesize 메소드와 WebSocket /v1/synthesize 메소드 둘 다 음성 합성에 사용할 음성을 지정하는 데 사용하는 선택적 voice 조회 매개변수를 승인하십시오. 매개 변수 voice 생략하면 서비스에서 기본 음성을 사용합니다. 기본 음성은 설치한 음성에 따라 다릅니다:

향상된 신경 음성을 설치한 경우 서비스는 기본적으로 미국 영어(en-US_MichaelV3Voice)를 사용합니다. 해당 음성이 설치되지 않은 경우 음성을 지정해야 합니다.
신경 음성을 설치한 경우 서비스는 항상 기본적으로 오스트레일리아 영어(en-AU_MadisonVoice)를 사용합니다.

자세한 내용은 음성 합성을 위한 음성 사용을 참조하세요.

사용자 정의 모델에 대한 언어 지정

POST /v1/customizations 메소드를 사용하여 사용자 정의 모델을 작성합니다. 메소드에는 새 사용자 정의 모델의 언어를 식별하는 데 사용하는 language 매개변수가 포함됩니다.

향상된 신경 음성을 설치한 경우 language 매개변수는 선택사항입니다. 기본적으로 서비스는 언어의 en-US ID를 사용합니다.
*신경 음성을 설치한 경우 * language 매개변수가 필요합니다. 사용자 정의 모델의 언어를 표시된 형식으로 지정해야 합니다(예: 오스트레일리아 영어의 경우 en-AU).

사용자 정의 모델을 작성할 때 언어 지정에 관한 자세한 정보는 사용자 정의 모델 작성을 참조하십시오.

결함 수정: 스페인어 강화 신경 음성의 억양 수정

결함 수정사항: 카스티야 스페인어(es-ES_EnriqueV3Voice 및 es-ES_LauraV3Voice), 라틴 아메리카 스페인어(es-LA_SofiaV3Voice), 북미 스페인어(es-US_SofiaV3Voice) 음성의 경우, 모든 유형의 질문은 올바른 억양을 사용합니다. 음성은 이전에는 특정 질문에서 정확한 억양을 사용하지 않았고 글을 읽는 것처럼 발음했습니다.

결함 수정: 멀티테넌시 문서 수정

결함을 수정했습니다: IBM Cloud Pak for Data 항목 멀티테넌시 지원에서 음성 서비스가 멀티테넌시를 지원하지 않는다고 잘못 설명했습니다. 이 주제는 Speech 서비스가 다음 오퍼레이션을 지원한다고 기술하도록 업데이트되었습니다.

별도의 프로젝트에 서비스 설치
동일한 프로젝트에 서비스를 여러 번 설치
서비스를 한 번 설치하고 동일한 프로젝트에 다중 인스턴스 배치

Speech 서비스에 특정한 문서에서는 멀티테넌시 지원에 대해 올바르게 기술했습니다.

2021년 10월 1일(버전 1.1.x)

버전 1.1.x의 서비스가 중단됨: Text to Speech 및 Speech to Text for IBM Cloud Pak for Data 버전 1.1.x를 2021년 9월 30일부터 사용할 수 없습니다. 2021년 10월 1일부터는 버전 1.1.x에 대한 문서를 더 이상 사용할 수 없게 됩니다. 자세한 내용은 소프트웨어 탈퇴 및 지원 중단을 참조하세요.

2021년 7월 29일(버전 4.0.0)

버전 4.0.0이 사용 가능해짐

이제 IBM Watson® Text to Speech for IBM Cloud Pak® for Data 버전 4.0.0을 사용할 수 있습니다. 서비스 설치 및 관리에는 많은 변경사항이 포함됩니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6을 지원합니다. 서비스 설치 및 관리에 관한 자세한 정보는 IBM Watson Text to Speech for IBM Cloud Pak for Data 설치를 참조하십시오.

향상된 신경 음성

음성 합성의 전체 품질을 최적화하기 위해 사용 가능한 모든 음성은 이제 향상된 신경 음성입니다. 이름에 V3 문자열이 포함된 향상된 신경 음성은 브라질 포르투갈어, 영국 및 미국 영어, 프랑스어, 독일어, 이탈리아어, 일본어, 스페인어(모든 방언)에서 사용할 수 있습니다.

향상된 신경 음성은 SSML <phoneme> 요소를 사용하여 IPA 및 IBM Symbolic Phonetic Representation(SPR)을 둘 다 사용하도록 지원합니다. 또한 향상된 신경 음성은 약간 더 높은 수준의 자연스러운 음성을 보여줍니다. 자세한 정보는 언어 및 음성을 참조하십시오.

새 캐나다 프랑스어 음성

서비스는 이제 향상된 신경 음성 fr-CA_LouiseV3Voice을(를) 사용하여 캐나다 프랑스어를 지원합니다. 캐나다 프랑스어 음성은 사용자 정의를 지원하며 프로덕션을 위한 GA(Generally Available)입니다.

새 음성의 샘플을 들으려면 지원되는 언어 및 음성을 참조하십시오.
캐나다 프랑스어에 사용할 수 있는 음성 기호 및 유니코드 값에 관한 자세한 정보는 프랑스어(캐나다) 기호를 참조하십시오.

새 예제별 조정 기능

새 예제별 조정 기능을 사용하면 서비스에서 지정된 텍스트를 음성으로 읽는 방법을 제어할 수 있습니다. 이 기능은 미국 영어 사용자 정의 모델 및 음성에만 지원되는 베타 기능입니다. 이 기능에는 두 가지 컴포넌트가 있습니다.

사용자 정의 프롬프트에는 음성으로 읽을 텍스트와 듣고 싶은 대로 텍스트를 읽는 녹음된 오디오가 포함됩니다. 오디오는 합성된 텍스트의 억양, 음조, 강세를 지정합니다. 프롬프트는 다른 음절 또는 단어를 강조하고 일시정지를 도입하며 일반적으로 합성된 오디오 사운드를 컨텍스트에 더 자연스럽고 적절하게 만들 수 있습니다.
화자 모델은 하나 이상의 프롬프트를 표시하는 사용자의 등록 오디오를 제공합니다. 화자 모델은 사용자 음성의 오디오 샘플을 제공합니다. 이 서비스는 해당 화자에 맞는 더 높은 품질의 프롬프트를 생성할 수 있도록 음성에 대해 자체 훈련합니다.

음성 합성 요청이 포함된 사용자 정의 프롬프트를 지정하여 서비스의 음성이 텍스트를 발음하는 방법을 표시합니다. 프롬프트를 지정하려면 SSML 확장(<ibm:prompt id="{prompt_id}"/>)을 사용합니다. 합성된 오디오는 프롬프트의 운율을 복제합니다.

예제별 조정 기능 사용에 관한 자세한 정보는 다음 주제를 참조하십시오.

서비스에는 예제별 조정 기능을 사용하여 작업하기 위한 8개의 새 메소드가 포함되어 있습니다. 다음에 오는 새 메소드에 대한 설명은 API 및 SDK 참조에서 해당 항목에 대한 링크를 제공합니다.

서비스에는 사용자 정의 프롬프트 관련 작업을 위한 네 개의 메소드가 포함되어 있습니다.
- 사용자 지정 프롬프트를 추가합니다: POST /v1/customizations/{customization_id}/prompts/{prompt_id}
- 사용자 지정 프롬프트를 나열합니다: GET /v1/customizations/{customization_id}/prompts
- 사용자 지정 프롬프트를 받습니다: GET /v1/customizations/{customization_id}/prompts/{prompt_id}
- 사용자 지정 프롬프트를 삭제합니다: DELETE /v1/customizations/{customization_id}/prompts/{prompt_id}
이 서비스에는 화자 모델 관련 작업을 위한 네 개의 메소드가 포함되어 있습니다.
- 스피커 모델을 만듭니다: POST /v1/speakers
- 스피커 모델을 나열합니다: GET /v1/speakers
- 스피커 모델을 가져옵니다: GET /v1/speakers/{speaker_id}
- 스피커 모델을 삭제합니다: DELETE /v1/speakers/{speaker_id}

통합 Text to Speech 문서

현재 IBM Watson Text to Speech for IBM Cloud Pak for Data에 대한 문서는 IBM Cloud에서 호스팅되는 Text to Speech 서비스의 관리 인스턴스에 대한 문서와 결합되었습니다. 이는 서비스의 두 형태에 대한 안내서 및 참조 문서 둘 다에 해당됩니다. 이전에는 별도의 버전이었던, 서비스에 대한 IBM Cloud Pak for Data 문서로의 링크는 통합 문서로 경로 재지정됩니다.

제품의 한 버전에만 관련된 정보 식별에 관한 자세한 정보는 Text to Speech 정보를 참조하십시오.

버전 1.1.x의 서비스가 중단될 예정임

IBM Cloud Pak for Data용 Speech to Text 및 Text to Speech 버전 1.1.x의 서비스가 2021년 9월 30일에 중단됩니다. 사용자는 해당 날짜 이전에 IBM Cloud Pak for Data에서 서비스의 보다 높은 버전으로 업그레이드해야 합니다. 2021년 10월 1일부터는 버전 1.1.4에 대한 문서를 더 이상 사용할 수 없게 됩니다.

2021년 4월 12일(버전 1.2.1)

speech-override.yaml 파일에 항목이 추가됨

최소 speech-override.yaml 파일이 추가 정의 dockerRegistryPrefix을(를) 포함합니다.

global:
  dockerRegistryPrefix: "{Registry}"
  image:
    pullSecret: "{Registry_pull_secret}"

{Registry}은(는) 내부 Docker 레지스트리의 경로입니다. 이는 image-registry.openshift-image-registry.svc:5000/{namespace}이어야 합니다. 여기서 {namespace}은(는) IBM Cloud Pak® for Data가 설치된 네임스페이스입니다(일반적으로 zen).

2021년 4월 9일(버전 1.2.1)

설치된 모델 및 음성의 수정에 대한 지원: Speech 서비스는 이 서비스의 버전 1.2 또는 1.2.1에 대해, 설치된 모델 및 음성에서 항목을 추가하거나 제거하는 것을 허용합니다.

2021년 3월 26일(버전 1.2.1)

버전 1.2.1이 사용 가능해짐

이제 Text to Speech for IBM Cloud Pak for Data 버전 1.2.1을 사용할 수 있습니다. 버전 1.2와 1.2.1은 동일하게 버전 1.2 문서 및 설치 지시사항을 사용합니다. 버전 1.2.1은 Red Hat OpenShift 버전 4.5 및 3.11 외에 4.6에서의 설치도 지원합니다.

새 설치 지시사항

인터넷에 연결된 클러스터나 에어 갭 클러스터의 경우 모두, 설치 지시사항은 다음 단계를 포함합니다.

oc label 명령을 사용하여 IBM Cloud Pak for Data이(가) 설치된 네임스페이스에 대해 필요한 레이블을 설정합니다.
oc project 명령을 사용하여 올바른 OpenShift 프로젝트를 가리키고 있는지 확인합니다.
cpd-cli install 명령을 사용하여 Speech 서비스가 사용하는 EnterpriseDB PostgreSQL 서버를 설치합니다.

이러한 단계는 Speech 서비스를 설치하기 전에 수행합니다.

새 설치 제거 지시사항

Speech 서비스 설치 제거 절차에 설치의 모든 리소스를 정리하는 단계가 추가되었습니다.

PostgreSQL 데이터 저장소에 대한 권한이 있는 레지스트리

서비스가 PostgreSQL 데이터 저장소에 대한 이미지를 가져오는 권한이 있는 레지스트리 경로가 변경되었습니다. 레지스트리 위치가 cp.icr.io/cp/watson-speech에서 cp.icr.io/cp/cpd(으)로 변경되었습니다. 이 변경사항은 사용자에게 투명합니다.

MinIO 및 PostgreSQL 데이터 저장소에 대한 시크릿

MinIO 및 PostgreSQL 데이터 저장소는 각자의 시크릿에 대해 다음 하드 코딩된 값을 필요로 합니다.

Minio의 경우에는 minio을(를) 사용하십시오.
PostgreSQL의 경우에는 user-provided-postgressql을(를) 사용하십시오.

이러한 시크릿에 대해서는 사용자 자신의 값을 사용할 수 없습니다. 이러한 시크릿은 Speech 서비스를 설치하기 전에 작성해야 합니다.

speech-override.yaml 파일에서 항목이 삭제됨

speech-override.yaml 파일에서 다음 항목이 제거되었습니다. 이들은 지금은 수정된 문제점을 임시 해결하기 위해 추가되었었습니다.

sttRuntime:
  images:
    miniomc:
      tag:
        1.0.5
sttAMPatcher:
  images:
    miniomc:
      tag:
        1.0.5
ttsRuntime:
  images:
    miniomc:
      tag:
        1.0.5

필수 요소만 포함하도록 컨텐츠를 세부 조정하여, 축약된 speech-override.yaml 파일이 전반적으로 더욱 축소되었습니다.

2020년 12월 9일(버전 1.2)

버전 1.2가 사용 가능해짐

Text to Speech for IBM Cloud Pak for Data 버전 1.2가 현재 사용 가능합니다. 서비스 설치 및 관리에는 많은 변경사항이 포함됩니다. 이 버전은 IBM Cloud Pak for Data 버전 3.5 및 3.0.1과 Red Hat OpenShift 버전 4.5 및 3.11을 지원합니다.

새 음성

이 서비스는 이제 두 가지 새로운 음성을 제공합니다:

영국 영어: en-GB_CharlotteV3Voice
프랑스어: fr-FR_NicolasV3Voice

이 서비스는 또한 기존 영국 음성 en-KateV3Voice의 향상된 버전을 제공합니다. 지원되는 모든 언어 및 음성에 대한 자세한 정보는 언어 및 음성을 참조하십시오.

결함 수정: 일본어용 <prosody> 요소 수정

결함 수정: ja-JP_EmiV3Voice 음성의 경우 서비스가 이제 prosody 비율 스펙을 포함하는 SSML 입력을 올바르게 구문 분석합니다. 이전에는 다음과 같은 <prosody> 요소 사용이 올바르게 작동했습니다.

<speak>成功する/繁栄する</speak>

하지만 <prosody> 요소가 있는 rate 속성을 다음과 같이 사용하면 서비스가 임베드된 SSML 표시를 읽고 사용했습니다.

<speak>
  <prosody rate="fast">成功する/繁栄する</prosody>
</speak>

이제 서비스가 올바르게 구문 분석하고 일본어 입력을 위한 <prosody> 요소의 rate 속성을 적용합니다.

2020년 9월 4일(버전 1.1.4)

사용자 정의 인터페이스는 GA(Generally Available)임: 이제 사용자 정의 인터페이스가 GA(Generally Available)되었습니다. 사용자 정의는 더 이상 베타 기능이 아닙니다. 사용자 정의 인터페이스를 통해 언어별 사용자 정의 사전을 작성하여 서비스가 입력 텍스트에서 발생하는 특이한 단어를 발음하는 방법을 지정할 수 있습니다. 자세한 정보는 사용자 정의 이해를 참조하십시오.

2020년 7월 15일(버전 1.1.4)

Red Hat OpenShift 버전 4.3의 서비스가 중단됨: IBM Cloud Pak for Data 3.0.1은 2020년 9월 1일부터 Red Hat OpenShift 4.3을 더 이상 지원하지 않습니다. Red Hat OpenShift 4.3의 서비스는 2020년 10월 22일에 중단됩니다. IBM Cloud Pak for Data에서는 Red Hat OpenShift 4.5에 대한 지원을 도입하고 있습니다. IBM Cloud Pak for Data에서는 고객들이 2020년 10월 22일 전에 Red Hat OpenShift 4.5로 업그레이드할 것을 권장합니다. IBM 지원 센터에서는 IBM Cloud Pak for Data 3.0.1을 이미 Red Hat OpenShift 4.3에 설치한 고객과 협업할 예정입니다. Red Hat OpenShift 4.x에 설치하려는 신규 고객에게는 Red Hat OpenShift 4.5를 설치하도록 지침을 드렸습니다.

2020년 6월 19일(버전 1.1.4)

버전 1.1.4가 사용 가능해짐

Text to Speech for IBM Cloud Pak for Data 버전 1.1.4가 이제 사용 가능합니다. 서비스 설치 및 관리에는 많은 변경사항이 포함됩니다. 이 버전은 IBM Cloud Pak for Data 버전 2.5 및 3.0.1과 Red Hat OpenShift 버전 3.11 및 4.3을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 ' ' Text to Speech '을 ' IBM Cloud Pak for Data'에 설치 및 관리하기'을 참조하세요.

새 신경 음성

이 서비스는 이제 다섯 가지 새 신경 음성을 지원합니다.

미국 영어: en-US_EmilyV3Voice, en-US_HenryV3Voice, en-US_KevinV3Voice, en-US_OliviaV3Voice
독일어: de-DE_ErikaV3Voice

이러한 새 음성은 기존의 모든 음성과 동일한 사용자 지정 및 SSML 기능을 제공합니다. 자세한 정보는 지원되는 언어 및 음성을 참조하십시오.

일본어에 대한 <say-as> 요소의 SSML digits 속성 지원

서비스는 이제 일본어 음성으로 SSML <say-as> 요소의 digits 속성을 지원합니다. 자세한 정보는 <say-as> 요소를 참조하십시오.

단순화된 백업 및 복원 프로시저

백업 및 복원 절차가 매우 간소화됩니다. 이제 데이터 저장소에서 데이터를 백업하므로 실행한 오퍼레이션을 다시 작성할 필요가 없습니다. 자세한 내용은 ' ' Watson 음성 서비스 데이터 백업 및 복원하기 을 참조하세요.

2020년 2월 28일(버전 1.1.3)

버전 1.1.3이 사용 가능해짐: Text to Speech for IBM Cloud Pak for Data 버전 1.1.3은 현재 사용 가능합니다.

2019년 11월 27일(버전 1.1.2)

버전 1.1.2가 사용 가능해짐: Text to Speech for IBM Cloud Pak for Data 버전 1.1.2는 현재 사용 가능합니다.

2019년 8월 30일(버전 1.0.1)

버전 1.0.1이 사용 가능해짐: Text to Speech for IBM Cloud Pak for Data 버전 1.0.1은 현재 사용 가능합니다. 서비스는 이제 IBM Cloud Pak for Data 2.1.0.1에서 작동됩니다. 서비스는 이제 IBM Cloud Pak for Data with Red Hat OpenShift 설치를 지원합니다.
새 일본어 신경 음성: 서비스는 이제 신경 일본어 음성 ja-JP_EmiV3Voice를 제공합니다. 자세한 정보는 지원되는 언어 및 음성을 참조하십시오.
FISMA 지원: 이제 Text to Speech for IBM Cloud Pak for Data는 FISMA(Federal Information Security Management Act) 지원을 받을 수 있습니다. 서비스는 FISMA High Ready입니다.

2019년 6월 28일(버전 1.0.0)

버전 1.1.0이 사용 가능해짐

이제 서비스 초기 릴리스 버전 1.0.0을 사용할 수 있습니다. Text to Speech for IBM Cloud Pak for Data는 퍼블릭 IBM Cloud의 IBM Watson® Text to Speech 서비스를 기반으로 합니다. Text to Speech for IBM Cloud Pak for Data는 다음 방식의 공용 Text to Speech 서비스와 다릅니다. 이미 퍼블릭 Text to Speech의 IBM Cloud 서비스에 익숙한 경우, 이 정보가 유용할 것입니다.

Text to Speech for IBM Cloud Pak for Data에서는 인증을 위해 액세스 토큰이 필요합니다. 자세한 내용은 API 및 SDK 참조를 참조하세요.
Text to Speech for IBM Cloud Pak for Data에 대한 엔드포인트는 사용자의 IBM Cloud Pak for Data 클러스터에 고유합니다. 자세한 내용은 API 및 SDK 참조를 참조하세요.
Text to Speech for IBM Cloud Pak for Data에서는 신경 음성만 지원합니다. 표준(연결) 음성은 지원하지 않습니다. 신경 음성은 SSML <express-as> 및 <voice-transformation> 요소를 지원하지 않습니다.
Text to Speech for IBM Cloud Pak for Data는 요청 로깅을 수행하지 않습니다. X-Watson-Learning-Opt-Out 요청 헤더를 사용할 필요가 없습니다.
Text to Speech for IBM Cloud Pak for Data는 Watson 토큰을 지원하지 않습니다. 서비스에 인증하기 위해 X-Watson-Authorization-Token 요청 헤더를 사용할 수 없습니다.