IBM Cloud Pak for Data용 Speech to Text의 릴리스 정보

IBM Cloud Pak for Data

IBM Cloud Pak for Data용 IBM Watson® Speech to Text의 설치된 인스턴스 또는 온프레미스 인스턴스의 각 릴리스 및 업데이트에는 다음 기능 및 변경사항이 포함되어 있습니다. 달리 명시되지 않은 한 모든 변경사항은 이전 릴리스와 호환되며 모든 신규 및 기존애플리케이션에 자동으로 투명하게 제공됩니다.

서비스의 알려진 제한 사항에 대한 자세한 내용은 알려진 제한 사항 를 참조하세요.

IBM Cloud용 서비스의 릴리스 및 업데이트에 관한 정보는 Speech to Text for IBM Cloud의 릴리스 정보를 참조하십시오.

2024년 10월 30일 (버전 4.8.7 )

버전 4.8.7 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.7 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 9월 25일 (버전 5.0.3 )

버전 5.0.3 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 5.0.3 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 8월 28일 (버전 4.8.6 )

버전 4.8.6 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.6 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 8월 28일 (버전 5.0.2 )

버전 5.0.2 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 5.0.2 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 7월 31일 (버전 5.0.1 )

버전 5.0.1 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 5.0.1 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 6월 19일 (버전 5.0.0 )

버전 5.0.0 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 5.0.0 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 4월 24일 (버전 4.8.5 )

버전 4.8.5 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.5 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 3월 27일 (버전 4.8.4 )

버전 4.8.4 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.4 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 2월 28일 (버전 4.8.3 )

버전 4.8.3 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.3 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2024년 1월 31일 (버전 4.8.2 )

버전 4.8.2 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.2 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2023년 11월 30일 (버전 4.8.0 )

버전 4.8.0 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.8.0 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2023년 9월 27일 (버전 4.7.3 )

버전 4.7.3 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.7.3 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2023년 7월 28일 (버전 4.7.1 )

버전 4.7.1 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.7.1 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2023년 6월 9일 (버전 4.7.0 )

버전 4.7.0 사용 가능: Speech to Text IBM Cloud Pak for Data 버전 4.7.0 이제 사용할 수 있습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

2023년 5월 2일(버전 4.6.5)

버전 4.6.5 사용 가능

Speech to Text IBM Cloud Pak for Data 버전 4.6.5 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.6.x 및 Red Hat OpenShift 버전 4.10 및 4.12 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

일본의 새로운 차세대 전화 통신 모델

이 서비스는 이제 일본어를 위한 차세대 전화 통신 모델을 제공합니다: ja-JP_Telephony. 이 새 모델은 낮은 지연 시간을 지원하며 GA(General Availability)되었습니다. 언어 모델 사용자 정의 및 문법도 지원합니다. 차세대 모델과 짧은 지연 시간에 대한 자세한 내용은 다음을 참조하세요:

차세대 영어 및 일본어 모델을 위한 언어 모델 사용자 지정 기능 개선

이제 이 서비스는 차세대 영어 및 일본어 모델에 대한 향상된 언어 모델 사용자 지정 기능을 제공합니다:

en-AU_Multimedia
en-AU_Telephony
en-IN_Telephony
en-GB_Multimedia
en-GB_Telephony
en-US_Multimedia
en-US_Telephony
ja-JP_Multimedia
ja-JP_Telephony

모델의 눈에 띄는 개선 사항: 새로운 기술을 통해 새로운 영어 및 일본어 모델의 기본 동작이 개선되었습니다. 여러 가지 변경 사항 중에서도 새로운 기술은 다음 매개변수에 대한 기본 동작을 최적화합니다:

이러한 모델의 새 버전을 기반으로 하는 사용자 지정 모델의 기본 customization_weight 이 0.2 에서 0.1 으로 변경됩니다.
이 모델의 새로운 버전을 기반으로 하는 사용자 지정 모델의 기본 음성 인식 매개변수( character_insertion_bias )는 0.0 로 유지되지만, 모델이 변경되어 음성 인식 매개변수가 덜 필요하게 되었습니다.

새 모델로 업그레이드하기: 개선된 기술을 활용하려면 새 모델을 기반으로 하는 모든 사용자 지정 언어 모델을 업그레이드해야 합니다. 다음 기본 모델 중 하나를 새 버전으로 업그레이드하려면:

사용자 지정 모델에 포함된 사용자 지정 단어, 말뭉치 또는 문법을 추가하거나 수정하여 사용자 지정 모델을 변경하세요. 변경을 수행하면 모델이 ready 상태로 이동합니다.
POST /v1/customizations/{customization_id}/train 메서드를 사용하여 모델을 재학습합니다. 재교육은 사용자 지정 모델을 새로운 기술로 업그레이드하고 모델을 available 상태로 이동합니다.

알려진 문제: 현재, 사용자 지정 모델을 새로운 기본 모델 중 하나로 업그레이드하는 데 ' POST /v1/customizations/{customization_id}/upgrade_model ' 방법을 사용할 수 없습니다. 이 문제는 향후 릴리스에서 해결될 예정입니다.

새 모델 사용: 새 기본 모델로 업그레이드한 후에는 음성 인식을 위한 customization_weight 및 character_insertion_bias 매개변수에 특히 주의하여 업그레이드된 사용자 지정 모델의 성능을 평가하는 것이 좋습니다. 사용자 지정 모델을 재교육할 때

사용자 지정 모델에서는 사용자 지정 모델에 0.1 의 새 기본값 customization_weight 을 사용합니다. customization_weight 사용자 지정 모델과 연결된 기본값이 아닌 사용자 지정 언어가 제거됩니다.
사용자 지정 모델은 최적의 음성 인식을 위해 더 이상 ' character_insertion_bias ' 매개 변수를 사용할 필요가 없을 수 있습니다.

언어 모델 사용자 지정 기능이 개선되어 고품질 음성 인식에 있어 이러한 매개 변수의 중요성이 줄어들었습니다:

이러한 매개변수의 기본값을 사용하는 경우 업그레이드 후에도 계속 사용하세요. 기본값은 계속해서 음성 인식에 가장 적합한 결과를 제공합니다.
이 파라미터에 기본값이 아닌 값을 지정하는 경우, 업그레이드 후 기본값을 시험해 보십시오. 기본값을 사용하면 사용자 지정 모델이 음성 인식에 잘 작동할 수 있습니다.

이러한 매개변수에 다른 값을 사용하여 사용자 지정 모델에서 음성 인식을 개선할 수 있다고 생각되면 점진적으로 변경하여 음성 인식 개선에 매개변수가 필요한지 여부를 실험해 보세요.

참고: 현재 언어 모델 사용자 정의 기능의 개선 사항은 앞서 언급한 차세대 영어 또는 일본어 기반 언어 모델을 기반으로 하는 사용자 정의 모델에만 적용됩니다. 시간이 지남에 따라 다른 차세대 언어 모델에도 개선 사항이 적용될 예정입니다.

추가 정보: 업그레이드와 이 매개변수를 이용한 음성 인식에 대한 자세한 내용은 다음을 참조하십시오

음성 서비스 사용자 지정 리소스에 대한 새로운 환경 변수

이제 문서에 ${CUSTOM_RESOURCE_SPEECH} 이라는 환경 변수를 만드는 방법에 대한 설명이 포함되어 있습니다. 새 변수를 cpd_vars.sh 스크립트에 추가하고 스크립트를 소싱하여 사용자 환경에서 변수를 사용하도록 합니다. 자세한 내용은 Watson 음성 서비스 설치하기의 이 작업을 완료하는 데 필요한 정보을 참조하거나 음성 서비스에 대한 업그레이드 주제를 참조하세요.

결함 수정: 이제 스웨덴 전화 및 이탈리아 멀티미디어 모델을 사용할 수 있습니다

결함 수정: 이제 스웨덴 전화(sv-SE_Telephony) 및 이탈리아어 멀티미디어(it-IT_Multimedia) 모델을 설치할 수 있습니다. 이전에는 사용할 수 없었습니다.

결함 수정: 차세대 사용자 지정 언어 모델에 대한 교육 시간 개선

결함 수정: 이제 차세대 사용자 지정 언어 모델의 학습 시간이 크게 개선되었습니다. 이전에는 일본어 사용자 지정 언어 모델을 교육할 때 교육 시간이 필요 이상으로 오래 걸렸다고 보고되었습니다. 이 문제는 내부 수정으로 해결되었습니다.

결함 수정: 문법 파일이 이제 숫자 문자열을 올바르게 처리합니다

결함 수정: 문법을 사용할 때 이제 서비스가 긴 숫자 문자열을 올바르게 처리합니다. 이전에는 인식을 완료하지 못하거나 잘못된 결과를 반환했습니다.

결함 수정: 동적으로 생성된 문법 파일이 이제 제대로 작동합니다

결함 수정: 이제 동적으로 생성된 문법 파일이 제대로 작동합니다. 이전에는 동적 문법 파일이 내부 오류를 일으킬 수 있었는데, Speech to Text와 IBM® watsonx™ Assistant 통합 시 보고된 바와 같습니다. 이 문제는 내부 수정으로 해결되었습니다.

결함 수정: 미국 영어 날짜의 스마트 서식이 이제 올바르게 지정됩니다

결함 수정: 이제 스마트 서식에는 요일과 날짜가 모두 음성 오디오에 있는 경우(예: Tuesday February 28)에도 요일과 날짜가 올바르게 포함됩니다. 이전에는 요일이 생략되어 날짜가 잘못 표시되는 경우가 있었습니다. 스마트 형식화는 베타 기능입니다.

결함 수정: 차세대 모델의 음성 주저 단어에 대한 문서 업데이트

결함 수정: 차세대 모델의 말더듬어 표현에 대한 설명서가 업데이트되었습니다. 미국 영어와 일본어 망설임 단어에 대한 자세한 정보가 제공됩니다. 차세대 모델은 주저 마커만 포함하는 이전 세대 모델과 달리 실제 주저 단어까지 전사 결과에 포함합니다. 자세한 내용은 말하기 머뭇거림 및 머뭇거림 표시 를 참조하세요.

보안 취약성이 해결됨

다음과 같은 보안 취약점이 수정되었습니다:

2023년 3월 29일(버전 4.6.4)

버전 4.6.4 사용 가능

Speech to Text IBM Cloud Pak for Data 버전 4.6.4 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.6.x 및 Red Hat OpenShift 버전 4.10 및 4.12 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

중요: 버전 4.6.3 또는 4.6.4 로 업그레이드하기 전에 데이터를 백업하십시오

중요: Watson 서비스 버전 4.6.3 또는 4.6.4 로 업그레이드하기 전에 데이터를 백업해야 합니다. 백업은 안전한 장소에 보관하세요. Watson Speech 서비스 데이터 백업에 대한 자세한 내용은 Watson Speech 서비스 관리 에서 Watson Speech 서비스 데이터 백업 및 복원을 참조하세요. 이 주제에는 필요한 경우 데이터를 복원하는 방법에 대한 정보도 포함되어 있습니다.

알려진 문제입니다: 스웨덴 전화 및 이탈리아어 멀티미디어 모델은 아직 사용할 수 없습니다

알려진 문제: 스웨덴 전화( sv-SE_Telephony )와 이탈리아 멀티미디어( it-IT_Multimedia ) 모델은 아직 사용할 수 없습니다. 4.6.5 버전부터 사용할 수 있습니다.

결함 수정: 이제 고급 설치 옵션을 사용하여 설치된 모델과 음성을 변경할 수 있습니다

결함 수정: 이제 설치 중에 명령줄 인터페이스의 고급 설치 옵션을 사용하여 다른 모델이나 음성을 지정할 수 있습니다. 이전에는 서비스가 항상 기본 모델과 음성을 설치했습니다. 이 제한은 Watson 음성 서비스 버전 4.6.0, 4.6.2 및 4.6.3에도 계속 적용됩니다. 모델 및 음성 설치에 대한 자세한 내용은 추가 설치 옵션 지정의 Watson 음성 서비스 설치하기을 참조하세요.

로드 밸런서 시간 초과 설정

Watson 음성 서비스에서는 서버와 클라이언트 모두에 대한 부하 분산 장치 시간 제한 설정을 300초로 변경해야 합니다. 이러한 설정을 통해 장시간 실행되는 음성 인식 요청, 길거나 어려운 오디오가 포함된 요청을 완료하는 데 충분한 시간을 확보할 수 있습니다. 자세한 내용은 이 작업을 완료하는 데 필요한 정보의 Watson 음성 서비스 설치하기을 참조하세요.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2023년 2월 23일 (버전 4.6.3)

버전 4.6.3 사용 가능

Speech to Text IBM Cloud Pak for Data 버전 4.6.3 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.6.x 및 Red Hat OpenShift 버전 4.10 을 지원합니다. Red Hat OpenShift 버전 4.8은 더 이상 지원되지 않습니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

중요: 모든 이전 세대 모델은 더 이상 사용되지 않으며 2023년 7월 31일에 서비스가 종료됩니다

중요: 모든 이전 세대 모델은 더 이상 사용되지 않으며 서비스 종료 시점이 2023년 7월 31일로 변경됩니다. 해당 날짜에 모든 이전 세대 모델은 서비스 및 문서에서 삭제됩니다. 이전 사용 중단 날짜는 2023년 3월 3일이었습니다. 새로운 날짜로 인해 사용자는 적절한 차세대 모델로 마이그레이션할 수 있는 시간을 더 확보할 수 있습니다. 단, 사용자는 2023년 7월 31일까지 동급의 차세대 모델로 마이그레이션해야 합니다.

대부분의 이전 세대 모델은 2022년 3월 15일에 더 이상 사용되지 않습니다. 이전에는 아랍어 및 일본어 모델이 더 이상 사용되지 않았습니다. 이제 지원 중단은 이전 세대 모델인 모든에 적용됩니다.

더 이상 사용되지 않는 각 모델에서 마이그레이션할 수 있는 차세대 모델에 대한 자세한 정보는 이전 세대 언어 및 모델을 참조하십시오.
이전 세대 모델에서 차세대 모델로의 마이그레이션에 대한 자세한 정보는 차세대 모델로의 마이그레이션을 참조하십시오.
모든 차세대 모델에 대한 자세한 내용은 차세대 언어 및 모델 에서 확인하세요

참고: 이전 세대 en-US_BroadbandModel 모델이 서비스에서 제거되면 다음 세대 en-US_Multimedia 모델이 음성 인식 요청의 기본 모델이 됩니다.

알려진 문제입니다: 고급 설치 옵션으로 설치된 모델 및 음성을 변경할 수 없습니다

알려진 문제: 현재 고급 설치 옵션으로 다른 모델이나 음성을 지정할 수 없습니다. 이 서비스는 항상 기본 모델과 음성을 설치합니다. 설치 후 모델을 변경하는 방법에 대한 자세한 내용은 Watson 음성 서비스에 대한 모델 및 음성 업데이트의 관리 항목의 Watson 음성 서비스에 대한 IBM Cloud Pak for Data에 있습니다.

알려진 문제입니다: 4.6.3 버전으로 업그레이드가 완료되지 않을 수 있습니다

알려진 문제: 버전 4.6.3으로 업그레이드할 때, MinIO 백업 작업이 완료되면 삭제되지 않을 수 있습니다. 이 경우 해결 방법은 작업을 삭제한 후 업그레이드가 정상적으로 진행되는 것입니다. 다음 단계를 수행하여 문제를 해결하세요.

MinIO 백업 작업이 삭제되지 않은 상태로 유지되는지 확인하려면 다음 명령을 실행합니다:
```
oc get job --namespace {${PROJECT_CPD_INSTANCE} | grep speech-cr-ibm-minio-backup
```
삭제되지 않은 MinIO 작업은 다음 형식의 항목으로 식별됩니다:
```
speech-cr-ibm-minio-backup   1/1   3m25s   1d
```

MinIO 백업 작업을 삭제하려면 다음 명령을 실행합니다:

oc delete job speech-cr-ibm-minio-backup --namespace ${PROJECT_CPD_INSTANCE}

백업 작업이 삭제되면 업그레이드가 계속 진행되어 완료됩니다.

결함 수정: 프랑스 캐나다 차세대 전화 통신 모델 업데이트(업그레이드 필요)

결함 수정: 프랑스 캐나다 차세대 전화 통신 모델인 fr-CA_Telephony 이 음성 인식 중 오류를 일으킬 수 있는 내부 불일치를 해결하기 위해 업데이트되었습니다. fr-CA_Telephony 모델을 기반으로 하는 모든 사용자 지정 모델을 업그레이드해야 합니다. 사용자 지정 모델 업그레이드에 대한 자세한 내용은 다음을 참조하세요

결함 수정: 이제 차세대 브라질 포르투갈어 멀티미디어 모델을 사용할 수 있습니다

결함 수정: 이제 차세대 브라질 포르투갈어 멀티미디어 모델을 Speech to Text에서 IBM Cloud Pak for Data에 사용할 수 있게 되었습니다. 이전에는 이 모델을 사용할 수 없었습니다.

차세대 모델을 기반으로 하는 사용자 지정 모델에 직접 단어를 추가하면 학습 시간이 늘어납니다

차세대 모델을 기반으로 하는 사용자 지정 모델에 직접 사용자 지정 단어를 추가하면 모델 학습에 몇 분 더 오래 걸립니다. POST /v1/customizations/{customization_id}/words 또는 PUT /v1/customizations/{customization_id}/words/{word_name} 방법을 사용하여 추가한 사용자 지정 단어로 모델을 훈련하는 경우에는 모델에 몇 분의 추가 훈련 시간을 허용하세요. 자세한 정보는 다음을 참조하십시오.

서비스 인스턴스 작업에 대한 추가 정보

이제 이 문서에는 명령줄 인터페이스(cpl-cli)로 서비스 인스턴스를 만드는 방법과 서비스 인스턴스를 관리하는 방법에 대한 정보가 포함되어 있습니다. 자세한 내용은 Watson 음성 서비스의 다음 항목 IBM Cloud Pak for Data에서 확인할 수 있습니다:

Watson 음성 서비스 인스턴스 만들기 아래 설치 후 설정
Watson 음성 서비스 인스턴스 관리하기에서 관리하기로 이동합니다

보안 취약성이 해결됨

다음과 같은 보안 취약점이 수정되었습니다:

보안 게시판: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data가 Pypa 셋업툴의 서비스 거부에 취약합니다(CVE-2022-40897)

2023년 1월 30일(버전 4.6.2)

버전 4.6.2 사용 가능

Speech to Text IBM Cloud Pak for Data 버전 4.6.2 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.6.x 및 Red Hat OpenShift 버전 4.8 및 4.10 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

이제 사용자 지정 리소스에는 새로운 fileStorageClass 속성이 포함됩니다

이제 왓슨 음성 서비스에 대한 사용자 지정 리소스에 기존 blockStorageClass 속성 외에 fileStorageClass 속성이 포함됩니다. 서비스를 설치하거나 업그레이드할 때 블록 및 파일 저장소 클래스를 모두 지정합니다. 이전 버전에서 업그레이드하는 동안 새 속성은 --file_storage_class 명령의 cli manage apply-cr 옵션에 의해 사용자 지정 리소스에 자동으로 추가됩니다.

지원되는 각 스토리지 솔루션에서 사용할 수 있는 블록 및 파일 스토리지 클래스에 대한 자세한 내용은 스토리지 요구 사항의 "이 작업을 완료하는 데 필요한 정보 음성 서비스 설치" 페이지의 Watson 음성 서비스 IBM Cloud Pak for Data에 대한 음성 서비스 아래 Watson 표를 참조하세요.

서비스 인스턴스 프로비저닝에 대한 추가 정보

이제 이 문서에 프로그래밍 방식으로 서비스 인스턴스를 만드는 방법에 대한 정보가 포함되어 있습니다. 또한 서비스 인스턴스를 나열하고 서비스 인스턴스를 삭제하는 예도 포함되어 있습니다. 자세한 내용은 Watson 음성 서비스 인스턴스 만들기의 설치 후 설정 문서에서 Watson 음성 서비스 IBM Cloud Pak for Data에 대한 음성 서비스를 참조하세요.

MinIO 데이터스토어에 대해 서버 측 암호화가 활성화되어 있습니다

이제 음성 서비스에서 MinIO 데이터 저장소에 대한 서버 측 암호화를 활성화했습니다. 회원님의 조치는 필요하지 않습니다.

웹훅 감사로 변경

이제 음성 서비스에서 감사 웹훅 종속성이 제거되었습니다. 이제 서비스가 감사 이벤트를 서버에 직접 작성합니다. 버전 4.6.2로 업그레이드한 후에도 모든 서비스가 종속성을 제거할 때까지 일부 웹훅 리소스가 남아있을 수 있습니다. 나머지 리소스는 향후 릴리스에서 제거될 예정입니다. 회원님의 조치는 필요하지 않습니다.

네덜란드의 새로운 차세대 멀티미디어 모델

이 서비스는 이제 네덜란드 네덜란드어를 위한 차세대 멀티미디어 모델을 제공합니다: nl-NL_Multimedia. 이 새 모델은 낮은 지연 시간을 지원하며 GA(General Availability)되었습니다. 언어 모델 사용자 정의 및 문법도 지원합니다. 차세대 모델 및 짧은 지연 시간에 대한 자세한 내용은 다음을 참조하세요

스웨덴의 새로운 차세대 전화 통신 모델

이 서비스는 이제 스웨덴어를 위한 차세대 전화 통신 모델을 제공합니다: sv-SE_Telephony. 이 새 모델은 낮은 지연 시간을 지원하며 GA(General Availability)되었습니다. 언어 모델 사용자 정의 및 문법도 지원합니다. 차세대 모델 및 짧은 지연 시간에 대한 자세한 내용은 다음을 참조하세요

영어 차세대 전화 통신 모델에 대한 업데이트

향상된 음성 인식을 위해 영어 차세대 전화 통신 모델이 업데이트되었습니다:

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

이 모든 모델은 계속해서 낮은 지연 시간을 지원합니다. 해당 모델을 기반으로 하는 사용자 정의 모델을 업그레이드하지 않아도 됩니다. 사용 가능한 모든 차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델의 내용을 참조하십시오.

이제 차세대 모델에서 max_alternatives 매개 변수를 사용할 수 있습니다

이제 모든 차세대 모델에서 max_alternatives 매개변수를 사용할 수 있습니다. 이 매개변수는 일반적으로 모든 차세대 모델에서 사용할 수 있습니다. 자세한 정보는 최대 대체 수를 참조하십시오.

결함 수정: 차세대 모델에서 max_alternatives 및 end_of_phrase_silence_time 매개변수 모두 사용 허용

결함 수정: 차세대 모델에서 동일한 요청에 max_alternatives 및 end_of_phrase_silence_time 매개 변수를 모두 사용하는 경우 이제 서비스에서 지정된 일시 중지 간격을 준수하면서 여러 개의 대체 스크립트를 반환합니다. 이전에는 단일 요청에 두 개의 매개 변수를 사용하면 오류가 발생했습니다. (차세대 모델에서 max_alternatives 매개 변수를 사용하는 것은 이전에는 제한된 수의 고객에게 실험적 기능으로 제공되었습니다.)

결함 수정: 일본 차세대 멀티미디어 모델로 업데이트(업그레이드 필요)

결함 수정: 일본의 차세대 멀티미디어 모델인 ja-JP_Multimedia 는 낮은 지연 시간으로 음성 인식 중에 오류를 일으킬 수 있는 내부 불일치를 해결하기 위해 업데이트되었습니다. ja-JP_Multimedia 모델을 기반으로 하는 모든 사용자 지정 모델을 업그레이드해야 합니다. 사용자 지정 모델 업그레이드에 대한 자세한 내용은 다음을 참조하세요

결함 수정: 차세대 모델에 기반한 일본어 사운드 유사 생성에 대한 문서 가이드라인 추가

결함 수정: 차세대 모델에 기반한 일본어 사용자 지정 언어 모델의 사운드 라이크에서 일부 왼쪽 문맥에서 문자 순서 ウー 가 모호합니다. /o/ 음소로 끝나는 문자(음절)는 사용하지 마세요(예: ロ 및 ト). 이러한 경우 ウウ 또는 ウ 을 ウー 대신 사용합니다. 예를 들어 ロウウマン 또는 ロウマン 대신 ロウーマン 을 사용합니다. 자세한 내용은 일본어를 위한 가이드라인 를 참조하세요.

결함 수정: 전사 결과에서 display_as 필드의 올바른 사용

결함 수정: 차세대 모델을 사용한 언어 모델 사용자 지정의 경우 이제 사용자 지정 단어의 display_as 필드 값이 모든 성적표에 표시됩니다. 이전에는 word 필드의 값이 전사 결과에 표시되는 경우가 있었습니다.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 11월 30일(버전 4.6.0)

버전 4.6.0 사용 가능

Speech to Text IBM Cloud Pak for Data 버전 4.6.0 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.6.x 및 Red Hat OpenShift 버전 4.8 및 4.10 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

Amazon Web Services (AWS)이 이제 지원됩니다

Watson IBM Cloud Pak for Data용 음성 서비스가 이제 Amazon Web Services™(AWS™)에서 지원됩니다. 이 서비스는 음성 서비스 사용자 지정 리소스의 blockStorageClass 속성을 gp2-csi 또는 gp3-csi 으로 설정하여 지정하는 Amazon Elastic Block Store를 지원합니다.

이제 새로운 스토리지 클래스가 지원됩니다

Watson용 음성 서비스는 이제 두 개의 스토리지 클래스를 추가로 지원합니다:

IBM Cloud Block Storage (ibmc-block-gold)
NetApp Trident (ontap-nas)

음성 서비스 사용자 지정 리소스의 blockStorageClass 속성을 사용하여 저장소 클래스를 지정합니다. 지원되는 모든 스토리지 클래스에 대한 자세한 내용은 Watson 음성 서비스 IBM Cloud Pak for Data에 대한 음성 서비스의 다음 항목을 참조하세요:

시작하기 전에에서 Watson 음성 서비스 설치하기
저장소 클래스 지정하기에서 Watson 음성 서비스 사용자 지정 리소스 사용하기

알려진 문제입니다: 일부 Watson 음성 서비스 포드에는 스케줄링에 사용되는 어노테이션이 없습니다

알려진 문제: 일부 Watson 음성 서비스 포드에 cloudpakInstanceId 어노테이션이 누락되어 있습니다. IBM Cloud Pak for Data 스케줄링 서비스를 사용하는 경우, cloudpakInstanceId 어노테이션이 없는 모든 Watson 음성 서비스 파드는 다음과 같습니다

스케줄링 서비스가 아닌 기본 Kubernetes 스케줄러로 스케줄링됨
할당량 시행에 포함되지 않음

이제 PostgreSQL 데이터 저장소 모니터링이 가능합니다

이제 PostgreSQL 데이터 저장소 모니터링을 활성화하여 사용량 및 상태에 대한 업데이트를 Watson 음성 서비스에서 수신할 수 있습니다. 이벤트는 Prometheus 모니터링 소프트웨어 또는 모니터링에 사용하는 모든 애플리케이션에서 사용할 수 있습니다. 기본 플랫폼 모니터링 외에 사용자 정의 프로젝트에 대한 모니터링을 활성화하면 Red Hat® OpenShift® Container Platform 모니터링 스택을 사용하여 자체 프로젝트를 모니터링할 수 있습니다. 이 기능에는 음성 서비스 사용자 지정 리소스에 추가 속성인 spec.global.datastores.postgressql.enablePodMonitor 이 포함되어 있습니다.

자세한 내용은 Watson 음성 서비스 IBM Cloud Pak for Data에 대한 음성 서비스의 관리 섹션에 있는 PostgreSQL 데이터 저장소에 대한 Watson 음성 서비스 모니터링하기 항목을 참조하세요.

결함 수정: PostgreSQL 런타임 마이크로서비스만 활성화된 경우 데이터스토어가 더 이상 설치되지 않습니다

결함 수정: 런타임 마이크로서비스만 활성화된 경우 PostgreSQL 데이터스토어가 더 이상 설치되지 않습니다. 이제 데이터스토어는 sttAsync, sttCustomization 또는 ttsCustomization 마이크로서비스 중 하나 이상이 설치되어 있는 경우에만 설치됩니다. 나중에 이러한 마이크로서비스가 비활성화되어도 PostgreSQL는 제거되지 않습니다.

4.6.0 버전 이전에는 PostgreSQL이 항상 음성 서비스와 함께 설치되었습니다. 4.6.0 버전 이전에 스피치 서비스의 런타임 마이크로서비스만 사용하던 기존 고객인 경우 PostgreSQL은 계속 설치되어 있지만 사용되지는 않습니다. 이 경우 PostgreSQL 설치는 업그레이드 시에도 계속 유지됩니다.

런타임 마이크로서비스가 이 데이터스토어에 의존하기 때문에 MinIO 데이터스토어는 항상 설치됩니다. RabbitMQ 데이터스토어는 sttAsync 마이크로서비스가 설치되어 있는 경우에만 설치됩니다.

자세한 내용은 데이터스토어 속성 in Watson 음성 서비스 사용자 지정 리소스 사용 in Watson 음성 서비스 IBM Cloud Pak for Data에 대한 음성 서비스를 참조하세요.

결함 수정: 피연산자를 모니터링하기 위해 더 이상 네트워크 정책 생성이 PostgreSQL 연산자에 필요하지 않습니다

결함 수정: 버전 4.6.0의 경우, PostgreSQL 연산자가 피연산자를 모니터링할 수 있도록 네트워크 정책을 만들 필요가 없습니다(10 November 2022(버전 4.0.x 및 4.5.x) 서비스 업데이트에 설명되어 있습니다. 버전 4.6.0부터는 이 상황을 자동으로 처리합니다.

결함 수정: 일부 차세대 모델이 업데이트되어 지연 시간이 짧은 응답 시간이 개선되었습니다

결함 수정: 다음 차세대 모델은 low_latency 매개변수를 사용할 때 응답 시간을 개선하도록 업데이트되었습니다:

en-IN_Telephony
hi-IN_Telephony
it-IT_Multimedia
nl-NL_Telephony

이전에는 low_latency 매개변수를 사용할 때 이러한 모델이 예상만큼 빠르게 인식 결과를 반환하지 못했습니다. 해당 모델을 기반으로 하는 사용자 정의 모델을 업그레이드하지 않아도 됩니다. 사용 가능한 모든 차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델을 참조하십시오.

결함 수정: 사용자 지정 모델 명명 문서 개선

결함 수정: 이제 문서에 사용자 지정 언어 모델 및 사용자 지정 음향 모델 이름 지정에 대한 자세한 규칙이 제공됩니다. 자세한 정보는 다음을 참조하십시오.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 11월 10일(버전 4.0.x 및 4.5.x)

알려진 문제입니다: PostgreSQL 운영자에게 필요한 업데이트된 네트워크 정책

알려진 문제: Speech 서비스 버전 4.0.x(버전 4.0.0 제외) 및 4.5.x에서 PostgreSQL 연산자와 음성 서비스가 다른 네임스페이스에 설치되어 있는 경우, PostgreSQL 연산자는 음성 서비스에 대한 PostgreSQL 피연산자를 모니터링할 수 없습니다. 운영자는 스피치 서비스에 적용되는 네트워크 정책에 따라 피연산자를 모니터링할 수 없습니다.

이 문제로 인해 PostgreSQL 클러스터가 제대로 작동하지 않는 것은 아닙니다. 클러스터는 활성 상태로 유지되며 완전히 작동합니다. 그러나 새 버전의 음성 서비스로 업그레이드할 때 운영자는 피연산자를 업데이트할 수 없습니다.

이 문제에 대한 해결책은 다음 단계와 같이 PostgreSQL 연산자에 대한 추가 네트워크 정책을 생성하는 것입니다. PostgreSQL 연산자가 Speech 서비스와 동일한 네임스페이스에 설치되어 있는지 또는 다른 네임스페이스에 설치되어 있는지에 관계없이 이 단계를 수행할 수 있습니다.

Speech 서비스가 설치된 Red Hat® OpenShift® 프로젝트의 관리자로 로그인합니다.

다음 명령을 입력하여 음성 서비스에 대한 네트워크 정책을 업데이트합니다:

cat << EOF | oc apply -f -
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  labels:
    app.kubernetes.io/component: stt
    app.kubernetes.io/instance: {{ <custom-resource-name> }}
    app.kubernetes.io/name: speech-to-text
    release: {{ <custom-resource-name> }}
  name: <custom-resource-name>-postgres-network-policy
  namespace: {{ <cpd-instance-namespace> }}
spec:
  ingress:
  - from:
    - namespaceSelector: {}
      podSelector:
        matchLabels:
          app.kubernetes.io/name: cloud-native-postgresql
EOF

여기서,

<custom-resource-name> 은 음성 서비스 사용자 지정 리소스의 이름입니다. 4.0.x의 권장 이름은 speech-prod-cr 이고, 4.5.x의 권장 이름은 speech-cr 입니다.
<cpd-instance-name> 은 음성 서비스가 설치된 프로젝트(네임스페이스)의 이름입니다. 이 문서에서는 환경 변수 ${PROJECT_CPD_INSTANCE} 를 사용하여 네임스페이스를 식별합니다.

업데이트된 네트워크 정책으로 운영자가 피연산자를 모니터링할 수 있고 PostgreSQL 클러스터가 정상 상태인지 확인하려면 다음 명령을 입력합니다. 여기서 <custom-resource-name> 및 <cpd-instance-name> 는 이전 단계에서 사용한 값입니다:
```
oc -get cluster {{ <custom-resource-name> }}-postgres -n {{ <cpd-instance-namespace> }}
```
PostgreSQL 클러스터가 제대로 작동하는 경우, 명령은 다음과 유사한 출력을 생성합니다:
```
NAME                 AGE   INSTANCES   READY   STATUS                     PRIMARY
speech-cr-postgres   14d   3           3       Cluster in healthy state   speech-cr-postgres-1
```

이 단계에서는 연산자가 피연산자를 최신 버전으로 업데이트하지 않습니다. 그러나 피연산자는 다음에 음성 서비스 소프트웨어를 업그레이드할 때 예상대로 업그레이드됩니다.

2022년 10월 13일 (버전 4.5.3)

버전 4.5.3 사용 가능

Speech to Text IBM Cloud Pak for Data 버전 4.5.3 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.5.x 및 Red Hat OpenShift 버전 4.6, 4.8, 4.10 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

스피치 서비스에서 감사 이벤트를 사용할 수 있습니다

IBM Cloud Pak for Data 감사 로깅 서비스는 Speech to Text 및 Text to Speech 서비스에 대한 감사 이벤트를 생성하고 포워딩합니다. 감사 이벤트는 Activity Tracker 에서 사용할 수 있는 이벤트와 공개 서비스에서 사용할 수 있는 이벤트가 일치합니다. 자세한 내용은 감사 이벤트를 참조하세요.

개별 음성 서비스 구성 요소를 제거할 수 없습니다

이제 문서에 개별 서비스 구성 요소(마이크로 서비스)가 설치되면 제거할 수 없다는 내용이 명시되어 있습니다. 다음 구성 요소 중 하나를 제거하려면 Watson 완전히 제거한 다음 필요한 구성 요소만 다시 설치해야 합니다. Speech to Text 런타임, Speech to Text 비동기 HTTP, Speech to Text 커스터마이제이션, Text to Speech 런타임, Text to Speech 커스터마이제이션. 음성 서비스 설치에 대한 자세한 내용은 Watson 음성 서비스에 있는 IBM Cloud Pak for Data 참조하세요.

새로운 프랑스 캐나다 차세대 멀티미디어 모델

이 서비스는 이제 프랑스어 캐나다인을 위한 차세대 멀티미디어 모델을 제공합니다: fr-CA_Multimedia. 이 새 모델은 낮은 지연 시간을 지원하며 GA(General Availability)되었습니다. 언어 모델 사용자 정의 및 문법도 지원합니다. 차세대 모델 및 짧은 지연 시간에 대한 자세한 내용은 다음을 참조하세요

영어 차세대 전화 통신 모델에 대한 업데이트

향상된 음성 인식을 위해 영어 차세대 전화 통신 모델이 업데이트되었습니다:

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

이제 이탈리아 차세대 멀티미디어 모델이 낮은 지연 시간을 지원합니다

이탈리아의 차세대 멀티미디어 모델인 it-IT_Multimedia 은 이제 낮은 지연 시간을 지원합니다. 차세대 모델 및 짧은 지연 시간에 대한 자세한 내용은 다음을 참조하세요

버전 4.0.x에서 버전 4.5.x로 업그레이드하는 문제 해결하기

음성 서비스를 버전 4.0.x에서 버전 4.5.x로 업그레이드할 때 PostgreSQL 파드가 Terminating 상태로 멈춰버리는 문제가 발생할 수 있습니다. 업그레이드하는 동안 이 문제가 발생하면 다음 단계를 수행하여 문제를 해결하세요. 정보 및 단계는 Watson 음성 서비스를 버전 4.0에서 버전 4.5의 업그레이드 항목에서 Watson 음성 서비스를 IBM Cloud Pak for Data에 대한 내용을 참조하세요.

다음 명령을 사용하여 Terminating 상태로 남아 있는 파드를 식별합니다:

oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'}

다음 명령을 사용하여 pods 상태에 남아 있는 파드 목록을 포함하도록 환경 변수 Terminating 를 설정합니다:

pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'})

다음 명령을 사용하여 멈춘 파드를 삭제하여 업그레이드 프로세스를 계속할 수 있도록 합니다:

pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | grep Terminating | awk {'print $1'})

결함 수정: 사용자 지정 리소스 항목 문서 수정

결함 수정: 이제 음성 서비스 사용자 지정 리소스에 대한 문서에 모델 이름 뒤에 콜론이 koKrTelephony 및 nlNlTelephony 이 포함되어 있습니다. 이전에는 이 두 항목에 대한 문서에서 콜론이 생략되었습니다.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 8월 19일(버전 4.5.1)

중요: 대부분의 이전 세대 모델의 사용 중단 날짜는 이제 2023년 3월 3일입니다

대체되었습니다: 이 사용 중단 공지는 2023년 2월 23일 서비스 업데이트 로 대체됩니다. 모두 이전 세대 모델의 서비스 종료일은 이제 2023년 7월 31일입니다.

아랍어와 일본어를 제외한 모든 언어의 이전 세대 모델은 2022년 3월 15일에 더 이상 사용되지 않습니다. 당시 사용 중단된 모델은 2022년 9월 15일까지 계속 사용할 수 있었습니다. 사용자가 적절한 차세대 모델로 마이그레이션할 시간을 더 확보할 수 있도록 지원 중단 모델은 2023년 3월 3일까지 계속 사용할 수 있습니다. 초기 지원 중단 공지와 마찬가지로 아랍어 및 일본어 이전 세대 모델은 아니 지원 중단됩니다. 더 이상 사용되지 않는 모든 모델의 전체 목록은 2022년 3월 15일(버전 4.0.6)서비스 업데이트 을 참조하세요.

2023년 3월 3일에 사용되지 않는 모델은 서비스 및 문서에서 삭제됩니다. 더 이상 사용되지 않는 모델을 사용하는 경우 2023년 3월 3일까지 동등한 차세대 모델로 마이그레이션해야 합니다.

더 이상 사용되지 않는 각 모델에서 마이그레이션할 수 있는 차세대 모델에 대한 자세한 정보는 이전 세대 언어 및 모델을 참조하십시오.
차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델을 참조하십시오.
이전 세대 모델에서 차세대 모델로의 마이그레이션에 대한 자세한 정보는 차세대 모델로의 마이그레이션을 참조하십시오.

참고: 이전 세대 en-US_BroadbandModel 모델이 서비스에서 제거되면 다음 세대 en-US_Multimedia 모델이 음성 인식 요청의 기본 모델이 됩니다.

2022년 8월 3일(버전 4.5.1)

버전 4.5.1 사용 가능

Speech to Text IBM Cloud Pak for Data 버전 4.5.1 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.5.x 및 Red Hat OpenShift 버전 4.6, 4.8, 4.10 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

FIPS 지원 클러스터 지원

Speech to Text의 경우 IBM Cloud Pak for Data 및 Text to Speech에 대한 IBM Cloud Pak for Data는 이제 FIPS(연방 정보 처리 표준) 사용 클러스터에서 실행을 지원합니다. 자세한 내용은 FIPS를 지원하는 서비스를 참조하세요.

결함 수정: 가끔 발생하는 파드 퇴거를 방지하기 위해 임시 저장소 계산 수정

결함 수정: A defect was fixed and calculation of ephemeral storage limits is now more precise for the Speech to Text for IBM Cloud Pak for Data and Text to Speech for IBM Cloud Pak for Data runtimes. 이러한 변경 사항은 서비스 런타임이 과부하 상태일 때 가끔씩 발생하는 파드 퇴거를 방지합니다.

결함 수정: 음성 망설임 및 망설임 마커 문서 업데이트

결함 수정: 말하기 주저 및 주저 표시 관련 문서가 업데이트되었습니다. 이전 세대 모델에는 대부분의 언어에 대한 전사 결과에서 음성 주저함 대신 주저함 표시가 포함되며, 스마트 서식 지정은 미국 영어 최종 성적표에서 주저함 표시를 제거합니다. 차세대 모델에는 실제 음성 주저함이 전사 결과에 포함되며, 스마트 서식은 최종 전사 결과에 포함되는 데 영향을 미치지 않습니다.

자세한 정보는 다음을 참조하십시오.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 6월 29일(버전 4.5.0)

버전 4.5.0 사용 가능

Speech to Text IBM Cloud Pak for Data 버전 4.5.0 이제 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.5.x 및 Red Hat OpenShift 버전 4.6, 4.8, 4.10 을 지원합니다. 자세한 내용은 Watson 음성 서비스에 대한 IBM Cloud Pak for Data 참조하십시오.

IBM Cloud Pak for Data용 통합 음성 서비스 문서

Speech to Text와 Text to Speech의 설치 및 관리 설명서가 이제 IBM Cloud Pak for Data 문서에 통합되어 있습니다. 음성 서비스 설치 및 관리에 대한 자세한 내용은 Watson 음성 서비스에서 IBM Cloud Pak for Data의 음성 서비스를 참조하세요.

음성 서비스 사용자 지정 리소스 변경 사항

이제 음성 서비스를 처음 설치할 때 사용자 지정 리소스가 만들어집니다. 이 과정은 IBM Cloud Pak for Data 설치 문서에 설명되어 있습니다. 사용자 지정 리소스의 콘텐츠가 변경되었습니다:

사용자 지정 리소스의 권장 이름이 speech-prod-cr 에서 speech-cr 로 변경되었습니다.
스토리지 클래스에 대한 모든 참조가 storageClass 의 변형에서 blockStorageClass 로 변경되었습니다.
Portworx 블록 스토리지 클래스의 이름이 portworx-shared-gp3 에서 portworx-db-gp3-sc 로 변경되었습니다.
createSecret 속성이 MinIO 및 PostgreSQl 데이터스토어에 대해 제거되었습니다. 이 속성은 내부적으로만 사용됩니다. 음성 서비스는 사용자가 비밀 개체를 만들면 항상 비밀 개체를 사용하며, 제공되지 않으면 항상 자동으로 개체를 만듭니다.

이제 RabbitMQ 데이터스토어에 대해 사용자 제공 비밀 개체가 지원됩니다

이제 RabbitMQ 데이터스토어에 대해 MinIO 및 PostgreSQL 데이터스토어와 마찬가지로 보안 자격 증명을 제공할 수 있습니다. 문서화된 프로세스는 세 데이터스토어 모두 비슷합니다.

새 이탈리아어 it-IT_Multimedia 차세대 모델

이 서비스에서는 이제 이탈리아어에 대한 차세대 멀티미디어 모델(it-IT_Multimedia)을 제공합니다. 이 새 모델은 GA(General Availability)되었습니다. 낮은 지연 시간을 지원하지는 않지만 언어 모델 사용자 정의 및 문법은 지원합니다. 사용 가능한 모든 차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델을 참조하십시오.

업데이트된 한국 원격 음성 전달 및 멀티미디어 차세대 모델

다음과 같이 기존 한국어 차세대 모델이 업데이트되었습니다.

음성 인식을 위한 향상된 낮은 지연 시간 지원을 위해 ko-KR_Telephony 모델이 업데이트되었습니다.
ko-KR_Multimedia 모델이 향상된 음성 인식을 위해 업데이트되었습니다. 이 모델은 이제 낮은 지연 시간도 지원합니다.

일반적으로 두 모델 모두 사용 가능하며, 두 모델 모두 언어 모델 사용자 정의 및 문법을 지원합니다. 해당 모델을 기반으로 하는 사용자 정의 언어 모델을 업그레이드하지 않아도 됩니다. 사용 가능한 모든 차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델의 내용을 참조하십시오.

다중 차세대 원격 음성 전달 모델에 대한 업데이트

다음 차세대 영어 전화 모델은 향상된 음성 인식을 위해 업데이트되었습니다:

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

해당 모델을 기반으로 하는 사용자 정의 모델을 업그레이드하지 않아도 됩니다. 사용 가능한 모든 차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델의 내용을 참조하십시오.

결함 수정사항: 이제 모든 변환 결과에 대한 신뢰도 점수가 보고됨

결함 수정: 이제 모든 변환 결과에 대한 신뢰도 점수가 보고됩니다. 이전에는 서비스에서 단일 음성 인식 요청에 대해 다중 변환 내용을 리턴한 경우 모든 변환 내용에 대해 신뢰도 점수가 리턴되지 않을 수 있습니다.

보안 취약성이 해결됨

4.5.0 버전에서는 보안 취약점이 수정되지 않았습니다.

2022년 5월 25일(버전 4.0.9)

이제 버전 4.0.9를 사용할 수 있음

이제 Speech to Text for IBM Cloud Pak for Data 버전 4.0.9를 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치하기 Watson Speech to Text에서 확인할 수 있습니다.

새로운 브라질 포르투갈어 pt-BR_Multimedia 차세대 모델

이 서비스는 이제 브라질 포르투갈어의 차세대 멀티미디어 모델(pt-BR_Multimedia)을 제공합니다. 이 새 모델은 낮은 지연 시간을 지원하며 GA(General Availability)되었습니다. 언어 모델 사용자 정의 및 문법도 지원합니다. 차세대 모델과 낮은 지연 시간에 대한 자세한 정보는 다음 항목을 참조하십시오.

낮은 지연 시간을 지원하기 위해 독일어 de-DE_Multimedia 차세대 모델로 업데이트

차세대 독일어 모델인 de-DE_Multimedia에서는 낮은 지연 시간을 지원합니다. 업데이트된 독일어 기본 모델을 기반으로 하는 사용자 정의 모델을 업그레이드하지 않아도 됩니다. 차세대 모델과 낮은 지연 시간에 대한 자세한 정보는 다음 항목을 참조하십시오.

차세대 모델의 새 베타 character_insertion_bias 매개변수

모든 차세대 모델은 이제 모든 음성 인식 인터페이스와 함께 사용할 수 있는 새 베타 매개변수인 character_insertion_bias을(를) 지원합니다. 기본적으로 서비스는 서로 다른 길이의 후보 문자열을 균형 있게 인식하도록 개별 모델에 맞게 최적화됩니다. 모델별 편향은 0.0과 같습니다. 각 모델의 기본 편향이 대부분의 음성 인식 요청에 충분합니다.

그러나 특정 유스 케이스는 더 짧은 문자열 또는 더 긴 문자열을 사용하는 가설을 선호할 수 있습니다. 이 매개변수는 모델 기본값의 변경사항을 나타내는 -1.0과 1.0 사이의 값을 허용합니다. 음수 값은 서비스가 더 짧은 문자열을 선호하도록 지시합니다. 양수 값은 서비스가 더 긴 문자열을 선호하도록 지시합니다. 자세한 정보는 문자 삽입 편향을 참조하십시오.

Speech 서비스는 OADP 백업 및 복원 유틸리티를 지원하지 않습니다.

Watson Speech 서비스는 IBM Cloud Pak for Data OADP(OpenShift APIs for Data Protection) 백업 및 복원 유틸리티를 지원하지 않습니다. Speech 서비스가 클러스터에 설치된 경우, IBM Cloud Pak for Data OADP 백업 및 복원 유틸리티를 사용하여 해당 클러스터에 설치된 다른 서비스를 백업할 수 없습니다. 이 제한사항은 버전 4.0.0 이상의 Speech 서비스에 적용됩니다.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 5월 1일(버전 1.2.x)

중요: IBM Cloud Pak for Data 버전 3.5에서 Speech to Text 버전 1.2.x의 서비스가 종료됨: 중요: IBM Cloud Pak for Data 버전 3.5에서 Speech to Text 버전 1.2.x의 서비스는 2022년 5월 1일 현재 서비스가 중단되었습니다. Speech to Text 버전 1.2.x는 더 이상 지원되거나 사용 가능하거나 문서화되지 않습니다. Watson API Kit의 일부인 Speech to Text의 서비스 종료에 대한 자세한 정보는 소프트웨어 지원 중단: IBM Watson API Kit for IBM Cloud Pak for Data 1.2.x의 내용을 참조하십시오.

2022년 4월 27일(버전 4.0.8)

이제 버전 4.0.8을 사용할 수 있음

이제 Speech to Text for IBM Cloud Pak for Data 버전 4.0.8을 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치하기 Watson Speech to Text에서 확인할 수 있습니다.

IBM Cloud Pak for Data 문서에 사용된 새 환경 변수

Speech to Text for IBM Cloud Pak for Data 문서에서 대부분의 명령은 일반 환경 변수 세트를 사용하도록 업데이트되었습니다. 문서는 설치, 업그레이드 및 관리 명령을 실행하기 전에 환경 변수를 자동으로 내보내는 스크립트를 제공합니다. 스크립트를 소싱한 후 문서에서 대부분의 명령을 복사하여 변경하지 않고 실행할 수 있습니다.

스크립트가 정의하는 환경 변수는 다음과 같습니다.

${PROJECT_CPD_INSTANCE}에서는 IBM Cloud Pak for Data 및 Speech 서비스를 설치하려는 프로젝트를 식별합니다.
${PROJECT_CPD_OPS}에서는 IBM Cloud Pak for Data 플랫폼 운영자의 프로젝트를 식별합니다.
${PROJECT_CPFS_OPS}에서는 IBM Cloud Pak for Data 기본 서비스의 프로젝트를 식별합니다.

환경 변수 사용에 대한 자세한 내용은 모범 사례를 참조하세요: 설치 변수 설정하기를 참조하세요.

ttsVoiceMarginalCPU 특성은 더 이상 문서화되지 않습니다.

Speech 서비스 사용자 정의 리소스에 대한 문서에서 ttsVoiceMarginalCPU 특성이 제거되었습니다. 이 특성은 동시성과 음성 합성 속도 간의 트레이드오프를 관리합니다. 기본값 400은(는) 대부분의 고객에게 적절한 균형을 제공하고 실시간 합성을 유지보수합니다.

새 독일어 차세대 멀티미디어 모델

이 서비스는 이제 독일어에 대한 차세대 멀티미디어 모델(de-DE_Multimedia)을 제공합니다. 이 새 모델은 GA(General Availability)되었습니다. 이는 낮은 지연 시간을 지원하지 않습니다. 일반적으로 사용 가능한 기능으로 언어 모델 사용자 정의 및 문법을 지원합니다.

사용 가능한 모든 차세대 모델과 이들의 사용자 정의 지원에 대한 자세한 정보는 다음 항목을 참조하십시오.

이제 베타 차세대 en-WW_Medical_Telephony 모델이 낮은 지연 시간을 지원함

이제 베타 차세대 en-WW_Medical_Telephony 모델이 낮은 지연 시간을 지원합니다. 모든 차세대 모델과 낮은 지연 시간에 대한 자세한 정보는 다음 항목을 참조하십시오.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

2022년 4월 8일(버전 4.0.7)

이제 차세대 모델을 기반으로 하는 사용자 정의 모델에 대해 유사 소리 지원이 문서화되었습니다.

차세대 모델을 기반으로 하는 사용자 정의 언어 모델의 경우 사용자 정의 단어에 대한 유사 소리 스펙 지원이 문서화되었습니다. 유사 소리 지원은 2021년 말부터 사용할 수 있습니다.

차세대 모델과 이전 세대 모델을 기반으로 하는 사용자 정의 모델에서 sounds_like 필드를 사용하는 데는 차이가 있습니다. 차세대 모델을 기반으로 하는 사용자 정의 모델에서 sounds_like 필드를 사용하는 데 대한 자세한 정보는 차세대 모델을 위한 사용자 정의 단어에 대한 작업을 참조하십시오.

중요: 문서에서 더 이상 사용되지 않는 customization_id 매개변수가 제거됨

중요: 2018년 10월 9일에 모든 음성 인식 요청의 customization_id 매개변수는 더 이상 사용되지 않으며 language_customization_id 매개변수로 대체됩니다. 이제 음성 인식 방법에 대한 문서에서 customization_id 매개변수가 제거되었습니다.

WebSocket 요청의 경우 /v1/recognize
동기 HTTP 요청(다중 파트 요청 포함)의 경우 POST /v1/recognize
비동기 HTTP 요청의 경우 POST /v1/recognitions

참고: Watson SDK를 사용하는 경우 customization_id 매개변수가 아니라 language_customization_id 매개변수를 사용하도록 애플리케이션 코드를 업데이트했는지 확인하십시오. customization_id 매개변수는 다음 주 릴리스와 동등한 SDK 메소드에서 더 이상 사용할 수 없습니다. 음성 인식 방법에 대한 자세한 내용은 API & SDK 참조에서 확인할 수 있습니다.

2022년 3월 30일(버전 4.0.7)

이제 버전 4.0.7을 사용할 수 있음

이제 Speech to Text for IBM Cloud Pak for Data 버전 4.0.7을 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치하기 Watson Speech to Text에서 확인할 수 있습니다.

기본 모델을 지정하기 위한 사용자 정의 리소스 특성

음성 인식 요청의 기본 음성은 en-US_BroadbandModel입니다. en-US_BroadbandModel을(를) 설치하지 않으면 다음 중 하나를 수행해야 합니다.

model 매개변수를 사용하여 각 요청에 사용할 음성을 전달하십시오.
음성 서비스 사용자 정의 리소스의 defaultSTTModel 특성을 사용하여 Speech to Text for IBM Cloud Pak for Data 설치의 새 기본 모델을 지정하십시오. 자세한 내용은 설치하기 Watson Speech to Text 및 기본 모델 사용하기 를 참조하세요.

낮은 지연 시간을 지원하기 위한, 영어 및 프랑스어 차세대 멀티미디어 모델에 대한 업데이트

다음 멀티미디어 모델은 낮은 지연 시간을 지원하도록 업데이트되었습니다.

호주 영어: en-AU_Multimedia
영국 영어: en-GB_Multimedia
미국 영어: en-US_Multimedia
프랑스어: fr-FR_Multimedia

이러한 기본 모델을 기반으로 작성된 사용자 정의 언어 모델을 업그레이드할 필요는 없습니다. 차세대 모델과 낮은 지연 시간에 대한 자세한 정보는 다음 항목을 참조하십시오.

새 카스티야 스페인어 차세대 멀티미디어 모델

이 서비스는 이제 카스티야 스페인어에 대한 차세대 멀티미디어 모델(es-ES_Multimedia)을 제공합니다. 이 새 모델은 낮은 지연 시간을 지원하며 GA(General Availability)되었습니다. 언어 모델 사용자 정의 및 문법도 지원합니다.

사용 가능한 모든 차세대 모델과 이들의 사용자 정의 지원에 대한 자세한 정보는 다음 항목을 참조하십시오.

이제 베타 차세대 en-WW_Medical_Telephony 모델은 스마트 형식을 지원합니다.

베타 차세대 en-WW_Medical_Telephony 모델은 이제 미국 영어 오디오의 smart_formatting 매개변수를 지원합니다. 모든 차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델을 참조하십시오.

보안 취약성이 해결됨

다음 보안 취약점이 수정되었습니다.

Red Hat CVE-2022-24407: Cyrus SASL과 함께 제공되는 SQL 플러그인에서 결함이 발견되었습니다. 이 취약성은 SQL 입력을 제대로 이스케이프하지 못하여 잘못된 입력 유효성 검증 취약성을 초래하기 때문에 발생합니다. 이 결함이 있으면 공격자가 임의의 SQL 명령을 실행할 수 있으며 권한 에스컬레이션을 허용하는 다른 계정의 비밀번호를 변경할 수 있습니다.
보안 게시판: Jwt-go 취약점 영향 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2020-26160)
보안 게시판: 골랑고의 취약점이 영향을 미치는 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-29923)
보안 게시판: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 스프링 프레임워크의 원격 코드 실행에 영향을 받지만 취약한 것으로 분류되지는 않음(CVE-2022-22965)
보안 공지: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 임의 코드 실행에 취약한 IBM WebSphere Application Server(CVE-2021-23450)

2022년 3월 17일(버전 4.0.6)

차세대 모델에 대한 문법 지원이 GA(General Availability)됨

이제 다음 조건을 충족하는 차세대 모델에 대한 문법 지원이 GA(General Availability)되었습니다.

모델이 GA(General Availability)되어 있습니다.
모델이 언어 모델 사용자 정의를 지원합니다.

자세한 정보는 다음 주제를 참조하십시오.

차세대 모델에 대한 문법 지원 현황에 대한 자세한 내용은 차세대 모델에 대한 사용자 지정 지원 를 참조하세요.
문법에 대한 자세한 정보는 문법을 참조하십시오.

2022년 3월 15일(버전 4.0.6)

중요: 대부분의 이전 세대 모델이 더 이상 사용되지 않음

2022년 3월 15일부터, 아랍어와 일본어를 제외한 모든 언어에 대한 이전 세대 모델은 더 이상 사용되지 않습니다. 더 이상 사용되지 않는 모델은 2022년 9월 15일까지 사용 가능하며, 그 이후에는 서비스 및 문서에서 제거됩니다. 아랍어 및 일본어 이전 세대 모델은 더 이상 지원되지 않습니다.

다음 이전 세대 모델은 이제 더 이상 사용되지 않습니다.

중국어(만다린): zh-CN_NarrowbandModel 및 zh-CN_BroadbandModel
네덜란드어(네덜란드): nl-NL_NarrowbandModel 및 nl-NL_BroadbandModel
영어(호주): en-AU_NarrowbandModel 및 en-AU_BroadbandModel
영어(영국): en-UK_NarrowbandModel 및 en-UK_BroadbandModel
영어(미국): en-US_NarrowbandModel, en-US_BroadbandModel 및 en-US_ShortForm_NarrowbandModel
프랑스어(캐나다): fr-CA_NarrowbandModel 및 fr-CA_BroadbandModel
프랑스어(프랑스): fr-FR_NarrowbandModel 및 fr-FR_BroadbandModel
독일어: de-DE_NarrowbandModel 및 de-DE_BroadbandModel
이탈리아어: it-IT_NarrowbandModel 및 it_IT_BroadbandModel
한국어: ko-KR_NarrowbandModel 및 ko-KR_BroadbandModel
포르투갈어(브라질): pt-BR_NarrowbandModel 및 pt-BR_BroadbandModel
스페인어(아르헨티나): es-AR_NarrowbandModel 및 es-AR_BroadbandModel
스페인어(카스티야): es-ES_NarrowbandModel 및 es-ES_BroadbandModel
스페인어(칠레): es-CL_NarrowbandModel 및 es-CL_BroadbandModel
스페인어(콜롬비아): es-CO_NarrowbandModel 및 es-CO_BroadbandModel
스페인어(멕시코): es-MX_NarrowbandModel 및 es-MX_BroadbandModel
스페인어(페루): es-PE_NarrowbandModel 및 es-PE_BroadbandModel

더 이상 사용되지 않는 이러한 모델을 사용하고 있는 경우에는 서비스 종료 날짜까지 동등한 차세대 모델로 마이그레이션해야 합니다.

더 이상 사용되지 않는 각 모델에서 마이그레이션할 수 있는 차세대 모델에 대한 자세한 정보는 이전 세대 언어 및 모델을 참조하십시오.
차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델을 참조하십시오.
이전 세대 모델에서 차세대 모델로의 마이그레이션에 대한 자세한 정보는 차세대 모델로의 마이그레이션을 참조하십시오.

참고: 9월 15일에 이전 세대 en-US_BroadbandModel이(가) 서비스에서 제거되면, 차세대 en-US_Multimedia 모델이 음성 인식 요청의 기본 모델이 됩니다.

이제 차세대 모델이 오디오 구문 분석 매개변수를 지원함

모든 차세대 모델은 이제 다음 오디오 구문 분석 매개변수를 GA(General Availability)된 기능으로 지원합니다.

end_of_phrase_silence_time은(는) 서비스가 변환 내용을 여러 최종 결과로 분할하는 휴지 간격의 길이를 지정합니다. 자세한 정보는 구문 종료 무음 시간을 참조하십시오.
split_transcript_at_phrase_end은(는) 서비스가 입력의 의미 자질에 따라 변환 내용을 여러 최종 결과로 분할하도록 합니다. 자세한 정보는 구문 종료 지점에서 텍스트 변환 내용 분할을 참조하십시오.

결함 수정: 올바른 스피커 레이블 문서

결함 수정사항: 화자 레이블에 대한 문서의 여러 위치에 다음과 같은 잘못된 문장이 포함되어 있습니다. 차세대 모델의 경우, 화자 레이블은 중간 결과 또는 낮은 지연 시간과 함께 사용할 수 있도록 지원되지 않습니다. 화자 레이블은 차세대 모델에서 중간 결과 및 낮은 지연 시간과 함께 사용할 수 있도록 지원됩니다. 자세한 정보는 화자 레이블을 참조하십시오.

2022년 2월 23일(버전 4.0.6)

버전 4.0.6이 사용 가능해짐

이제 IBM Cloud Pak for Data용 Speech to Text 버전 4.0.6을 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치하기 Watson Speech to Text에서 확인할 수 있습니다.

가져오기/내보내기 스크립트에 대한 업데이트

import_export.sh 및 transfer_ownership.sh 스크립트가 업데이트되었습니다. 이러한 스크립트는 클러스터 간에 데이터를 가져오거나 내보내고, 데이터를 백업 및 복원하고, 데이터를 버전 3.5에서 4.0.x로 마이그레이션하는 데 사용됩니다. 이들 스크립트는 다음과 같이 수정되고 개선되었습니다.

transfer_ownership.sh 스크립트가 이제 명령행에서 <custom_resource_name> 인수 앞에 -c 옵션을 포함시킬 것을 요구합니다.
이제 transfer_ownership.sh 스크립트가 리소스의 소유권이 전송되는 버전을 표시하기 위한 -v <version> 옵션 및 인수를 필요로 합니다. 버전 3.5의 경우에는 35, 버전 4.0.x의 경우에는 40을(를) 지정하십시오.
transfer_ownership.sh 스크립트가 이제 명령행에서 <postgres_auth_secret_name> 인수 앞에 -p 옵션을 포함시킬 것을 요구합니다.
<postgres_auth_secret_name> 인수는 사용자가 소유권을 전송하는 PostgreSQL 데이터 저장소에 인증하는 데 사용되는 Kubernetes 시크릿을 제공합니다. 인증 시크릿이 기본값(버전 4.0.x의 경우 <custom-resource-name>-postgres-auth-secret, 버전 3.5의 경우 user-provided-postgressql)과 동일한 경우에는 이를 생략할 수 있습니다. 기본값과 다른 경우 시크릿을 제공해야 합니다.
이제 두 스크립트 모두 스크립트와 그 사용법에 대한 정보를 표시하는 -h(--help) 옵션을 포함합니다.

자세한 정보는 다음을 참조하십시오.

관리하기 Watson Speech to Text, 특히 데이터 가져오기 및 내보내기 및 데이터 백업 및 복원입니다.
업그레이드 Watson Speech to Text, 특히 IBM Cloud Pak for Data 버전에서 데이터 마이그레이션 3.5.

OpenShift Container Storage에 대한 권장사항이 업데이트됨

Speech 서비스 버전 4.0.6부터, OpenShift Container Storage에 대해 권장되는 스토리지 클래스는 ocs-storagecluster-ceph-rbd입니다.

Speech 서비스 4.0.6을 설치하거나 IBM Cloud Pak for Data 버전 3.5에서 Speech 서비스 4.0.6으로 업그레이드하는 경우에는 설치 또는 업그레이드 중에 ocs-storagecluster-ceph-rbd 스토리지 클래스를 지정하십시오.
Cloud Pak for Data 버전 4.0의 이전 리프레시에서 Speech 서비스 4.0.6으로 업그레이드하는 경우에는 계속해서 ocs-storagecluster-cephfs을(를) 사용하십시오. 기존 배치에서 사용된 스토리지는 변경할 수 없습니다.

이 값은 Speech 서비스 사용자 정의 리소스에서 storageClass 특성으로 지정됩니다.

################
# Storage class
################
  storageClass: "ocs-storagecluster-ceph-rbd"

Speech 서비스는 OpenShift Container Storage의 두 버전 모두에서 작동합니다. 새로 권장되는 버전에는 더 제한적인 액세스 권한이 있습니다. 자세한 정보는 다음을 참조하십시오.

새 베타 en-WW_Medical_Telephony 모델이 사용 가능해짐

이제 새 베타 차세대 en-WW_Medical_Telephony 모델을 사용할 수 있습니다. 이 새 모델은 의학 및 약학 분야의 용어를 이해합니다. 약품 이름, 제품 브랜드, 의료 절차, 질병, 의사의 유형 또는 COVID-19 관련 용어와 같은 일반적인 의료 용어를 변환해야 하는 상황에서는 이 모델을 사용하십시오. 일반적인 유스 케이스에는 환자와 의료 제공자(예: 의사, 간호사 또는 약사) 간의 대화가 있습니다.

이 새 모델은 Speech 서비스 사용자 정의 리소스에서 enWwMedicalTelephony을(를) enabled: true(으)로 설정하여 설치됩니다. 이 모델은 지원되는 모든 영어 통용어(호주, 인도, 영국 및 미국)에 대해 사용할 수 있습니다.

이 모델은 언어 모델 사용자 정의 및 문법을 베타 기능으로서 지원합니다.
이는 en-US_Telephony 모델과 대부분 동일한 매개변수를 지원합니다.
다음 매개변수는 지원하지 않습니다: low_latency, profanity_filter, redaction, speaker_labels.
현재 이는 IBM Cloud Pak for Data에 대해 smart_formatting을(를) 지원하지 않습니다.

자세한 정보는 영어 의료 전화 통신 모델을 참조하십시오.

중국어 zh-CN_Telephony 모델에 대한 업데이트

차세대 중국어 모델 zh-CN_Telephony이(가) 향상된 음성 인식을 위해 업데이트되었습니다. 이 모델은 낮은 지연 시간을 계속해서 지원합니다. 기본적으로 이 서비스는 모든 음성 인식 요청에 대해 업데이트된 모델을 자동으로 사용합니다. 사용 가능한 모든 차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델을 참조하십시오.

업데이트된 모델을 기반으로 하는 사용자 정의 언어 모델이 있는 경우에는 POST /v1/customizations/{customization_id}/upgrade_model 메소드를 사용해 기존 사용자 정의 모델을 업그레이드하여 업데이트를 활용하도록 해야 합니다. 자세한 정보는 사용자 정의 모델 업그레이드를 참조하십시오.

낮은 지연 시간을 지원하도록 하는, 일본어 ja-JP_Multimedia 모델에 대한 업데이트

차세대 일본어 모델 ja-JP_Multimedia은(는) 낮은 지연 시간을 지원합니다. 사용자는 low_latency 매개변수를, 이 모델을 사용하는 음성 인식 요청과 함께 사용할 수 있습니다. 업데이트된 일본어 기본 모델을 기반으로 하는 사용자 정의 모델을 업그레이드할 필요는 없습니다. 차세대 모델과 낮은 지연 시간에 대한 자세한 정보는 차세대 언어 및 모델과 낮은 지연 시간을 참조하십시오.

2022년 2월 11일(버전 4.0.5)

결함 수정: 사용자 지정 모델 업그레이드 및 기본 모델 버전 문서 개선

결함 수정사항: 사용자 정의 모델의 업그레이드와 기본 모델의 다양한 버전에 대해 사용되는 버전 문자열을 설명하는 문서가 업데이트되었습니다. 이제 이 문서에서는 언어 모델 사용자 정의에 대한 업그레이드가 차세대 모델에도 적용된다고 기술합니다. 기본 모델의 다양한 버전을 나타내는 버전 문자열 또한 업데이트되었습니다. base_model_version 매개변수 또한 업그레이드된 차세대 모델과 함께 사용할 수 있습니다.

사용자 정의 모델 업그레이드, 업그레이드가 필요한 경우, 그리고 이전 버전의 사용자 정의 모델을 사용하는 방법에 대한 자세한 정보는 다음 항목을 참조하십시오.

결함 수정: 대문자 표기 문서 업데이트

결함 수정사항: 서비스의 변환 내용 자동 대문자 표시에 대해 설명하는 문서가 업데이트되었습니다. 서비스는 다음 언어 및 모델에 대해서만 해당되는 명사를 대문자로 표시합니다.

모든 이전 세대 미국 영어 모델
차세대 독일어 모델

자세한 정보는 대문자 표시를 참조하십시오.

2022년 1월 31일(버전 4.0.5)

버전 4.0.5가 업데이트되었습니다.

설치 문제를 해결하기 위해 IBM Cloud Pak for Data용 Speech to Text 버전 4.0.5가 업데이트되었습니다. 케이스 패키지 버전은 이제 4.0.6입니다. 버전 4.0.5 패키지 대신 이 패키지를 사용하십시오. 서비스 설치 및 관리에 대한 자세한 내용은 설치하기 Watson Speech to Text에서 확인할 수 있습니다.

중요: 미러링된 설치를 위한 추가 단계가 더 이상 필요하지 않음

중요: 2022년 1월 26일 릴리스 정보에는 다음 단계에 대한 중요한 참고사항이 포함되어 있습니다.

MinIO 데이터 저장소의 미러링된 설치를 수행하기 위한 추가 단계
새 차세대 모델의 미러링된 설치를 수행하기 위한 추가 단계

이러한 추가 단계는 더 이상 필요하지 않습니다. 설치 문제를 정정하기 위해 케이스 패키지가 업데이트되었습니다.

2022년 1월 26일(버전 4.0.5)

버전 4.0.5가 사용 가능해짐

이제 IBM Cloud Pak for Data용 Speech to Text 버전 4.0.5를 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치하기 Watson Speech to Text에서 확인할 수 있습니다.

중요: MinIO 데이터 저장소의 미러링된 설치를 수행하기 위한 추가 단계

중요: 케이스 패키지 4.0.6을 설치하는 경우에는 이러한 단계가 더 이상 필요하지 않습니다. 자세한 내용은 2022년 1월 31일(버전 4.0.5) 를 참조하세요.

미러링된 설치를 수행하는 경우(예: 에어 갭 환경에서)에는 다음 단계 중 하나를 완료하기 전에 추가 단계를 수행해야 합니다.

7단계 이미지를 비공개 레지스트리에 미러링하기 중 바스티온 모델로 이미지 미러링하기
8단계 이미지를 중개 컨테이너 레지스트리에 미러링하기의 중개 컨테이너 레지스트리로 이미지 미러링하기

이 단계는 MinIO 데이터 저장소에 필요한 이미지를 복사하기 위한 필수 단계입니다.

echo 'cp.icr.io,cp/opencontent-minio-client,1.1.4,sha256:7b4cf5e47a0455cfa7ca9ab246b80916e4dccbc1483b3e0f276fb7b0ab3e5c60,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

이 단계를 수행하지 않으면 Speech to Text 및 Text to Speech 둘 다에 대해 설치 오류가 발생합니다.

중요: 새 차세대 모델의 미러링된 설치를 수행하기 위한 추가 단계

중요: 케이스 패키지 4.0.6을 설치하는 경우에는 이러한 단계가 더 이상 필요하지 않습니다. 자세한 내용은 2022년 1월 31일(버전 4.0.5) 를 참조하세요.

미러링된 설치를 수행하고 있으며(예: 에어 갭 환경의 경우) Speech to Text(자세한 정보는 이후의 릴리스 정보 참고)을(를) 위한 새 차세대 모델을 설치하려는 경우에는 다음 단계 중 하나를 완료하기 전에 추가 단계를 수행해야 합니다.

7단계 이미지를 비공개 컨테이너 레지스트리에 미러링하기의 바스티온 모델을 사용하여 이미지 미러링하기
8단계 이미지를 중개 컨테이너 레지스트리에 미러링하기의 중개 컨테이너 레지스트리로 이미지 미러링하기

각 추가 단계는 설치 중인 모델에 고유합니다. 둘 이상의 새 모델을 설치하는 경우에는 설치 중인 각 모델에 대해 표시된 명령을 실행하십시오.

중국어 전화 통신 모델(zh-CN_Telephony)의 경우:

echo 'cp.icr.io,cp/watson-speech/zh-cn-telephony,2022-01-05-405models,sha256:52af6dfccd64ccd81b409936442a51a71f4ee96d980e1fc6a343a05bd4ed7fbc,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

라틴 아메리카 스페인어 전화 통신 모델(es-LA_Telephony)의 경우:

echo 'cp.icr.io,cp/watson-speech/es-la-telephony,2022-01-05-405models,sha256:58e8c04abe9659472e89bf0778b7dc66e0ddceb4ea18d9d3e048a08c72125ea2,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

호주 영어 멀티미디어 모델(en-AU_Multimedia)의 경우:

echo 'cp.icr.io,cp/watson-speech/en-au-multimedia,2022-01-05-405models,sha256:167f9a76258530a56a6abdd1c311f2ea05d6820ee0e802fbf2f96f08fb8a7646,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

영국 영어 멀티미디어 모델(en-GB_Multimedia)의 경우:

echo 'cp.icr.io,cp/watson-speech/en-gb-multimedia,2022-01-05-405models,sha256:167f9a76258530a56a6abdd1c311f2ea05d6820ee0e802fbf2f96f08fb8a7646,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

이제 라이센스 서버가 자동으로 설치됨

이제 Speech 서비스 오퍼레이터가 Speech 서비스를 설치할 때 필요한 라이센스 서버를 자동으로 설치합니다. 더 이상 IBM Cloud Pak for Data 기본 서비스로부터 라이센스 서버를 설치할 필요가 없으며, 더 이상 필요한 바인딩을 포함하는 OperandRequest를 작성하기 위해 추가 YAML 컨텐츠를 사용할 필요가 없습니다.

PostgreSQL EnterpriseDB 서버에 특정한 단계 제거

이 문서의 이전 버전에는 Speech 서비스에 특정한, PostgreSQL EnterpriseDB 서버를 위한 단계가 포함되어 있었습니다. 이러한 단계는 주제 Watson Speech to Text 업그레이드(버전 4.0) 및 Watson Speech to Text 설치 제거에 기록되어 있었습니다. 이러한 추가 단계는 더 이상 필요하지 않으며 문서에서 제거되었습니다.

RabbitMQ 데이터 저장소는 이제 sttAsync 컴포넌트에 의해서만 사용됨

이전에는 RabbitMQ 데이터 저장소가 두 가지 Speech 서비스(Speech to Text 및 Text to Speech) 모두의 컴포넌트에 의해 사용되었습니다. 이는 이제 Speech to Text 비동기 HTTP 컴포넌트(sttAsync)에 대해서만 비지속 메시지 큐잉을 처리합니다. 이는 sttAsync 컴포넌트가 설치되어 사용으로 설정된 경우에만 사용됩니다.

새 차세대 모델

이제 서비스는 IBM Cloud Pak for Data용 Speech to Text에 대해 다음 차세대 모델을 지원합니다.

중국어(만다린) 전화 통신 모델(zh-CN_Telephony). 이 새 모델은 낮은 지연 시간을 지원합니다.
영어(호주) 멀티미디어 모델(en-AU_Multimedia). 이 새 모델은 낮은 지연 시간을 지원하지 않습니다.
영어(영국) 멀티미디어 모델(en-GB_Multimedia). 이 새 모델은 낮은 지연 시간을 지원하지 않습니다.
스페인어(라틴 아메리카) 전화 통신 모델(es-LA_Telephony). 이 새 모델은 낮은 지연 시간을 지원합니다.

참고: 라틴 아메리카 스페인어 모델 es-LA_Telephony은(는) 모든 라틴 아메리카 통용어에 적용됩니다. 이는 아르헨티나, 칠레, 콜롬비아, 멕시코 및 페루 통용어에 대해 사용 가능한 이전 세대 모델과 동등합니다. 이러한 특정 통용어에 대해 이전 세대 모델을 사용한 경우에는 es-LA_Telephony 모델을 사용하여 동등한 차세대 모델로 마이그레이션하십시오.

새 모델은 음성 인식에 대해 GA(General Availability)되어 있습니다. 이들은 언어 모델 사용자 정의에 대해 GA(General Availability)되어 있으며, 문법에 대해서는 베타 상태입니다. 이들은 음향 모델 사용자 정의에 대해 지원되지 않습니다.

중요: 미러링된 설치를 수행하고 있으며(예: 에어 갭 환경에서) Speech to Text을(를) 위해 새 차세대 모델을 설치하려는 경우에는 이미지를 미러링하기 전에 추가 단계를 수행해야 합니다. 자세한 정보는 이전 릴리스 정보를 참조하십시오.
사용자 지정 리소스를 사용하여 모델을 설치하는 방법에 대한 자세한 내용은 설치하기 Watson Speech to Text에서 확인할 수 있습니다.
사용 가능한 모든 차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델의 내용을 참조하십시오.
차세대 모델에 대한 사용자 지정 지원에 대한 자세한 내용은 차세대 모델에 대한 사용자 지정 지원 를 참조하세요.

이제 차세대 미국 영어 모델이 기본적으로 설치됨

이제 차세대 미국 영어 모델 en-US_Multimedia 및 en-US_Telephony이(가) 기본적으로 IBM Cloud Pak for Data용 Speech to Text과(와) 함께 설치됩니다. 이러한 모델은 en-US_BroadbandModel, en-US_NarrowbandModel, en-US_ShortForm_NarrowbandModel을(를) 기본적으로 설치되는 모델로 포함시킵니다. 이제 이러한 모델에서는 Speech 서비스 사용자 정의 리소스에 다음 항목이 있습니다.

########################################
# Speech to Text next-generation models
########################################
      enUsMultimedia:    # US English (en-US) Multimedia model
        enabled: true
      enUsTelephony:     # US English (en-US) Telephony model
        enabled: true

For more information about using the custom resource to install models, see Installing Watson Speech to Text.

보안 취약성이 해결됨

Apache Log4j와 연관된 다음 보안 취약성이 해결되었습니다.

2021년 12월 20일(버전 4.0.4)

버전 4.0.4가 사용 가능해짐

이제 IBM Cloud Pak for Data용 Speech to Text 버전 4.0.4를 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치하기 Watson Speech to Text에서 확인할 수 있습니다.

중요: 사용자 데이터의 저장 및 로깅을 사용 안함으로 설정하는 특성에 대한 변경사항

중요: 사용자 데이터의 저장 및 로깅 여부를 지정하는 Speech 서비스 사용자 정의 리소스의 특성 이름이 변경되었습니다. 사용자 정의 리소스가 이전에는 다음 특성을 포함했습니다.

#################
# Anonymize logs
#################
  sttRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data

이제는 이러한 특성의 이름이 다음과 같이 지정되었습니다.

###################################
# Storage and logging of user data
###################################
  sttRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data

기본값 false을(를) true(으)로 변경하기 위해 이미 사용자 정의 리소스에서 이러한 특성을 설정한 경우에는 사용자 정의 리소스를 편집해야 합니다. 사용자는 해당 특성의 이름을 새 값으로 수동으로 변경하고 업데이트된 사용자 정의 리소스를 저장해야 합니다. 자세한 내용은 설치하기 Watson Speech to Text에서 참조하세요.

중요: PostgreSQL 시크릿 오브젝트의 특성에 대한 변경사항

중요: Speech 서비스를 설치할 때는 PostgreSQL 데이터 저장소에 대한, 무작위로 생성된 비밀번호를 포함하는 오브젝트가 기본적으로 작성됩니다. 사용자는 비밀번호를 수동으로 지정하도록 선택할 수 있습니다. 이 경우의, 시크릿 오브젝트에 대한 YAML 파일의 특성이 변경되었습니다. 자세한 내용은 데이터스토어 관리하기에서 데이터스토어 관리에 대한 주제를 참조하세요. Watson Speech to Text.

중요: PostgreSQL 팟(Pod)이 EnterpriseDB 버전 1.10 오퍼레이터로 시작되지 않음

중요: IBM Cloud Pak for Data용 Speech to Text 버전 4.0.3을 사용하는 경우에는 EnterpriseDB 버전 1.10 오퍼레이터를 기반으로 하는 PostgreSQL 팟(Pod)이 시작하는 데 실패할 수 있습니다. 이는 Speech 서비스가 시작되지 않도록 합니다. 이 문제점에 대한 임시 해결책이 있습니다. 음성 서비스가 시작되지 않는 경우 EnterpriseDB 버전 1.10 운영자에서 PostgreSQL pod가 시작되지 않음 문제를 진단하고 해결하는 방법에 대한 정보를 참조하세요.

이 문제점은 IBM Cloud Pak for Data용 Speech to Text 버전 4.0.4에서 수정되었습니다.

IBM Spectrum Scale Container Native 스토리지 클래스에 대한 새 지원

버전 4.0.3부터, Speech 서비스는 IBM Spectrum® Scale Container Native 스토리지 클래스를 지원합니다. IBM Spectrum Scale을 사용하려면 Speech 서비스 사용자 정의 리소스의 storageClass 특성에 "ibm-spectrum-scale-sc"을(를) 지정하십시오. 자세한 내용은 설치하기 Watson Speech to Text에서 참조하세요.

설치 중 Speech 서비스와 MinIO 데이터 저장소의 상호작용

Speech 서비스 런타임 컴포넌트인 sttRuntime과(와) ttsRuntime은(는) 서비스의 모델 및 음성이 MinIO 데이터 저장소에 완전히 업로드될 때까지 시작할 수 없습니다. 설치 중에, 서비스는 모델 및 음성의 업로드가 완료될 때까지 한 번 이상 실패한 후 자동으로 다시 시작될 수 있습니다. 완료되고 나면 정상적으로 시작됩니다. 사용자 조치가 필요하지 않습니다.

결함 수정: 올바른 업그레이드 문서

결함 수정사항: Speech 서비스를 새 버전인 IBM Cloud Pak for Data 버전 4.0.x로 업그레이드하는 것에 대한 문서가 일부 명령에 올바르지 않은 참조를 포함했습니다. 이러한 참조가 이제 올바르게 정정되었습니다.

문자열 watsonSpeechToTextStatus과(와) watsonTextToSpeechStatus이(가) 두 경우 모두 speechStatus(으)로 변경되었습니다.
문자열 status.watsonSpeechToTextVersion과(와) status.watsonTextToSpeechVersion이(가) 두 경우 모두 .spec.version(으)로 변경되었습니다.

자세한 내용은 업그레이드 Watson Speech to Text를 참조하세요.

중요: 특정 차세대 모델을 기반으로 하는 사용자 정의 언어 모델을 다시 작성해야 함

중요: 특정 차세대 모델을 기반으로 사용자 정의 언어 모델을 작성한 경우에는 이러한 사용자 정의 모델을 다시 작성해야 합니다. 이러한 사용자 정의 언어 모델을 다시 작성할 때까지, 해당 사용자 정의 모델을 사용하려 시도하는 음성 인식 요청은 HTTP 오류 코드 400을 리턴하며 실패합니다.

차세대 모델의 다음 버전을 기반으로 작성한 사용자 정의 언어 모델은 다시 작성해야 합니다.

en-AU_Telephony 모델의 경우, en-AU_Telephony.v2021-03-03 - en-AU_Telephony.v2021-10-04 범위에 속한 모델로부터 작성한 사용자 정의 모델.
en-GB_Telephony 모델의 경우, en-GB_Telephony.v2021-03-03 - en-GB_Telephony.v2021-10-04 범위에 속한 모델로부터 작성한 사용자 정의 모델.
en-US_Telephony 모델의 경우, en-US_Telephony.v2021-06-17 - en-US_Telephony.v2021-10-04 범위에 속한 모델로부터 작성한 사용자 정의 모델.
en-US_Multimedia 모델의 경우, en-US_Multimedia.v2021-03-03 - en-US_Multimedia.v2021-10-04 범위에 속한 모델로부터 작성한 사용자 정의 모델.

사용자 정의 언어 모델의 기반이 된 모델의 버전을 식별하려면 GET /v1/customizations 메소드를 사용하여 모든 사용자 정의 언어 모델을 나열하거나 GET /v1/customizations/{customization_id} 메소드를 사용하여 특정 사용자 정의 언어 모델을 나열하십시오. 출력의 versions 필드가 사용자 정의 언어 모델의 기본 모델을 표시합니다. 자세한 정보는 사용자 정의 언어 모델 나열을 참조하십시오.

사용자 정의 언어 모델을 다시 작성하려면 먼저 새 사용자 정의 모델을 작성하십시오. 그런 다음 이전 사용자 정의 모델의 모든 말뭉치 및 사용자 정의 단어를 새 모델에 추가하십시오. 그러고 나면 이전 사용자 정의 모델을 삭제할 수 있습니다. 자세한 정보는 사용자 정의 언어 모델 작성을 참조하십시오.

향상된 음성 인식을 위한, 여러 차세대 모델에 대한 업데이트

다음 차세대 모델이 향상된 음성 인식을 위해 업데이트되었습니다.

호주 영어 전화 통신 모델(en-AU_Telephony)
영국 영어 전화 통신 모델(en-GB_Telephony)
미국 영어 멀티미디어 모델(en-US_Multimedia)
미국 영어 전화 통신 모델(en-US_Telephony)
카스티야 스페인어 전화 통신 모델(es-ES_Telephony)

사용 가능한 모든 차세대 모델에 대한 자세한 정보는 차세대 언어 및 모델의 내용을 참조하십시오.

차세대 모델에 대해 새 베타 기능인 문법 지원

이제 문법 지원을 모든 사용 가능한 차세대 모델에 대해 베타 기능으로 사용할 수 있습니다. 모든 차세대 모델은 GA(General Availability)되었으며 언어 모델 사용자 정의를 지원합니다. 자세한 정보는 다음 주제를 참조하십시오.

차세대 모델에 대한 문법 지원 현황에 대한 자세한 내용은 차세대 모델에 대한 사용자 지정 지원 를 참조하세요.
문법에 대한 자세한 정보는 문법을 참조하십시오.

지원되는 기능에 대한 새 custom_acoustic_model 필드

이제 GET /v1/models 및 GET /v1/models/{model_id} 메소드가 모델의 음향 모델 사용자 정의 지원 여부를 보고합니다. 이제 SupportedFeatures 오브젝트는 추가 필드 custom_acoustic_model을(를) 포함하며, 이는 음향 모델 사용자 정의를 지원하는 모델의 경우 true, 그렇지 않은 경우에는 false인 부울입니다. 현재 이 필드는 모든 이전 세대 모델의 경우 true, 모든 차세대 모델의 경우에는 false입니다.

이러한 메소드에 대한 자세한 정보는 모델에 대한 정보 나열을 참조하십시오.
음향 모델 사용자 정의에 대한 지원에 관한 자세한 정보는 사용자 정의에 대한 언어 지원을 참조하십시오.

보안 취약성이 해결됨

Apache Log4j와 연관된 다음 보안 취약성이 해결되었습니다.

보안 게시판: Apache Log4j 의 취약점은 IBM Watson IBM Cloud Pak for Data 용 음성 서비스 카트리지에 영향을 미칠 수 있음(CVE-2021-4428)

2021년 12월 20일(버전 1.2.x)

중요: 더 이상 Speech to Text 버전 1.2.x를 IBM Cloud Pak for Data 버전 3.5에 설치할 수 없음

중요: 사용자는 더 이상 IBM Cloud Pak for Data 버전 3.5에서 Speech to Text 버전 1.2.x의 새 설치를 수행할 수 없습니다. 이제 IBM Cloud Pak for Data 버전 4.x에 Speech to Text 버전 4.0.x를 설치하는 것만 가능합니다. 자세한 내용은 설치하기 Watson Speech to Text에서 확인할 수 있습니다.

IBM Cloud Pak for Data 버전 3.5용 Speech 서비스의 지원 종료 날짜는 2022년 4월 30일입니다. 사용자는 가능한 한 빨리 서비스의 최신 버전인 4.0.x 릴리스로 업그레이드해야 합니다. 자세한 내용은 업그레이드 Watson Speech to Text를 참조하세요.

2021년 11월 30일(버전 4.0.3)

버전 4.0.3이 사용 가능해짐

이제 IBM Cloud Pak for Data용 Speech to Text 버전 4.0.3을 사용할 수 있습니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6 및 4.8을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 설치하기 Watson Speech to Text에서 확인할 수 있습니다.

이제 라이센스 서버가 필수 전제조건이 됨

이제 반드시 IBM Cloud Pak for Data 기본 서비스로부터 라이센스 서버를 설치해야 합니다. 필요한 바인딩을 포함하는 OperandRequest를 작성하기 위해 제공된 YAML 컨텐츠를 사용하여 라이센스 서버를 설치해야 합니다. IBM Cloud Pak for Data 또한 설치되는, 서비스(오퍼랜드)와 동일한 네임스페이스에도 라이센스 서버를 설치해야 합니다. 자세한 내용은 설치하기 Watson Speech to Text에서 참조하세요.

인플레이스 업그레이드에 대한 새 지원

이제 이 서비스는 버전 4.0.0에서 버전 4.0.3으로의 인플레이스, 오퍼레이터 기반 업그레이드를 지원합니다. IBM Cloud Pak for Data 버전 3.5에서 버전 4.0.3으로의 마이그레이션에는 계속해서 마이그레이션 유틸리티를 사용해야 합니다. 자세한 내용은 업그레이드 Watson Speech to Text를 참조하세요.

EDB PostgreSQL 오퍼레이터 및 라이센스 설치 변경사항

EnterpriseDB PostgreSQL 오퍼레이터 및 라이센스의 설치, 업그레이드와 설치 제거가 변경되었습니다.

EDB PostgreSQL 오퍼레이터 및 라이센스의 설치에 대한 지시사항이 이제 IBM Cloud Pak for Data 기본 서비스에 포함되었습니다. Speech 서비스의 설치에 대한 지시사항이 이에 맞춰 업데이트되었습니다. 자세한 내용은 설치하기 Watson Speech to Text에서 참조하세요.
Speech to Text 버전 4.0.0에서 4.0.3으로 업그레이드하는 데 대한 지시사항이 이전 EDB PostgreSQL 오퍼레이터 및 라이센스를 설치 제거하고 IBM Cloud Pak for Data 기본 서비스를 사용하여 이들을 다시 설치하는 데 대한 지시사항을 포함합니다. 자세한 내용은 업그레이드 Watson Speech to Text를 참조하세요.
이제 Speech 서비스의 설치 제거에 대한 지시사항이 이전에 Speech to Text과(와) 함께 설치된 EDB PostgreSQL 오퍼레이터 및 라이센스를 제거하는 단계를 포함합니다. 자세한 내용은 설치 제거하기 Watson Speech to Text을 참조하세요.

설치 확장에 대한 새 안내

이제 서비스가 설치를 확장하는 것에 대한 업데이트된 안내를 제공합니다. 이 정보에는 팟(Pod)의 수, 팟(Pod)당 할당되는 CPU 수, 그리고 이전 세대 및 차세대 모델에서의 최대 동시 세션 수를 지정하는 것이 포함되어 있습니다. 자세한 내용은 관리하기 Watson Speech to Text에서 참조하세요.

가져오기 및 내보내기 유틸리티에 대한 명령행 업데이트

가져오기 및 내보내기 유틸리티와 함께 사용되는, Speech 서비스에 대한 명령이 새 옵션 및 인수를 포함합니다. 가져오기 및 내보내기 유틸리티는 서비스의 백업 및 복원, 그리고 IBM Cloud Pak for Data 버전 3.5에서 버전 4.0.3으로의 마이그레이션의 기반이기도 합니다. 이들 유틸리티의 사용에 대한 자세한 정보는 다음 항목을 참조하십시오.

음향 모델 학습을 위한 CPU를 지정하는 새 특성

sttAMPatcher 마이크로서비스는 서비스의 음향 모델 사용자 정의를 관리합니다. AM 패치 프로그램은 전용 CPU 개수를 사용하여 요청을 처리합니다. 사용자는 새 sttAMPatcher.resources.requestsCPU 특성을 사용하여 AM 패치 프로그램의 음향 모델 학습 요청 처리에만 사용되는 CPU의 수를 늘릴 수 있습니다. 음향 모델 학습 중에 학습 실패가 발생하는 경우에는 이것이 필요할 수 있습니다. 자세한 내용은 설치하기 Watson Speech to Text에서 참조하세요.

새 차세대 모델

이 서비스는 이제 다음 새 차세대 언어 모델을 지원합니다. 모든 새 모델은 GA(General Availability)되어 있습니다.

체코어: cs-CZ_Telephony. 이 모델은 낮은 지연 시간을 지원합니다.
벨기에 네덜란드어(플라망어): nl-BE_Telephony. 이 모델은 낮은 지연 시간을 지원합니다.
프랑스어: fr-FR_Multimedia. 이 새 모델은 낮은 지연 시간을 지원하지 않습니다.
인도 영어: en-IN_Telephony. 이 모델은 낮은 지연 시간을 지원합니다.
인도 힌디어: hi-IN_Telephony. 이 모델은 낮은 지연 시간을 지원합니다.
일본어: ja-JP_Multimedia. 이 모델은 낮은 지연 시간을 지원하지 않습니다.
한국어: ko-KR_Multimedia. 이 모델은 낮은 지연 시간을 지원하지 않습니다.
한국어: ko-KR_Telephony. 이 모델은 낮은 지연 시간을 지원합니다.
네덜란드 네델란드어: nl-NL_Telephony. 이 모델은 낮은 지연 시간을 지원합니다.

모든 차세대 모델과 낮은 지연 시간에 대한 자세한 정보는 차세대 언어 및 모델과 낮은 지연 시간을 참조하십시오.

차세대 모델에 대한 업데이트

다음 차세대 모델이 향상된 음성 인식을 위해 업데이트되었습니다. 모든 모델은 GA(General Availability)되어 있습니다.

아랍어: ar-MS_Telephony. 이 모델은 이제 낮은 지연 시간을 지원합니다.
브라질 포르투갈어: pt-BR_Telephony. 이 모델은 낮은 지연 시간을 계속해서 지원합니다.
미국 영어: en-US_Telephony. 이 모델은 낮은 지연 시간을 계속해서 지원합니다.
캐나다 프랑스어: fr-CA_Telephony. 이 모델은 이제 낮은 지연 시간을 지원합니다.
이탈리아어: it-IT_Telephony. 이 모델은 이제 낮은 지연 시간을 지원합니다.

모든 차세대 모델과 낮은 지연 시간에 대한 자세한 정보는 차세대 언어 및 모델과 낮은 지연 시간을 참조하십시오.

결함 수정: 비동기 HTTP 오류 해결

결함 수정사항: 비동기 HTTP 인터페이스가 일부 오디오를 변환하는 데 실패했습니다. 또한 요청에 대한 콜백이 상태 recognitions.failed 대신 recognitions.completed_with_results을(를) 리턴했습니다. 이 오류는 해결되었습니다.

결함 수정: 스피커 라벨 결과 개선

결함 수정사항: 화자 레이블을 차세대 모델에 대해 사용하는 경우, 서비스는 이제 시작 시간소인과 종료 시간소인이 같은 매우 짧은 단어를 비롯한 입력 오디오의 모든 단어에 대해 화자를 식별합니다.

결함 수정: 중간 결과 및 지연 시간이 짧은 문서 업데이트

결함 수정사항: 차세대 모델에 대해 중간 결과 및 낮은 지연 시간 기능을 사용하는 것을 설명하는 문서가 내용을 명확하게 하고 잘못된 부분을 정정하기 위해 다시 작성되었습니다. 자세한 정보는 다음 주제를 참조하십시오.

결함 수정: 멀티테넌시 문서 수정

결함 수정: IBM Cloud Pak for Data 주제 멀티테넌시 지원에 Speech 서비스가 멀티테넌시를 지원하지 않는다고 잘못 명시되어 있습니다. 이 주제는 Speech 서비스가 다음 오퍼레이션을 지원한다고 기술하도록 업데이트되었습니다.

별도의 프로젝트에 서비스 설치
동일한 프로젝트에 서비스를 여러 번 설치
서비스를 한 번 설치하고 동일한 프로젝트에 다중 인스턴스 배치

Speech 서비스에 특정한 문서에서는 멀티테넌시 지원에 대해 올바르게 기술했습니다.

2021년 10월 1일(버전 1.1.x)

버전 1.1.x의 서비스가 중단됨: IBM Cloud Pak for Data용 Speech to Text 및 Text to Speech 버전 1.1.x의 서비스가 2021년 9월 30일에 중단되었습니다. 2021년 10월 1일부터는 버전 1.1.x에 대한 문서를 더 이상 사용할 수 없게 됩니다. 자세한 내용은 소프트웨어 탈퇴 및 지원 중단를 참조하세요.

2021년 8월 31일(버전 4.0.0)

모든 차세대 모델이 GA(General Availability)됨

이제 모든 차세대 언어 모델이 GA(General Availability)되었습니다. 이들은 프로덕션 환경 및 애플리케이션에서 사용할 수 있도록 지원됩니다.

모든 차세대 언어 모델, 그리고 현재 IBM Cloud Pak for Data에 대해 사용 가능한 모델에 대한 자세한 정보는 차세대 언어 및 모델을 참조하십시오.
각 차세대 모델에 대해 지원되는 기능에 대한 자세한 정보는 차세대 모델에 대해 지원되는 기능을 참조하십시오.

차세대 모델에 대한 언어 모델 사용자 정의가 GA(General Availability)됨

이제 사용 가능한 모든 차세대 언어 및 모델에 대해 언어 모델 사용자 정의가 GA(General Availability)되었습니다. 차세대 모델에 대한 언어 모델 사용자 정의는 프로덕션 환경 및 애플리케이션에서 사용할 수 있도록 지원됩니다.

이전 세대 모델에 대해 사용했던 것과 동일한 명령을 사용하여 차세대 모델에 대해 사용자 정의 언어 모델, 말뭉치 및 사용자 정의 단어를 작성하고, 관리하고 사용하십시오. 그러나 차세대 모델에 대한 사용자 정의는 이전 세대 모델에 대한 사용자 정의와 다르게 작동합니다. 차세대 모델을 기반으로 하는 사용자 정의 모델의 경우:

사용자 정의 모델에 OOV(Out Of Vocabulary) 단어라는 개념이 없습니다.
말뭉치의 단어가 단어 리소스에 추가되지 않습니다.
현재는 사용자 정의 단어에 대해 가능한 발음 기능을 사용할 수 없습니다.
기본 언어 모델이 업데이트되는 경우에 사용자 정의 모델을 업그레이드할 필요가 없습니다.
문법은 현재 지원되지 않습니다.

차세대 모델에 대해 언어 모델 사용자 정의를 사용하는 것에 대한 자세한 정보는 다음 항목을 참조하십시오.

추가 주제에서는 사용자 정의 언어 모델, 말뭉치 및 사용자 정의 단어의 관리에 대해 설명합니다.

2021년 7월 29일(버전 4.0.0)

버전 4.0.0이 사용 가능해짐

이제 IBM Cloud Pak for Data용 Speech to Text 버전 4.0.0을 사용할 수 있습니다. 서비스 설치 및 관리에는 많은 변경사항이 포함됩니다. 이 버전은 IBM Cloud Pak for Data 버전 4.x와 Red Hat OpenShift 버전 4.6을 지원합니다. 이 서비스의 설치 및 관리에 대한 자세한 정보는 IBM Cloud Pak for Data용 IBM Watson Speech to Text 설치를 참조하십시오.

새 차세대 언어 모델

이 서비스는 이제 더 많은 차세대 언어 모델을 지원합니다. 차세대 멀티미디어 및 전화 통신 모델은 서비스의 이전 세대 광대역 및 협대역 모델보다 더 향상된 음성 인식 기능을 갖고 있습니다. 이러한 새 모델은 심층 신경망 및 양방향 분석을 활용하여 더 높은 처리량과 변환 정확도를 동시에 달성합니다.

현재 차세대 언어 모델과 low_latency 매개변수는 베타 기능입니다. 차세대 모델은 제한된 수의 언어와 음성 인식 기능을 지원합니다. 지원되는 언어, 모델 및 기능은 향후 릴리스에서 늘어날 것입니다.

많은 차세대 모델은 변환 품질의 저하를 감수하면서 결과를 더 빠르게 보도록 요청할 수 있게 해 주는 새 low_latency 매개변수 또한 지원합니다. 낮은 지연 시간이 사용으로 설정되면 서비스가 오디오에 대한 분석을 간소화하며, 이는 변환의 정확도를 낮출 수 있습니다. 애플리케이션이 가능한 최상의 정확도보다 낮은 응답 시간을 더 필요로 하는 경우에는 이러한 타협을 허용할 수 있습니다.

low_latency 매개변수는 WebSocket 인터페이스에 대한 interim_results 매개변수 사용에 영향을 줍니다. 중간 결과는 낮은 지연 시간을 지원하는 차세대 모델에만, 그리고 interim_results 및 low_latency 매개변수가 둘 다 true로 설정된 경우에만 사용 가능합니다.

차세대 모델과 이들의 기능에 대한 자세한 정보는 차세대 언어 및 모델을 참조하십시오.
차세대 모델에 대한 언어 지원, 그리고 낮은 지연 시간을 지원하는 차세대 모델에 대한 자세한 정보는 지원되는 차세대 언어 모델을 참조하십시오.
차세대 모델에 대한 기능 지원에 대한 자세한 내용은 차세대 모델에 지원되는 기능 를 참조하세요.
low_latency 매개변수에 대한 자세한 정보는 낮은 지연 시간을 참조하십시오.
차세대 모델에 대한, low_latency 매개변수와 interim_results 매개변수 간의 상호작용에 관한 자세한 정보는 중간 결과 및 낮은 지연 시간 요청을 참조하십시오.

아랍어 광대역 모델의 이름이 바뀜

아랍어 광대역 모델의 이름은 이제 ar-MS_BroadbandModel입니다. 이전 이름인 ar-AR_BroadbandModel은(는) 더 이상 사용되지 않습니다. 이는 1년 이상 계속해서 작동할 것이지만, 그 이후에는 제거될 수 있습니다. 사용자는 가능한 한 빨리 새 이름으로 마이그레이션하는 것이 좋습니다.

통합 Speech to Text 문서

이제 IBM Cloud Pak for Data용 IBM Watson Speech to Text에 대한 문서가 IBM Cloud에서 호스팅되는 Speech to Text 서비스의 관리형 인스턴스에 대한 문서와 결합되었습니다. 이는 서비스의 두 형태에 대한 안내서 및 참조 문서 둘 다에 해당됩니다. 이전에는 별도의 버전이었던, 서비스에 대한 IBM Cloud Pak for Data 문서로의 링크는 통합 문서로 경로 재지정됩니다.

제품의 한 버전에만 관련된 정보를 식별하는 것에 대한 자세한 정보는 Speech to Text 정보를 참조하십시오.

결함 수정: 문서 개선

결함 수정: 다음 정보를 수정하도록 문서가 업데이트되었습니다:

이 문서에서 차세대 모델이 망설임 표지를 생성하지 않는다는 것을 기술하지 않았었습니다. 이 문서가 이전 세대 모델만 망설임 표지를 생성한다는 점을 지적하도록 업데이트되었습니다. 차세대 모델에는 전사 결과의 실제 주저함이 포함됩니다. 자세한 내용은 말하기 머뭇거림 및 머뭇거림 표시 를 참조하세요.
이 문서에서는 smart_formatting 매개변수를 사용하면 서비스가 일본어에 대한 최종 변환 결과에서 망설임 표지를 제거한다고 잘못 기술하고 있었습니다. 스마트 형식화는 일본어가 아니라, 미국 영어에 대해서만 최종 결과에서 망설임 표지를 제거합니다. 자세한 정보는 스마트 형식화가 영향을 미치는 결과는 무엇입니까?를 참조하십시오.

버전 1.1.x의 서비스가 중단될 예정임

IBM Cloud Pak for Data용 Speech to Text 및 Text to Speech 버전 1.1.x의 서비스가 2021년 9월 30일에 중단됩니다. 사용자는 해당 날짜 이전에 IBM Cloud Pak for Data에서 서비스의 보다 높은 버전으로 업그레이드해야 합니다. 2021년 10월 1일부터는 버전 1.1.4에 대한 문서를 더 이상 사용할 수 없게 됩니다.

2021년 4월 12일(버전 1.2.1)

speech-override.yaml 파일에 항목이 추가됨

최소 speech-override.yaml 파일이 추가 정의 dockerRegistryPrefix을(를) 포함합니다.

global:
  dockerRegistryPrefix: "{Registry}"
  image:
    pullSecret: "{Registry_pull_secret}"

{Registry}은(는) 내부 Docker 레지스트리의 경로입니다. 이는 image-registry.openshift-image-registry.svc:5000/{namespace}이어야 합니다. 여기서 {namespace}은(는) IBM Cloud Pak® for Data가 설치된 네임스페이스입니다(일반적으로 zen).

2021년 4월 9일(버전 1.2.1)

설치된 모델 및 음성의 수정에 대한 지원: Speech 서비스는 이 서비스의 버전 1.2 또는 1.2.1에 대해, 설치된 모델 및 음성에서 항목을 추가하거나 제거하는 것을 허용합니다.

버전 1.2.1(2021년 3월 26일)

버전 1.2.1이 사용 가능해짐

이제 IBM Cloud Pak for Data용 Speech to Text 버전 1.2.1을 사용할 수 있습니다. 버전 1.2와 1.2.1은 동일하게 버전 1.2 문서 및 설치 지시사항을 사용합니다. 버전 1.2.1은 Red Hat OpenShift 버전 4.5 및 3.11 외에 4.6에서의 설치도 지원합니다.

새 설치 지시사항

인터넷에 연결된 클러스터나 에어 갭 클러스터의 경우 모두, 설치 지시사항은 다음 단계를 포함합니다.

oc label 명령을 사용하여 IBM Cloud Pak for Data이(가) 설치된 네임스페이스에 대해 필요한 레이블을 설정합니다.
oc project 명령을 사용하여 올바른 OpenShift 프로젝트를 가리키고 있는지 확인합니다.
cpd-cli install 명령을 사용하여 Speech 서비스가 사용하는 EnterpriseDB PostgreSQL 서버를 설치합니다.

이러한 단계는 Speech 서비스를 설치하기 전에 수행합니다.

새 설치 제거 지시사항

Speech 서비스 설치 제거 절차에 설치의 모든 리소스를 정리하는 단계가 추가되었습니다.

PostgreSQL 데이터 저장소에 대한 권한이 있는 레지스트리

서비스가 PostgreSQL 데이터 저장소에 대한 이미지를 가져오는 권한이 있는 레지스트리 경로가 변경되었습니다. 레지스트리 위치가 cp.icr.io/cp/watson-speech에서 cp.icr.io/cp/cpd(으)로 변경되었습니다. 이 변경사항은 사용자에게 투명합니다.

MinIO 및 PostgreSQL 데이터 저장소에 대한 시크릿

MinIO 및 PostgreSQL 데이터 저장소는 각자의 시크릿에 대해 다음 하드 코딩된 값을 필요로 합니다.

Minio의 경우에는 minio을(를) 사용하십시오.
PostgreSQL의 경우에는 user-provided-postgressql을(를) 사용하십시오.

이러한 시크릿에 대해서는 사용자 자신의 값을 사용할 수 없습니다. 이러한 시크릿은 Speech 서비스를 설치하기 전에 작성해야 합니다.

speech-override.yaml 파일에서 항목이 삭제됨

speech-override.yaml 파일에서 다음 항목이 제거되었습니다. 이들은 지금은 수정된 문제점을 임시 해결하기 위해 추가되었었습니다.

sttRuntime:
  images:
    miniomc:
      tag:
        1.0.5
sttAMPatcher:
  images:
    miniomc:
      tag:
        1.0.5
ttsRuntime:
  images:
    miniomc:
      tag:
        1.0.5

필수 요소만 포함하도록 컨텐츠를 세부 조정하여, 축약된 speech-override.yaml 파일이 전반적으로 더욱 축소되었습니다.

버전 1.2(2020년 12월 9일)

버전 1.2가 사용 가능해짐

이제 Speech to Text for IBM Cloud Pak for Data 버전 1.2를 사용할 수 있습니다. 서비스 설치 및 관리에는 많은 변경사항이 포함됩니다. 이 버전은 IBM Cloud Pak for Data 버전 3.5 및 3.0.1과 Red Hat OpenShift 버전 4.5 및 3.11을 지원합니다.

새 호주 영어 및 캐나다 프랑스어 모델

이 서비스는 이제 호주 영어 및 캐나다 프랑스어에 대한 광대역 및 협대역 모델을 제공합니다.

호주 영어: en-AU_BroadbandModel and en-AU_NarrowbandModel
캐나다 프랑스어: fr-CA_BroadbandModel and fr-CA_NarrowbandModel

새 모델은 일반적으로 사용할 수 있으며 언어 모델과 음향 모델 사용자 정의를 모두 지원합니다.

지원되는 언어 및 모델에 대한 자세한 정보는 이전 세대 언어 및 모델을 참조하십시오.
사용자 정의에 대한 언어 지원에 대한 자세한 정보는 사용자 정의에 대한 언어 지원을 참조하십시오.

향상된 음성 인식을 위해 업데이트된 모델

향상된 음성 인식을 위해 다음 언어 모델이 업데이트되었습니다.

브라질 포르투갈어: pt-BR_BroadbandModel 및 pt-BR_NarrowbandModel
프랑스어: fr-FR_BroadbandModel
독일어: de-DE_BroadbandModel 및 de-DE_NarrowbandModel
일본어: ja-JP_BroadbandModel
영국 영어: en-GB_BroadbandModel 및 en-GB_NarrowbandModel
미국 영어: en-US_ShortForm_NarrowbandModel

기본적으로 서비스는 모든 음성 인식 요청에 대해 업데이트된 모델을 자동으로 사용합니다. 이러한 모델을 기반으로 하는 사용자 정의 언어 또는 사용자 정의 음향 모델이 있는 경우 다음 메소드를 사용하여 업데이트를 활용하려면 기존 사용자 정의 모델을 업그레이드해야 합니다.

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

자세한 정보는 사용자 정의 모델 업그레이드를 참조하십시오.

split_transcript_at_phrase_end 매개변수가 모든 언어에 대해 GA(General Availability)됨

음성 인식 매개변수 split_transcript_at_phrase_end는 이제 모든 언어에서 일반적으로 사용할 수 있습니다. 이전에는 일반적으로 미국 및 영국 영어로만 제공되었습니다. 자세한 정보는 구문 종료 지점에서 텍스트 변환 내용 분할을 참조하십시오.

독일어에 대한 망설임 표지가 변경됨

업데이트된 독일어 광대역 및 협대역 모델에 대해 사용되는 망설임 표지가 [hesitation]에서 %HESITATION(으)로 변경되었습니다. 망설임 마커에 대한 자세한 내용은 말하기 망설임 및 망설임 마커 를 참조하세요.

결함 수정: 문법 수가 많은 모델의 지연 시간 문제 해결

결함 수정: 이 서비스에는 더 이상 많은 문법이 포함된 사용자 정의 언어 모델에 대한 지연 문제가 없습니다. 처음에 음성 인식에 사용되는 경우 이러한 사용자 정의 모델을 로드하는 데 몇 초가 걸릴 수 있습니다. 이제 사용자 정의 모델이 훨씬 빠르게 로드되어 인식에 사용될 때 대기 시간이 크게 줄어 듭니다.

2020년 7월 15일(버전 1.1.4)

Red Hat OpenShift 버전 4.3의 서비스가 중단됨: IBM Cloud Pak for Data 3.0.1은 2020년 9월 1일부터 Red Hat OpenShift 4.3을 더 이상 지원하지 않습니다. Red Hat OpenShift 4.3의 서비스는 2020년 10월 22일에 중단됩니다. IBM Cloud Pak for Data에서는 Red Hat OpenShift 4.5에 대한 지원을 도입하고 있습니다. IBM Cloud Pak for Data에서는 고객들이 2020년 10월 22일 전에 Red Hat OpenShift 4.5로 업그레이드할 것을 권장합니다. IBM 지원 센터에서는 IBM Cloud Pak for Data 3.0.1을 이미 Red Hat OpenShift 4.3에 설치한 고객과 협업할 예정입니다. Red Hat OpenShift 4.x에 설치하려는 신규 고객에게는 Red Hat OpenShift 4.5를 설치하도록 지침을 드렸습니다.

2020년 6월 19일(버전 1.1.4)

버전 1.1.4가 사용 가능해짐

이제 Speech to Text for IBM Cloud Pak for Data 버전 1.1.4를 사용할 수 있습니다. 서비스 설치 및 관리에는 많은 변경사항이 포함됩니다. 이 버전은 IBM Cloud Pak for Data 버전 2.5 및 3.0.1과 Red Hat OpenShift 버전 3.11 및 4.3을 지원합니다. 서비스 설치 및 관리에 대한 자세한 내용은 ' ' Speech to Text '을 ' IBM Cloud Pak for Data'에 설치 및 관리하기'을 참조하세요.

음성 활동 발견의 수준을 제어하는 새 매개변수

이제 서비스는 음성 활동 발견의 레벨을 제어하기 위해 두 개의 새 선택적 매개변수를 제공합니다. 매개변수는 음성 인식을 위해 관련 오디오만을 처리하는지 확인하는 데 도움이 될 수 있습니다.

speech_detector_sensitivity 매개변수는 음성 활동 발견의 민감도를 조정합니다. 매개변수를 사용하여 음악, 기침 및 기타 비음성 이벤트에서 단어가 삽입되지 못하도록 할 수 있습니다.
background_audio_suppression 매개변수는 볼륨을 기반으로 하는 배경 오디오를 억제하여 이들이 텍스트로 변환되지 못하도록 하거나 그렇지 않으면 음성 인식에 방해가 되지 않도록 합니다. 사이드 대화 또는 배경 소음을 억제하기 위해 매개변수를 사용할 수 있습니다.

매개변수를 개별적으로 또는 함께 사용할 수 있습니다. 이들은 모든 인터페이스에 대해 그리고 대부분의 언어 모델에 대해 사용 가능합니다. 매개변수, 허용 가능한 값 및 음성 인식의 품질 및 대기 시간에 대한 영향의 자세한 정보는 음성 활동 발견을 참조하십시오.

네덜란드어 및 이탈리아어에 대한 새 광대역 및 협대역 모델

이제 서비스는 네덜란드어와 이탈리아어에 대한 광대역 및 협대역 모델을 지원합니다.

네덜란드어 광대역 모델(nl-NL_BroadbandModel)
네덜란드어 협대역 모델(nl-NL_NarrowbandModel)
이탈리아어 광대역 모델(it-IT_BroadbandModel)
이탈리아어 협대역 모델(it-IT_NarrowbandModel)

네덜란드어 및 이탈리아어 모델은 음성 인식에 그리고 언어 모델 및 음향 모델 사용자 정의를 위해 일반적으로 사용 가능합니다(GA). 사용 가능한 모든 언어 모델에 대한 정보는 다음을 참조하십시오.

독일어 및 한국어에 대한 speaker_labels 매개변수 지원

서비스는 이제 독일어 및 한국어 모델에 대해 화자 레이블(speaker_labels 매개변수)을 지원합니다. 화자 레이블은 다중 참여자 대화에서 어떤 개인이 어떤 단어를 말했는지를 식별합니다. 자세한 정보는 화자 레이블을 참조하십시오.

일본어 협대역 모델에 대한 향상된 음성 인식

일본어 협대역 모델(ja-JP_NarrowbandModel)에는 이제 숫자 및 소수 부분에 대한 몇 가지 멀티그램 단어 단위가 포함됩니다. 서비스는 사용자가 스마트 형식화를 사용으로 설정했는지에 관계없이 이러한 멀티그램 단위를 리턴합니다. 스마트 형식화 기능은 모델에서 생성하는 멀티그램 단위를 이해하고 리턴합니다. 자체 사후 처리를 텍스트 변환 결과에 적용하는 경우, 이러한 단위를 적절히 처리해야 합니다. 자세한 정보는 스마트 형식화 문서의 일본어를 참조하십시오.

단순화된 백업 및 복원

서비스는 이제 상당히 개선된 백업 및 복원 프로시저를 제공합니다. 유틸리티는 이제 데이터 저장소에서 데이터를 백업할 때 사용할 수 있으므로 재해 복구 이벤트에서 데이터 모두를 다시 작성할 필요가 없습니다. 자세한 내용은 ' ' Watson 음성 서비스 데이터 백업 및 복원하기.

2020년 4월 1일(버전 1.1.3)

음향 모델 사용자 정의가 GA(General Availability)됨: 이제 음향 모델 사용자 정의가 모든 지원되는 언어에 대해 GA(General Availability)되었습니다. 개별 언어 모델의 지원에 대한 자세한 정보는 사용자 정의에 대한 언어 지원을 참조하십시오.

2020년 2월 28일(버전 1.1.3)

버전 1.1.3이 사용 가능해짐

이제 Speech to Text for IBM Cloud Pak for Data 버전 1.1.3을 사용할 수 있습니다.

새 end_of_phrase_silence_time 매개변수

이 서비스는 이제 음성 인식에 대해 end_of_phrase_silence_time 매개변수를 지원합니다. 이 매개변수는 서비스가 텍스트 변환 내용을 여러 최종 결과로 분할하는 일시정지 간격의 지속 시간을 지정합니다. 각 최종 결과는 일시정지 간격을 초과하는 일시정지 또는 긴 무음을 나타냅니다. 대부분의 언어에서 기본 일시정지 간격은 0.8초이며, 중국어의 경우에는 기본 간격이 0.6초입니다.

이 매개변수를 사용하여 최종 결과가 생성되는 빈도와 텍스트 변환의 정확성 사이를 조율할 수 있습니다. 대기 시간보다 정확성이 중요한 경우에는 간격을 늘리십시오. 화자가 짧은 구문 또는 단일 단어를 말할 것으로 예상되는 경우에는 간격을 줄이십시오.

자세한 정보는 구문 종료 무음 시간을 참조하십시오.

새 split_transcript_at_phrase_end 매개변수

이 서비스는 이제 음성 인식에 대해 split_transcript_at_phrase_end 매개변수를 지원합니다. 이 매개변수는 문장의 끝과 같은 입력의 시맨틱 특성에 따라 텍스트 변환 내용을 여러 최종 결과로 분할하도록 서비스에 지시합니다. 서비스는 요청에 사용되는 기본 언어 모델을 기반으로 시맨틱 특성을 이해합니다. 사용자 정의 언어 모델 및 문법 또한 서비스가 텍스트 변환 내용을 분할하는 방법 및 위치에 영향을 줄 수 있습니다.

이 매개변수는 분할의 이유(end_of_utterance, full_stop, silence, end_of_data)를 나타내기 위해 서비스가 각 최종 결과에 reset 필드를 추가하도록 합니다.

자세한 정보는 구문 종료 지점에서 텍스트 변환 내용 분할을 참조하십시오.

개선된 speaker_labels 매개변수

음성 인식의 경우, 오디오 샘플의 더 자세한 분석을 위해 개별 화자 식별 능력이 향상되도록 speaker_labels 매개변수가 업데이트되었습니다. 화자 레이블 기능에 대한 자세한 정보는 화자 레이블을 참조하십시오. 이 기능의 개선 사항에 대한 자세한 내용은 IBM 실제 사용 사례에서 화자 일기쓰기를 발전시키는 AI 연구를 참조하세요.

2019년 11월 27일(버전 1.1.2)

버전 1.1.2가 사용 가능해짐: 이제 Speech to Text for IBM Cloud Pak for Data 버전 1.1.2를 사용할 수 있습니다.
사용자 정의 모델의 최대 수: 소유한 인증 정보당 1024개 이하의 사용자 정의 언어 모델과 1024개 이하의 사용자 정의 음향 모델을 작성할 수 있습니다. 자세한 정보는 사용자 정의 모델의 최대 수를 참조하십시오.

2019년 8월 30일(버전 1.0.1)

버전 1.0.1이 사용 가능해짐

이제 Speech to Text for IBM Cloud Pak for Data 버전 1.0.1을 사용할 수 있습니다. 서비스는 이제 IBM Cloud Pak for Data 2.1.0.1에서 작동됩니다. 서비스는 이제 IBM Cloud Pak for Data with Red Hat OpenShift 설치를 지원합니다.

스페인어 통용어에 대한 새 광대역 및 협대역 모델

서비스는 이제 여섯 개의 스페인어 통용어가 지원되는 광대역 및 협대역 언어 모델을 제공합니다.

아르헨티나 스페인어(es-AR_BroadbandModel 및 es-AR_NarrowbandModel)
카스티야 스페인어(es-ES_BroadbandModel 및 es-ES_NarrowbandModel)
칠레 스페인어(es-CL_BroadbandModel 및 es-CL_NarrowbandModel)
콜롬비아 스페인어(es-CO_BroadbandModel 및 es-CO_NarrowbandModel)
멕시코 스페인어(es-MX_BroadbandModel 및 es-MX_NarrowbandModel)
페루 스페인어(es-PE_BroadbandModel 및 es-PE_NarrowbandModel)

카스티야 스페인어 모델은 이제 신규 항목이 아닙니다. 음성 인식 및 언어 모델 사용자 정의에 대해서는 GA(Generally Available)되었으며, 음향 모델 사용자 정의에 대해서는 베타 상태입니다.

나머지 다섯 개의 통용어에 대한 모델은 신규 항목이며 모든 용도에 대해 베타 상태입니다. 베타 상태이므로 이 추가 통용어가 프로덕션용으로 준비되지 않을 수 있으며 변경될 수 있습니다. 이는 시간 및 사용량이 포함된 품질이 향상될 것으로 예상되는 초기 오퍼링입니다.

자세한 정보는 다음 섹션을 참조하십시오.

FISMA 지원

이제 Speech to Text for IBM Cloud Pak for Data에 대해 FISMA(Federal Information Security Management Act) 지원이 사용 가능합니다. 서비스는 FISMA High Ready입니다.

2019년 6월 28일(버전 1.0.0)

버전 1.1.0이 사용 가능해짐

이제 서비스의 첫 릴리스인 버전 1.0.0을 사용할 수 있게 되었습니다. IBM Cloud Pak for Data용 Speech to Text은(는) 공용 IBM Cloud의 IBM Watson® Speech to Text 서비스를 기반으로 합니다. IBM Cloud Pak for Data용 Speech to Text은(는) 다음과 같은 면에서 공용 Speech to Text 서비스와 다릅니다. 이미 퍼블릭 Speech to Text의 IBM Cloud 서비스에 익숙한 경우, 이 정보가 유용할 것입니다.

Speech to Text for IBM Cloud Pak for Data에서는 인증을 위해 액세스 토큰이 필요합니다. 자세한 내용은 API & SDK 참조를 참조하세요.
Speech to Text for IBM Cloud Pak for Data에 대한 엔드포인트는 IBM Cloud Pak for Data 클러스터에 특정됩니다. 자세한 내용은 API & SDK 참조를 참조하세요.
Speech to Text for IBM Cloud Pak for Data는 요청 로깅을 수행하지 않습니다. X-Watson-Learning-Opt-Out 요청 헤더를 사용할 필요가 없습니다.
Speech to Text for IBM Cloud Pak for Data는 Watson 토큰을 지원하지 않습니다. 서비스에 인증하기 위해 X-Watson-Authorization-Token 요청 헤더를 사용할 수 없습니다.