使用字典定義有限術語集
辨識對您重要的術語及同義字,例如您銷售的產品名稱。
說明 Discovery 可透過新增字典來尋找對使用案例有意義的術語。 您可以為術語或相同種類中的一組單字定義多個同義字。
您可以透過逐一新增術語或上傳列出術語的 CSV 檔案來建立字典。
若要逐一新增字典術語,請完成下列步驟:
-
從「改善工具」畫面的 變更網域概念 區段中,選擇 字典。
-
按一下新建。
-
為您的字典命名。
例如,
Transportation
。 -
選擇語言。 字典只能包含一種語言的術語。
-
選用: 展開 進階選項,然後編輯字典的資料類型名稱。
資料類型用來分類文件。 使用者可以選擇資料類型來縮小其搜尋結果的範圍。 依預設,會使用小寫的字典名稱作為資料類型名稱。 您可能想要將資料類型變更為大寫。
-
輸入術語,然後選取 + 按鈕以新增它。
例如
vehicle
和engine
。在英文字典中,以小寫形式指定字典術語。 僅當您想要 Discovery 在文字中出現時忽略該術語的小寫提及項目時,才使用大寫。 當分析術語以判定它們是否為字典強化的出現項目時,會使用具有大寫相符項之術語的表面形式。 例如,字典中的
vehicle
項目會導致在文字中出現vehicle
、Vehicle
或VEHICLE
提及項目的註釋。 對於字典中的Sat
項目,會為Sat
或SAT
新增註釋,但不會為sat
新增註釋。對於阿拉伯文、中文、韓文、日文和希伯來文,字典比對會區分大小寫。
-
若要新增術語的同義字,請按一下 編輯 圖示,然後在 其他術語 欄位中輸入同義字。 用逗號分隔多個同義詞。 按一下 儲存術語。
字典可以包含術語及其同義字,或屬於該種類的種類及術語。
對於術語
vehicle
,您可以指定同義字,例如car
、automobile
、sedan
、convertible
、station wagon
等。 對於engine
,您可以指定gasket
、carburetor
、piston
和valves
。請小心不要新增太多同義字。 測試您新增之任何同義字的影響。 當您測試時,請使用不同於您用來衍生同義字之資料的資料。
-
繼續新增詞彙。
建議將現行專案中所有集合的類似術語作為新項目。
建議術語取自名為 text的欄位。 如果遺漏文字欄位,則會選擇具有最長字串值及最高相異值數目的欄位。 如果沒有文件或集合沒有含有文字資料的欄位,則不會顯示建議。
-
按一下儲存字典。
-
選擇您要套用字典的集合和欄位,然後按一下 套用。
範例
運輸字典會新增至專案。
針對字典建立的結果資料類型會顯示在搜尋頁面中。
套用強化的文件包含下列句子:
Some car fluids can be acidic, such as battery fluid.
下列 JSON Snippet 說明在文件中找到術語 car
( vehicle
字典項目的同義字) 時如何儲存 Transportation 字典強化提及項目。 在此集合中,字典強化會套用至 text
欄位,因此提及項目會列在 enriched_text
陣列中的 entities
陣列中。
{
"enriched_text": [
{
"entities": [
{
"model_name": "Dictionary:.Transportation",
"mentions": [
{
"confidence": 1,
"location": {
"end": 91122,
"begin": 91119
},
"text": "car"
}
],
"text": "vehicle",
"type": "Transportation"
}
]
}
]
}
上傳字典術語
若要從 CSV 檔案中新增字典,請完成以下步驟:
-
建立 CSV 檔,其中包含您要新增的字典術語。
使用 UTF-8 編碼。 每行指定一個條目。
-
若要定義一組同義字,請使用下列語法:
<term>,<synonym>,<synonym>,<synonym>,...
例如:
vehicle,car,automobile,sedan,convertible,station wagon
此範例中的項目會建立
vehicle
字典項目。 將字典強化套用至文件時,vehicle
、car
、automobile
、sedan
、convertible
或station wagon
的任何提及項目都會標記為vehicle
字典項目的實例。 -
若要在相同種類中定義一組術語,請使用下列語法:
<category>,<related-term>,<related-term>,...
例如:
engine,gasket,carburetor,piston,valves
此範例中的項目會建立
engine
字典項目。 將字典強化套用至文件時,engine
、gasket
、carburetor
、piston
或valves
的任何提及項目都會標記為engine
字典項目的實例。
-
-
從「改善工具」畫面的 變更網域概念 區段中,選擇 字典。
-
按一下上傳。
-
為字典命名,並選擇 CSV 檔案中使用的語言。
-
選用: 展開 進階選項,並指定編輯字典的資料類型名稱。 資料類型用來分類文件。 使用者可以選擇資料類型來縮小其搜尋範圍。 依預設,會使用小寫的字典名稱作為資料類型名稱。 您可能想要將資料類型變更為大寫。
-
按一下 上傳,以瀏覽並找出您先前建立的 CSV 檔。
-
按一下建立。
-
選擇您要套用字典的集合和欄位,然後按一下 套用。
如果您使用強化 API 來新增字典,則在將 API 產生的字典強化套用至欄位之後,字典會顯示在「字典」頁面中。 不過,您無法在產品使用者介面中從字典工具編輯 API 產生的字典。
若要刪除字典,您必須使用 Discovery v2 API 的 刪除強化 方法。
您新增至一個專案的字典強化可以套用至相同服務實例中其他專案的集合。 事實上,您可以從已部署的「內容採礦」應用程式將它們套用至「內容採礦」專案中的集合。
字典限制
您可以為每個服務實例建立的字典及術語項目數,取決於 Discovery 計劃類型。
方案 | 每個服務實例的字典數目 | 每個字典的術語項目數 | 可以為其產生建議的術語數目 |
---|---|---|---|
Cloud Pak for Data | 無限制 | 無限制 | 1,000 家 |
進階 | 200 | 10,000 | 1,000 家 |
企業 | 200 | 10,000 | 1,000 家 |
加號 (包括試用) | 20 | 1,000 家 | 50 |