Abfrageparameter
Sie können diese Parameter verwenden, wenn Sie Abfragen mit der Abfragesprache Discovery schreiben. Weitere Informationen finden Sie in der API-Referenz Discovery. Eine Übersicht über Abfragekonzepte enthält die Abfrageübersicht.
Abfragen, die in der Discovery Query Language geschrieben sind, können sowohl Such- als auch Strukturparameter enthalten.
Die Standardwerte für Abfrageparameter können je nach Projekttyp unterschiedlich sein. Weitere Informationen zu Standardwerten finden Sie unter Standardabfrageeinstellungen.
Suchparameter
Verwenden Sie Suchparameter, um Ihre Objektgruppe zu durchsuchen, eine Ergebnismenge zu ermitteln und die Ergebnismenge zu analysieren.
Die Ergebnismenge ist die Gruppe von Dokumenten, die durch die kombinierte Suche der Suchparameter identifiziert werden. Die Ergebnismenge kann deutlich umfangreicher als die zurückgegebenen Ergebnisse sein. Wenn eine leere Abfrage gesendet wird, entspricht die Ergebnismenge allen Dokumenten in der Sammlung.
Dokumente, für die Sie keine Zugriffsberechtigung haben, werden in Abfrageergebnissen nicht zurückgegeben.
Antwortsuche
IBM Cloud Der Parameter find_answers wird nur in verwalteten Implementierungen unterstützt.
Standardmäßig stellt Discovery Antworten bereit, indem die gesamte Passage zurückgegeben wird, die die Antwort auf eine natürliche Sprachabfrage enthält. Wenn die Funktion für Antwortsuche aktiviert ist, stellt Discovery auch eine "kurze Antwort" innerhalb der Passage und einen Konfidenzscore bereit, um anzuzeigen, ob die "kurze Antwort" die Frage beantwortet, die explizit oder implizit in der Benutzerabfrage ist. Anwendungen, die die Funktion zur Beantwortung von Fragen verwenden, können die kurze Antwort allein anzeigen oder die kurze Antwort im Kontext des vollständigen Textes hervorheben. Bei den meisten Anwendungen ist es vorzuziehen, die kurze Antwort innerhalb des vollständigen Textabschnitts hervorzuheben, da Antworten im Kontext in der Regel mehr Sinn ergeben.
Das Antwortsuchfeature verhält sich wie folgt:
In den folgenden Beispielen werden die kurzen Antworten in Fettschrift angezeigt.
-
Findet Antworten. Es erstellt keine Antworten. Die Antwort muss Bestandteil des Textes sein. Sie kann nicht abgeleitet werden.
"Was war der Umsatz von IBMim Jahr 2022?" kann eine richtige Antwort erhalten, wenn Sie ein Dokument haben, in dem angegeben ist, was der Umsatz von IBMim Jahr 2022 war. Wenn Sie jedoch ein Dokument haben, in dem die Einnahmen von IBM in jedem Quartal des Jahres 2022 aufgeführt sind, werden diese nicht addiert und Sie erhalten keine Gesamtsumme.
-
Verarbeitet Synonyme und lexikalische Varianten, wenn die Antwort verfügbar ist.
- Beispielfrage: “Wann hat IBM Red Hat gekauft?”
- Passage: " IBM schloss die 34 Milliarden Dollar teure Übernahme von Red Hat im Juli 2019 ab."
-
Kombiniert Informationen über mehrere Sätze hinweg, wenn sie nahe beieinander liegen (innerhalb von etwa 2.000 Zeichen)
- Beispielfrage: “Wann hat IBM Red Hat gekauft?”
- Passage: " IBM hat Red Hat für 34 Milliarden Dollar erworben." Der Vertrag wurde im Juli 2019 abgeschlossen."
-
Implizite Fragen werden ähnlich wie die entsprechenden expliziten Fragen behandelt.
Beispielfragen:
company that developed the AS/400What company developed the AS/400?
-
Funktioniert gut bei Fragen mit längeren Wortfolgen oder Klauselantworten.
- Beispielfrage: Wie wende ich einen Pfannkuchen?
- Passage: Der Schlüssel zu einem Pfannkuchen von Weltklasse ist, ihn richtig zu wenden. Am besten wendet man einen Pfannkuchen, indem man einen Pfannenwender darunter schiebt, ihn mindestens 10 cm anhebt und den Pfannenwender schnell um 180 Grad dreht
-
Viele Fragen mit den Fragewörtern "Wie" und "Warum" werden nur durch wesentlich längere Textabschnitte beantwortet. Die Antwortsuchfunktion gibt kein ganzes Dokument als Antwort zurück (und fasst keine Antwort auf die Dokumentlänge zusammen).
-
Behandelt Ja- oder Nein-Fragen, die sachlich sind und eine prägnante Antwort im Text haben
- Beispielfrage: Gibt es eine Bibliothek in Timbuktu?
- Passage: Timbuktus Hauptbibliothek, offiziell das Ahmed Baba Institute of Higher Islamic Studies and Research genannt, ist ein Schatzhaus, das mehr als 20.000 Manuskripte enthält, die Jahrhunderte der Geschichte Malis abdecken.
-
Beantwortet Fragen mit sehr kurzen Antworten, wie z. B. Namen und Daten, insbesondere wenn die Art der erforderlichen Antwort im Text explizit angegeben ist.
-
Es werden Meinungsfragen behandelt, aber nur, indem eine Aussage zu dieser Meinung gefunden wird; die Gültigkeit der Meinung wird nicht bewertet.
- Beispielfrage: Soll ich blauen Lidschatten ausprobieren?
- Passage: Wir glauben , dass blauer Lidschatten dieses Jahr im Trend liegt.
So funktioniert die Funktion zur Beantwortung von Fragen
Nachdem ein Benutzer eine Abfrage übergeben hat, wird die Abfrage vom Erkennungsservice analysiert. Die Abfrageanalyse transformiert die ursprüngliche Abfrage des Benutzers auf eine Weise, die die Wahrscheinlichkeit verbessert, die besten Suchergebnisse zu finden. Beispielsweise werden Wörter auf Grundform gesetzt, Stoppwörter entfernt und Abfrageerweiterungen hinzugefügt. Die Suche wird ausgeführt und die resultierenden Dokumente und Passagen werden zurückgegeben.
Die Antwortsuche wird auf die zurückgegebenen Passagen angewendet. Bis zu 60 Passagen werden an den Antwortsuchdienst gesendet. Wie diese 60 Passagen ausgewählt werden, hängt vom Wert des Parameters passages.per_document ab.
-
Wenn
passages.per_documentauffalsegesetzt ist, werden die ersten 60 Passagen aus allen Dokumenten, die bei der Suche zurückgegeben werden, nur anhand ihrer Passagen ausgewählt. -
Wenn
passages.per_documentauftruegesetzt ist, werden die zurückgegebenen Dokumente zuerst eingestuft und dann die ersten 60 Passagen aus diesen obersten Dokumenten ausgewählt.Wenn Sie beispielsweise festlegen, dass die Abfrage 100 Dokumente zurückgibt (count=100) und 2 Passagen aus jedem Dokument (passages.max_per_document=2) anfordern, werden nur 2 Passagen aus jedem der 30 Dokumente mit der höchsten Rangfolge (2 x 30 = 60 Passagen) ausgewählt. Aus den übrigen 70 Dokumenten werden keine Passagen ausgewählt.
Wenn Ihr Ziel es ist, die besten 10 kurzen Antworten zu erhalten, ist ein guter Ansatz, die Antwortsuche Funktion verschiedene Passagen aus mehr Dokumenten als nur die Top 10 zu geben. Setzen Sie dazu passages.per_document auf
true und fordern Sie dann 20 Dokumente und bis zu 3 Passagen aus jedem Dokument mit aktivierter Antwortsuchfunktion an. Das Antwortsuchfeature sucht nach Antworten in bis zu 20 * 3 = 60 Passagen.
Das Antwortergebnis verwendet nicht die transformierte Abfragezeichenfolge, die von der Abfrageanalyse generiert wird. Stattdessen wird eine Kopie der ursprünglichen Benutzereingabe verwendet, die zur Abfragezeit gespeichert wird, um die beste kurze Antwort zu finden. Wenn das Modul für die Antwortsuche sicher ist, dass es eine Antwort in einer der Passagen gefunden hat, wird die Konfidenzbewertung der Antwort mit den Dokument-und Passagen kombiniert, um eine endgültige Rangfolge zu erstellen, die ein Dokument oder eine Passage hochstufen kann, das bzw. die andernfalls verpasst werden könnte.
Antwortergebnis-API-Details
Die API für Antwortsuche fügt die folgenden Parameter zum Abschnitt passage der Abfrage-API hinzu:
- Der Parameter
find_answersist optional und nimmt standardmäßig den Wertfalsean. Wenn sie auftrueeingestellt ist (und der Parameternatural_language_queryauf eine Abfragezeichenfolge eingestellt ist), ist die Funktion zur Beantwortung von Fragen aktiviert. - Der Parameter
max_answers_per_passageist optional und nimmt standardmäßig den Wert1an. In diesem Fall findet die Antwortsuchfunktion die Anzahl der Antworten, die höchstens in einer Passage angegeben sind.
Außerdem wird dem Rückgabewert in jedem passage-Objekt ein Abschnitt hinzugefügt. Dieser Abschnitt heißt answers und ist eine Liste von Antwortobjekten. Die Liste kann bis zu max_answers_per_passage lang
sein. Jedes Antwortobjekt enthält die folgenden Felder:
answer_textist der Text der kurzen Antwort auf die Anfrage.confidenceist eine Zahl zwischen0und1, die die Wahrscheinlichkeit für die Richtigkeit der Antwort schätzt. Einige Antworten haben eine geringe Konfidenz und sind wahrscheinlich nicht korrekt. Wählen Sie basierend auf diesem Wert aus, was Sie mit Antworten tun. Die Zuverlässigkeit und Reihenfolge von Dokumenten in den Suchergebnissen wird auf Grundlage dieser Kombination angepasst, wenn der Parameterper_documentfür die Passagenabfrage auftrue(Standardwert) gesetzt ist.start_offsetist das Anfangsoffset für Zeichen (der Index des ersten Zeichens) der Antwort innerhalb des Felds, aus dem die Passage stammt. Sie ist größer oder gleich dem Startversatz des Abschnitts (da die Antwort innerhalb des Abschnitts liegen muss).end_offsetist das Endoffset für Zeichen (der Index des letzten Zeichens plus 1) der Antwort innerhalb des Felds, aus dem die Passage stammt. Sie ist kleiner oder gleich dem Endversatz des Durchgangs.
So finden Sie Antworten für das gesamte Projekt:
- Setze
passages.enabledauftrue - Setze
passages.find_answersauftrue
Gehen Sie wie folgt vor, um Antworten in einem einzigen bekannten Dokument zu finden (z. B. eine Anwendung zur Dokumentüberprüfung mit langen, komplexen Dokumenten):
- Setze
passages.enabledauftrue - Setze
passages.find_answersauftrue - Legen Sie
filterfest, um diedocument_idfür das Dokument auszuwählen.
Das folgende Beispiel zeigt eine Abfrage, die diese API verwendet:
POST /v2/projects/{project_id}/query{
"natural_language_query": "Why did Nixon resign?",
"passages": {
"enabled": true, "find_answers":true
}
}
Beispielanwort:
{
"matching_results": 74, "retrieval_details": { "document_retrieval_strategy": "untrained"},
"results": [
{
"document_id": "63919442-7d5b-4cae-ab7e-56f58b1390fe",
"result_metadata":{"collection_id": "collection_id1234","document_retrieval_source":"search","confidence": 0.78214},
"metadata": {"parent_document_id": "63919442-7d5b-4cae-ab7e-56f58b1390fg"},
"title": "Watergate scandal",
"document_passages": [
{
"passage_text": "With his complicity in the cover-up made public and his political support completely eroded, Nixon resigned from office on August 9, 1974. It is believed that, had he not done so, he would have been impeached by the House and removed from office by a trial in the Senate.",
"field": "text",
"start_offset": 281,
"end_offset": 553,
"answers": [
{
"answer_text": "his complicity in the cover-up made public and his political support completely eroded",
"start_offset": 286, "end_offset": 373, "confidence": 0.78214
}
]
}
]
}
natural_language_query
Verwenden Sie eine Abfrage in natürlicher Sprache, um Abfragen einzugeben, die in natürlicher Sprache ausgedrückt werden, wie sie möglicherweise von einem Benutzer in einer Dialogschnittstelle oder einer Freitextschnittstelle wie IBM Watson Assistantempfangen werden. Der Parameter verwendet die gesamte Eingabe als Abfragetext. Es erkennt keine Bediener.
Die maximale Länge der Abfragezeichenfolge für eine Abfrage in natürlicher Sprache ist 2048.
Ergebniskonfidenzscores
Wenn der Abfragetyp eine Abfrage in natürlicher Sprache ist, verfügt jedes Ergebnis über einen Verlässlichkeitsscore. Der Verlässlichkeitsscore ist ein Maß für die Relevanz des Ergebnisses. Jedes Abfrageergebnis wird unabhängig ausgewertet und bewertet.
Es werden verschiedene Verfahren verwendet, um die Konfidenz zu bewerten. Ein wichtiger Faktor ist die Häufigkeit von Wortübereinstimmungen zwischen Abfrage und Dokument.
Da eine Vielzahl von Verfahren in verschiedenen Kontexten verwendet werden, um das Ergebnis auszuwerten, kann der Bereich der Ergebnisbewertungen von Abfrage zu Abfrage sehr unterschiedlich sein. Diese Variabilität bedeutet, dass der Vergleich der Konfidenzbewertung mit einem statischen Schwellenwert eine ungeeignete Methode ist, um die Ergebnisse zu begrenzen, die von Ihrer Anwendung zurückgegeben werden. Die Ergebnisse werden von der höchsten zur niedrigsten Konfidenz sortiert. Sie können die besten Kandidatenantworten finden, indem Sie die besten Ergebnisse verwenden, unabhängig von ihren Konfidenzbewertungswerten.
Der Parameter natural_language_query ermöglicht die Verwendung von Funktionen wie Relevanztraining. Weitere Informationen finden Sie in Ergebnisrelevanz mit Training verbessern.
query
Eine Suche mit dem Parameter 'query' gibt alle Dokumente in Ihrem Datenbestand mit vollständigen Aufbereitungen und dem vollständigen Text in der Reihenfolge ihrer Relevanz zurück. Eine Abfrage schließt außerdem alle Dokumente aus, in denen der Abfrageinhalt nicht erwähnt wird.
aggregation
Aggregationsabfragen geben eine Anzahl von Dokumenten zurück, die mit einer Reihe von Datenwerten übereinstimmen. Die vollständige Liste der Aggregationsoptionen enthält Abfrageaggregationen.
filter
Dieser Parameter gibt eine zwischenspeicherbare Abfrage an, die alle Dokumente ausschließt, in denen der Abfrageinhalt nicht erwähnt wird. Ergebnisse der Filtersuche werden nicht in der Reihenfolge ihrer Relevanz zurückgegeben.
Wenn Sie eine Abfrage schreiben, die sowohl einen filter- als auch einen aggregation- , query- oder natural_language_query-Parameter enthält, wird der filter-Parameter zuerst ausgeführt,
und dann werden alle aggregation- , query- oder natural_language_query-Parameter parallel ausgeführt.
Bei einer einfachen Abfrage, insbesondere bei einem kleinen Datensatz, liefern die Parameter filter und query oft genau die gleichen (oder ähnliche) Ergebnisse. Wenn die Aufrufe filter und query ähnliche Ergebnisse zurückgeben und Sie die Antworten nicht in der Reihenfolge ihrer Relevanz zurückgeben müssen, verwenden Sie den Parameter filter. Filteraufrufe sind schneller und werden zwischengespeichert. Zwischenspeichern
bedeutet, dass Sie beim nächsten Mal, wenn Sie denselben Aufruf ausführen, eine viel schnellere Antwort erhalten, insbesondere bei einem großen Datensatz.
Strukturparameter
Strukturparameter definieren den Inhalt und den Aufbau der Dokumente in der JSON-Rückgabe. Strukturparameter haben keinen Einfluss darauf, aus welchen Dokumenten die gesamte Ergebnismenge besteht.
return
Eine durch Kommas getrennte Liste für den Teil der Dokumenthierarchie, der zurückgegeben werden soll. Jede der Dokumentenhierarchien ist ein gültiger Wert. Wenn dieser Parameter eine leere Liste ist, werden alle Felder zurückgegeben.
count
Die Anzahl der Dokumente, die Sie in der Antwort zurücksenden möchten. Der Standardwert ist 10. Der maximale Wert für die Summe der Parameter count und offset in einer einzigen Abfrage beträgt 10000.
offset
Indexwert der Position des Suchergebnisses, an der die Gruppe der zurückzugebenden Ergebnisse beginnt. Falls beispielsweise die Gesamtzahl der zurückgegebenen Ergebnisse 10 ist und für die relative Position (offset) der Wert 8 angegeben ist,
werden die letzten beiden Ergebnisse zurückgegeben. Der Standardwert ist 0. Der maximal zulässige Wert für count und offset zusammen in einer Abfrage ist 10000.
spell correction
Bei Abfragen in natürlicher Sprache wird die übergebene Abfrage auf falsch geschriebene Begriffe überprüft. Die Abfrage wird unverändert verarbeitet. Wenn jedoch Korrekturen an der ursprünglichen Abfrage vorhanden sind, werden sie im Feld suggested_query der Antwort zurückgegeben. Die Vorschläge werden nicht automatisch verwendet, aber Ihre Anwendung kann sie nutzen.
sort
Eine durch Kommas getrennte Liste der Felder im Dokument, nach denen sortiert werden soll. Sie können optional eine Sortierrichtung angeben, indem Sie dem Feld das Zeichen - (= absteigende Reihenfolge) oder das Zeichen + (= aufsteigende Reihenfolge) voranstellen. Die Standardeinstellung für die Sortierrichtung ist die aufsteigende Reihenfolge.
highlight
Ein boolescher Wert, der angibt, ob ein highlight-Objekt in die zurückgegebene Ausgabe eingeschlossen werden soll. Wenn die Hervorhebung eingeschlossen ist, gibt sie Schlüssel zurück, bei denen es sich um Feldnamen und Werte handelt,
die Arrays sind. Die Arrays enthalten Segmente von Abfrageabgleichstext, der mithilfe des HTML-Tags für Hervorhebung (<em>) hervorgehoben wird.
Dieser Parameter wird ignoriert, wenn passages.enabled und passages.per_document true sind. In diesem Fall werden Passagen für jedes Dokument anstelle von Hervorhebungen zurückgegeben.
Wenn die Abfrage derzeit nach einem exact match einer Aufbereitungserwähnung sucht, werden nur Übereinstimmungen in Kleinbuchstaben hervorgehoben. Bei Verwendung des Operators includes werden Übereinstimmungen in Groß-und
Kleinschreibung hervorgehoben.
In der Ausgabe ist das Objekt highlight nach dem Objekt enriched_text angegeben. Dies ist im folgenden Beispiel gezeigt.
curl -H "Authorization: Bearer {token}" \
'https://{hostname}/{instance_name}/v2/projects/{project_id}/collections/{collection_id}/query?version=2019-11-29&natural_language_query=Hybrid%20cloud%20companies&highlight=true'
Das zurückgegebene JSON hat das folgende Format:
{
"highlight": {
"extracted_metadata.title": [
"IBM to Acquire Sanovi Technologies to Expand Disaster Recovery Services for <em>Hybrid</em> <em>Cloud</em>"
],
"enriched_text.concepts.text": [
"Privately held <em>company</em>",
"<em>Cloud</em> computing"
],
"text": [
" Sanovi Technologies, a privately held <em>company</em> that provides <em>hybrid</em> <em>cloud</em> recovery, <em>cloud</em> migration",
"IBM to Acquire Sanovi Technologies to Expand Disaster Recovery Services for <em>Hybrid</em> <em>Cloud</em>\n\nPublished",
" undergoing digital and <em>hybrid</em> <em>cloud</em> transformation.\n\nURL: http://www.ibm.com/press/us/en/pressrelease/50837.wss",
" and business continuity software for enterprise data centers and <em>cloud</em> infrastructure. Adding"
],
"enriched_text.categories.label": [
"/business and industrial/<em>company</em>/bankruptcy"
],
"enriched_text.entities.type": [
"<em>Company</em>"
],
"html": [
" Technologies, a privately held <em>company</em> that provides <em>hybrid</em> <em>cloud</em>\n recovery, <em>cloud</em> migration and business",
" Disaster Recovery Services for <em>Hybrid</em> <em>Cloud</em></title></head>\n<body>\n\n\n<p>Published: Thu, 27 Oct 2016 07:01",
" digital and <em>hybrid</em> <em>cloud</em> transformation.</p>\n<p>URL: http://www.ibm.com/press/us/en/pressrelease/50837.wss</p>\n\n\n\n</body></html>",
" continuity software for \nenterprise data centers and <em>cloud</em> infrastructure. Adding these \ncapabilities"
]
}
}
passages
Ein Boolescher Wert, der angibt, ob der Dienst eine Reihe der relevantesten Passagen aus den Dokumenten zurückgibt, die von einer Abfrage zurückgegeben werden, die den Parameter natural_language_query verwendet. Die Textpassagen
werden durch ausgeklügelte Watson-Algorithmen generiert, die die besten Textpassagen aus allen Dokumenten ermitteln, die durch die Abfrage zurückgegeben werden. Der Standardwert für den Parameter hängt von Ihrem Projekttyp ab. Weitere Informationen
zu Standardwerten finden Sie unter Standardabfrageeinstellungen.
Discovery versucht, Passagen, die am Anfang eines Satzes beginnen und am Ende enden, mithilfe der Satzgrenzen-Erkennung zurückzugeben. Dazu wird zunächst nach Passagen gesucht, die ungefähr der im passages.characters-Parameter angegebenen Länge entsprechen (für die meisten Projekttypen ist der Standardwert 200). Anschließend wird jeder Abschnitt auf das Doppelte der angegebenen Länge erweitert, um vollständige Sätze zu erhalten. Wenn Ihr passages.characters-Parameter
kurz ist oder die Sätze in Ihren Dokumenten lang sind, gibt es möglicherweise keine Satzgrenzen, die nah genug beieinander liegen, um den vollständigen Satz zurückzugeben, ohne die doppelte Länge der angeforderten Länge zu überschreiten. In
diesem Fall bleibt Discovery innerhalb der Grenze des doppelten passages.characters-Parameters, sodass die zurückgegebenen Passagen möglicherweise nicht den gesamten Satz enthalten und den Anfang, das Ende oder beides auslassen
können.
Da Satzgrenzenanpassungen die Passagengröße erweitern, kann die durchschnittliche Passagenlänge zunehmen. Wenn Ihre Anwendung nur über begrenzten Platz auf dem Bildschirm verfügt, sollten Sie einen kleineren Wert für passages.characters festlegen oder die von Discovery zurückgegebenen Passagen kürzen. Die Erkennung von Satzgrenzen funktioniert bei allen unterstützten Sprachen und verwendet sprachspezifische Logik.
Passagen werden mit jedem Dokumentergebnis gruppiert und nach Passagen-Relevanz sortiert. Das Einschließen des Abrufs von Passagen in Abfragen erhöht die Antwortzeit, da die Bewertung der Passagen länger dauert.
Sie können die Felder in den Dokumenten für den Passagenabruf für die Suche mit dem Parameter passages.fields anpassen.
Der Parameter passages gibt übereinstimmende Passagen zurück ( passage_text ), und score, document_id, der Name des Feldes, aus dem die Passage extrahiert wurde ( field ), und
die Start- und Endzeichen des Passagentextes innerhalb des Feldes ( start_offset und end_offset ), wie im folgenden Beispiel dargestellt.
curl -H "Authorization: Bearer {token}" 'https://{hostname}/{instance_name}/v2/projects/{project_id}/collections/{collection_id}/query?version=2019-11-29&natural_language_query=Hybrid%20cloud%20companies&passages=true&passages.per_document=false'
Das JSON, das von der Abfrage zurückgegeben wird, hat das folgende Format:
{
"matching_results":2,
"passages":[
{
"document_id":"ab7be56bcc9476493516b511169739f0",
"passage_score":15.230205287402338,
"passage_text":"a privately held company that provides hybrid cloud recovery, cloud migration and business continuity software for enterprise data centers and cloud infrastructure.",
"start_offset":120,
"end_offset":300,
"field":"text"
},
{
"passage_text":"Disaster Recovery Services for Hybrid Cloud</title></head>\n<body>\n\n\n<p>Published: Thu, 27 Oct 2016 07:01:21 GMT</p>\n",
"passage_score":10.153470191601558,
"document_id":"fbb5dcb4d8a6a29f572ebdeb6fbed20e",
"start_offset":70,
"end_offset":120,
"field":"html"
}
]
}
passages.fields
Eine durch Kommas getrennte Liste der Felder im Index, aus denen die Passagen entnommen werden. Wenn dieser Parameter nicht angegeben wird, werden Passagen aus allen Feldern auf Stammebene eingeschlossen.
Sie können Felder in den Parametern return und passages.fields angeben. Wenn Sie beide Parameter mit jeweils unterschiedlichen Werten angeben, werden sie separat behandelt.
Die Anforderung kann beispielsweise die Parameter "return": ["docno"] und "passages":{"fields": ["body"] enthalten. Das Feld body ist in passages.fields,
aber nicht in return angegeben. Im Ergebnis werden Passagen aus dem Dokumenthauptteil zurückgegeben, aber der Inhalt des Hauptteilfelds selbst wird nicht zurückgegeben.
passages.count
Die maximale Anzahl der zurückzugebenden Passagen. Die Suche gibt weniger Passagen zurück, wenn die angegebene Anzahl der Gesamtzahl der gefundenen entspricht. Der Standardwert ist 10. Der Maximalwert ist 100.
passages.characters
Die ungefähre Anzahl der Zeichen, die eine Passage haben kann. Der Standardwert ist 200. Der Mindestwert ist 50. Die maximale Anzahl ist 2,000. Zurückgegebene Passagen können (bei Bedarf) bis zur doppelten
Länge der angeforderten Länge enthalten, damit sie an Satzgrenzen beginnen und enden.
passages.max_per_document
Pro Dokument wird standardmäßig eine Passage zurückgegeben. Sie können die maximale Anzahl der pro Dokument zurückzugebenden Passagen erhöhen, indem Sie im Parameter passages.max_per_document eine höhere Zahl angeben.
similar
Sucht Dokumente, die Dokumenten ähneln, die Sie als für Sie interessant identifizieren. Um ähnliche Dokumente zu finden, ermittelt Discovery die 25 relevantesten Begriffe aus dem Originaldokument und sucht anschließend nach Dokumenten mit ähnlichen relevanten Begriffen.
Wenn similar.enabled auf true gesetzt ist, müssen Sie das Feld similar.document_ids angeben, um eine durch Kommas getrennte Liste der gewünschten Dokumente einzuschließen.
In installierten Implementierungen wurde mit dem Release 4.6.0 Unterstützung für diesen Parameter hinzugefügt.
table retrieval
Wenn Tabellenverständnis in Ihrer Objektgruppe aktiviert ist, sucht ein natural_language_query Tabellen mit Inhalt oder Kontext, die einer Suchabfrage
entsprechen.
Beispielabfrage:
curl -H "Authorization: Bearer {token}" \
'https://{hostname}/{instance_name}/v2/projects/{project_id}/collections/{collection_id}/query?version=2019-11-29&natural_language_query=interest%20appraised&table_results=true'
Das JSON, das von der Abfrage zurückgegeben wird, hat das folgende Format:
{
"matching_results": 1,
"session_token": "1_FDjAVkn9SW6oH9y5_9Ek3KsNFG",
"results": [
{}
]
{
"table_results": [
{
"table_id": "e883d3df1d45251121cd3d5aef86e4edc9658b21",
"source_document_id": "c774c3df0c90255191cc0d4bb8b5e8edc6638d96",
"collection_id": "collection_id",
"table_html": "html snippet of the table info",
"table_html_offset": 42500,
"table": [
{
"location": {
"begin": 42878,
"end": 44757
},
"text": "Appraisal Premise Interest Appraised Date of Value Value Conclusion\nMarket Value \"As Is\" Fee Simple Estate January 12, 2016 $1,100,000\n",
"section_title": {
"location": {
"begin": 42300,
"end": 42323
},
"text": "MARKET VALUE CONCLUSION"
},
"title": {},
"table_headers": [],
"row_headers": [
{
"cell_id": "rowHeader-42878-42896",
"location": {
"begin": 42878,
"end": 42896
},
"text": "Appraisal Premise",
"text_normalized": "Appraisal Premise",
"row_index_begin": 0,
"row_index_end": 0,
"column_index_begin": 0,
"column_index_end": 0
}
],
"column_headers": [],
"body_cells": [
{
"cell_id": "bodyCell-43410-43424",
"location": {
"begin": 43410,
"end": 43424
},
"text": "Date of Value",
"row_index_begin": 0,
"row_index_end": 0,
"column_index_begin": 2,
"column_index_end": 2,
"row_header_ids": [
"rowHeader-42878-42896",
"rowHeader-43145-43164"
],
"row_header_texts": [
"Appraisal Premise",
"Interest Appraised"
],
"row_header_texts_normalized": [
"Appraisal Premise",
"Interest Appraised"
],
"column_header_ids": [],
"column_header_texts": [],
"column_header_texts_normalized": [],
"attributes": []
}
],
"contexts": [
{
"location": {
"begin": 44980,
"end": 44996
},
"text": "Compiled by CBRE"
}
],
"key_value_pairs": []
}
]
}
]
}
table_results.enabled
Wenn true, ein table_results-Array in der Antwort mit einer Liste von Tabellenobjekten enthalten ist, die dem Wert natural_language_query in der Reihenfolge der bewerteten Relevanz entsprechen. Für alle
Projekttypen mit Ausnahme von Dokumentabruf für Verträgeist der Standardwert false.
table_results.count
Dieser Parameter gibt die maximale Anzahl von Tabellen an, die im Array table_results enthalten sein können. Wird nur zurückgegeben, wenn table_results.enabled=true. Der Standardwert ist 10.