简单查询字符串(simple_query_string)查询

使用一个语法有限但可以容错的解析器,根据提供的查询字符串返回文档。

这个查询使用一个简单的语法来解析给定的查询字符串,并根据特殊的操作符将其拆分成多个词项。 然后,在返回匹配的文档之前,查询会单独分析每个词项。

虽然它的语法比query_string查询更有限,但simple_query_string查询不会因为无效语法而返回错误。 相反,它会忽略查询字符串的任何无效部分。

请求示例

GET /_search
{
  "query": {
    "simple_query_string" : {
        "query": "\"fried eggs\" +(eggplant | potato) -frittata",
        "fields": ["title^5", "body"],
        "default_operator": "and"
    }
  }
}

simple_query_string的顶级参数

query
(必需的, string) search. 要解析并用于搜索的查询字符串。参考 简单查询字符串语法.
fields

(可选, array of strings) 要搜索的字段的数组。

该字段接受通配符表达式。还可以使用脱字符号(^)来提高匹配时的特定字段的相关性分数。 有关示例请参考 fields参数中的通配符和按字段增强

默认为 index.query.default_field 索引设置,其默认值为 ** 值提取符合条件查询的所有字段,并过滤元数据字段。 如果没有指定prefix,那么将所有提取的字段组合起来构建一个查询。

一次可以查询的字段数量是有限制的。 它由indices.query.bool.max_clause_count 搜索设置定义,默认为1024

default_operator

(可选, string) 未指定运算符时,用于解释查询字符串中的文本的默认的布尔逻辑。有效值有:

OR (默认)
比如,查询字符串 capital of Hungary 被解释为 capital OR of OR Hungary
AND
比如,查询字符串 capital of Hungary 被解释为 capital AND of AND Hungary
all_fields
[6.0.0] 在6.0.0中废弃。使用设置 fields* 来代替 (可选, boolean) 如果为true,则搜索索引字段映射中的所有可搜索字段。
analyze_wildcard
(可选, boolean) 如果为 true,查询将尝试分析查询字符串中的通配符。默认为 false
analyzer
(可选, string) 用于将查询字符串中的文本转换为词元(token)的分析器 。 默认为字段 default_field 所映射的 索引时使用的分析器。 如果没有映射分析器,则使用索引的默认分析器。
auto_generate_synonyms_phrase_query
(可选, boolean) 如果为 true,将自动为多词项同义词创建 匹配短语(match phrase) 查询。 默认为 true。 有关示例请参考 同义词
flags
(可选, string) 简单查询字符串语法启用的运算符的列表。 默认为 ALL (所有运算符)。 有效值请参考 有限运算符
fuzzy_max_expansions
(可选, integer) 模糊匹配查询能扩展到的最大词项数。默认为50
fuzzy_prefix_length
(可选, integer) 模糊匹配的起始字符保持不变的字符数量。默认为 0
fuzzy_transpositions
(可选, boolean) 如果为true,模糊匹配的编辑可以包含两个相邻字符的交换(ab → ba)。默认为 true
lenient
(可选, boolean) 如果为 true,则忽略基于格式的错误,例如为 numeric 字段提供 text 值。 默认为 false
minimum_should_match
(可选, string) 要返回的文档必须匹配的最小子句数。 有效值及更多信息请参考 minimum_should_match参数
quote_field_suffix

(可选, string) 查询字符串中附加到引用文本的后缀。

可以使用此后缀来使用不同的分析方法进行精确匹配。参考 将精确搜索与词干混合

注意

简单查询字符串语法

simple_query_string查询支持以下几个运算符:

  • + 表示 AND 操作
  • | 表示 OR 操作
  • - 取消单个词元
  • " 包裹一些词元以表示一个要搜索的短语
  • * 在词项的末尾表示前缀查询
  • () 表示优先
  • ~N 在一个词的后面时表示编辑距离(模糊性)
  • ~N 在一个短语后时表示溢出(slop)量

要按字面意思使用其中一个字符,请在前面加一个反斜杠(\)进行转义。

根据default_operator值的不同,这些运算符的行为可能会有所不同。例如:

GET /_search
{
    "query": {
        "simple_query_string" : {
            "fields" : ["content"],
            "query" : "foo bar -baz"
        }
    }
}

该搜索请求旨在仅返回包含foobar包含baz的文档。 然而,由于default_operator的值为OR,该搜索实际上返回包含foobar的文档以及不包含baz的任何文档。 要按预期返回文档,请将查询字符串改为 foo bar +-baz

限制查询中可以使用的运算符

可以使用flags参数来限制简单查询字符串语法支持的运算符。

若要显式地仅启用特定的操作符,请使用|分隔符。 例如,flags值为OR|AND|PREFIX时会禁用除ORANDPREFIX之外的所有运算符。

GET /_search
{
    "query": {
        "simple_query_string" : {
            "query" : "foo | bar + baz*",
            "flags" : "OR|AND|PREFIX"
        }
    }
}
有效值

flags 的有效值有:

ALL (默认)
启用所有可选的运算符。
AND
启用 + (AND,和/与) 运算符。
ESCAPE
启用\作为转义字符。
FUZZY
启用单词后的~N运算符,其中N是表示匹配时允许的编辑距离的整数。参考模糊性
NEAR
启用短语后的~N运算符,其中N是匹配词元之间允许的最大位置数。与SLOP同义。
NONE
禁用所有运算符。
NOT
启用 - (NOT,非) 运算符。
OR
启用 \| (OR,或)运算符。
PHRASE
启用用于搜索短语的"引号运算符。
PRECEDENCE
允许 () 运算符控制运算符优先级。
PREFIX
启用 * 前缀运算符。
SLOP
启用短语后的~N运算符,其中N是匹配词元之间允许的最大位置数。与NEAR同义。
WHITESPACE
启用空格作为分割字符。

fields参数中的通配符和按字段增强

可以用通配符指定字段,例如:

GET /_search
{
  "query": {
    "simple_query_string" : {
      "query":    "Will Smith",
      "fields": [ "title", "*_name" ] 
    }
  }
}

查询titlefirst_namelast_name 字段。

单个字段可以用脱字符号(^)来增强:

GET /_search
{
  "query": {
    "simple_query_string" : {
      "query" : "this is a test",
      "fields" : [ "subject^3", "message" ] 
    }
  }
}

字段subject的重要性是message的 3 倍。

同义词

simple_query_string查询通过synonym_graph词元过滤器(token filter)支持多词项同义词扩展。 使用这个过滤器时,解析器为每个多词项同义词创建一个短语查询。 例如,下面的同义词 "ny, new york"将产生产生:

(ny OR ("new york"))

也可以用逻辑与来匹配多词项同义词:

GET /_search
{
   "query": {
       "simple_query_string" : {
           "query" : "ny city",
           "auto_generate_synonyms_phrase_query" : false
       }
   }
}

上面的例子创建了一个 bool 查询:

(ny OR (new AND york)) city)

它匹配带有词项 ny 或 逻辑与 new AND york 的文档。 默认情况下,参数 auto_generate_synonyms_phrase_query 设置为 true