给范围字段分桶的微妙之处

文档会根据它们落入的桶进行计数

因为一个范围代表多个值,所以对一个范围字段运行桶聚合会导致同一文档出现在多个桶中。 这可能导致令人惊讶的结果,例如桶计数的总和高于匹配文档的数量。 例如,看下面这个索引:

PUT range_index
{
  "settings": {
    "number_of_shards": 2
  },
  "mappings": {
    "properties": {
      "expected_attendees": {
        "type": "integer_range"
      },
      "time_frame": {
        "type": "date_range",
        "format": "yyyy-MM-dd||epoch_millis"
      }
    }
  }
}

PUT range_index/_doc/1?refresh
{
  "expected_attendees" : {
    "gte" : 10,
    "lte" : 20
  },
  "time_frame" : {
    "gte" : "2019-10-28",
    "lte" : "2019-11-04"
  }
}

该范围(10 ~ 20)比下面这个聚合中的 interval 更宽,因此文档将落入多个桶中。

POST /range_index/_search?size=0
{
    "aggs" : {
        "range_histo" : {
            "histogram" : {
                "field" : "expected_attendees",
                "interval" : 5
            }
        }
    }
}

因为 interval 是5(默认情况下偏移量是0),所以我们期望桶是 101520。上面那个范围文档将属于这三个桶。

{
  ...
  "aggregations" : {
    "range_histo" : {
      "buckets" : [
        {
          "key" : 10.0,
          "doc_count" : 1
        },
        {
          "key" : 15.0,
          "doc_count" : 1
        },
        {
          "key" : 20.0,
          "doc_count" : 1
        }
      ]
    }
  }
}

文档不能部分存在于一个桶中;比如上面的文档,在上面的三个桶里都不能算三分之一。 在这个例子中,由于文档的范围落在多个桶中,该文档的全部值也将计入每个桶的任何子聚合中。

查询界限不是聚合过滤器

查询用于过滤正在聚合的字段时,可能会出现另一种意外的行为。 在这种情况下,文档可能与查询匹配,但仍有一个或两个端点在查询范围之外。 比如下面这个对上述文档的聚合:

POST /range_index/_search?size=0
{
    "query": {
      "range": {
        "time_frame": {
          "gte": "2019-11-01",
          "format": "yyyy-MM-dd"
        }
      }
    },
    "aggs" : {
        "november_data" : {
            "date_histogram" : {
                "field" : "time_frame",
                "calendar_interval" : "day",
                "format": "yyyy-MM-dd"
              }
        }
    }
}

尽管这个查询只考虑11月的天数,但聚合产生了8个时段(10月4个,11月4个),因为聚合是在所有匹配文档的范围内计算的。

{
  ...
  "aggregations" : {
    "november_data" : {
      "buckets" : [
              {
          "key_as_string" : "2019-10-28",
          "key" : 1572220800000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-10-29",
          "key" : 1572307200000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-10-30",
          "key" : 1572393600000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-10-31",
          "key" : 1572480000000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-11-01",
          "key" : 1572566400000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-11-02",
          "key" : 1572652800000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-11-03",
          "key" : 1572739200000,
          "doc_count" : 1
        },
        {
          "key_as_string" : "2019-11-04",
          "key" : 1572825600000,
          "doc_count" : 1
        }
      ]
    }
  }
}

根据用例的不同,CONTAINS查询可以将文档限制为完全属于查询范围的文档。 在本例中,那个文档不会被包括进去,聚合将为空。 对于应该对文档进行计数,但是可以安全地忽略越界数据的用例,在聚合之后对桶进行过滤也是一种选择。