MySQL:复杂的分组查询

MySQL:复杂的分组查询,mysql,group-by,Mysql,Group By,我们正试图找到一个问题的解决方案,我已经能够用一个说明性的表格来复制这个问题。下面是创建说明性表格的方式: create table illustrativeTable ( id INT UNSIGNED NOT NULL AUTO_INCREMENT, label VARCHAR(4), reportingDate DATE, attr_1 INT, attr_2 INT, attr_3 INT, PRIMARY KEY(id) ); 我已将说明性表格填充如下:

我们正试图找到一个问题的解决方案,我已经能够用一个说明性的表格来复制这个问题。下面是创建说明性表格的方式:

create table illustrativeTable
(
  id INT UNSIGNED NOT NULL AUTO_INCREMENT,
  label VARCHAR(4),
  reportingDate DATE,
  attr_1 INT,
  attr_2 INT,
  attr_3 INT,

  PRIMARY KEY(id)
);
我已将说明性表格填充如下:

INSERT INTO illustrativeTable(label, reportingDate, attr_1, attr_2, attr_3) VALUES('A', '2018-01-01', '1', '3', '100'),
('A', '2018-01-05', '2', '4', '125'), ('A', '2018-01-07', '2', '5', '125'),
('A', '2018-01-08', '3', '6', '150'), ('A', '2018-01-11', '4', '7', NULL),
('B', '2018-01-02', '1', '3', '50'), ('B', '2018-01-05', '2', '5', '75'),
('B', '2018-01-06', '3', '6', '200'), ('B', '2018-01-16', '3', '5', '200'),
('C', '2018-01-05', '6', '9', '175'),('C', '2018-01-08', '7', '9', '225'),
('D', '2018-01-01', '2', '5', '55'), ('D', '2018-01-15', '3', '6', 85),
('D', '2018-01-21', '4', '7', '75'), ('E', '2018-01-25', '2', '4', '65'),
('E', '2018-01-28', '2', '5', NULL);
+-------+---------------+--------+
| label | reportingDate | attr_3 |
+-------+---------------+--------+
| A     | 2018-01-08    |    150 |
| B     | 2018-01-06    |    200 |
| C     | 2018-01-05    |    175 |
+-------+---------------+--------+
询问

SELECT * FROM illustrativeTable;
产生以下输出:

+----+-------+---------------+--------+--------+--------+
| id | label | reportingDate | attr_1 | attr_2 | attr_3 |
+----+-------+---------------+--------+--------+--------+
|  1 | A     | 2018-01-01    |      1 |      3 |    100 |
|  2 | A     | 2018-01-05    |      2 |      4 |    125 |
|  3 | A     | 2018-01-07    |      2 |      5 |    125 |
|  4 | A     | 2018-01-08    |      3 |      6 |    150 |
|  5 | A     | 2018-01-11    |      4 |      7 |   NULL |
|  6 | B     | 2018-01-02    |      1 |      3 |     50 |
|  7 | B     | 2018-01-05    |      2 |      5 |     75 |
|  8 | B     | 2018-01-06    |      3 |      6 |    200 |
|  9 | B     | 2018-01-16    |      3 |      5 |    200 |
| 10 | C     | 2018-01-05    |      6 |      9 |    175 |
| 11 | C     | 2018-01-08    |      7 |      9 |    225 |
| 12 | D     | 2018-01-01    |      2 |      5 |     55 |
| 13 | D     | 2018-01-15    |      3 |      6 |     85 |
| 14 | D     | 2018-01-21    |      4 |      7 |     75 |
| 15 | E     | 2018-01-25    |      2 |      4 |     65 |
| 16 | E     | 2018-01-28    |      2 |      5 |   NULL |
+----+-------+---------------+--------+--------+--------+
我们的问题是,我们希望从选定的元组中检索label、reportingDate和attr_3,,并具有以下约束:
1) 属性2-属性1=3
2) 属性3不为空
3) 如果多次点击,则选择reportingDate值最高的值

简单化的查询:

SELECT label, reportingDate, attr_3 FROM illustrativeTable
WHERE label IN ('A', 'B', 'C', 'E') AND (attr_2-attr_1=3)
AND attr_3 IS NOT NULL GROUP BY label;
产生以下结果:

+-------+---------------+--------+
| label | reportingDate | attr_3 |
+-------+---------------+--------+
| A     | 2018-01-07    |    125 |
| B     | 2018-01-05    |     75 |
| C     | 2018-01-05    |    175 |
+-------+---------------+--------+
该结果的问题在于,对于标签“A”,满足所有约束条件的最高报告日期为2018-01-08。同样,对于标签“B”,满足所有约束条件的最高报告日期为2018-01-06

我们希望调整查询,使输出如下所示:

INSERT INTO illustrativeTable(label, reportingDate, attr_1, attr_2, attr_3) VALUES('A', '2018-01-01', '1', '3', '100'),
('A', '2018-01-05', '2', '4', '125'), ('A', '2018-01-07', '2', '5', '125'),
('A', '2018-01-08', '3', '6', '150'), ('A', '2018-01-11', '4', '7', NULL),
('B', '2018-01-02', '1', '3', '50'), ('B', '2018-01-05', '2', '5', '75'),
('B', '2018-01-06', '3', '6', '200'), ('B', '2018-01-16', '3', '5', '200'),
('C', '2018-01-05', '6', '9', '175'),('C', '2018-01-08', '7', '9', '225'),
('D', '2018-01-01', '2', '5', '55'), ('D', '2018-01-15', '3', '6', 85),
('D', '2018-01-21', '4', '7', '75'), ('E', '2018-01-25', '2', '4', '65'),
('E', '2018-01-28', '2', '5', NULL);
+-------+---------------+--------+
| label | reportingDate | attr_3 |
+-------+---------------+--------+
| A     | 2018-01-08    |    150 |
| B     | 2018-01-06    |    200 |
| C     | 2018-01-05    |    175 |
+-------+---------------+--------+
我确实尝试了一些来自中国的想法
但是我无法获得我想要的结果。

要获得最高的
reportingDate
的输出,您只需将其作为约束添加到查询中即可。请注意,除非给定的
reportingDate
有多个数据值,否则不需要
GROUP BY
子句:

SELECT label, reportingDate, attr_3 
FROM illustrativeTable it1
WHERE label IN ('A', 'B', 'C', 'E') AND 
      (attr_2-attr_1=3) AND
      attr_3 IS NOT NULL AND
      reportingDate = (SELECT MAX(reportingDate) 
                       FROM illustrativeTable 
                       WHERE label = it1.label AND 
                             attr_2-attr_1=3 AND 
                             attr_3 IS NOT NULL)
输出:

label   reportingDate   attr_3  
A       2018-01-08      150
B       2018-01-06      200
C       2018-01-05      175
如果给定的
reportingDate
确实有多个值,则需要
按标签分组,还必须确定是要
attr\u 3
的最小值还是最大值,在这种情况下,您需要将查询中的
attr\u 3
更改为
MIN(attr\u 3)
还是
MAX(attr\u 3)

更新

根据OP在下面的注释中指定的附加条件,这可能是获得所需结果的最有效查询。它将初始表的一个子选择(应用了非聚合条件)与另外两个表连接起来,这两个表分别给出了
reportingDate
by
label
的最大值和
attr2
by
reportingDate
label
的最大值,使用
JOIN
条件过滤掉所有与
MAX(reportingDate)
MAX(attr_2)
不匹配的条目


对于示例数据,输出保持不变,但是我已经使用触发
MAX(attr_2)
条件的数据对其进行了测试。

根据以前的规范,查询工作得非常好。还有另一个约束(除了原始帖子中列出的三个约束之外),我很遗憾在开始时遗漏了4)如果给定的reportingDate有多个值,请选择attr_2最大的一个value@Sandeep这解决了你的问题吗?如果没有,你能提供更多的信息来帮助解决这个问题。如果答案是肯定的,那么你应该将答案标记为接受。看见