MySQL:复杂的分组查询
我们正试图找到一个问题的解决方案,我已经能够用一个说明性的表格来复制这个问题。下面是创建说明性表格的方式:MySQL:复杂的分组查询,mysql,group-by,Mysql,Group By,我们正试图找到一个问题的解决方案,我已经能够用一个说明性的表格来复制这个问题。下面是创建说明性表格的方式: create table illustrativeTable ( id INT UNSIGNED NOT NULL AUTO_INCREMENT, label VARCHAR(4), reportingDate DATE, attr_1 INT, attr_2 INT, attr_3 INT, PRIMARY KEY(id) ); 我已将说明性表格填充如下:
create table illustrativeTable
(
id INT UNSIGNED NOT NULL AUTO_INCREMENT,
label VARCHAR(4),
reportingDate DATE,
attr_1 INT,
attr_2 INT,
attr_3 INT,
PRIMARY KEY(id)
);
我已将说明性表格填充如下:
INSERT INTO illustrativeTable(label, reportingDate, attr_1, attr_2, attr_3) VALUES('A', '2018-01-01', '1', '3', '100'),
('A', '2018-01-05', '2', '4', '125'), ('A', '2018-01-07', '2', '5', '125'),
('A', '2018-01-08', '3', '6', '150'), ('A', '2018-01-11', '4', '7', NULL),
('B', '2018-01-02', '1', '3', '50'), ('B', '2018-01-05', '2', '5', '75'),
('B', '2018-01-06', '3', '6', '200'), ('B', '2018-01-16', '3', '5', '200'),
('C', '2018-01-05', '6', '9', '175'),('C', '2018-01-08', '7', '9', '225'),
('D', '2018-01-01', '2', '5', '55'), ('D', '2018-01-15', '3', '6', 85),
('D', '2018-01-21', '4', '7', '75'), ('E', '2018-01-25', '2', '4', '65'),
('E', '2018-01-28', '2', '5', NULL);
+-------+---------------+--------+
| label | reportingDate | attr_3 |
+-------+---------------+--------+
| A | 2018-01-08 | 150 |
| B | 2018-01-06 | 200 |
| C | 2018-01-05 | 175 |
+-------+---------------+--------+
询问
SELECT * FROM illustrativeTable;
产生以下输出:
+----+-------+---------------+--------+--------+--------+
| id | label | reportingDate | attr_1 | attr_2 | attr_3 |
+----+-------+---------------+--------+--------+--------+
| 1 | A | 2018-01-01 | 1 | 3 | 100 |
| 2 | A | 2018-01-05 | 2 | 4 | 125 |
| 3 | A | 2018-01-07 | 2 | 5 | 125 |
| 4 | A | 2018-01-08 | 3 | 6 | 150 |
| 5 | A | 2018-01-11 | 4 | 7 | NULL |
| 6 | B | 2018-01-02 | 1 | 3 | 50 |
| 7 | B | 2018-01-05 | 2 | 5 | 75 |
| 8 | B | 2018-01-06 | 3 | 6 | 200 |
| 9 | B | 2018-01-16 | 3 | 5 | 200 |
| 10 | C | 2018-01-05 | 6 | 9 | 175 |
| 11 | C | 2018-01-08 | 7 | 9 | 225 |
| 12 | D | 2018-01-01 | 2 | 5 | 55 |
| 13 | D | 2018-01-15 | 3 | 6 | 85 |
| 14 | D | 2018-01-21 | 4 | 7 | 75 |
| 15 | E | 2018-01-25 | 2 | 4 | 65 |
| 16 | E | 2018-01-28 | 2 | 5 | NULL |
+----+-------+---------------+--------+--------+--------+
我们的问题是,我们希望从选定的元组中检索label、reportingDate和attr_3,,并具有以下约束:1) 属性2-属性1=3
2) 属性3不为空
3) 如果多次点击,则选择reportingDate值最高的值 简单化的查询:
SELECT label, reportingDate, attr_3 FROM illustrativeTable
WHERE label IN ('A', 'B', 'C', 'E') AND (attr_2-attr_1=3)
AND attr_3 IS NOT NULL GROUP BY label;
产生以下结果:
+-------+---------------+--------+
| label | reportingDate | attr_3 |
+-------+---------------+--------+
| A | 2018-01-07 | 125 |
| B | 2018-01-05 | 75 |
| C | 2018-01-05 | 175 |
+-------+---------------+--------+
该结果的问题在于,对于标签“A”,满足所有约束条件的最高报告日期为2018-01-08。同样,对于标签“B”,满足所有约束条件的最高报告日期为2018-01-06
我们希望调整查询,使输出如下所示:
INSERT INTO illustrativeTable(label, reportingDate, attr_1, attr_2, attr_3) VALUES('A', '2018-01-01', '1', '3', '100'),
('A', '2018-01-05', '2', '4', '125'), ('A', '2018-01-07', '2', '5', '125'),
('A', '2018-01-08', '3', '6', '150'), ('A', '2018-01-11', '4', '7', NULL),
('B', '2018-01-02', '1', '3', '50'), ('B', '2018-01-05', '2', '5', '75'),
('B', '2018-01-06', '3', '6', '200'), ('B', '2018-01-16', '3', '5', '200'),
('C', '2018-01-05', '6', '9', '175'),('C', '2018-01-08', '7', '9', '225'),
('D', '2018-01-01', '2', '5', '55'), ('D', '2018-01-15', '3', '6', 85),
('D', '2018-01-21', '4', '7', '75'), ('E', '2018-01-25', '2', '4', '65'),
('E', '2018-01-28', '2', '5', NULL);
+-------+---------------+--------+
| label | reportingDate | attr_3 |
+-------+---------------+--------+
| A | 2018-01-08 | 150 |
| B | 2018-01-06 | 200 |
| C | 2018-01-05 | 175 |
+-------+---------------+--------+
我确实尝试了一些来自中国的想法
但是我无法获得我想要的结果。要获得最高的
reportingDate
的输出,您只需将其作为约束添加到查询中即可。请注意,除非给定的reportingDate
有多个数据值,否则不需要GROUP BY
子句:
SELECT label, reportingDate, attr_3
FROM illustrativeTable it1
WHERE label IN ('A', 'B', 'C', 'E') AND
(attr_2-attr_1=3) AND
attr_3 IS NOT NULL AND
reportingDate = (SELECT MAX(reportingDate)
FROM illustrativeTable
WHERE label = it1.label AND
attr_2-attr_1=3 AND
attr_3 IS NOT NULL)
输出:
label reportingDate attr_3
A 2018-01-08 150
B 2018-01-06 200
C 2018-01-05 175
如果给定的reportingDate
确实有多个值,则需要按标签分组,还必须确定是要attr\u 3
的最小值还是最大值,在这种情况下,您需要将查询中的attr\u 3
更改为MIN(attr\u 3)
还是MAX(attr\u 3)
更新
根据OP在下面的注释中指定的附加条件,这可能是获得所需结果的最有效查询。它将初始表的一个子选择(应用了非聚合条件)与另外两个表连接起来,这两个表分别给出了reportingDate
bylabel
的最大值和attr2
byreportingDate
和label
的最大值,使用JOIN
条件过滤掉所有与MAX(reportingDate)
和MAX(attr_2)
不匹配的条目
对于示例数据,输出保持不变,但是我已经使用触发MAX(attr_2)
条件的数据对其进行了测试。根据以前的规范,查询工作得非常好。还有另一个约束(除了原始帖子中列出的三个约束之外),我很遗憾在开始时遗漏了4)如果给定的reportingDate有多个值,请选择attr_2最大的一个value@Sandeep这解决了你的问题吗?如果没有,你能提供更多的信息来帮助解决这个问题。如果答案是肯定的,那么你应该将答案标记为接受。看见