在PHP和MySQL中使用连接表对类别进行分类、包含和排除
我尝试使用手动指定的类别来分析推文。所有内容都存储在MySQL数据库中。我可以添加和删除推文、类别以及它们之间的关系,而不会出现任何问题 包括使用或逻辑工作的类别。如果我想找到分类为“委内瑞拉”或“马杜罗”的推文,我会将这两个术语以一个名为在PHP和MySQL中使用连接表对类别进行分类、包含和排除,php,mysql,join,mysqli,junction-table,Php,Mysql,Join,Mysqli,Junction Table,我尝试使用手动指定的类别来分析推文。所有内容都存储在MySQL数据库中。我可以添加和删除推文、类别以及它们之间的关系,而不会出现任何问题 包括使用或逻辑工作的类别。如果我想找到分类为“委内瑞拉”或“马杜罗”的推文,我会将这两个术语以一个名为$include的数组发送过来,并将$include\u logic设置为”或“”。将返回在任一类别下分类的推文。太好了 当我尝试使用和逻辑(即,在所有包含的术语下分类的推特,例如委内瑞拉和马杜罗)或尝试排除类别时,问题就开始了 代码如下: function
$include
的数组发送过来,并将$include\u logic
设置为”或“
”。将返回在任一类别下分类的推文。太好了
当我尝试使用和逻辑(即,在所有包含的术语下分类的推特,例如委内瑞拉和马杜罗)或尝试排除类别时,问题就开始了
代码如下:
function filter_tweets($db, $user_id, $from_utc, $to_utc, $include = null, $include_logic = null, $exclude = null) {
$include_sql = '';
if (isset($include)) {
$include_sql = 'AND (';
$logic_op = '';
foreach ($include as $cat) {
$include_sql .= "{$logic_op}cats.name = '$cat' ";
$logic_op = ($include_logic != 'and') ? 'OR ' : 'AND '; # AND doesn't work here
}
$include_sql .= ')';
}
$exclude_sql = ''; # Nothing I've tried with this works.
$sql = "
SELECT DISTINCT tweets.id FROM tweets
LEFT OUTER JOIN tweets_cats ON tweets.id = tweets_cats.tweet_id
LEFT OUTER JOIN cats ON tweets_cats.cat_id = cats.id
WHERE tweets.user_id = $user_id
AND created_at
BETWEEN '{$from_utc->format('Y-m-d H:i:s')}'
AND '{$to_utc->format('Y-m-d H:i:s')}'
$include_sql
$exclude_sql
ORDER BY tweets.created_at ASC;";
return db_fetch_all($db, $sql);
}
其中db\u fetch\u all()
是
function db_fetch_all($con, $sql) {
if ($result = mysqli_query($con, $sql)) {
$rows = mysqli_fetch_all($result);
mysqli_free_result($result);
return $rows;
}
die("Failed: " . mysqli_error($con));
}
而tweets\u cats
是tweets
和cats
表之间的连接表
在阅读了连接表和连接表之后,我理解了为什么我的代码在上述两种情况下不起作用。它一次只能查看一条推文和相应的类别。因此,要求它省略一条归类为“X”的推文是没有意义的,因为当遇到同一条推文并归类为“Y”时,它不会省略它
我不明白的是如何修改代码以使其正常工作。我没有发现任何人试图做类似的事情。也许我没有寻找正确的术语。如果有人能为我提供一个很好的资源,帮助我在MySQL中使用与我使用它们类似的连接表,我将不胜感激
编辑:下面是函数使用上述示例创建的工作SQL,包括VP twitter帐户上的“委内瑞拉”或“马杜罗”,日期范围设置为本月迄今为止的推文(EST转换为UTC)
更新:下面是一个工作SQL,它遵循所包含类别的逻辑。非常感谢@草莓的建议
SELECT tweets.id FROM tweets
LEFT OUTER JOIN tweets_cats ON tweets.id = tweets_cats.tweet_id
LEFT OUTER JOIN cats ON tweets_cats.cat_id = cats.id
WHERE tweets.user_id = 818910970567344128
AND created_at BETWEEN '2019-02-01 05:00:00' AND '2019-03-01 05:00:00'
AND cats.name IN ('Venezuela', 'Maduro')
GROUP BY tweets.id
HAVING COUNT(*) = 2
ORDER BY tweets.created_at ASC;
不过,这有点超出了我对SQL的理解。我很高兴它起作用了。我只是希望我能明白怎么做
更新2:下面是排除类别的工作SQL。我意识到适用于包含类别的AND/OR逻辑也适用于排除类别。本例使用OR逻辑。语法本质上是Q1而不是(Q2),其中Q2是被排除的,这与用于包含的查询基本相同
SELECT id FROM tweets
WHERE user_id = 818910970567344128
AND created_at BETWEEN '2019-02-01 05:00:00' AND '2019-03-01 05:00:00'
AND id NOT IN (
SELECT tweets.id FROM tweets
LEFT OUTER JOIN tweets_cats ON tweets.id = tweets_cats.tweet_id
LEFT OUTER JOIN cats ON tweets_cats.cat_id = cats.id
WHERE tweets.user_id = 818910970567344128
AND created_at BETWEEN '2019-02-01 05:00:00' AND '2019-03-01 05:00:00'
AND cats.name IN ('Venezuela','Maduro')
)
ORDER BY created_at ASC;
更新3:以下是工作代码
function filter_tweets($db, $user_id, $from_utc, $to_utc,
$include = null, $include_logic = null,
$exclude = null, $exclude_logic = null) {
if (isset($exclude)) {
$exclude_sql = "
AND tweets.id NOT IN (\n"
. include_tweets($user_id, $from_utc, $to_utc, $exclude, $exclude_logic)
. "\n)";
} else {
$exclude_sql = '';
}
if (isset($include)) {
$sql = include_tweets($user_id, $from_utc, $to_utc, $include, $include_logic, $exclude_sql);
} else {
$sql = "
SELECT id FROM tweets
WHERE user_id = $user_id
AND created_at
BETWEEN '{$from_utc->format('Y-m-d H:i:s')}'
AND '{$to_utc ->format('Y-m-d H:i:s')}'
$exclude_sql";
}
$sql .= "\nORDER BY tweets.created_at ASC;";
return db_fetch_all($db, $sql);
}
它依赖此附加函数生成SQL:
function include_tweets($user_id, $from_utc, $to_utc, $include, $logic, $exclude_sql = '') {
$group_sql = '';
$include_sql = 'AND cats.name IN (';
$comma = '';
foreach ($include as $cat) {
$include_sql .= "$comma'$cat'";
$comma = ',';
}
$include_sql .= ')';
if ($logic == 'and')
$group_sql = 'GROUP BY tweets.id HAVING COUNT(*) = ' . count($include);
return "
SELECT tweets.id FROM tweets
LEFT OUTER JOIN tweets_cats ON tweets.id = tweets_cats.tweet_id
LEFT OUTER JOIN cats ON tweets_cats.cat_id = cats.id
WHERE tweets.user_id = $user_id
AND created_at
BETWEEN '{$from_utc->format('Y-m-d H:i:s')}'
AND '{$to_utc ->format('Y-m-d H:i:s')}'
$include_sql
$group_sql
$exclude_sql";
}
一种方法是将您的
tweets
表与连接表连接多次,例如:
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
JOIN tweet_cats AS tweet_cats_bar
ON tweet_cats_bar.tweet_id = tweets.id
WHERE
tweet_cats_foo.name = 'foo' AND tweet_cats_bar.name = 'bar'
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
AND tweet_cats_foo.name = 'foo'
JOIN tweet_cats AS tweet_cats_bar
ON tweet_cats_bar.tweet_id = tweets.id
AND tweet_cats_bar.name = 'bar'
SELECT tweets.*
FROM tweets
LEFT JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
AND tweet_cats_foo.name = 'foo'
WHERE
tweet_cats_foo.tweet_id IS NULL -- could use any non-null column here
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_wanted
ON tweet_cats_wanted.tweet_id = tweets.id
AND tweet_cats_wanted.name IN ('foo', 'bar')
LEFT JOIN tweet_cats AS tweet_cats_unwanted
ON tweet_cats_unwanted.tweet_id = tweets.id
AND tweet_cats_unwanted.name IN ('baz', 'blorgh', 'xyzzy')
WHERE
tweet_cats_unwanted.tweet_id IS NULL
GROUP BY tweets.id
HAVING COUNT(DISTINCT tweet_cats_wanted.name) = 2
或者,等价地,像这样:
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
JOIN tweet_cats AS tweet_cats_bar
ON tweet_cats_bar.tweet_id = tweets.id
WHERE
tweet_cats_foo.name = 'foo' AND tweet_cats_bar.name = 'bar'
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
AND tweet_cats_foo.name = 'foo'
JOIN tweet_cats AS tweet_cats_bar
ON tweet_cats_bar.tweet_id = tweets.id
AND tweet_cats_bar.name = 'bar'
SELECT tweets.*
FROM tweets
LEFT JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
AND tweet_cats_foo.name = 'foo'
WHERE
tweet_cats_foo.tweet_id IS NULL -- could use any non-null column here
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_wanted
ON tweet_cats_wanted.tweet_id = tweets.id
AND tweet_cats_wanted.name IN ('foo', 'bar')
LEFT JOIN tweet_cats AS tweet_cats_unwanted
ON tweet_cats_unwanted.tweet_id = tweets.id
AND tweet_cats_unwanted.name IN ('baz', 'blorgh', 'xyzzy')
WHERE
tweet_cats_unwanted.tweet_id IS NULL
GROUP BY tweets.id
HAVING COUNT(DISTINCT tweet_cats_wanted.name) = 2
注意,为了简单起见,我在上面假设您的连接表直接包含类别名称。如果坚持使用数字类别ID但按名称搜索类别,我建议创建一个视图,使用数字类别ID将类别和连接表连接在一起,并在查询中使用该视图而不是实际的连接表。这样,您就不必在查询中仅仅为了查找数字类别ID而包含一大堆不必要的样板代码
对于排除查询,您可以使用左联接
,并检查连接表中是否不存在匹配记录(在这种情况下,该表中的所有列都将为NULL
),如下所示:
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
JOIN tweet_cats AS tweet_cats_bar
ON tweet_cats_bar.tweet_id = tweets.id
WHERE
tweet_cats_foo.name = 'foo' AND tweet_cats_bar.name = 'bar'
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
AND tweet_cats_foo.name = 'foo'
JOIN tweet_cats AS tweet_cats_bar
ON tweet_cats_bar.tweet_id = tweets.id
AND tweet_cats_bar.name = 'bar'
SELECT tweets.*
FROM tweets
LEFT JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
AND tweet_cats_foo.name = 'foo'
WHERE
tweet_cats_foo.tweet_id IS NULL -- could use any non-null column here
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_wanted
ON tweet_cats_wanted.tweet_id = tweets.id
AND tweet_cats_wanted.name IN ('foo', 'bar')
LEFT JOIN tweet_cats AS tweet_cats_unwanted
ON tweet_cats_unwanted.tweet_id = tweets.id
AND tweet_cats_unwanted.name IN ('baz', 'blorgh', 'xyzzy')
WHERE
tweet_cats_unwanted.tweet_id IS NULL
GROUP BY tweets.id
HAVING COUNT(DISTINCT tweet_cats_wanted.name) = 2
(使用此方法,您确实需要在LEFT JOIN
子句中包含tweet\u cats\u foo.name='foo'
条件,而不是WHERE
子句。)
当然,你也可以把它们结合起来。例如,要在类别foo
中查找推文,而不是在bar
中查找推文,您可以执行以下操作:
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
AND tweet_cats_foo.name = 'foo'
LEFT JOIN tweet_cats AS tweet_cats_bar
ON tweet_cats_bar.tweet_id = tweets.id
AND tweet_cats_bar.name = 'bar'
WHERE
tweet_cats_bar.tweet_id IS NULL
或者,同样等效地:
SELECT tweets.*
FROM tweets
LEFT JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
AND tweet_cats_foo.name = 'foo'
LEFT JOIN tweet_cats AS tweet_cats_bar
ON tweet_cats_bar.tweet_id = tweets.id
AND tweet_cats_bar.name = 'bar'
WHERE
tweet_cats_foo.tweet_id IS NOT NULL
AND tweet_cats_bar.tweet_id IS NULL
另一种查找类别交叉点的方法是对连接表进行单个连接,根据tweet ID对结果进行分组,并使用
HAVING
子句计算每个tweet找到的匹配类别数:
SELECT tweets.*
FROM tweets
JOIN tweet_cats ON tweet_cats.tweet_id = tweets.id
WHERE
tweet_cats.name IN ('foo', 'bar')
GROUP BY tweets.id
HAVING COUNT(DISTINCT tweet_cats.name) = 2
此方法也可以通过使用第二个(左)连接来处理排除,例如:
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
JOIN tweet_cats AS tweet_cats_bar
ON tweet_cats_bar.tweet_id = tweets.id
WHERE
tweet_cats_foo.name = 'foo' AND tweet_cats_bar.name = 'bar'
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
AND tweet_cats_foo.name = 'foo'
JOIN tweet_cats AS tweet_cats_bar
ON tweet_cats_bar.tweet_id = tweets.id
AND tweet_cats_bar.name = 'bar'
SELECT tweets.*
FROM tweets
LEFT JOIN tweet_cats AS tweet_cats_foo
ON tweet_cats_foo.tweet_id = tweets.id
AND tweet_cats_foo.name = 'foo'
WHERE
tweet_cats_foo.tweet_id IS NULL -- could use any non-null column here
SELECT tweets.*
FROM tweets
JOIN tweet_cats AS tweet_cats_wanted
ON tweet_cats_wanted.tweet_id = tweets.id
AND tweet_cats_wanted.name IN ('foo', 'bar')
LEFT JOIN tweet_cats AS tweet_cats_unwanted
ON tweet_cats_unwanted.tweet_id = tweets.id
AND tweet_cats_unwanted.name IN ('baz', 'blorgh', 'xyzzy')
WHERE
tweet_cats_unwanted.tweet_id IS NULL
GROUP BY tweets.id
HAVING COUNT(DISTINCT tweet_cats_wanted.name) = 2
我还没有对这两种方法进行基准测试,以确定哪种方法更有效,我强烈建议在决定使用哪种方法之前进行测试。原则上,我希望多连接方法更易于数据库引擎优化,因为它清楚地映射到连接的交叉点,而对于
分组方式
拥有
方法一个幼稚的数据库可能会浪费大量精力首先查找与任何类别匹配的所有tweet,然后才应用拥有
子句过滤掉除与所有类别匹配的tweet之外的所有tweet。一个简单的测试用例可以是几个非常大的类别与一个非常小的类别的交集,我希望使用多重连接方法会更有效。但是当然,我们应该总是测试这些东西,而不是仅仅依靠直觉。你可能想在这里使用一些括号,只是一个猜测,因为我看不到任何东西,但是和这个或那个和和(这个或那个)
。。。没有看到完整的sql,谁知道呢。一个需要and之前的内容,然后是这个或那个,第二个需要and之前的内容,或者是这个或那个。@ArtisticPhoenix:观察得好。我会修正这个问题并编辑我的问题。非常感谢。好吧,这里有一个开始的想法:WHERE。。。在(…)组中,由。。。具有COUNT([DISTINCT]…)=2
(其中“2”等于中的数字或参数)@草莓:这非常适用于和类型包含。非常感谢你!非常感谢你的回答。这是一个有趣的方法。我没有想到在JOIN子句中查找匹配项。