Python 性能:炼金术和或

Python 性能:炼金术和或,python,mysql,sqlalchemy,Python,Mysql,Sqlalchemy,我使用以下sqlalchemy代码从数据库中检索一些数据 q = session.query(hd_tbl).\ join(dt_tbl, hd_tbl.c['data_type'] == dt_tbl.c['ID']).\ filter(or_(and_(hd_tbl.c['object_id'] == get_id(row['object']), hd_tbl.c['data_type'] == get_id(row['type']),

我使用以下sqlalchemy代码从数据库中检索一些数据

q = session.query(hd_tbl).\
    join(dt_tbl, hd_tbl.c['data_type'] == dt_tbl.c['ID']).\
    filter(or_(and_(hd_tbl.c['object_id'] == get_id(row['object']),
                    hd_tbl.c['data_type'] == get_id(row['type']),
                    hd_tbl.c['data_provider'] == get_id(row['provider']),
                    hd_tbl.c['data_account'] == get_id(row['account']))
           for index, row in data.iterrows())).\
    with_entities(hd_tbl.c['ID'], hd_tbl.c['object_id'],
                  hd_tbl.c['data_type'], hd_tbl.c['data_provider'],
                  hd_tbl.c['data_account'], dt_tbl.c['value_type'])
其中,
hd_tbl
dt_tbl
是sql db中的两个表,
data
是数据帧,通常包含大约1k-9k个条目<代码>hd_tbl目前包含约90k行

执行时间似乎随着
数据的长度呈指数增长。相应的sql语句(由sqlalchemy编写)如下所示:

SELECT data_header.`ID`, data_header.object_id, data_header.data_type, data_header.data_provider, data_header.data_account, basedata_data_type.value_type 
FROM data_header INNER JOIN basedata_data_type ON data_header.data_type = basedata_data_type.`ID` 
WHERE data_header.object_id = %s AND data_header.data_type = %s AND data_header.data_provider = %s AND data_header.data_account = %s OR 
data_header.object_id = %s AND data_header.data_type = %s AND data_header.data_provider = %s AND data_header.data_account = %s OR
 ...
 data_header.object_id = %s AND data_header.data_type = %s AND data_header.data_provider = %s AND data_header.data_account = %s OR 
表和列被完全索引,性能不令人满意。目前,将
hd_tbl
dt_tbl
的所有数据读入内存并使用pandas merge函数进行合并要快得多。然而,这似乎是次优的。有人对如何改进sqlalchemy调用有想法吗

编辑: 我通过以下方式使用sqlalchemy tuple_uu显著提高了性能:

header_tuples = [tuple([int(y) for y in tuple(x)]) for x in
                 data_as_int.values]
q = session.query(hd_tbl). \
    join(dt_tbl, hd_tbl.c['data_type'] == dt_tbl.c['ID']). \
    filter(tuple_(hd_tbl.c['object_id'], hd_tbl.c['data_type'],
                  hd_tbl.c['data_provider'],
                  hd_tbl.c['data_account']).in_(header_tuples)). \
    with_entities(hd_tbl.c['ID'], hd_tbl.c['object_id'],
                  hd_tbl.c['data_type'], hd_tbl.c['data_provider'],
                  hd_tbl.c['data_account'], dt_tbl.c['value_type'])
与相应的查询

SELECT data_header.`ID`, data_header.object_id, data_header.data_type, data_header.data_provider, data_header.data_account, basedata_data_type.value_type 
FROM data_header INNER JOIN basedata_data_type ON data_header.data_type = basedata_data_type.`ID` 
WHERE (data_header.object_id, data_header.data_type, data_header.data_provider, data_header.data_account) IN ((%(param_1)s, %(param_2)s, %(param_3)s, %(param_4)s), (%(param_5)s, ...))

我建议您在字段
object\u id
data\u type
data\u provider
上创建一个复合索引,并确保它们在WHERE条件下的顺序相同。它可能会通过占用磁盘空间来提高您的请求速度

此外,您还可以使用几个后续的小SQL请求,而不是具有复杂
条件的大查询。在应用程序端累积提取的数据,如果数据量足够大,则在快速临时存储(临时表、noSQL等)中累积提取的数据

此外,您可以检查MySQL配置并增加与每个线程的内存量、请求等相关的值。一个好主意是检查您的复合索引是否适合可用内存,或者它是否无用


我想DB调优可能对提高生产率有很大帮助。否则,您可能会分析应用程序的体系结构以获得更重要的结果。

当然,这会很慢;通过在其中一个表上循环并构造一个包含数千个条件的大型
WHERE
子句,您正在执行一个
JOIN
。您需要从数据帧创建一个临时表,并进行适当的
联接