Python 如何有效地';查询';多个tsv文件?

Python 如何有效地';查询';多个tsv文件?,python,database,pandas,csv,Python,Database,Pandas,Csv,我有大约40个tsv文件,每个tsv的大小从250mb到3GB不等。我希望从TSV中提取数据,其中行包含某些值 我目前的方法远远没有效率: nums_to_look=['23462346'、'35641264'、…、'35169331']#大约是我感兴趣的40k值 all_tsv_files=glob.glob(路径_到_files+'*.tsv') 所有_dfs=[] 对于所有_tsv_文件中的文件: df=pd.read\u csv(文件,sep='\t') #提取与nums\u to\u

我有大约40个tsv文件,每个tsv的大小从250mb到3GB不等。我希望从TSV中提取数据,其中行包含某些值

我目前的方法远远没有效率:

nums_to_look=['23462346'、'35641264'、…、'35169331']#大约是我感兴趣的40k值
all_tsv_files=glob.glob(路径_到_files+'*.tsv')
所有_dfs=[]
对于所有_tsv_文件中的文件:
df=pd.read\u csv(文件,sep='\t')
#提取与nums\u to\u look中的值匹配的行
df=df[df['col\u of_interest'].isin(nums\u to\u look)]。重置索引(drop=True)
所有dfs.append(df)
当然有一种更有效的方法可以做到这一点,而不必完全读取每个文件,并遍历整个文件

如有任何想法/见解,将不胜感激


谢谢

不是真的。TSV是一种存储格式,而不是数据库。如果您计划对同一数据进行多个查询,那么首先将数据读入合适的数据结构是值得的,但是对于一次性查询,不,线性扫描是最好的选择。Cheers@chepner。这是有道理的。是否有值得使用的特定数据结构?