Python:如何将字典值与文件名匹配?

Python:如何将字典值与文件名匹配?,python,dictionary,pdf,spacy,textacy,Python,Dictionary,Pdf,Spacy,Textacy,我对Python比较陌生,正在努力解决以下问题: 我有一个大约52000本字典的列表,其中包含PDF上的元数据(单独存储)。现在,我想将这些PDF中的5000个匹配到它们相应的元数据字典,但我不确定如何做到这一点 元数据: [{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code'

我对Python比较陌生,正在努力解决以下问题:

我有一个大约52000本字典的列表,其中包含PDF上的元数据(单独存储)。现在,我想将这些PDF中的5000个匹配到它们相应的元数据字典,但我不确定如何做到这一点

元数据:

[{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code': '5837_c', ...}, ...]
PDF文件名对应于“代码”值(即文件名为5346、8372、3475_c、0294、5837_c等,总是三个、四个或五个数字或三个、四个或五个数字加上_c)。是否有一种方法可以使用PDF的文件名将PDF匹配到元数据词典列表中的正确词典

其他解决方案也非常受欢迎

编辑:我的目标是创建一个文本语料库,其中每个条目都是一个文本文档(即一个PDF的内容)及其相应的文本元数据(即PDF元数据)

从Textacy的文档中: “[元数据]流必须与
文本
文档
精确对齐,否则元数据将被错误分配。更具体地说,
元数据
中的第一项将被分配给
文本
文档
中的第一项,依此类推。” 这就是我希望将PDF与正确的元数据匹配的原因。

dict((x['code'],x)表示x in)
dict((x['Code'],x) for x in <YOUR_LIST>)

您如何存储文件名的可能重复?它们是否包含在列表中?不,我只在PDF中阅读了,因为我想在以后对文本进行分析。问题是我想创建一个包含PDF及其元数据的文本语料库,只是在之后进行分析。不确定我们能为您做些什么。。你说的“将PDF与词典匹配”是什么意思?喜欢文件路径吗?代码的结果应该是什么?在第一个示例中,您有一个字典列表。根据您的解释,我了解到每个字典的“Code”键都包含一个值或一组值。这些值中的每一个都可以作为实际文件名找到。您的问题是如何在特定位置搜索这些文件名?欢迎使用Stack Overflow!感谢您提供这段代码片段,它可能会提供一些即时帮助。通过说明为什么这是一个很好的解决问题的方法,正确地解释它的教育价值,并将使它对未来有类似但不完全相同问题的读者更有用。请在回答中添加解释,并说明适用的限制和假设。
dict((x['Code'],x) for x in <YOUR_LIST>)