Python：如何将字典值与文件名匹配？_Python_Dictionary_Pdf_Spacy_Textacy

Python：如何将字典值与文件名匹配？

python dictionary pdf

Python：如何将字典值与文件名匹配？,python,dictionary,pdf,spacy,textacy,Python,Dictionary,Pdf,Spacy,Textacy,我对Python比较陌生，正在努力解决以下问题：我有一个大约52000本字典的列表，其中包含PDF上的元数据（单独存储）。现在，我想将这些PDF中的5000个匹配到它们相应的元数据字典，但我不确定如何做到这一点元数据： [{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code'

我对Python比较陌生，正在努力解决以下问题：

我有一个大约52000本字典的列表，其中包含PDF上的元数据（单独存储）。现在，我想将这些PDF中的5000个匹配到它们相应的元数据字典，但我不确定如何做到这一点

元数据：

[{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code': '5837_c', ...}, ...]

PDF文件名对应于“代码”值（即文件名为5346、8372、3475_c、0294、5837_c等，总是三个、四个或五个数字或三个、四个或五个数字加上_c）。是否有一种方法可以使用PDF的文件名将PDF匹配到元数据词典列表中的正确词典

其他解决方案也非常受欢迎

编辑：我的目标是创建一个文本语料库，其中每个条目都是一个文本文档（即一个PDF的内容）及其相应的文本元数据（即PDF元数据）

从Textacy的文档中： “[元数据]流必须与

文本

或

文档

精确对齐，否则元数据将被错误分配。更具体地说，

元数据

中的第一项将被分配给

文本

或

文档

中的第一项，依此类推。” 这就是我希望将PDF与正确的元数据匹配的原因。

dict（（x['code']，x）表示x in）
dict((x['Code'],x) for x in <YOUR_LIST>)

您如何存储文件名的可能重复？它们是否包含在列表中？不，我只在PDF中阅读了，因为我想在以后对文本进行分析。问题是我想创建一个包含PDF及其元数据的文本语料库，只是在之后进行分析。不确定我们能为您做些什么。。你说的“将PDF与词典匹配”是什么意思？喜欢文件路径吗？代码的结果应该是什么？在第一个示例中，您有一个字典列表。根据您的解释，我了解到每个字典的“Code”键都包含一个值或一组值。这些值中的每一个都可以作为实际文件名找到。您的问题是如何在特定位置搜索这些文件名？欢迎使用Stack Overflow！感谢您提供这段代码片段，它可能会提供一些即时帮助。通过说明为什么这是一个很好的解决问题的方法，正确地解释它的教育价值，并将使它对未来有类似但不完全相同问题的读者更有用。请在回答中添加解释，并说明适用的限制和假设。

dict((x['Code'],x) for x in <YOUR_LIST>)