Python 从PDF文件中提取标题？_Python_Pdf

Python 从PDF文件中提取标题？

python pdf

Python 从PDF文件中提取标题？,python,pdf,Python,Pdf,我想写一个脚本，用它们的标题自动重命名下载的论文，我想知道是否有我可以利用的库或技巧？PDF都是由TeX生成的，应该有一些“正式”的结构。我可能会从perl开始（因为它始终是我要做的第一件事）。有。如果你有一个一致的结构，你可以使用正则表达式来捕捉标题。你可以尝试使用and 例如： from pyPdf import PdfFileWriter, PdfFileReader def get_pdf_title(pdf_file_path): with open(pdf_file_pat

我想写一个脚本，用它们的标题自动重命名下载的论文，我想知道是否有我可以利用的库或技巧？PDF都是由TeX生成的，应该有一些“正式”的结构。

我可能会从perl开始（因为它始终是我要做的第一件事）。有。如果你有一个一致的结构，你可以使用正则表达式来捕捉标题。

你可以尝试使用and

例如：

from pyPdf import PdfFileWriter, PdfFileReader

def get_pdf_title(pdf_file_path):
    with open(pdf_file_path) as f:
        pdf_reader = PdfFileReader(f) 
        return pdf_reader.getDocumentInfo().title

title = get_pdf_title('/home/user/Desktop/my.pdf')

您可以尝试使用with

假设所有这些论文都来自arXiv，您可以提取arXiv id（我猜在PDF文本中搜索“arXiv:”会始终显示第一次点击的id）

一旦您有了arXiv参考号（并完成了

pip安装arXiv

），您就可以使用

paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title

您从哪里获得PDF标题？该信息是否需要从PDF文档属性或PDF内容中提取，或者您是否从其他来源提取该信息？for me

title=untitled