Python 从PDF文件中提取标题?

Python 从PDF文件中提取标题?,python,pdf,Python,Pdf,我想写一个脚本,用它们的标题自动重命名下载的论文,我想知道是否有我可以利用的库或技巧?PDF都是由TeX生成的,应该有一些“正式”的结构。我可能会从perl开始(因为它始终是我要做的第一件事)。有。如果你有一个一致的结构,你可以使用正则表达式来捕捉标题。你可以尝试使用and 例如: from pyPdf import PdfFileWriter, PdfFileReader def get_pdf_title(pdf_file_path): with open(pdf_file_pat

我想写一个脚本,用它们的标题自动重命名下载的论文,我想知道是否有我可以利用的库或技巧?PDF都是由TeX生成的,应该有一些“正式”的结构。

我可能会从perl开始(因为它始终是我要做的第一件事)。有。如果你有一个一致的结构,你可以使用正则表达式来捕捉标题。

你可以尝试使用and

例如:

from pyPdf import PdfFileWriter, PdfFileReader

def get_pdf_title(pdf_file_path):
    with open(pdf_file_path) as f:
        pdf_reader = PdfFileReader(f) 
        return pdf_reader.getDocumentInfo().title

title = get_pdf_title('/home/user/Desktop/my.pdf')

您可以尝试使用with

假设所有这些论文都来自arXiv,您可以提取arXiv id(我猜在PDF文本中搜索“arXiv:”会始终显示第一次点击的id)

一旦您有了arXiv参考号(并完成了
pip安装arXiv
),您就可以使用

paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title

您从哪里获得PDF标题?该信息是否需要从PDF文档属性或PDF内容中提取,或者您是否从其他来源提取该信息?for me
title=untitled