Python 从PDF文件中提取标题?
我想写一个脚本,用它们的标题自动重命名下载的论文,我想知道是否有我可以利用的库或技巧?PDF都是由TeX生成的,应该有一些“正式”的结构。我可能会从perl开始(因为它始终是我要做的第一件事)。有。如果你有一个一致的结构,你可以使用正则表达式来捕捉标题。你可以尝试使用and 例如:Python 从PDF文件中提取标题?,python,pdf,Python,Pdf,我想写一个脚本,用它们的标题自动重命名下载的论文,我想知道是否有我可以利用的库或技巧?PDF都是由TeX生成的,应该有一些“正式”的结构。我可能会从perl开始(因为它始终是我要做的第一件事)。有。如果你有一个一致的结构,你可以使用正则表达式来捕捉标题。你可以尝试使用and 例如: from pyPdf import PdfFileWriter, PdfFileReader def get_pdf_title(pdf_file_path): with open(pdf_file_pat
from pyPdf import PdfFileWriter, PdfFileReader
def get_pdf_title(pdf_file_path):
with open(pdf_file_path) as f:
pdf_reader = PdfFileReader(f)
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('/home/user/Desktop/my.pdf')
您可以尝试使用with假设所有这些论文都来自arXiv,您可以提取arXiv id(我猜在PDF文本中搜索“arXiv:”会始终显示第一次点击的id) 一旦您有了arXiv参考号(并完成了
pip安装arXiv
),您就可以使用
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title
您从哪里获得PDF标题?该信息是否需要从PDF文档属性或PDF内容中提取,或者您是否从其他来源提取该信息?for me
title=untitled