在Python中下载多个PDF_Python_Pdf_Web Scraping_Python Requests

在Python中下载多个PDF

python pdf web-scraping

在Python中下载多个PDF,python,pdf,web-scraping,python-requests,Python,Pdf,Web Scraping,Python Requests,我从一个网站上抓取了一个pdf链接列表（如链接的url），并将它们保存在一个txt文档中。我已经检查过了，它们是一个字符串。现在我需要把它们全部下载下来。我的代码在Jupyter笔记本中工作，但当我尝试打开PDF时，它会打开internet explorer，然后说“无法打开PDF” 我知道这适用于单个pdf链接（文件名/数据周围没有str（）），但如何使其适用于多个链接这是我的代码： with open('minutelinks.txt', 'r') as file: data =

我从一个网站上抓取了一个pdf链接列表（如链接的url），并将它们保存在一个txt文档中。我已经检查过了，它们是一个字符串。现在我需要把它们全部下载下来。我的代码在Jupyter笔记本中工作，但当我尝试打开PDF时，它会打开internet explorer，然后说“无法打开PDF”

我知道这适用于单个pdf链接（文件名/数据周围没有str（）），但如何使其适用于多个链接

这是我的代码：

with open('minutelinks.txt', 'r') as file:
    data = file.read()

urls = (str(data))
import requests 
r = requests.get(urls)

with open("gmcaminutes.pdf", "wb") as code:
    code.write(r.content)

它保存pdf，但无法打开它

理想情况下，我想要一个包含从字符串下载的所有PDF的PDF。谢谢

试试：

from PyPDF2 import PdfFileMerger
import requests
urls = ['https://www.tutorialspoint.com/python/python_tutorial.pdf', "https://www.guru99.com/pdf/c_programming_preview.pdf"]

merger = PdfFileMerger()
for url in urls:
    response = requests.get(url)
    title = url.split("/")[-1]
    with open(title, 'wb') as f:
        f.write(response.content)
    merger.append(title)

merger.write("result.pdf")
merger.close()

听起来像是

code。write

无法生成格式正确的PDF文件。

文件gmcaminutes.pdf

的输出说明文件类型是什么？@NathanMcCoy pdf Filetry fith PdfFileMerger合并pdf文件这适用于您给出的示例，但不适用于我的“数据”。有什么建议吗？更新-我想我已经发现了问题-我的“数据”文件中的链接没有以.pdf结尾，所以我更新了我以前的脚本，使它们以.pdf结尾，希望现在能够工作