有没有一种方法可以使用python请求访问实际上是PDF的网页？_Python_Pdf_Python Requests

有没有一种方法可以使用python请求访问实际上是PDF的网页？

python pdf

有没有一种方法可以使用python请求访问实际上是PDF的网页？,python,pdf,python-requests,Python,Pdf,Python Requests,我正在尝试使用request下载一些实际上是PDF的网页的内容我尝试了以下代码，但返回的输出似乎没有正确解码： link= 'http://www.pdf995.com/samples/pdf.pdf' import requests r = requests.get(link) r.text 输出如下所示： “%PDF-1.3\n%�쏢\n30 0对象\n\n流\nx��}ݓ%�M��\x15S�%怒族��M&O7�㛔]ql��+韩元�+ْ%��/~\x00��=��{fe

我正在尝试使用request下载一些实际上是PDF的网页的内容

我尝试了以下代码，但返回的输出似乎没有正确解码：

link= 'http://www.pdf995.com/samples/pdf.pdf'
import requests
r = requests.get(link)
r.text

输出如下所示：

“%PDF-1.3\n%�쏢\n30 0对象\n\n流\nx��}ݓ%�M��\x15S�%怒族��M&O7�㛔]ql��+韩元�+ْ%��/~\x00��=��{feY�T�\x05��\R�\x00�/��Q�8.�8.�\x7f�\x7f�~��\x1f�ܷ�O�Z�7.�7.�o\x1f��7.�\'�{��\x7f\u r�\x10� 是的；PDF文件是二进制文件，而不是文本文件，因此您应该使用r.content而不是r.text来访问二进制数据

PDF文件不容易以编程方式处理；但您可以将其保存到文件中：

导入请求链接http://www.pdf995.com/samples/pdf.pdf' r=requests.getlink 打开“pdf.pdf”，“wb”作为f： f、作者内容

获取html是什么意思？PDF和html是两种不同的格式。是否要从PDF中提取文本？抱歉，我正在尝试获取如下输出：'\n\n\n您请求的URL中没有此类内容。您不应该期望收到html，因为没有发送html。使用selenium，我可以做到：driver.getlink driver.implicitly_wait10 sleep10 html_source=driver.page_source soup_source=bshtml_source，'html.parser'font_span=[soup源中数据的数据。如果strdata中的'font size'选择'span]输出=[]对于i in font_span:tup=fonts\u size=re.searchr'？isfont size:.*px'，stri.get'style'.group2 tup=stri.text.strip，fonts\u size.strip output.appendtup-这是为了获取字体大小，例如，我正试图获取的字体大小。Elenium是一个与浏览器交互的库。我怀疑Selenium正在为您提供HTMLt您的浏览器用于在浏览器选项卡中嵌入PDF文件。该HTML代码不是由服务器发送的。r.content似乎以以下格式返回内容：\xdd\x93%\xb7m\xef\xfb\xfc\x15S\xf7%NU\xf6\xb8等二进制数据。如果您想查看它，您必须使用PDF查看应用程序，如Adobe Acrobat或SumatraPDF，或大多数浏览器。