有没有一种方法可以使用python请求访问实际上是PDF的网页?

有没有一种方法可以使用python请求访问实际上是PDF的网页?,python,pdf,python-requests,Python,Pdf,Python Requests,我正在尝试使用request下载一些实际上是PDF的网页的内容 我尝试了以下代码,但返回的输出似乎没有正确解码: link= 'http://www.pdf995.com/samples/pdf.pdf' import requests r = requests.get(link) r.text 输出如下所示: “%PDF-1.3\n%�쏢\n30 0对象\n\n流\nx��}ݓ%�M���\x15S�%怒族���M&O7�㛔]ql�����+韩元�+ْ%���/~\x00��=����{fe

我正在尝试使用request下载一些实际上是PDF的网页的内容

我尝试了以下代码,但返回的输出似乎没有正确解码:

link= 'http://www.pdf995.com/samples/pdf.pdf'
import requests
r = requests.get(link)
r.text
输出如下所示:
“%PDF-1.3\n%�쏢\n30 0对象\n\n流\nx��}ݓ%�M���\x15S�%怒族���M&O7�㛔]ql�����+韩元�+ْ%���/~\x00��=����{feY�T�\x05��\R�\x00�/���Q�8.�8.�\x7f�\x7f�~����\x1f�ܷ�O�Z�7.�7.�o\x1f����7.�\'�{��\x7f\u r�\x10� 是的;PDF文件是二进制文件,而不是文本文件,因此您应该使用r.content而不是r.text来访问二进制数据

PDF文件不容易以编程方式处理;但您可以将其保存到文件中:

导入请求 链接http://www.pdf995.com/samples/pdf.pdf' r=requests.getlink 打开“pdf.pdf”,“wb”作为f: f、 作者内容
获取html是什么意思?PDF和html是两种不同的格式。是否要从PDF中提取文本?抱歉,我正在尝试获取如下输出:'\n\n\n您请求的URL中没有此类内容。您不应该期望收到html,因为没有发送html。使用selenium,我可以做到:driver.getlink driver.implicitly_wait10 sleep10 html_source=driver.page_source soup_source=bshtml_source,'html.parser'font_span=[soup源中数据的数据。如果strdata中的'font size'选择'span]输出=[]对于i in font_span:tup=fonts\u size=re.searchr'?isfont size:.*px',stri.get'style'.group2 tup=stri.text.strip,fonts\u size.strip output.appendtup-这是为了获取字体大小,例如,我正试图获取的字体大小。Elenium是一个与浏览器交互的库。我怀疑Selenium正在为您提供HTMLt您的浏览器用于在浏览器选项卡中嵌入PDF文件。该HTML代码不是由服务器发送的。r.content似乎以以下格式返回内容:\xdd\x93%\xb7m\xef\xfb\xfc\x15S\xf7%NU\xf6\xb8等二进制数据。如果您想查看它,您必须使用PDF查看应用程序,如Adobe Acrobat或SumatraPDF,或大多数浏览器。