如何从http url下载带有原始数据的python ms word docx文件_Python_Web Scraping

如何从http url下载带有原始数据的python ms word docx文件

python web-scraping

如何从http url下载带有原始数据的python ms word docx文件,python,web-scraping,Python,Web Scraping,如果在浏览器中点击以下url，将下载docx文件，我想用python自动下载我试过以下方法 from docx import Document import requests import json from bs4 import BeautifulSoup dwnurl = 'https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDID

如果在浏览器中点击以下url，将下载docx文件，我想用python自动下载

我试过以下方法

from docx import Document
import requests
import json
from bs4 import BeautifulSoup
dwnurl = 'https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDIDI%20v.%20THE%20UNITED%20KINGDOM.docx&logEvent=False'
doc = requests.get(dwnurl)

print(doc.content) #printing the document like b'PK\x03\x04\x14\x00\x06\x00\x08\x00\x00\x00!\x00!\xfb\x16\x01\x16\x02\x00\x00\xec\x0c\x00\x00\x13\x00\xc4\x01[Content_Types].xml \xa2\xc0\

print(doc.raw)  #printing the document like <urllib3.response.HTTPResponse object at 0x063D8BD0>

document = Document(doc.content)
document.save('test.docx')

#on document.save i have facing these issues

来自docx导入文档
导入请求
导入json
从bs4导入BeautifulSoup
德努尔https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDIDI%20v.%20THE%20UNITED%20KINGDOM.docx&logEvent=False'
doc=requests.get（dwnurl）
打印（doc.content）#像b'PK\x03\x04\x14\x00\x06\x00\x08\x00\x00\x00那样打印文档\x00\xfb\x16\x01\x16\x02\x00\x00\xec\x0c\x00\x00\x13\x00\xc4\x01[内容类型]。xml\xa2\xc0\
打印（doc.raw）#打印文档
文档=文档（文档内容）
document.save（'test.docx'）
#关于document.save，我面临着这些问题

回溯（最近一次呼叫最后一次）：
文件“scraping_hudoc.py”，第40行，在
文档=文档（文档内容）
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\site packages\docx\api.py”，第25行，在文档中
document\u part=Package.open（docx）.main\u document\u part
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\site packages\docx\opc\package.py”，第116行，打开
pkg_reader=PackageReader.from_文件（pkg_文件）
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\site packages\docx\opc\pkgreader.py”，第32行，在from\U文件中
phys_reader=physpkgrader（pkg_文件）
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\site packages\docx\opc\phys\u pkg.py”，第101行，在\uuu init中__
self.\u zipf=ZipFile（打包文件'r'）
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\zipfile.py”，第1108行，在uu init中__
self.\u RealGetContents（）
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\zipfile.py”，第1171行，在_RealGetContents中
endrec=_EndRecData（fp）
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\zipfile.py”，第241行，在_EndRecData中
fpin.seek（0,2）
AttributeError:“bytes”对象没有属性“seek”

我已通过此命令保存了ms word docx文件

import requests
def save_link(book_link, book_name):
    the_book = requests.get(book_link, stream=True)
    with open(book_name, 'wb') as f:
      for chunk in the_book.iter_content(1024 * 1024 * 2):  # 2 MB chunks
        f.write(chunk)

save_link("https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDIDI%20v.%20THE%20UNITED%20KINGDOM.docx&logEvent=False","CASE OF NDIDI v. THE UNITED KINGDOM.docx")

我已通过此文件保存了ms word docx文件

import requests
def save_link(book_link, book_name):
    the_book = requests.get(book_link, stream=True)
    with open(book_name, 'wb') as f:
      for chunk in the_book.iter_content(1024 * 1024 * 2):  # 2 MB chunks
        f.write(chunk)

save_link("https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDIDI%20v.%20THE%20UNITED%20KINGDOM.docx&logEvent=False","CASE OF NDIDI v. THE UNITED KINGDOM.docx")

“我试过……”发生了什么事？你收到错误消息了吗？如果您这样做了，请将整个消息粘贴到您的问题中。@DyZ我已用错误更新了代码。“我已尝试…”-发生了什么？你收到错误消息了吗？如果您这样做了，请将整个消息粘贴到您的问题中。@DyZ我已经用错误更新了代码。这应该是您所需要做的一切。@SteveBarnes-ya谢谢您，兄弟，我只是在这里保留我的输出，这应该是您所需要做的一切。@SteveBarnes-ya谢谢您，兄弟，我只是在这里保留我的输出