如何从http url下载带有原始数据的python ms word docx文件

如何从http url下载带有原始数据的python ms word docx文件,python,web-scraping,Python,Web Scraping,如果在浏览器中点击以下url,将下载docx文件,我想用python自动下载 我试过以下方法 from docx import Document import requests import json from bs4 import BeautifulSoup dwnurl = 'https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDID

如果在浏览器中点击以下url,将下载docx文件,我想用python自动下载

我试过以下方法

from docx import Document
import requests
import json
from bs4 import BeautifulSoup
dwnurl = 'https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDIDI%20v.%20THE%20UNITED%20KINGDOM.docx&logEvent=False'
doc = requests.get(dwnurl)

print(doc.content) #printing the document like b'PK\x03\x04\x14\x00\x06\x00\x08\x00\x00\x00!\x00!\xfb\x16\x01\x16\x02\x00\x00\xec\x0c\x00\x00\x13\x00\xc4\x01[Content_Types].xml \xa2\xc0\

print(doc.raw)  #printing the document like <urllib3.response.HTTPResponse object at 0x063D8BD0>

document = Document(doc.content)
document.save('test.docx')

#on document.save i have facing these issues
来自docx导入文档
导入请求
导入json
从bs4导入BeautifulSoup
德努尔https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDIDI%20v.%20THE%20UNITED%20KINGDOM.docx&logEvent=False'
doc=requests.get(dwnurl)
打印(doc.content)#像b'PK\x03\x04\x14\x00\x06\x00\x08\x00\x00\x00那样打印文档\x00\xfb\x16\x01\x16\x02\x00\x00\xec\x0c\x00\x00\x13\x00\xc4\x01[内容类型]。xml\xa2\xc0\
打印(doc.raw)#打印文档
文档=文档(文档内容)
document.save('test.docx')
#关于document.save,我面临着这些问题
回溯(最近一次呼叫最后一次):
文件“scraping_hudoc.py”,第40行,在
文档=文档(文档内容)
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\site packages\docx\api.py”,第25行,在文档中
document\u part=Package.open(docx).main\u document\u part
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\site packages\docx\opc\package.py”,第116行,打开
pkg_reader=PackageReader.from_文件(pkg_文件)
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\site packages\docx\opc\pkgreader.py”,第32行,在from\U文件中
phys_reader=physpkgrader(pkg_文件)
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\site packages\docx\opc\phys\u pkg.py”,第101行,在\uuu init中__
self.\u zipf=ZipFile(打包文件'r')
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\zipfile.py”,第1108行,在uu init中__
self.\u RealGetContents()
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\zipfile.py”,第1171行,在_RealGetContents中
endrec=_EndRecData(fp)
文件“C:\Users\204387\AppData\Local\Programs\Python\Python36-32\lib\zipfile.py”,第241行,在_EndRecData中
fpin.seek(0,2)

AttributeError:“bytes”对象没有属性“seek”

我已通过此命令保存了ms word docx文件

import requests
def save_link(book_link, book_name):
    the_book = requests.get(book_link, stream=True)
    with open(book_name, 'wb') as f:
      for chunk in the_book.iter_content(1024 * 1024 * 2):  # 2 MB chunks
        f.write(chunk)

save_link("https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDIDI%20v.%20THE%20UNITED%20KINGDOM.docx&logEvent=False","CASE OF NDIDI v. THE UNITED KINGDOM.docx")

我已通过此文件保存了ms word docx文件

import requests
def save_link(book_link, book_name):
    the_book = requests.get(book_link, stream=True)
    with open(book_name, 'wb') as f:
      for chunk in the_book.iter_content(1024 * 1024 * 2):  # 2 MB chunks
        f.write(chunk)

save_link("https://hudoc.echr.coe.int/app/conversion/docx/?library=ECHR&id=001-176931&filename=CASE%20OF%20NDIDI%20v.%20THE%20UNITED%20KINGDOM.docx&logEvent=False","CASE OF NDIDI v. THE UNITED KINGDOM.docx")

“我试过……”发生了什么事?你收到错误消息了吗?如果您这样做了,请将整个消息粘贴到您的问题中。@DyZ我已用错误更新了代码。“我已尝试…”-发生了什么?你收到错误消息了吗?如果您这样做了,请将整个消息粘贴到您的问题中。@DyZ我已经用错误更新了代码。这应该是您所需要做的一切。@SteveBarnes-ya谢谢您,兄弟,我只是在这里保留我的输出,这应该是您所需要做的一切。@SteveBarnes-ya谢谢您,兄弟,我只是在这里保留我的输出