在Python中,如何删除通过使用bs4抓取网站创建的5 MS Word(.doc)文件的前x字节?

在Python中,如何删除通过使用bs4抓取网站创建的5 MS Word(.doc)文件的前x字节?,python,web-scraping,ms-word,beautifulsoup,bs4,Python,Web Scraping,Ms Word,Beautifulsoup,Bs4,假设我有一个名为“Research”的文件夹,其中包含5个MS Word文件(essay1、essay2、essay3、essay4、essay5)。我想使用Python删除每个文件的前2000个字节(字符和空格)。如何做到这一点 为上下文编辑:我使用request和BeautifulSoup完成了我的第一个web抓取项目。我将文件保存为“article name”+“.doc”。它们似乎都是用word打开的,但它们在每篇文章上方有2000个不需要的字节(各种链接等等)。我正在Windows 1

假设我有一个名为“Research”的文件夹,其中包含5个MS Word文件(essay1、essay2、essay3、essay4、essay5)。我想使用Python删除每个文件的前2000个字节(字符和空格)。如何做到这一点

为上下文编辑:我使用request和BeautifulSoup完成了我的第一个web抓取项目。我将文件保存为“article name”+“.doc”。它们似乎都是用word打开的,但它们在每篇文章上方有2000个不需要的字节(各种链接等等)。我正在Windows 10中使用MS Word。Python 3.6

with open ('your file', 'rb') as f:
    f.seek(2000,1)
    data=f.read()
with open ('another file', 'w+') as f:
    f.write(data)
这(我认为)将读取文件中第2000位的数据,并将其写入另一个文件


我应该告诉你,这只会从文件中删除原始字节,而不一定是用文字处理器打开文件时显示的内容

清楚地说,您是指文档中显示的呈现文本,而不是可能存在的任何标题和标记?哪个版本的Word?要了解这是如何不可能的,我建议您执行以下操作。。。取一个word文件(somefile.docx)并将其重命名为zip文件:(somefile.zip)。解压它,并探索其内部结构。大多数实际文本存储在/word/document.xml下(注意,如果使用7zip,则无需更改名称,只需右键单击并在7zip上下文菜单下选择“打开存档”),以下是更多上下文。我做了我的第一个网页抓取项目。我将文件保存为“article name”+“.doc”。它们似乎都是用word打开的,但它们在每篇文章上方有2000个不需要的字节(各种链接等等)。所有文件都有这些不需要的2000字节。我想删除它们。请注意,'97-'03(.doc)使用自定义二进制格式,而不是在内部使用xml,如果您使用记事本++打开该格式,它在记事本++中(某种程度上)是可读的,还是二进制垃圾?这听起来有点像这些文件实际上不是.doc文件,而只是用.doc扩展名命名明文数据。这确实会从文件的开头盲切2000字节,但根据评论,我不确定OP是否非常清楚需要做什么。他谈论它的方式是,他想从一个完整的html页面中提取纯文本文章。更新:我使用bs4来提取包含文章文本的div标记。我将其保存为x,并执行file.write(str(x))。这种方法省去了所有多余的垃圾;但是,这一次html标记在那里。似乎唯一的选择是(1)使用request.get中的内容(除了文章前面的所有超链接外,它看起来很棒)和(2)file.write(str(x))选项。如果有一种方法可以使用requests.get获取我想要的页面部分,那就太好了。但我想这不是一个选项,因为请求不会解析html。