在Python中，如何删除通过使用bs4抓取网站创建的5 MS Word（.doc）文件的前x字节？_Python_Web Scraping_Ms Word_Beautifulsoup_Bs4

在Python中，如何删除通过使用bs4抓取网站创建的5 MS Word（.doc）文件的前x字节？

python web-scraping ms-word

在Python中，如何删除通过使用bs4抓取网站创建的5 MS Word（.doc）文件的前x字节？,python,web-scraping,ms-word,beautifulsoup,bs4,Python,Web Scraping,Ms Word,Beautifulsoup,Bs4,假设我有一个名为“Research”的文件夹，其中包含5个MS Word文件（essay1、essay2、essay3、essay4、essay5）。我想使用Python删除每个文件的前2000个字节（字符和空格）。如何做到这一点为上下文编辑：我使用request和BeautifulSoup完成了我的第一个web抓取项目。我将文件保存为“article name”+“.doc”。它们似乎都是用word打开的，但它们在每篇文章上方有2000个不需要的字节（各种链接等等）。我正在Windows 1

假设我有一个名为“Research”的文件夹，其中包含5个MS Word文件（essay1、essay2、essay3、essay4、essay5）。我想使用Python删除每个文件的前2000个字节（字符和空格）。如何做到这一点

为上下文编辑：我使用request和BeautifulSoup完成了我的第一个web抓取项目。我将文件保存为“article name”+“.doc”。它们似乎都是用word打开的，但它们在每篇文章上方有2000个不需要的字节（各种链接等等）。我正在Windows 10中使用MS Word。Python 3.6

with open ('your file', 'rb') as f:
    f.seek(2000,1)
    data=f.read()
with open ('another file', 'w+') as f:
    f.write(data)

这（我认为）将读取文件中第2000位的数据，并将其写入另一个文件

我应该告诉你，这只会从文件中删除原始字节，而不一定是用文字处理器打开文件时显示的内容

清楚地说，您是指文档中显示的呈现文本，而不是可能存在的任何标题和标记？哪个版本的Word？要了解这是如何不可能的，我建议您执行以下操作。。。取一个word文件（somefile.docx）并将其重命名为zip文件：（somefile.zip）。解压它，并探索其内部结构。大多数实际文本存储在/word/document.xml下（注意，如果使用7zip，则无需更改名称，只需右键单击并在7zip上下文菜单下选择“打开存档”），以下是更多上下文。我做了我的第一个网页抓取项目。我将文件保存为“article name”+“.doc”。它们似乎都是用word打开的，但它们在每篇文章上方有2000个不需要的字节（各种链接等等）。所有文件都有这些不需要的2000字节。我想删除它们。请注意，'97-'03（.doc）使用自定义二进制格式，而不是在内部使用xml，如果您使用记事本++打开该格式，它在记事本++中（某种程度上）是可读的，还是二进制垃圾？这听起来有点像这些文件实际上不是.doc文件，而只是用.doc扩展名命名明文数据。这确实会从文件的开头盲切2000字节，但根据评论，我不确定OP是否非常清楚需要做什么。他谈论它的方式是，他想从一个完整的html页面中提取纯文本文章。更新：我使用bs4来提取包含文章文本的div标记。我将其保存为x，并执行file.write（str（x））。这种方法省去了所有多余的垃圾；但是，这一次html标记在那里。似乎唯一的选择是（1）使用request.get中的内容（除了文章前面的所有超链接外，它看起来很棒）和（2）file.write（str（x））选项。如果有一种方法可以使用requests.get获取我想要的页面部分，那就太好了。但我想这不是一个选项，因为请求不会解析html。