使用python从word文档的第一页提取文本

使用python从word文档的第一页提取文本,python,ms-word,Python,Ms Word,我试图寻找能够从word文档的第一页提取文本的Python脚本。我发现函数可以处理段落,但不能处理页面,这不是我所需要的。问题是,docx格式的页面完全是虚拟的。MS Word根据文本大小和其他参数自行决定在何处以及何时放置页面限制器 当用户显式地设置分页符时,会更容易一些,例如,可以像上面描述的那样找到分页符 作为一种解决方法,您可以自己计算每页的行数并进行修剪,但据我所知,没有“简单”的方法可以用一行代码完成所有操作。我明白了。我认为没有分页符。我可以把doc这个词转换成pdf,然后使用pd

我试图寻找能够从word文档的第一页提取文本的Python脚本。我发现函数可以处理段落,但不能处理页面,这不是我所需要的。

问题是,docx格式的页面完全是虚拟的。MS Word根据文本大小和其他参数自行决定在何处以及何时放置页面限制器

当用户显式地设置分页符时,会更容易一些,例如,可以像上面描述的那样找到分页符


作为一种解决方法,您可以自己计算每页的行数并进行修剪,但据我所知,没有“简单”的方法可以用一行代码完成所有操作。

我明白了。我认为没有分页符。我可以把doc这个词转换成pdf,然后使用pdftotext函数阅读第一页吗?这样做(将.doc转换成.pdf,然后阅读第一页)成功了!很高兴知道这一点!祝你一切顺利。